何愷明組新論文:只用 ViT 做主干也可以做好目標(biāo)檢測(cè)
機(jī)器之心報(bào)道
做目標(biāo)檢測(cè)就一定需要 FPN 嗎?昨天,來(lái)自 Facebook AI Research 的 Yanghao Li、何愷明等研究者在 arXiv 上上傳了一篇新論文,證明了將普通的、非分層的視覺(jué) Transformer 作為主干網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測(cè)的可行性。他們希望這項(xiàng)研究能夠引起大家對(duì)普通主干檢測(cè)器的關(guān)注。







全局傳播。該策略在每個(gè)子集的最后一個(gè)塊中執(zhí)行全局自注意力。由于全局塊的數(shù)量很少,內(nèi)存和計(jì)算成本是可行的。這類似于(Li et al., 2021 )中與 FPN 聯(lián)合使用的混合窗口注意力。
卷積傳播。該策略在每個(gè)子集之后添加一個(gè)額外的卷積塊來(lái)作為替代。卷積塊是一個(gè)殘差塊,由一個(gè)或多個(gè)卷積和一個(gè) identity shortcut 組成。該塊中的最后一層被初始化為零,因此該塊的初始狀態(tài)是一個(gè) identity。將塊初始化為 identity 使得該研究能夠?qū)⑵洳迦氲筋A(yù)訓(xùn)練主干網(wǎng)絡(luò)中的任何位置,而不會(huì)破壞主干網(wǎng)絡(luò)的初始狀態(tài)。







??THE END?
評(píng)論
圖片
表情
