ECCV2022|何愷明團(tuán)隊(duì)開(kāi)源ViTDet:只用普通ViT,不做分層設(shè)計(jì)也能搞定目標(biāo)檢測(cè)
導(dǎo)讀
做目標(biāo)檢測(cè)就一定需要 FPN 嗎?來(lái)自 Facebook AI Research 的 Yanghao Li、何愷明等研究者在 arXiv 上上傳了一篇論文,證明了將普通的、非分層的視覺(jué) Transformer 作為主干網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測(cè)的可行性。
研究概覽



方法細(xì)節(jié)
簡(jiǎn)單的特征金字塔



主干網(wǎng)絡(luò)調(diào)整
全局傳播。該策略在每個(gè)子集的最后一個(gè)塊中執(zhí)行全局自注意力。由于全局塊的數(shù)量很少,內(nèi)存和計(jì)算成本是可行的。這類似于(Li et al., 2021 )中與 FPN 聯(lián)合使用的混合窗口注意力。
卷積傳播。該策略在每個(gè)子集之后添加一個(gè)額外的卷積塊來(lái)作為替代。卷積塊是一個(gè)殘差塊,由一個(gè)或多個(gè)卷積和一個(gè) identity shortcut 組成。該塊中的最后一層被初始化為零,因此該塊的初始狀態(tài)是一個(gè) identity。將塊初始化為 identity 使得該研究能夠?qū)⑵洳迦氲筋A(yù)訓(xùn)練主干網(wǎng)絡(luò)中的任何位置,而不會(huì)破壞主干網(wǎng)絡(luò)的初始狀態(tài)。
實(shí)驗(yàn)結(jié)果
消融研究




與分層主干的對(duì)比


與之前系統(tǒng)的對(duì)比

評(píng)論
圖片
表情
