YOLOS:通過目標(biāo)檢測重新思考Transformer(附源代碼)
點擊下方“AI算法與圖像處理”,一起進(jìn)步!
重磅干貨,第一時間送達(dá)

1

2

ViT-FRCNN是第一個使用預(yù)訓(xùn)練的ViT作為R-CNN目標(biāo)檢測器的主干。然而,這種設(shè)計無法擺脫對卷積神經(jīng)網(wǎng)絡(luò)(CNN)和強(qiáng)2D歸納偏差的依賴,因為ViT-FRCNN將ViT的輸出序列重新解釋為2D空間特征圖,并依賴于區(qū)域池化操作(即RoIPool或RoIAlign)以及基于區(qū)域的CNN架構(gòu)來解碼ViT特征以實現(xiàn)目標(biāo)級感知。受現(xiàn)代CNN設(shè)計的啟發(fā),最近的一些工作將金字塔特征層次結(jié)構(gòu)和局部性引入Vision Transformer設(shè)計,這在很大程度上提高了包括目標(biāo)檢測在內(nèi)的密集預(yù)測任務(wù)的性能。然而,這些架構(gòu)是面向性能的。另一系列工作,DEtection TRansformer(DETR)系列,使用隨機(jī)初始化的Transformer對CNN特征進(jìn)行編碼和解碼,這并未揭示預(yù)訓(xùn)練Transformer在目標(biāo)檢測中的可遷移性。

為了解決上面涉及的問題,有研究者展示了You Only Look at One Sequence (YOLOS),這是一系列基于規(guī)范ViT架構(gòu)的目標(biāo)檢測模型,具有盡可能少的修改以及注入的歸納偏置。從ViT到Y(jié)OLOS檢測器的變化很簡單:
YOLOS在ViT中刪除[CLS]標(biāo)記,并將一百個可學(xué)習(xí)的[DET]標(biāo)記附加到輸入序列以進(jìn)行目標(biāo)檢測;
YOLOS將ViT中的圖像分類損失替換為bipartite matching loss,以遵循Carion等人【End-to-end object detection with transformers】的一套預(yù)測方式進(jìn)行目標(biāo)檢測。這可以避免將ViT的輸出序列重新解釋為2D特征圖,并防止在標(biāo)簽分配期間手動注入啟發(fā)式和對象2D空間結(jié)構(gòu)的先驗知識。
3

YOLOS刪除用于圖像分類的[CLS]標(biāo)記,并將一百個隨機(jī)初始化的檢測標(biāo)記([DET] 標(biāo)記)附加到輸入補(bǔ)丁嵌入序列以進(jìn)行目標(biāo)檢測。
在訓(xùn)練過程中,YOLOS將ViT中的圖像分類損失替換為bipartite matching loss,這里重點介紹YOLOS的設(shè)計方法論。


4

YOLOS的不同版本的結(jié)果

與訓(xùn)練的效果

不同尺度模型的預(yù)訓(xùn)練和遷移學(xué)習(xí)性能

與一些小型CNN檢測器的比較

對于給定的YOLOS模型,不同的自注意力頭關(guān)注不同的模式和不同的位置。一些可視化是可解釋的,而另一些則不是。
我們研究了兩個YOLOS模型的注意力圖差異,即200 epochs ImageNet-1k預(yù)訓(xùn)練YOLOS-S和300 epochs ImageNet-1k預(yù)訓(xùn)練YOLOS-S。注意這兩個模型的AP是一樣的(AP=36.1)。從可視化中,我們得出結(jié)論,對于給定的預(yù)測對象,相應(yīng)的[DET]標(biāo)記以及注意力圖模式通常對于不同的模型是不同的。
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有美顏、三維視覺、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群
個人微信(如果沒有備注不拉群!) 請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會分享
在「AI算法與圖像處理」公眾號后臺回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:終身受益的編程指南:Google編程風(fēng)格指南
在「AI算法與圖像處理」公眾號后臺回復(fù):c++,即可下載。歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!
下載3 CVPR2021 在「AI算法與圖像處理」公眾號后臺回復(fù):CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

