微軟提出:體檢測器Head的統(tǒng)一注意力框架 Dynamic Head
點擊下方“AI算法與圖像處理”,一起進步!
重磅干貨,第一時間送達
導讀
來自微軟,在一個框架中集成了尺度注意力,空間注意力和通道注意力。
論文鏈接:https://arxiv.org/abs/2106.08322

論文鏈接:https://arxiv.org/abs/2106.08322
摘要:這篇文章提出了Dynamic Head的框架,將物體檢測頭和注意力機制整合到了一起。使用這種框架,可以在不同尺度的特征層之間做注意力,可以在空間范圍內(nèi)做空間注意力,可以在輸出通道之間做任務的注意力。在不增加計算的情況下,該方法顯著提升了目標檢測頭的表達能力。
1. 介紹
好的物體檢測head的特點:1、要和尺度相關(guān),2、要和空間相關(guān),3、要任務相關(guān)。這篇文章中提出了一個統(tǒng)一的框架,把這三點統(tǒng)一到了一起。我們把backbone的輸出看成是3位的張量,level x shape x channel,我們發(fā)現(xiàn)可以統(tǒng)一到注意力的問題上。方案就是構(gòu)建一個全方位的注意力機制,但是代價太大。
但是,我們可以在每個單獨的維度上分別去做注意力,level-wise,spatial-wise和channel-wise。尺度的注意力只在level維度上做,空間注意力只在shape維度上做,任務注意力只在channel維度上做。
這樣,我們可以為檢測head構(gòu)建一個統(tǒng)一的注意力機制,可以為head提供更好的表達能力。在各種物體檢測的模型上都可以有1.2%~3.2%的提升。
2. 方法
2.1 動機
從特征金字塔中,我們可以得到L個不同level的特征圖,我們通過上采樣和下采樣,可以將這些不同level的特征圖縮放到中間的尺度上,然后拼接在一起。然后可以得到一個4維的張量,維度為LxHxWxC,其中,L表示L個不同的level,H,W表示特征圖的寬和高,C表示通道數(shù)量。我們進一步定義S=HxW,然后將這個張量reshape成LxSxC的3維張量。在這種表達方式下,可以進一步研究各個維度的作用。
2.2 Dynamic Head
基于上面的張量,自注意力可以表示為:

這里是注意力函數(shù),最簡單的就是全連接層,但是這樣代價太大。于是,我們在3個維度上分別做注意力:

尺度注意力:

這里是一個線性函數(shù),用1x1的卷積來近似,。
空間注意力:

由于在S維度上,維數(shù)很高,我們將這個模塊分解為兩個步驟,先用可變卷積學習稀疏的空間注意力,然后在同樣的位置上,對不同level的特征進行集成。
任務注意力:
動態(tài)的對通道進行開關(guān),來適應不同的任務。

其中Fc是第c個通道的特征切片,是超參數(shù),用來學習激活的閾值。和(3)類似,先在LxS維度上做全局的池化,然后用2個全連接和1個歸一化層,最后用shifted sigmoid歸一化到[-1, 1]。
總體結(jié)構(gòu)體如下:

2.3 用到已有的檢測器中
一階段檢測器:
用這個統(tǒng)一的模塊來代替原來的多分支。

二階段檢測器:
在ROI Pooling之前使用尺度和空間的注意力,在ROI Pooling之后使用通道注意力。

3. 實驗
3.1 實現(xiàn)細節(jié)
主干網(wǎng)絡為ResNet50,檢測框架為ATSS,初始學習率0.02,使用了多尺度的infer。
3.2 消融實驗
動態(tài)head的有效性的實驗:

動態(tài)head的不同深度的實驗:

用在不同物體檢測器上的實驗:

和最先進的物體檢測器的對比:


論文鏈接:https://arxiv.org/abs/2106.08322
努力分享優(yōu)質(zhì)的計算機視覺相關(guān)內(nèi)容,歡迎關(guān)注:
個人微信(如果沒有備注不拉群!) 請注明:地區(qū)+學校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會分享
在「AI算法與圖像處理」公眾號后臺回復:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:終身受益的編程指南:Google編程風格指南
在「AI算法與圖像處理」公眾號后臺回復:c++,即可下載。歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!
下載3 CVPR2021 在「AI算法與圖像處理」公眾號后臺回復:CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文
點亮
只需一秒,我卻能開心一天
