<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          微軟提出:體檢測器Head的統(tǒng)一注意力框架 Dynamic Head

          共 1845字,需瀏覽 4分鐘

           ·

          2021-07-14 19:34

          點擊下方AI算法與圖像處理”,一起進步!

          重磅干貨,第一時間送達


          導讀

          來自微軟,在一個框架中集成了尺度注意力,空間注意力和通道注意力。

          論文鏈接:https://arxiv.org/abs/2106.08322


          論文鏈接:https://arxiv.org/abs/2106.08322

          摘要:這篇文章提出了Dynamic Head的框架,將物體檢測頭和注意力機制整合到了一起。使用這種框架,可以在不同尺度的特征層之間做注意力,可以在空間范圍內(nèi)做空間注意力,可以在輸出通道之間做任務的注意力。在不增加計算的情況下,該方法顯著提升了目標檢測頭的表達能力。

          1. 介紹

          好的物體檢測head的特點:1、要和尺度相關(guān),2、要和空間相關(guān),3、要任務相關(guān)。這篇文章中提出了一個統(tǒng)一的框架,把這三點統(tǒng)一到了一起。我們把backbone的輸出看成是3位的張量,level x shape x channel,我們發(fā)現(xiàn)可以統(tǒng)一到注意力的問題上。方案就是構(gòu)建一個全方位的注意力機制,但是代價太大。

          但是,我們可以在每個單獨的維度上分別去做注意力,level-wise,spatial-wise和channel-wise。尺度的注意力只在level維度上做,空間注意力只在shape維度上做,任務注意力只在channel維度上做。

          這樣,我們可以為檢測head構(gòu)建一個統(tǒng)一的注意力機制,可以為head提供更好的表達能力。在各種物體檢測的模型上都可以有1.2%~3.2%的提升。

          2. 方法

          2.1 動機

          從特征金字塔中,我們可以得到L個不同level的特征圖,我們通過上采樣和下采樣,可以將這些不同level的特征圖縮放到中間的尺度上,然后拼接在一起。然后可以得到一個4維的張量,維度為LxHxWxC,其中,L表示L個不同的level,H,W表示特征圖的寬和高,C表示通道數(shù)量。我們進一步定義S=HxW,然后將這個張量reshape成LxSxC的3維張量。在這種表達方式下,可以進一步研究各個維度的作用。

          2.2 Dynamic Head

          基于上面的張量,自注意力可以表示為:

          這里是注意力函數(shù),最簡單的就是全連接層,但是這樣代價太大。于是,我們在3個維度上分別做注意力:

          尺度注意力

          這里是一個線性函數(shù),用1x1的卷積來近似,

          空間注意力

          由于在S維度上,維數(shù)很高,我們將這個模塊分解為兩個步驟,先用可變卷積學習稀疏的空間注意力,然后在同樣的位置上,對不同level的特征進行集成。

          任務注意力

          動態(tài)的對通道進行開關(guān),來適應不同的任務。

          其中Fc是第c個通道的特征切片,是超參數(shù),用來學習激活的閾值。和(3)類似,先在LxS維度上做全局的池化,然后用2個全連接和1個歸一化層,最后用shifted sigmoid歸一化到[-1, 1]。

          總體結(jié)構(gòu)體如下:

          2.3 用到已有的檢測器中

          一階段檢測器

          用這個統(tǒng)一的模塊來代替原來的多分支。

          二階段檢測器:

          在ROI Pooling之前使用尺度和空間的注意力,在ROI Pooling之后使用通道注意力。

          3. 實驗

          3.1 實現(xiàn)細節(jié)

          主干網(wǎng)絡為ResNet50,檢測框架為ATSS,初始學習率0.02,使用了多尺度的infer。

          3.2 消融實驗

          動態(tài)head的有效性的實驗

          動態(tài)head的不同深度的實驗

          用在不同物體檢測器上的實驗

          和最先進的物體檢測器的對比:


          END

          論文鏈接:https://arxiv.org/abs/2106.08322


          努力分享優(yōu)質(zhì)的計算機視覺相關(guān)內(nèi)容,歡迎關(guān)注:

          個人微信(如果沒有備注不拉群!
          請注明:地區(qū)+學校/企業(yè)+研究方向+昵稱



          下載1:何愷明頂會分享


          AI算法與圖像處理」公眾號后臺回復:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


          下載2:終身受益的編程指南:Google編程風格指南


          AI算法與圖像處理」公眾號后臺回復:c++,即可下載。歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!



          下載3 CVPR2021

          AI算法與圖像處公眾號后臺回復:CVPR即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

          點亮 只需一秒,我卻能開心一天



          瀏覽 72
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本韩国欧美18 | 五月丁香激情开心网 | 亚洲性爱二区 | 日本一区二区三区在线观看 | 免费黄色视频久久 |