<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          漲點(diǎn)神器GSA:全局自注意力網(wǎng)絡(luò),打造更強(qiáng)注意力模型

          共 2481字,需瀏覽 5分鐘

           ·

          2020-11-04 05:07

          ↑ 點(diǎn)擊藍(lán)字?關(guān)注極市平臺(tái)

          作者丨ChaucerG
          來源丨AI人工智能初學(xué)者
          編輯丨極市平臺(tái)

          極市導(dǎo)讀

          ?

          本文提出一個(gè)新的全局自注意力模塊:GSA,該模塊足夠高效,可以用作backbone組件。其由兩個(gè)并行層組成:內(nèi)容注意力層和位置注意力層,表現(xiàn)SOTA!性能優(yōu)于SAN(CVPR 2020)等注意力網(wǎng)絡(luò)。>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿

          1、簡介

          由于自注意力的二次計(jì)算和存儲(chǔ)復(fù)雜性,這些工作要么僅將注意力應(yīng)用于深層網(wǎng)絡(luò)后期的低分辨率特征圖,要么將每層的注意力感受野限制在較小的局部區(qū)域。為了克服這些限制,本文引入了一個(gè)新的全局自注意力模塊,稱為GSA模塊,該模塊足夠高效,可以用作深度網(wǎng)絡(luò)的backbone組件。

          該模塊由兩個(gè)并行層組成:一個(gè)內(nèi)容注意力層,僅基于像素的內(nèi)容對(duì)其進(jìn)行關(guān)注;一個(gè)位置關(guān)注層,其基于像素的空間位置進(jìn)行關(guān)注。該模塊輸出是兩層輸出的總和。在提出的GSA模塊的基礎(chǔ)上引入了獨(dú)立的基于全局注意力的網(wǎng)絡(luò),該深度網(wǎng)絡(luò)使用GSA模塊來建模像素交互。由于所提出的GSA模塊具有全局范圍,所以GSA網(wǎng)絡(luò)能夠在整個(gè)網(wǎng)絡(luò)中對(duì)遠(yuǎn)距離像素間的相互作用進(jìn)行建模。

          實(shí)驗(yàn)結(jié)果表明,GSA網(wǎng)絡(luò)在使用較少的參數(shù)和計(jì)算量的情況下,在CIFAR-100和ImageNet數(shù)據(jù)集上顯著優(yōu)于基于卷積的網(wǎng)絡(luò)。在ImageNet數(shù)據(jù)集上,提出的GSA網(wǎng)絡(luò)也優(yōu)于現(xiàn)有的各種基于注意力的網(wǎng)絡(luò)。

          2、相關(guān)方法

          2.1、Auxiliary Visual Attention

          Non-Local Block首次在計(jì)算機(jī)視覺中采用dot-product attention注意力機(jī)制進(jìn)行l(wèi)ong-range dependency建模,實(shí)驗(yàn)驗(yàn)證了該算法在視頻分類和目標(biāo)檢測(cè)方面的有效性。

          最近,一系列的工作將Transformer引入了計(jì)算機(jī)視覺領(lǐng)域。使用深度CNN模型提取語義特征,然后由Transformer對(duì)特征之間的高層交互進(jìn)行建模。有學(xué)者使用Transformer建模對(duì)象級(jí)的交互以進(jìn)行對(duì)象檢測(cè),也有學(xué)者使用Transformer建模幀間的依賴關(guān)系以進(jìn)行視頻表示學(xué)習(xí)。

          這些輔助注意力方法在大部分卷積的網(wǎng)絡(luò)中或僅在網(wǎng)絡(luò)的末端使用注意模塊。它們?cè)鰪?qiáng)了CNN的遠(yuǎn)程交互建模,但仍然將大部分特征建模歸為卷積操作。

          2.2、Bacbone Visual Attention

          由于Non-Local Block高昂的開銷使得無法廣泛替換卷積層,導(dǎo)致最終的模型仍然有大部分卷積模塊。有研究人員將感受野限制在一個(gè)local內(nèi)(通常是7*7)來解決這個(gè)問題。也有研究人員利用global attention的軸向分解來解決這個(gè)問題。

          3、本文方法

          3.1、Content Attention Layer

          這一層使用以下基于內(nèi)容的全局注意操作來生成新的特性:

          式中,為K的矩陣轉(zhuǎn)置,表示對(duì)每一行分別進(jìn)行softmax歸一化的運(yùn)算。這種注意力機(jī)制可以被視為第一個(gè)像素特征V通過使用中的權(quán)重聚合到dk全局上下文向量,然后重新分配全局上下文向量回每個(gè)像素使用Q。這個(gè)操作的計(jì)算和內(nèi)存復(fù)雜度是O(N)。

          3.2、Positional Attention Layer

          內(nèi)容注意層不考慮像素的空間位置,因此與像素變換是等變的。就其本身而言,它并不最適合處理空間結(jié)構(gòu)化數(shù)據(jù)(如圖像)的任務(wù)。本文通過使用位置注意層來解決這個(gè)問題,該層根據(jù)像素本身的內(nèi)容及其相對(duì)于相鄰像素的空間位置來計(jì)算像素的Attention map。對(duì)于每個(gè)像素,位置注意層關(guān)注它的L×L近鄰spatial。

          本文將這個(gè)注意層實(shí)現(xiàn)為一個(gè)僅存在列的注意層,然后是一個(gè)僅存在行的注意層。在僅列關(guān)注層中,輸出像素只關(guān)注其列上的輸入像素,而在僅行關(guān)注層中,輸出像素只關(guān)注其行上的輸入像素。讓是一組L補(bǔ)償,表示L沿著一條列可學(xué)的相對(duì)位置嵌入相應(yīng)的矩陣空間偏移量。設(shè)為像素(a,b)的L列鄰居處的值組成的矩陣。設(shè)表示像素點(diǎn)處的無列位置注意層的輸出(a,b)。然后,僅列位置注意力機(jī)制,使用相對(duì)位置嵌入作為關(guān)鍵,可以描述使用:

          其中為像素點(diǎn)(a,b)處的查詢。由于每個(gè)像素只關(guān)心L列鄰居,因此這個(gè)僅列位置注意層的計(jì)算和存儲(chǔ)復(fù)雜性為O(NL),其中N為像素的個(gè)數(shù)。類似地,可以使用L行鄰居對(duì)應(yīng)的L可學(xué)習(xí)相對(duì)位置嵌入來定義具有O(NL)計(jì)算和內(nèi)存復(fù)雜性的僅行位置注意層。

          3.3、GSA Network

          GSA網(wǎng)絡(luò)是使用GSA模塊而不是空間卷積來建模像素交互的深度網(wǎng)絡(luò)。表1顯示了GSA網(wǎng)絡(luò)與最近各種基于注意力的網(wǎng)絡(luò)的區(qū)別。

          4、實(shí)驗(yàn)結(jié)果

          4.1、基于CIFAR-100實(shí)驗(yàn)

          可以看出在CIFAR-100數(shù)據(jù)集上基于GSA的設(shè)計(jì),參數(shù)更少,精度更高;

          4.2、基于ImageNet實(shí)驗(yàn)

          可以看出在ImageNet數(shù)據(jù)集上基于GSA的設(shè)計(jì),參數(shù)更少,精度更高;

          更為詳細(xì)內(nèi)容可以參見論文中的描述。

          References

          [1] GLOBAL SELF-ATTENTION NETWORKS



          推薦閱讀






            添加極市小助手微信(ID : cvmart2),備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳),即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群:月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動(dòng)交流~

            △長按添加極市小助手

            △長按關(guān)注極市平臺(tái),獲取最新CV干貨

            覺得有用麻煩給個(gè)在看啦~??
            瀏覽 70
            點(diǎn)贊
            評(píng)論
            收藏
            分享

            手機(jī)掃一掃分享

            分享
            舉報(bào)
            評(píng)論
            圖片
            表情
            推薦
            點(diǎn)贊
            評(píng)論
            收藏
            分享

            手機(jī)掃一掃分享

            分享
            舉報(bào)
            <kbd id="afajh"><form id="afajh"></form></kbd>
            <strong id="afajh"><dl id="afajh"></dl></strong>
              <del id="afajh"><form id="afajh"></form></del>
                  1. <th id="afajh"><progress id="afajh"></progress></th>
                    <b id="afajh"><abbr id="afajh"></abbr></b>
                    <th id="afajh"><progress id="afajh"></progress></th>
                    黄色视频在线免费播放 | 中文字幕有码第一页 | 理论片无码 | 亚欧毛片| www.日日夜夜撸 |