<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          將位置信息嵌入通道注意力!NUS提出新機(jī)制,顯著提升卷積特征表達(dá)|CVPR2021

          共 5918字,需瀏覽 12分鐘

           ·

          2021-03-05 22:04


          ↑ 點(diǎn)擊藍(lán)字 關(guān)注極市平臺(tái)

          作者丨Happy
          編輯丨極市平臺(tái)

          極市導(dǎo)讀

           

          通道注意力機(jī)制對于提升模型性能極為有效,但是忽略了位置信息,這對于生成空間選擇注意力圖非常重要,本文將位置信息嵌入到通道注意力中,針對如何有效提升移動(dòng)網(wǎng)絡(luò)的卷積特征表達(dá)能力提出了一種的新型的注意力機(jī)制。 >>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿

          paper: https://arxiv.org/abs/2103.02907

          code: https://github.com/Andrew-Qibin/CoordAttention(待開源)

          本文是新加坡國立大學(xué)Qinbin Hou&Jiashi Feng等人在注意力機(jī)制方面的一次探索,針對如何有效提升移動(dòng)網(wǎng)絡(luò)的卷積特征表達(dá)能力,以及通道注意力(如SE)機(jī)制能夠有效建模通道間相關(guān)性但忽視了位置信息的問題,提出了一種的新穎的注意力機(jī)制:Coordinate Attention。

          Coordinate Attention通過水平與垂直方向注意力圖捕獲特征的遠(yuǎn)程依賴關(guān)系,而且水平與垂直注意力還可以有效保持精確的位置信息。所提注意力集中的精確位置信息無論對于分類,還是檢測與分割而言都是一種非常重要的性能,因而所提注意力機(jī)制在圖像分類、目標(biāo)檢測以及語義分割方面均取得了顯著的性能提升,尤其需要注意的是,所提注意力尤其適合于語義分割等稠密預(yù)測任務(wù)。

          Abstract

          移動(dòng)網(wǎng)絡(luò)設(shè)計(jì)的近期研究表明:通道注意力(如Squeeze-and-Excitation)機(jī)制對于提升模型性能極為有效,但是忽略了位置信息,這對于生成空間選擇注意力圖非常重要。

          針對通道注意力機(jī)制存在的上述問題,我們提出了一種用于移動(dòng)網(wǎng)絡(luò)的新穎注意力機(jī)制:它將位置信息嵌入到通道注意力中,我們將其稱之為Coordinate Attention。不同于通道注意力將特征張量通過GAP轉(zhuǎn)換為特征向量,坐標(biāo)注意力將通道注意力拆分為兩個(gè)1D特征編碼過程,分別沿著兩個(gè)空間方向集成特征。

          通過這種處理,遠(yuǎn)程相關(guān)性可以通過空間方向捕獲,于此同時(shí),精確的位置信息可以通過另一個(gè)空間方向得以保持。所得到的特征圖分辨編碼為成對的方向相關(guān)注意力圖與通道注意力圖(兩者具有互補(bǔ)性),并用于增強(qiáng)輸入特征以增廣目標(biāo)的表達(dá)能力。

          所提坐標(biāo)注意力機(jī)制極為簡單,可以靈活嵌入到現(xiàn)有移動(dòng)網(wǎng)絡(luò)(比如MobileNetV2, MobileN2Xt, EfficientNet)中,且?guī)缀醪粫?huì)導(dǎo)致額外的計(jì)算負(fù)載。

          我們通過實(shí)驗(yàn)證實(shí):坐標(biāo)注意力不僅有助于ImageNet分類,在下游任務(wù)(比如目標(biāo)檢測、語義分割)上表達(dá)更佳。下圖給出了所提注意力與SE/CBAM在不同任務(wù)上的性能對比。

          Method

          注意力模塊可以視為一種增強(qiáng)移動(dòng)網(wǎng)絡(luò)特征表達(dá)能力的計(jì)算單元。假設(shè)它的輸入為,輸出為增強(qiáng)的特征。為更好的介紹本文所提的坐標(biāo)注意力,我們先從通道注意力出發(fā)進(jìn)行介紹,然后再介紹坐標(biāo)注意力。

          Revisit SE Attention

          正如SE一文所提到的,標(biāo)準(zhǔn)卷積很難對通道相關(guān)性進(jìn)行建模。顯式的構(gòu)建通道之間的相關(guān)性可以提升模型對于通道信息的敏感性,進(jìn)而印象最終的分類決策。更進(jìn)一步,采用GAP可以輔助模型捕獲全局信息,而這是卷積所缺乏的。

          從結(jié)構(gòu)上來講,SE可以分解為兩步:Squeeze與Excitation,分別用于全局信息集成與通道相關(guān)性的自適應(yīng)校正。給定輸入X,Squeeze可以描述如下:

          Excitation旨在捕獲通道相關(guān)性,可以描述如下:

          其中, 表示Sigmoid操作,而則是通過對前述Squeeze結(jié)果的變換所得:

          其中,表示線性變換,它們有助于捕獲每個(gè)通道的重要性。

          SE注意力機(jī)制已被廣泛應(yīng)用于現(xiàn)有移動(dòng)網(wǎng)絡(luò)設(shè)計(jì)(如EfficientNet)中,并作為關(guān)鍵模塊取得了SOTA性能。然而SE僅僅考慮通道的重加權(quán)而忽視了位置信息,在后面會(huì)說明其對于空間選擇注意力的重要性。

          Coordinate Attention Blocks

          針對通道注意力存在的問題,我們提出了坐標(biāo)注意力:它同時(shí)進(jìn)行通道相關(guān)性與遠(yuǎn)程依賴性建模,類似地,它采用了兩步進(jìn)行精確的位置信息建模:Coordinate Information Embedding(CIE)與Coordinate Attention Generation(CAG)。所設(shè)計(jì)的坐標(biāo)注意力圖如下圖所示。


          Coordinate Information Embedding

          全局池化通常被用在通道注意力中以編碼全局空間信息,但它將全局空間信息壓縮為一個(gè)通道描述子,因而難以保持位置信息(這對于視覺任務(wù)中的空間結(jié)構(gòu)捕獲尤為重要)。

          為促使注意力模塊能夠以精確的位置信息捕獲遠(yuǎn)程依賴性,我們將全局池化拆分成兩個(gè)1D特征編碼操作。具體來說,給定輸入X,我們采用兩個(gè)池化核的空間擴(kuò)展對每個(gè)通道沿著水平與垂直坐標(biāo)進(jìn)行編碼,因此輸出可以描述如下:

          上述兩個(gè)變換可以沿著兩個(gè)空間方向集成特征,并生成方向-相關(guān)特征圖。這兩種變換使得所提注意力模塊可以更好的捕獲遠(yuǎn)程依賴性,有助于進(jìn)行更精確的目標(biāo)定位。


          Coordinate Attention Generation

          正如前面所介紹的,CIE具有全局感受野,同時(shí)編碼了精確的位置信息。為充分利用所提表達(dá)能力,我們提出了第二個(gè)變換,稱之為Coordinate Attention Generation。該設(shè)計(jì)主要參考了如下三個(gè)準(zhǔn)則:

          • 新的變換應(yīng)當(dāng)盡可能的簡單以適配移動(dòng)端應(yīng)用;
          • 它可以充分利用所捕獲的位置信息,以促進(jìn)ROI區(qū)域更精確定位;
          • 它應(yīng)當(dāng)有助于捕獲通道相關(guān)性(現(xiàn)有研究已證實(shí)了通道相關(guān)性的重要性)。

          具體來說,給定CIE所得特征,我們首先對其進(jìn)行拼接,然后送入到共享卷積并得到:

          表示編碼空間信息的中間特征,r表示用于控制SE模塊大小的壓縮比例參數(shù)。然后,我們將沿著空間維度拆分為兩個(gè)獨(dú)立張量;然后采用兩個(gè)額外的卷積對其進(jìn)行分離為具有與X相同維度的張量:

          接下來,我們對輸出進(jìn)行擴(kuò)展并作為注意力權(quán)重,并作用于輸入得到該注意力模塊的輸出Y:

          討論: 不同于通道注意力僅僅聚焦于不同通道的重要性,本文所提坐標(biāo)注意力模塊同時(shí)還考慮了空間信息。如前所述,所提注意力同時(shí)對輸入的水平于垂直相關(guān)進(jìn)行注意力編碼,它有助于反應(yīng)ROI區(qū)域目標(biāo)在兩個(gè)方向上存在與否。這種特性使得該注意力機(jī)制可以進(jìn)行更精確的目標(biāo)定位,進(jìn)而有助于更好的識(shí)別決策。

          Implementation

          由于本文的主要目標(biāo)在于探索一種更好的方式增強(qiáng)移動(dòng)網(wǎng)絡(luò)的卷積特征,在這里我們采用了兩種不同類型的殘差模塊(如MobileNetV2,MobileNeXt)作為樣例去說明所提坐標(biāo)注意力的優(yōu)勢。下圖給出了我們?nèi)绾螌⒆鴺?biāo)注意力嵌入到MobileNetV2中的逆殘差模塊與MobileNeXt的SandGlass模塊中:需要將Attention鏈接到通道數(shù)更多的特征后面。

          Experiments

          在實(shí)驗(yàn)方面,我們先基于ImageNet分類對所提注意力模塊進(jìn)行了系統(tǒng)性的分析,并與其他注意力進(jìn)行了對比;最后我們將其與其他注意力模型在目標(biāo)檢測、語義分割任務(wù)上進(jìn)行了對比。

          實(shí)驗(yàn)配置

          我們基于Pytorch框架進(jìn)行所有實(shí)驗(yàn),SGD(lr=5e-2, momentum=0.9, weight_decay=4e-5),cosine學(xué)習(xí)率調(diào)制機(jī)制,4個(gè)GPU用于訓(xùn)練,batch=256。如無額外說明,我們均采用MobileNetV2作為基線,所有模型均訓(xùn)練200epoch。在數(shù)據(jù)增廣方面,我們采用與MobileNetV2相同的方法。

          Ablation Studies

          Importance of coordinate attention 

          為說明所提坐標(biāo)注意力的有效性,我們進(jìn)行了一系列消融實(shí)驗(yàn),結(jié)果見上表。可以看到:(1) 僅僅采用單一方向注意力時(shí),其性能與SE基本相當(dāng);(2) 當(dāng)同時(shí)采用兩個(gè)方向注意力時(shí),模型可以取得最佳結(jié)果。

          Different weight multipliers  

          在這里,我們采用MobileNetV2與MobileNeXt的不同配置進(jìn)行基線模型,將所提注意力與SE注意力、CBAM進(jìn)行對比,結(jié)果見Table2與Table3。從中可以看到:

          • 當(dāng)采用MobileNetV2作為基線時(shí),CBAM就具有與SE相似的性能,而所提注意力則可以取得更優(yōu)的性能(相比SE,CA有提升0.6-0.8%top1精度);
          • 當(dāng)采用MobileNeXt作為基線時(shí),CA同樣取得了比SE更有的性能。這無疑說明:由于坐標(biāo)注意力可以同時(shí)編碼位置與通道信息的優(yōu)勢使得其具有更加性能。

          Impact of reduction ratio  

          我們還探索不同因子r對于性能的影響,結(jié)果見上表??梢钥吹剑?strong style="font-weight: bold;color: black;">當(dāng)r從32降到16時(shí),模型的參數(shù)量提升的同時(shí)取得了更佳的性能。這說明:通過降低r添加更多參數(shù)可以進(jìn)一步提升模型性能。更重要的是,無論在哪種配置下,所提注意力機(jī)制均取得了最佳性能,這無疑反應(yīng)了所提注意力對于超參r的魯棒性。

          Stronger Baseline  

          為進(jìn)一步說明所提注意力在更強(qiáng)有力移動(dòng)網(wǎng)絡(luò)上的優(yōu)勢,我們采用EfficientNet-B0作為基線進(jìn)行了對比,結(jié)果見上表??梢钥吹剑?strong style="font-weight: bold;color: black;">相比SE,所提方法取得了更佳的結(jié)果。

          Applications

          接下來,我們在目標(biāo)檢測與語義分割等下游任務(wù)上進(jìn)行了對比分析。我們先來看一下COCO數(shù)據(jù)集上的檢測性能對比,結(jié)果見下表。可以看到:基于MobileNetV2,坐標(biāo)注意力僅僅需要額外的0.5M參數(shù)即可取得2.2(24.5 vs 22.3)的性能提升,且計(jì)算量基本相當(dāng);相比其他注意力機(jī)制,所提方案SSDLite320取得了最佳的結(jié)果,且具有幾乎相同的參數(shù)量和計(jì)算量。

          此外,我們還基于VOC2007數(shù)據(jù)進(jìn)行了對比分析,結(jié)果見下表??梢钥吹剑?1) SE與CBAM無法有效提升基線模型的性能;(2) 所提注意力可以將基線模型的性能從71.7提升到73.1。

          最后,我們基于VOC2012與Cityscape數(shù)據(jù)集在語義分割任務(wù)上進(jìn)行了性能對比。結(jié)果見下表Table8與Table9。

          從Table8與Table9的對比可以看到:通過集成所提注意力模塊,基線模型均取得顯著的性能提升。于此同時(shí),我們可以看到:相比圖像分類與目標(biāo)檢測任務(wù),所提注意力機(jī)制在語義分割任務(wù)方面取得的性能提升更大。我們認(rèn)為這是因?yàn)椋?strong style="font-weight: bold;color: black;">所提坐標(biāo)注意力有助于通過精確的位置信息捕獲遠(yuǎn)程依賴關(guān),而精確的位置信息對于語義分割等稠密預(yù)測非常重要。

          參考實(shí)驗(yàn)

          class CoordAtt(nn.Module):    def __init__(self, channels, reduction=16):        super(CoordAtt, self).__init__()        self.fc1 = nn.Sequential(            nn.Conv2d(channels, channels//reduction, 1),            nn.BatchNorm2d(channels//reduction),            nn.ReLU(inplace=True)        )
          self.xfc = nn.Conv2d(channels//reduction, channels, 1) self.yfc = nn.Conv2d(channels//reduction, channels, 1)
          def forward(self, x): B, _, H, W = x.size() # X Avg Pool and Y Avg Pool xap = F.adaptive_avg_pool2d(x, (H, 1)) yap = F.adaptive_avg_pool2d(x, (1, W))
          # Concat+Conv2d+BatchNorm+Non-linear mer = torch.cat([xap.transpose_(2, 3), yap], dim=3) fc1 = self.fc1(mer) # split xat, yat = torch.split(fc1, (H, W), dim=3)
          # Conv2d-Sigmoid and Conv2d-Sigmoid xat = torch.sigmoid(self.xfc(xat)) yat = torch.sigmoid(self.yfc(yat))
          # Attention Multiplier out = x * xat * yat return out

          推薦閱讀


          綜述:計(jì)算機(jī)視覺中的注意力機(jī)制

          2020-06-11

          綜述|計(jì)算機(jī)視覺中的注意力機(jī)制

          2020-08-30

          一文看懂CV中的注意力機(jī)制

          2020-11-24



          極市原創(chuàng)作者激勵(lì)計(jì)劃 #


          極市平臺(tái)深耕CV開發(fā)者領(lǐng)域近5年,擁有一大批優(yōu)質(zhì)CV開發(fā)者受眾,覆蓋微信、知乎、B站、微博等多個(gè)渠道。通過極市平臺(tái),您的文章的觀點(diǎn)和看法能分享至更多CV開發(fā)者,既能體現(xiàn)文章的價(jià)值,又能讓文章在視覺圈內(nèi)得到更大程度上的推廣。

          對于優(yōu)質(zhì)內(nèi)容開發(fā)者,極市可推薦至國內(nèi)優(yōu)秀出版社合作出書,同時(shí)為開發(fā)者引薦行業(yè)大牛,組織個(gè)人分享交流會(huì),推薦名企就業(yè)機(jī)會(huì),打造個(gè)人品牌 IP。

          投稿須知:
          1.作者保證投稿作品為自己的原創(chuàng)作品。
          2.極市平臺(tái)尊重原作者署名權(quán),并支付相應(yīng)稿費(fèi)。文章發(fā)布后,版權(quán)仍屬于原作者。
          3.原作者可以將文章發(fā)在其他平臺(tái)的個(gè)人賬號,但需要在文章頂部標(biāo)明首發(fā)于極市平臺(tái)

          投稿方式:
          添加小編微信Fengcall(微信號:fengcall19),備注:姓名-投稿
          △長按添加極市平臺(tái)小編


          △點(diǎn)擊卡片關(guān)注極市平臺(tái),獲取最新CV干貨

          覺得有用麻煩給個(gè)在看啦~  
          瀏覽 130
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美污视频网站 | 欧美,日韩,亚洲,中文 | 无码一区二区免费 | 日本三级中文字幕在线观看 | 大香蕉伊人在线手机网 |