久久91电影,99er热精品视频,丁香五月天激情在线,国产经典操逼,人人干人人操人人摸,69AV视频,亚洲最大成人黄色网址,操15p

點(diǎn)擊左上方藍(lán)字關(guān)注我們

全網(wǎng)搜集目標(biāo)檢測(cè)相關(guān)，人工篩選最優(yōu)價(jià)值內(nèi)容

編者薦語(yǔ)

一般來說，網(wǎng)絡(luò)越深，所提取到的特征就越抽象；網(wǎng)絡(luò)越寬，其特征就越豐富；基數(shù)越大，越能發(fā)揮每個(gè)卷積核獨(dú)特的作用；而注意力則是一種能夠強(qiáng)化重要信息抑制非重要信息的方法。

作者 | 湃森

鏈接 | https://zhuanlan.zhihu.com/p/339215696

一、論文信息

標(biāo)題：《FcaNet: Frequency Channel Attention Networks》

作者：Zequn Qin et al.（浙江大學(xué) 李璽團(tuán)隊(duì)）

文章：FcaNet: Frequency Channel Attention Networks

源碼：暫未開源

二、導(dǎo)讀

從網(wǎng)絡(luò)結(jié)構(gòu)本身的角度出發(fā)，可以從以下四個(gè)維度來提升卷積神經(jīng)網(wǎng)絡(luò)的性能，分別是：深度（ResNet）、寬度（WideResNet）、基數(shù)（ResNeXt）和注意力（SENet）。一般來說，網(wǎng)絡(luò)越深，所提取到的特征就越抽象；網(wǎng)絡(luò)越寬，其特征就越豐富；基數(shù)越大，越能發(fā)揮每個(gè)卷積核獨(dú)特的作用；而注意力則是一種能夠強(qiáng)化重要信息抑制非重要信息的方法，也是本文重點(diǎn)闡述的對(duì)象。

本文先回顧并總結(jié)到目前為止比較有代表性的注意力機(jī)制方法，同時(shí)對(duì)FcaNet進(jìn)行解讀。作者從頻域角度切入，彌補(bǔ)了現(xiàn)有通道注意力方法中特征信息不足的缺點(diǎn)，將GAP推廣到一種更為一般的表示形式，即2維的離散余弦變換DCT，通過引入更多的頻率分量來充分的利用信息。對(duì)于每個(gè)特征通道圖，本質(zhì)上我們可以將其視為輸入圖片在不同卷積核上所對(duì)應(yīng)的不同分量，類似于時(shí)頻變化，相對(duì)于我們用卷積操作對(duì)輸入信號(hào)（圖片）進(jìn)行傅里葉變換，從而將原始的輸入分解為不同卷積核上的信號(hào)分量。

三、前情回顧

注意力機(jī)制，其本質(zhì)是一種通過網(wǎng)絡(luò)自主學(xué)習(xí)出的一組權(quán)重系數(shù)，并以“動(dòng)態(tài)加權(quán)”的方式來強(qiáng)調(diào)我們所感興趣的區(qū)域同時(shí)抑制不相關(guān)背景區(qū)域的機(jī)制。在計(jì)算機(jī)視覺領(lǐng)域中，注意力機(jī)制可以大致分為兩大類：強(qiáng)注意力和軟注意力。由于強(qiáng)注意力是一種隨機(jī)的預(yù)測(cè)，其強(qiáng)調(diào)的是動(dòng)態(tài)變化，雖然效果不錯(cuò)，但由于不可微的性質(zhì)導(dǎo)致其應(yīng)用很受限制。與之相反的是，軟注意力是處處可微的，即能夠通過基于梯度下降法的神經(jīng)網(wǎng)絡(luò)訓(xùn)練所獲得，因此其應(yīng)用相對(duì)來說也比較廣泛。軟注意力按照不同維度（如通道、空間、時(shí)間、類別等）出發(fā)，目前主流的注意力機(jī)制可以分為以下三種：通道注意力、空間注意力以及自注意力（Self-attention）。

通道注意力

通道注意力旨在顯示的建模出不同通道（特征圖）之間的相關(guān)性，通過網(wǎng)絡(luò)學(xué)習(xí)的方式來自動(dòng)獲取到每個(gè)特征通道的重要程度，最后再為每個(gè)通道賦予不同的權(quán)重系數(shù)，從而來強(qiáng)化重要的特征抑制非重要的特征。這方面的代表作有SE-Net，通過特征重標(biāo)定的方式來自適應(yīng)地調(diào)整通道之間的特征響應(yīng)。此外，還有比較出名的SK-Net，則是受Inception-block和SE-block共同啟發(fā)，從多尺度特征表征的角度考慮，通過引入多個(gè)卷積核分支來學(xué)習(xí)出不同尺度下的特征圖注意力，讓網(wǎng)絡(luò)能夠更加側(cè)重于重要的尺度特征。另外還有ECA-Net，利用1維的稀疏卷積操作來優(yōu)化SE模塊中涉及到的全連接層操作來大幅降低參數(shù)量并保持相當(dāng)?shù)男阅?。為了壓縮參數(shù)量和提高計(jì)算效率，SE-Net采用的是“先降維-再升維”的策略，利用兩個(gè)多層感知機(jī)來學(xué)習(xí)不同通道之間的相關(guān)性，即當(dāng)前的每一個(gè)特征圖都與其它特征圖進(jìn)行交互，是一種密集型的連接。ECA-Net則簡(jiǎn)化了這種連接方式，令當(dāng)前通道只與它的k個(gè)領(lǐng)域通道進(jìn)行信息交互。

空間注意力

空間注意力旨在提升關(guān)鍵區(qū)域的特征表達(dá)，本質(zhì)上是將原始圖片中的空間信息通過空間轉(zhuǎn)換模塊，變換到另一個(gè)空間中并保留關(guān)鍵信息，為每個(gè)位置生成權(quán)重掩膜（mask）并加權(quán)輸出，從而增強(qiáng)感興趣的特定目標(biāo)區(qū)域同時(shí)弱化不相關(guān)的背景區(qū)域。這方面比較出色的工作有CBAM，它是在原有通道注意力的基礎(chǔ)上，銜接了一個(gè)空間注意力模塊（SAM）。SAM是基于通道進(jìn)行全局平均池化以及全局最大池化操作，產(chǎn)生兩個(gè)代表不同信息的特征圖，合并后再通過一個(gè)感受野較大的7×7卷積進(jìn)行特征融合，最后再通過Sigmoid操作來生成權(quán)重圖疊加回原始的輸入特征圖，從而使得目標(biāo)區(qū)域得以增強(qiáng)。總的來說，對(duì)于空間注意力來說，由于將每個(gè)通道中的特征都做同等處理，忽略了通道間的信息交互；而通道注意力則是將一個(gè)通道內(nèi)的信息直接進(jìn)行全局處理，容易忽略空間內(nèi)的信息交互。作者最終通過實(shí)驗(yàn)驗(yàn)證先通道后空間的方式比先空間后通道或者通道空間并行的方式效果更佳。此外，類似的改進(jìn)模塊還有A2-Net所提出的Double Attention模塊以及受SE-Net啟發(fā)而提出的變體注意力模塊scSE等等。

自注意力

自注意力是注意力機(jī)制的一種變體，其目的是為了減少對(duì)外部信息的依賴，盡可能地利用特征內(nèi)部固有的信息進(jìn)行注意力的交互。早期出現(xiàn)于谷歌所提出的Transformer架構(gòu)當(dāng)中。后來，何凱明等人將其應(yīng)用到CV領(lǐng)域當(dāng)中并提出了Non-Local模塊，通過Self-Attention機(jī)制對(duì)全局上下午進(jìn)行建模，有效地捕獲長(zhǎng)距離的特征依賴。一般的自注意力流程都是通過將原始特征圖映射為三個(gè)向量分支，即Query、Key和Value。首先，計(jì)算Q和K的相關(guān)性權(quán)重矩陣系數(shù)；其次，通過軟操作對(duì)權(quán)重矩陣進(jìn)行歸一化；最后再將權(quán)重系數(shù)疊加到V上，以實(shí)現(xiàn)全局上下文信息的建模。自NL-block提出后，也有許多基于它的改進(jìn)。比如DANet提出的雙重注意力機(jī)制是將NL思想同時(shí)應(yīng)用到空間域和通道域，分別將空間像素點(diǎn)以及通道特征作為查詢語(yǔ)句進(jìn)行上下文建模。另一方面，雖然NL中利用了1×1卷積操作來壓縮特征圖的維度，但這種基于全局像素點(diǎn)（pixel-to-pixel）對(duì)的建模方式其計(jì)算量無疑是巨大的。因此，有許多工作也致力于解決這個(gè)問題，如CCNet開發(fā)并利用兩個(gè)十字交叉注意力模塊來等效的替代基于全局像素點(diǎn)對(duì)的建模；非對(duì)稱金字塔非局部塊體(Asymmetric Pyramid Non-local Block, APNB)以點(diǎn)對(duì)區(qū)域建模的方式來降低運(yùn)算復(fù)雜度；GC-Net也結(jié)合了SE機(jī)制并提出使用簡(jiǎn)化的空間注意模塊，取代原來的空間下采樣過程。除此之外我們也可以從區(qū)域?qū)^(qū)域建模的角度對(duì)其進(jìn)行更進(jìn)一步地優(yōu)化。除了從空間、通道維度進(jìn)行優(yōu)化外，我們還可以從時(shí)間、類別角度進(jìn)行改進(jìn)，這方面的工作分別有IAU-Net和OCR-Net。

CNN中的注意力機(jī)制盤點(diǎn)

《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》

受機(jī)器翻譯中的Attention機(jī)制啟發(fā)，Bengio等人于2015年在ICML上發(fā)表的一篇文章，首次將注意力機(jī)制應(yīng)用大圖像描述（Image Caption）領(lǐng)域，同時(shí)提出硬注意力和軟注意力兩種機(jī)制，并利用可視化的技術(shù)來直觀的表達(dá)了Attention機(jī)制的作用，為后續(xù)注意力機(jī)制在計(jì)算機(jī)視覺領(lǐng)域的發(fā)展開了先河。

《Residual attention network for image classification》

商湯科技和港中文于2017年發(fā)表在CVPR上的一篇文章提出了一種利用下采樣和上采樣空間注意機(jī)制的殘差注意力網(wǎng)絡(luò)。在此之前，以往的Attention模型大多應(yīng)用于圖像分割和顯著性檢測(cè)任務(wù)，出發(fā)點(diǎn)在于將注意力集中在部分感興趣區(qū)域或顯著區(qū)域上。作者利用這種模式，在常規(guī)的分類網(wǎng)絡(luò)中，引入側(cè)邊分支，該分支同樣是由一系列卷積和池化操作來逐漸地提取高級(jí)語(yǔ)義特征并增大網(wǎng)絡(luò)的感受野，最后再將該分支直接上采樣為原始分辨率尺寸作為特征激活圖疊加回原始輸入。遺憾的是，該方法提升效果好像并不明顯，而且由于引入大量額外的參數(shù)，導(dǎo)致計(jì)算開銷非常大。

《Improving Convolutional Networks with Self-Calibrated Convolutions》

這是由南開大學(xué)程明明團(tuán)隊(duì)發(fā)表于2020年CVPR上的一篇文章，像這種通過先下采樣來擴(kuò)大感受野再上采樣回去充當(dāng)注意力圖的方式與上面這篇論文的思路有點(diǎn)重復(fù)了，只不過將其從網(wǎng)絡(luò)分支遷移到卷積分支，按理來說如果有引用下比較恰當(dāng)。不過熟悉程老師【知乎ID：@程明明】的工作的可以發(fā)現(xiàn)，他們大多數(shù)的工作都非常簡(jiǎn)潔高效，而且大力提倡開源這一點(diǎn)很是佩服，大家有興趣的可以直接去官網(wǎng)的Publications訪問。

這篇文章是胡組長(zhǎng)繼SE-Net后于2018年在NIPS上發(fā)表的一篇文章，本文從上下文角度出發(fā)，提出了SE的更一般的形式GE，即Gather和Excite，并利用空間注意力來更好的挖掘特征之間的上下文信息。其中，Gather操作用于從局部的空間位置上提取特征，Excite操作則用于將其進(jìn)行縮放還原回原始尺寸，是一種類似于編解碼即Encoder-Decoder模型，可以以很小的參數(shù)量和計(jì)算量來提升網(wǎng)絡(luò)的性能，不過知名度和影響力好像遠(yuǎn)不及SE。

Global Second-order Pooling Convolutional Networks

GSoP-Net是發(fā)表于CVPR 2019年的一篇文章，作者認(rèn)為CNN的主要目標(biāo)是表征高維空間中數(shù)千個(gè)類別的復(fù)雜邊界，學(xué)習(xí)高階表示對(duì)于增強(qiáng)非線性建模能力至關(guān)重要。然而，傳統(tǒng)的一階網(wǎng)絡(luò)顯然不能夠有效的表征，因此作者從底層到高層逐步引入全局的二階池化模塊，通過對(duì)整體圖像信息的相關(guān)性建模，來捕獲長(zhǎng)距離的統(tǒng)計(jì)信息，充分利用到了圖像的上下文信息。與SE等操作提倡的利用2維的GAP操作不同，GSoP通過引入?yún)f(xié)方差來計(jì)算通道之間的關(guān)系。具體來說，在利用卷積和池化進(jìn)行非線性變換以后，該協(xié)方差矩陣不僅可以用于沿通道維度進(jìn)行張量的縮放，也可以用于沿空間維度進(jìn)行張量縮放。整體來說，通過應(yīng)用GSoP可以充分利用到圖像中的二階統(tǒng)計(jì)量，以高效的捕獲全局的上下文信息。

BAM是發(fā)表于BMVC 2018上的一篇文章，是由CBAM原班人馬打造的，作者提出了一個(gè)簡(jiǎn)單可是有效的注意力模型，它能夠結(jié)合到任何前向傳播卷積神經(jīng)網(wǎng)絡(luò)中，同時(shí)經(jīng)過兩個(gè)分離的路徑，即空間和通道，去獲得注意力圖。有趣的是，作者將其放置到了主干網(wǎng)絡(luò)中每個(gè)Stage的中間，通過可視化的中間過程圖我們可以明顯的看出，BAM形成了一種分層的注意力機(jī)制，抑制背景特征，使模型能更加聚焦于前景特征，從而加強(qiáng)高級(jí)語(yǔ)義。BAM是通過將兩個(gè)注意力分支進(jìn)行串聯(lián)求和，而CBAM則是一種并聯(lián)的形式。類似的雙重注意力模式還有DA-Net和scSE注意力，有興趣的可以自行查看。

Rotate to Attend: Convolutional Triplet Attention Module

這是由印度小哥最新提出來的一個(gè)工作，作者從維度交互的角度出發(fā)，提出了一種三重注意力，即Triplet Attention。傳統(tǒng)的注意力方式是通過GAP操作計(jì)算出一個(gè)權(quán)值系數(shù)，然后利用這個(gè)系數(shù)對(duì)原始的輸入特征圖進(jìn)行統(tǒng)一縮放。其實(shí)這里也反復(fù)提到，GAP是在二維空間層面上對(duì)輸入張量進(jìn)行分解，濃縮為一個(gè)系數(shù)，不可避免的會(huì)導(dǎo)致空間細(xì)節(jié)信息的大量缺失。而且，單純的在通道上進(jìn)行操作，也容易忽略掉空間上一些關(guān)鍵的信息。雖然后面BAM和CBAM的出現(xiàn)緩解了通道和空間的依賴關(guān)系，但本質(zhì)上這兩者還是獨(dú)立的，只不過是將其串聯(lián)或并聯(lián)起來。于是乎，印度小哥提倡要讓不同維度之間的信息互相交互起來，比如有三個(gè)維度，HWC，那就讓它們兩兩進(jìn)行交互即可。不過說實(shí)話，個(gè)人感覺這工作有點(diǎn)雞肋，隨意的維度交互有時(shí)會(huì)破壞信息的空間一致性，結(jié)果反而得不償失，這工作還不如GC-Net來的實(shí)在，結(jié)合SE操作直接對(duì)Non-local進(jìn)行簡(jiǎn)化，通俗易懂，簡(jiǎn)潔高效，歡迎打臉。

ResNeSt，號(hào)稱ResNet的強(qiáng)化版，是由李沐團(tuán)隊(duì)張航博士（知乎ID：@張航

）所提出來的一篇文章，作者從基數(shù)維度出發(fā)，將注意力的思想融入到多分支卷積結(jié)構(gòu)當(dāng)中，來解決傳統(tǒng)CNN感受野受限以及卻反跨通道信息交互的問題，遺憾的是剛被ECCV 2020拒了。

ResNeSt整體延續(xù)了“Split-Transfore-Merge”結(jié)構(gòu)，有點(diǎn)SK（知乎ID：

@李翔）的味道，綜合SENet、SKNet與ResNeXt三者的思想。

ResNeSt所呈現(xiàn)的效果確實(shí)非常驚艷的，在ADE20K、MS-COCO等數(shù)據(jù)集上屠榜，碾壓其他的手動(dòng)網(wǎng)絡(luò)架構(gòu)，沒有額外的計(jì)算開銷，代碼也不是很復(fù)雜。

盡管出來后許多人質(zhì)疑其性能的提升跟大量的trick有很大關(guān)系且一開始代碼實(shí)現(xiàn)有點(diǎn)問題，但不妨礙我們學(xué)習(xí)其思想，畢竟做科研不像搞開發(fā)，工程側(cè)重的是talk is cheap, show me your code，而研究側(cè)重的是code is weak, show me your idea.

《Relation-Aware Global Attention for Person Re-identification》

Relation-Aware Global Attention是中科大&微軟亞洲研究院發(fā)表于CVPR 2020上針對(duì)行人重識(shí)別任務(wù)所提出的一種注意力方法。本文提倡的觀點(diǎn)是，要直觀地判斷一個(gè)特征節(jié)點(diǎn)是否重要，就應(yīng)該知道全局范圍的特性，這樣便可以通過得到進(jìn)行決策所需要的關(guān)系信息，來更好地探索每個(gè)特征節(jié)點(diǎn)各自的全局關(guān)系，從而更好地學(xué)習(xí)注意力。

四、論文解讀

4.1 動(dòng)機(jī)

通常來說，由于有限的計(jì)算資源開銷，類似通道注意力機(jī)制這種通過網(wǎng)絡(luò)學(xué)習(xí)的方式來獲得權(quán)重函數(shù)需要對(duì)每個(gè)通道的標(biāo)量進(jìn)行計(jì)算，而全卷平均池化操作由于其易用性和高效性無疑是最佳的選擇。盡管如此，但存在一個(gè)潛在的問題是GAP無法很好地捕獲豐富的輸入模式信息，因此在處理不同的輸入時(shí)缺乏特征多樣性。因此，也出現(xiàn)了一個(gè)自然而然的問題，即均值信息是否足以代表通道注意力中不同的特征通道。作者從三個(gè)角度進(jìn)行分析：

首先，從特征通道本身的角度出發(fā)，不同特征度表征不同的信息，而GAP操作，即“平均”操作會(huì)極大的抑制特征的這種多樣性；
其次，從頻率角度分析，GAP等價(jià)于離散余弦變換（DCT）的最低頻率分量。因此，如果僅使用GAP，顯然會(huì)忽略掉許多其它有用的頻率分量；
最后，以CBAM論文中所提出的觀點(diǎn)去支撐論證，即單純的使用GAP不足以表達(dá)特征原有的豐富信息。

4.2 貢獻(xiàn)

證明了GAP是DCT的特例。在此基礎(chǔ)上，將GAP推廣到頻域中，并提出了多光譜通道注意力框架——FcaNet；
通過探討使用不同數(shù)量的頻率分量及其不同組合的影響，提出了選擇頻率分量的兩步準(zhǔn)則；
廣泛的實(shí)驗(yàn)表明，該方法在ImageNet和COCO數(shù)據(jù)集上均達(dá)到了最佳水平。在以ResNet-50為骨干網(wǎng)絡(luò)的基礎(chǔ)上，同時(shí)在相同參數(shù)量和計(jì)算量的情況下，所提出方法在ImageNet上的Top-1精度方面可以比SENet高出1.8%；
所提出方法不僅有效還非常簡(jiǎn)單，只需在現(xiàn)有的通道注意力實(shí)現(xiàn)中修改一行代碼即可

4.3 方法

4.3.1 通道注意力和離散余弦變換回顧

通道注意力：

離散余弦變換：

這里為DCT的頻譜，表示輸入，L為輸入分量的長(zhǎng)度。此外，二維的DCT可以表示為：

同樣地，這里和分別表示輸入分量的高度和寬度，后面半部分為對(duì)應(yīng)的DCT權(quán)重。相應(yīng)地，我們可以寫出它的逆變換：

Inverse 2D-DCT

為簡(jiǎn)化運(yùn)算和便于敘述，作者后面移除了一些歸一化因子常量。從以上公式可以看出GAP是現(xiàn)有通道注意力方法的預(yù)處理方式；而DCT可以看作是輸入的加權(quán)和，其中余弦部分表示其對(duì)應(yīng)的權(quán)重。因此，我們可以將GAP這種均值運(yùn)算當(dāng)做是輸入的最簡(jiǎn)單頻譜，如上所述，僅使用單個(gè)GAP不足以表征所有的特征信息，作者下面便引入了多光譜通道注意力的方法。

DCT屬于Singal Porcessing領(lǐng)域的范疇，是JPEG圖像壓縮算法里的核心算法。沒學(xué)過信號(hào)處理的估計(jì)看起來有些吃力，建議可以簡(jiǎn)單預(yù)習(xí)下這門課，了解一些基本概念，然后學(xué)習(xí)下傅里葉變換，而DCT實(shí)際上便是限定了輸入信號(hào)的DFT，或者說是DFT的一種特例。要還是對(duì)數(shù)學(xué)很抗拒的話可以簡(jiǎn)單的認(rèn)為DCT實(shí)際上的作用便是獲得更好的頻域能量聚集度，說白了就是將圖像中相對(duì)重要的信息凝聚在一起，最簡(jiǎn)單的理解就是可以聚焦。說到這里，相信各位童鞋都似懂非懂了吧，“聚焦”不就是注意力干的事情嗎？作者就是將這個(gè)思想用到了這里，Maths is important！

作者到這里就結(jié)束了，當(dāng)然根據(jù)求和的可分性準(zhǔn)則，我們也可以將2維DCT改寫成如下形式：

更一般我們還能寫成矩陣相乘形式：，其中為變換系數(shù)矩陣。

4.3.2 多光譜通道注意力框架的推導(dǎo)及頻率分量的選取準(zhǔn)則

作者首先拋出了一個(gè)定理：GAP是2維DCT的特例，其結(jié)果與2維DCT的最低頻率分量成比例。

假設(shè)2維DCT中的和為0，則可以推導(dǎo)出以下式子：

注：cos(0)=1. 上述左式為2維DCT的最低頻率分量，可以看出它與GAP是成正比關(guān)系的。證明了這點(diǎn)之后，接下來要考慮的事情便是如何將其他頻率分量整合到通道注意力機(jī)制當(dāng)中。根據(jù)上述公式，我們將2維DCT的逆變換重寫成以下形式：

這里表示的是頻率分量，也可以理解為DCT的權(quán)重分量。根據(jù)上述公式，我們很自然地將圖像特征分解為不同頻率分量的組合?？梢钥闯?，GAP操作僅利用到了其中的一個(gè)頻率分量。

Illustration of existing channel attention and multi-spectral channel attention.

上圖為原始SE模塊與作者所提出的MCA模塊對(duì)比示意圖。上面提到，為了引入更多的信息，作者建議使用2維的DCT來融合多個(gè)頻率分量，包括最低的頻率分量，即GAP。具體操作流程為：首先，將輸入按通道維度劃分為n部分，其中n必須能被通道數(shù)整除。對(duì)于每個(gè)部分，分配相應(yīng)的二維DCT頻率分量，其結(jié)果可作為通道注意力的預(yù)處理結(jié)果（類似于GAP）：

緊接著，我們可以將各部分的頻率分量合并起來：

這里，即為的多光譜向量。因此，整個(gè)MCA框架可以表示如下：

接下來闡述下頻率分量的選取標(biāo)準(zhǔn)。對(duì)于每一部分，關(guān)鍵在于頻率分量指數(shù)[u，v]的選擇。對(duì)于空間尺寸為的每個(gè)通道特征，我們可以利用2維的DCT將其分解為個(gè)頻率分量，于是總的頻率分量應(yīng)該為。舉個(gè)例子，以ResNet-50骨干網(wǎng)絡(luò)的輸出為例，可以達(dá)到2048。因此，測(cè)試所有組合計(jì)算代價(jià)是非常昂貴的也沒有必要，作者在這里給出了一種兩步準(zhǔn)則來選擇MCA模塊中的頻率分量。其主要思想是為：

第一步先分別計(jì)算出通道注意力中每個(gè)頻率分量的結(jié)果；
第二步再根據(jù)所得結(jié)果篩選出Top-k個(gè)性能最佳的頻率分量。

至于如何衡量每個(gè)頻率分量的性能作者在這里并沒有闡述。雖然在后面4.2節(jié)中消融實(shí)驗(yàn)部分有提及到，但作者在此處簡(jiǎn)單

4.3.3 方法的有效性討論、復(fù)雜度分析以及代碼的實(shí)現(xiàn)

方法有效性討論

上述我們分析了現(xiàn)有的通道注意力方法使用GAP作為預(yù)處理方式實(shí)際上是丟棄掉了除最低的頻率分量的其他頻率分量信息。作者在頻域上推廣了此方法，在MAC框架中自然地嵌入了更多的頻率分量信息。之前有不少的工作也證明了CNN中存在著許多冗余的特征，比如Ghost-Net和OctaveConv等，所以當(dāng)兩個(gè)通道特征存在高度的相似性時(shí)，GAP操作會(huì)得到相似的結(jié)果。然而，在MCA框架中，由于不同的頻率分量包含不同的信息，因此可以從冗余通道中提取更多的信息。

復(fù)雜度分析

作者從參數(shù)量和計(jì)算量?jī)煞矫娣治隽怂岢龇椒ǖ膹?fù)雜度。首先，由于2維DCT操作涉及到的權(quán)重是通過預(yù)先計(jì)算出來的一組常數(shù)，因此相比于原始的通道注意力方法如SE而言，沒有引入額外的參數(shù)量。其次，計(jì)算量方面MCA僅僅比SE高出了略微的代價(jià)，可以忽略不計(jì)。

Comparison of different attention methods on ImageNet.

作者補(bǔ)充說“All other results are quoted from their original papers if available.”這樣子的話存在不少問題，就是算著現(xiàn)在硬件算力的提升，性能也會(huì)更好一點(diǎn)，而且作者在實(shí)驗(yàn)過程也應(yīng)用了《Deep residual learning for image recognition》和《Bag of tricks for image classifification with convolutional neural networks》這兩篇文章所涉及的trick。嚴(yán)謹(jǐn)一點(diǎn)的話應(yīng)該基于同一實(shí)驗(yàn)條件下進(jìn)行公平的比較，所得到的結(jié)果會(huì)比較客觀一點(diǎn)，或許相對(duì)其他rival的提升就不是 large margin，而是trivial contributions。

代碼實(shí)現(xiàn)

2維DCT可以看作是輸入的加權(quán)和，因此，可以通過簡(jiǎn)單地元素乘法以及求和運(yùn)算來實(shí)現(xiàn)：

4.4 實(shí)驗(yàn)

4.4.1 消融實(shí)驗(yàn)

單個(gè)頻率分量的有效性

為了研究不同頻率分量對(duì)信道注意的影響，每次只使用一個(gè)單獨(dú)的頻率分量。考慮到ImageNet上最小的特征圖大小為7×7，作者這里將整個(gè)2維的DCT頻率空間劃分為7×7部分，這樣的話共有49組實(shí)驗(yàn)。為了加快實(shí)驗(yàn)速度，首先訓(xùn)練了一個(gè)100個(gè)epoch的標(biāo)準(zhǔn)ResNet-50網(wǎng)絡(luò)作為基準(zhǔn)模型。然后再將通道注意力添加到具有不同頻率分量的基準(zhǔn)模型中，以驗(yàn)證其效果。隨后，基于同樣的實(shí)驗(yàn)設(shè)置，以0.02的學(xué)習(xí)率對(duì)添加后的模型進(jìn)行20輪的訓(xùn)練微調(diào)。

Top-1 accuracies on ImageNet using different frequencycomponents in channel attention individually.

實(shí)驗(yàn)結(jié)果如上所述，可以看出，當(dāng) [u, v]分量為[0, 0]時(shí)，效果是最好的，對(duì)應(yīng)SE-Net的GAP操作，同時(shí)也驗(yàn)證了DNN偏好低頻信息的結(jié)論。雖然如此，但結(jié)果也表明了其他頻率分量對(duì)網(wǎng)絡(luò)也是有貢獻(xiàn)的，這意味著我們可以將這些信息給嵌入進(jìn)去。

頻率分量個(gè)數(shù)對(duì)性能的影響

在獲得每個(gè)頻率分量性能后，第二步是確定MCA模塊所選擇的最佳頻率分量數(shù)。為了簡(jiǎn)單起見，作者選取了Top-k最高性能的頻率成分，其中k可以是1、2、4、8、16或32等2的倍數(shù)。

從實(shí)驗(yàn)結(jié)果可以看出，所有應(yīng)用了多光譜的結(jié)果都要比單純的GAP（對(duì)應(yīng)Number=1）提高不少，實(shí)驗(yàn)的最佳效果是N=16，即選擇16個(gè)頻率分量，不過其他整體相差也不大。

4.4.2 與其他SOTA模型對(duì)比

作者在分類、檢測(cè)和分割任務(wù)上與其他主流的通道注意力模型進(jìn)行了比較：

在分類任務(wù)上分別以ResNet-34, ResNet-50, ResNet-101, and ResNet-152四個(gè)骨干分支進(jìn)行測(cè)試，結(jié)果顯示Fca-Net在不同骨干網(wǎng)絡(luò)上的TOP-1精度分別優(yōu)于SE-NET 1.20%、1.81%、2.02%和1.65%。同時(shí)，在計(jì)算代價(jià)非常小的前提下，性能也優(yōu)于GSOPNET。
在檢測(cè)任務(wù)上以Faster-RCNN和Mask-RCNN作為檢測(cè)器的前提下也顯著的優(yōu)于其他方法。
除了目標(biāo)檢測(cè)外，作者還在實(shí)例分割任務(wù)上測(cè)試了所提方法，然而這部分差距不是很明顯。

附錄

不同頻率分量組合策略的研究

Illustration of different frequency combinations.

在消融實(shí)驗(yàn)部分，作者的two-step選擇準(zhǔn)則中的第二步是選擇Top-k個(gè)性能表現(xiàn)組好的頻率分量。在附錄部分，作者還做了兩組其他的組合策略，分別是選擇如上圖(b)左上角所示的所有頻率分量，即low-1,low-2,...,low-32;還有一組是選擇性能表現(xiàn)最差的Top-k個(gè)頻率分量：

The results of Low-k combinations and Bot-k combinations.

從實(shí)驗(yàn)結(jié)果可以看出，Top-k性能最差的頻率組合明顯低于選擇低頻頻率分量的組合策略，這也充分驗(yàn)證了低頻分量是重要的，即DNN更加關(guān)注低頻分量。當(dāng)然，最佳的實(shí)驗(yàn)效果還是選擇性能表現(xiàn)最好的Top-k個(gè)分量。

離散余弦變換的可視化

The visualization about DCT basis functions.

從上圖可以看出，2維DCT的基函數(shù)是由規(guī)整的水平和垂直余弦波所組成，這些基函數(shù)是彼此正交的，與數(shù)據(jù)無關(guān)。此外，根據(jù)兩步準(zhǔn)則所選定的頻率分量可以看到，所選擇的頻率分量通常是低頻的。

DCT的初始化代碼

總結(jié)

最近也有不少文章開始從頻域角度來切入大家有興趣可以去了解下，比如阿里在CVPR 2020所提出來的文章，好像用的也是DCT？雖然作者一直強(qiáng)調(diào)他們的方式效果非常顯著，代碼量?jī)H需一行。但從其描述的實(shí)驗(yàn)結(jié)果來看，作者似乎并沒有嚴(yán)格按照統(tǒng)一條件下去進(jìn)行對(duì)照組實(shí)驗(yàn)，而是直接摘抄其他方法原論文的結(jié)果報(bào)告出來。其次，一行代碼這個(gè)也有點(diǎn)牽強(qiáng)，真正起作用的核心代碼被封裝起來，只不過是簡(jiǎn)單的使用了一個(gè)開關(guān)進(jìn)行調(diào)用，嚴(yán)格意義上來說應(yīng)該不算。整體來說，這篇文章的思路還是挺不錯(cuò)的，至于性能等后面源碼公開出來留待時(shí)間的檢驗(yàn)，投個(gè)最近的ICCV應(yīng)該是穩(wěn)了。

總結(jié)下Attention機(jī)制的優(yōu)勢(shì)有如下三點(diǎn)：參數(shù)少 ● 速度快 ● 效果好?，F(xiàn)如今發(fā)表的許多注意力機(jī)制相關(guān)的方法，很多都是基于原始方法進(jìn)行改進(jìn)，至于改進(jìn)的力度和效果提升見仁見智。雖然這里面大部分的提升很可能來自于大量的trick沒報(bào)告出來，或者是由于數(shù)據(jù)泄露導(dǎo)致的unfair，又或者實(shí)驗(yàn)比較對(duì)象的巧妙選取等，但是不得不佩服的是作者們八仙過海各顯神通講故事的邏輯，從中也受益良多。很有意思的是，為了克服現(xiàn)在越來越內(nèi)卷的頂會(huì)投稿量避免Reviewer看起來千篇一律直接給你Early Reject，很多論文都許多對(duì)一些常規(guī)的操作進(jìn)行名詞渲染。好比1×1卷積應(yīng)該叫投影函數(shù)（Project function）；兩個(gè)同階矩陣的相乘可以寫成哈達(dá)姆積（Hadamard product）；求兩個(gè)矩陣的相似度計(jì)算稱為親和（Affinity）計(jì)算等等。另一方面，大多數(shù)改進(jìn)的方向都不約而同，大體上都是從不同維度、復(fù)雜度、時(shí)頻域出發(fā)。比如維度方面有通道、空間、時(shí)間、類別等；復(fù)雜度方面主要是基于維度的基礎(chǔ)上，優(yōu)化其參數(shù)量和計(jì)算量；域方面主要就是從時(shí)域到頻域的變換；當(dāng)然，還有很多跨領(lǐng)域交叉的嘗試，比如最近才在計(jì)算機(jī)視覺領(lǐng)域中大火的Transformer機(jī)制；亦或者將2D的注意力擴(kuò)展到3D去等。其實(shí)，細(xì)細(xì)品嘗其中的滋味，熟悉原理和了解整個(gè)CV發(fā)展的脈絡(luò)之后會(huì)發(fā)現(xiàn)，處處皆idea，哪怕從原理上創(chuàng)新不來，隨便來個(gè)排列組合再配合上講story和寫paper的功力，一大把頂會(huì)頂刊在向我們招手——投稿就像海洋，只有鼓起勇氣投出去的人才有資格別接收。寫了整整一下午，生活艱難，創(chuàng)作不易，拒絕白嫖，從你我做起。覺得有幫助的也請(qǐng)歡迎關(guān)注、點(diǎn)贊、收藏、喜歡、轉(zhuǎn)發(fā)五連擊，謝謝。

END

雙一流大學(xué)研究生團(tuán)隊(duì)創(chuàng)建，專注于目標(biāo)檢測(cè)與深度學(xué)習(xí)，希望可以將分享變成一種習(xí)慣！

整理不易，點(diǎn)贊三連↓

FcaNet：從頻域角度重新思考注意力機(jī)制

一、論文信息

二、導(dǎo)讀

三、前情回顧