↑ 點擊藍字?關(guān)注極市平臺

作者丨Shuchen Du、ronghuaiyang（譯）

來源丨AI公園

編輯丨極市平臺

極市導(dǎo)讀

本文以語義分割和編碼器-解碼器架構(gòu)為例，說明了卷積神經(jīng)網(wǎng)絡(luò)（CNN）標準算法的局限性。同時，作者還解釋了自注意力機制能緩解上述問題的原因。>>加入極市CV技術(shù)交流群，走在計算機視覺的最前沿

卷積神經(jīng)網(wǎng)絡(luò)(CNN)廣泛應(yīng)用于深度學(xué)習(xí)和計算機視覺算法中。雖然很多基于CNN的算法符合行業(yè)標準，可以嵌入到商業(yè)產(chǎn)品中，但是標準的CNN算法仍然有局限性，在很多方面還可以改進。這篇文章討論了語義分割和編碼器-解碼器架構(gòu)作為例子，闡明了其局限性，以及為什么自注意機制可以幫助緩解問題。

標準編解碼結(jié)構(gòu)的局限性

圖1：標準編解碼結(jié)構(gòu)

解碼器架構(gòu)(圖1)是許多計算機視覺任務(wù)中的標準方法，特別是像素級預(yù)測任務(wù)，如語義分割、深度預(yù)測和一些與GAN相關(guān)的圖像生成器。在編碼器-解碼器網(wǎng)絡(luò)中，輸入圖像進行卷積、激活以及池化得到一個潛向量，然后恢復(fù)到與輸入圖像大小相同的輸出圖像。該架構(gòu)是對稱的，由精心設(shè)計的卷積塊組成。由于其簡單和準確，該體系結(jié)構(gòu)被廣泛使用。

圖2：卷積的計算

但是，如果我們深入研究卷積的計算(圖2)，編碼器-解碼器架構(gòu)的局限性就會浮出表面。例如，在3x3卷積中，卷積濾波器有9個像素，目標像素的值僅參照自身和周圍的8個像素計算。這意味著卷積只能利用局部信息來計算目標像素，這可能會帶來一些偏差，因為看不到全局信息。也有一些樸素的方法來緩解這個問題：使用更大的卷積濾波器或有更多卷積層的更深的網(wǎng)絡(luò)。然而，計算開銷越來越大，結(jié)果并沒有得到顯著的改善。

理解方差和協(xié)方差

方差和協(xié)方差都是統(tǒng)計學(xué)和機器學(xué)習(xí)中的重要概念。它們是為隨機變量定義的。顧名思義，方差描述的是單個隨機變量與其均值之間的偏差，而協(xié)方差描述的是兩個隨機變量之間的相似性。如果兩個隨機變量的分布相似，它們的協(xié)方差很大。否則，它們的協(xié)方差很小。如果我們將feature map中的每個像素作為一個隨機變量，計算所有像素之間的配對協(xié)方差，我們可以根據(jù)每個預(yù)測像素在圖像中與其他像素之間的相似性來增強或減弱每個預(yù)測像素的值。在訓(xùn)練和預(yù)測時使用相似的像素，忽略不相似的像素。這種機制叫做自注意力。

方程 1: 兩個隨機變量X和Y的協(xié)方差

CNN中的自注意力機制

圖3: CNN中的自注意力機制

為了實現(xiàn)對每個像素級預(yù)測的全局參考，Wang等人在CNN中提出了自我注意機制(圖3)。他們的方法是基于預(yù)測像素與其他像素之間的協(xié)方差，將每個像素視為隨機變量。參與的目標像素只是所有像素值的加權(quán)和，其中的權(quán)值是每個像素與目標像素的相關(guān)。

圖4: 自注意機制的簡明版本

如果我們將原來的圖3簡化為圖4，我們就可以很容易地理解協(xié)方差在機制中的作用。首先輸入高度為H、寬度為w的特征圖X，然后將X reshape為三個一維向量A、B和C，將A和B相乘得到大小為HWxHW的協(xié)方差矩陣。最后，我們用協(xié)方差矩陣和C相乘，得到D并對它reshape，得到輸出特性圖Y，并從輸入X進行殘差連接。這里D中的每一項都是輸入X的加權(quán)和，權(quán)重是像素和彼此之間的協(xié)方差。

利用自注意力機制，可以在模型訓(xùn)練和預(yù)測過程中實現(xiàn)全局參考。該模型具有良好的bias-variance權(quán)衡，因而更加合理。

深度學(xué)習(xí)的一個可解釋性方法

圖5: SAGAN中的可解釋性圖像生成

SAGAN將自注意力機制嵌入GAN框架中。它可以通過全局參考而不是局部區(qū)域來生成圖像。在圖5中，每一行的左側(cè)圖像用顏色表示采樣的查詢點，其余五幅圖像為每個查詢點對應(yīng)的關(guān)注區(qū)域。我們可以看到，對于天空和蘆葦灌木這樣的背景查詢點，關(guān)注區(qū)域范圍廣泛，而對于熊眼和鳥腿這樣的前景點，關(guān)注區(qū)域局部集中。

參考資料

Non-local Neural Networks, Wang et al., CVPR 2018

Self-Attention Generative Adversarial Networks, Zhang et al. ICML 2019

Dual Attention Network for Scene Segmentation, Fu et al., CVPR 2019

Wikipedia, https://en.wikipedia.org/wiki/Covariance_matrix

Zhihu, https://zhuanlan.zhihu.com/p/37609917

推薦閱讀

與SENet互補提升，華為諾亞提出自注意力新機制：Weight Excitation｜ECCV2020
自注意力機制和全連接的圖卷積網(wǎng)絡(luò)(GCN)有什么區(qū)別聯(lián)系？
比CNN更強有力，港中文賈佳亞團隊提出兩類新型自注意力網(wǎng)絡(luò)｜CVPR2020

ACCV 2020國際細粒度網(wǎng)絡(luò)圖像識別競賽即將開賽！

添加極市小助手微信（ID : cvmart2），備注：姓名-學(xué)校/公司-研究方向-城市（如：小極-北大-目標檢測-深圳），即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術(shù)交流群：每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

△長按添加極市小助手

△長按關(guān)注極市平臺，獲取最新CV干貨

覺得有用麻煩給個在看啦~??

理解卷積神經(jīng)網(wǎng)絡(luò)中的自注意力機制

標準編解碼結(jié)構(gòu)的局限性

理解方差和協(xié)方差

CNN中的自注意力機制

深度學(xué)習(xí)的一個可解釋性方法

參考資料