清華南開發(fā)布attention 7年全回顧:注意力機(jī)制還有7大問題要研究!

??新智元報道??

??新智元報道??
編輯:LRS
【新智元導(dǎo)讀】2014年的RAM模型拉開了attention的序幕,距今發(fā)展已有7年,無數(shù)的研究成果涌現(xiàn)出來。最近清華大學(xué)、南開大學(xué)的研究人員共同寫就一篇關(guān)于注意力機(jī)制的綜述,將attention分為四類,還指出7大問題還懸而未決!
神經(jīng)網(wǎng)絡(luò)中注意力(attention)機(jī)制可謂是如日中天,在各類神經(jīng)網(wǎng)絡(luò)模型中都有它的身影,尤其是Transformer更是以self-attention為核心。
?
受到人類注意力的啟發(fā),將注意力機(jī)制引入計算機(jī)視覺模型后可以模擬人類視覺系統(tǒng),能夠?qū)⑤斎雸D像特征的權(quán)重進(jìn)行動態(tài)調(diào)整。
?
注意力機(jī)制在圖像分類、目標(biāo)檢測、語義分割、視頻理解、圖像生成、三維視覺、多模態(tài)任務(wù)和自監(jiān)督學(xué)習(xí)等許多視覺任務(wù)中都取得了很大的成功。
?
來自清華大學(xué)、南開大學(xué)、卡迪夫大學(xué)的研究人員共同寫了一篇survey,對計算機(jī)視覺中的各種注意力機(jī)制進(jìn)行了全面的回顧,并根據(jù)這些機(jī)制的方法進(jìn)行分類,如通道注意力(channel attention)、空間注意力(spatial attention)、時序注意力(temporal attention)和分支注意力(branch attention)。論文中涉及到的代碼已經(jīng)開源。
?

?
文章的通訊作者胡事民是清華大學(xué)計算機(jī)系教授,可視媒體研究中心主任。2002年獲得國家杰出青年基金資助,2006年-2015年擔(dān)任國家重大基礎(chǔ)研究(973)計劃項目 首席科學(xué)家,2007年入選教育部長江學(xué)者特聘教授,現(xiàn)為國家自然科學(xué)基金委創(chuàng)新群體項目學(xué)術(shù)帶頭人。
主要從事計算機(jī)圖形學(xué)、虛擬現(xiàn)實、智能信息處理和系統(tǒng)軟件等方面的教學(xué)與研究工作。曾擔(dān)任PG、SGP、CVM、VR、EG、SIGGRAPH ASIA等多個國際重要會議的程序委員會主席和委員,曾經(jīng)和現(xiàn)任IEEE、Elsevier、Springer等多個期刊的主編、副主編和編委。
?

?
將模型的注意力轉(zhuǎn)移到圖像中最重要的區(qū)域,并且忽視無關(guān)部分的方法稱為注意力機(jī)制。人類的視覺系統(tǒng)使用注意力來幫助高效、有效地分析和理解復(fù)雜場景,這反過來又激勵了研究人員將注意力機(jī)制引入計算機(jī)視覺系統(tǒng),以提高模型的性能。
?
在視覺系統(tǒng)中,注意力機(jī)制可以被視為一個動態(tài)的選擇過程,根據(jù)輸入圖像的重要性,通過自適應(yīng)加權(quán)來實現(xiàn)。
?
在過去的十年里,注意力機(jī)制在計算機(jī)視覺中發(fā)揮了越來越重要的作用。研究進(jìn)展可大致分為四個階段。
?

?
第一階段從RAM開始,開創(chuàng)了將深度神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合的工作。它能夠循環(huán)預(yù)測重要區(qū)域,并通過策略梯度以端到端的方式更新整個網(wǎng)絡(luò)。后來,各種相關(guān)論文都采用了類似的策略在視覺中使用注意力。在這一階段,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是注意力機(jī)制的必要工具。
?
在第二階段,Jaderberg提出了STN,引入了一個子網(wǎng)來預(yù)測用于選擇輸入中重要區(qū)域的仿射轉(zhuǎn)化,明確預(yù)測判別輸入特性是第二階段的主要特征;DCNS也是其中代表性的網(wǎng)絡(luò)。
?
在第三階段,SENet 提出了一種隱式自適應(yīng)預(yù)測潛在關(guān)鍵特征的信道注意力網(wǎng)絡(luò)。CBAM和ECANET是本階段的代表性工作。
?
最后一個階段是自注意力的時代。自我關(guān)注最早出現(xiàn)在Attention Is All You Need 那篇論文中,并迅速在自然語言處理領(lǐng)域取得了顯著的性能提升,隨后有研究人員將自注意力引入計算機(jī)視覺領(lǐng)域,并提出了一種在視頻理解和目標(biāo)檢測方面取得巨大成功的新型non-local 網(wǎng)絡(luò)。Emanet、CCNet、Hamnet和Stand-Alone網(wǎng)絡(luò)這些工作提高了模型的速度、結(jié)果質(zhì)量和通用性。
?

?
研究人員在文中還指出了未來注意力機(jī)制的六個可能研究方向:
?
1. 注意力的必要和充分條件
?
常見的注意力公式是必要條件,但并非充要條件。例如,GoogleNet符合這個公式,但并不屬于注意力機(jī)制。但目前研究領(lǐng)域還沒人關(guān)注注意力機(jī)制的充要條件,所以這個研究方向還有待探索,也能夠幫助我們對注意力機(jī)制的理解。

?
2. 通用的注意力塊(general attention block)
?
目前的研究工作都需要為每項不同的任務(wù)設(shè)計一個特別的注意力機(jī)制,這也要求研究人員在探索潛在的注意力方法方面需要耗費相當(dāng)大的功夫。例如channel attention 是圖像分類的一個很好的選擇,而spatial attention則很適合于語義分割、目標(biāo)檢測等密集的預(yù)測任務(wù)。channel attention主要關(guān)注于重點是什么(what to pay attention to),而spatial attention的關(guān)注重點是哪里(where to pay attention)。
根據(jù)這一觀察結(jié)果,是否可以有一個利用所有類型注意機(jī)制的一般性attention block?例如,軟選擇機(jī)制(branch attention)可以根據(jù)所執(zhí)行的特定任務(wù)在channel attention、spatial attention和temporal attention之間進(jìn)行選擇。
?
3. 特性和可解釋性(Characterisation and interpretability)
?
注意力機(jī)制是由人類視覺系統(tǒng)驅(qū)動的,是朝著建立一個可預(yù)測的計算機(jī)視覺系統(tǒng)的目標(biāo)邁出的一步。通常通過繪制注意力圖可以來理解基于注意力的模型,但這只能給人一種直觀的感覺,而非準(zhǔn)確的理解。
但在安全性相關(guān)或?qū)Π踩院苤匾暤膽?yīng)用領(lǐng)域,如醫(yī)療診斷和自動駕駛系統(tǒng),往往有更嚴(yán)格的要求。在這些領(lǐng)域需要更好地描述工作方法,包括故障模式。發(fā)展具有特征性(charaterisable)和可解釋性的注意力模型可以使它們適用更廣泛的應(yīng)用領(lǐng)域。
?

?
4. 稀疏激活(sparse activation)
?
可視化一些注意力圖(attention map)后可以得到一些和ViT 一致的結(jié)論,即注意力機(jī)制可能會產(chǎn)生稀疏激活。這種現(xiàn)象帶來一個啟示是,稀疏激活可以在深度神經(jīng)網(wǎng)絡(luò)中實現(xiàn)更強(qiáng)的性能。但值得注意的是,稀疏激活與人類認(rèn)知相似,這也許能夠激勵我們探索哪種架構(gòu)更可以模擬人類視覺系統(tǒng)。
?
5. 基于注意力的預(yù)訓(xùn)練模型
?
大規(guī)模的基于注意力的預(yù)訓(xùn)練模型在自然語言處理方面取得了巨大的成功。而最近如MoCoV3、DINO、BEiT和MAE已經(jīng)證明基于注意力的模型也非常適合視覺任務(wù)。由于它們能夠適應(yīng)不同的輸入,基于注意的模型可以處理不可見的物體,并且很自然地適合將預(yù)先訓(xùn)練的權(quán)重轉(zhuǎn)移到各種任務(wù)中。所以應(yīng)進(jìn)一步探索預(yù)訓(xùn)練模型和注意力模型的結(jié)合:訓(xùn)練方法、模型結(jié)構(gòu)、訓(xùn)練前任務(wù)和數(shù)據(jù)規(guī)模都值得研究。
?
6. 優(yōu)化(Optimization)
?
SGD和Adam非常適合優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)。對于ViT,AdamW的運(yùn)行效果更好。最近有研究人員通過使用一種新的優(yōu)化器,即銳度感知最小化器(sharpness-aware minimizer, SAM),顯著改進(jìn)了ViT。顯然,注意力網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)是不同的模型;不同的優(yōu)化方法對不同的模型可能效果更好。注意力模型的新優(yōu)化方法可能是一個值得研究的領(lǐng)域。
?
7. 部署(Deployment)
?
卷積神經(jīng)網(wǎng)絡(luò)具有簡單、統(tǒng)一的結(jié)構(gòu),易于部署在各種硬件設(shè)備上。然而,在邊緣器件上部署復(fù)雜多樣的基于注意力的模型是一個難題。但實驗表明,基于注意力的模型比卷積神經(jīng)網(wǎng)絡(luò)提供了更好的結(jié)果,因此值得嘗試找到簡單、高效和有效的基于注意力的模型,使得這些模型可以廣泛部署于各種設(shè)備上。
參考資料:
https://arxiv.org/abs/2111.07624

