2017亚洲天堂,五月天婷婷丁香激情,ijⅰjzzijⅰjzz日本,丁香五月天在线,操屄视频在线播放,小泽玛利亚大战黑人,无码人妻一区二区三区精品不付款 ,国产黄色电影在线看

??新智元報道??

編輯：LRS

【新智元導(dǎo)讀】2014年的RAM模型拉開了attention的序幕，距今發(fā)展已有7年，無數(shù)的研究成果涌現(xiàn)出來。最近清華大學(xué)、南開大學(xué)的研究人員共同寫就一篇關(guān)于注意力機(jī)制的綜述，將attention分為四類，還指出7大問題還懸而未決！

神經(jīng)網(wǎng)絡(luò)中注意力（attention）機(jī)制可謂是如日中天，在各類神經(jīng)網(wǎng)絡(luò)模型中都有它的身影，尤其是Transformer更是以self-attention為核心。

受到人類注意力的啟發(fā)，將注意力機(jī)制引入計算機(jī)視覺模型后可以模擬人類視覺系統(tǒng)，能夠?qū)⑤斎雸D像特征的權(quán)重進(jìn)行動態(tài)調(diào)整。

注意力機(jī)制在圖像分類、目標(biāo)檢測、語義分割、視頻理解、圖像生成、三維視覺、多模態(tài)任務(wù)和自監(jiān)督學(xué)習(xí)等許多視覺任務(wù)中都取得了很大的成功。

來自清華大學(xué)、南開大學(xué)、卡迪夫大學(xué)的研究人員共同寫了一篇survey，對計算機(jī)視覺中的各種注意力機(jī)制進(jìn)行了全面的回顧，并根據(jù)這些機(jī)制的方法進(jìn)行分類，如通道注意力（channel attention）、空間注意力（spatial attention）、時序注意力（temporal attention）和分支注意力（branch attention）。論文中涉及到的代碼已經(jīng)開源。

文章的通訊作者胡事民是清華大學(xué)計算機(jī)系教授，可視媒體研究中心主任。2002年獲得國家杰出青年基金資助，2006年-2015年擔(dān)任國家重大基礎(chǔ)研究（973）計劃項目首席科學(xué)家，2007年入選教育部長江學(xué)者特聘教授，現(xiàn)為國家自然科學(xué)基金委創(chuàng)新群體項目學(xué)術(shù)帶頭人。

主要從事計算機(jī)圖形學(xué)、虛擬現(xiàn)實、智能信息處理和系統(tǒng)軟件等方面的教學(xué)與研究工作。曾擔(dān)任PG、SGP、CVM、VR、EG、SIGGRAPH ASIA等多個國際重要會議的程序委員會主席和委員，曾經(jīng)和現(xiàn)任IEEE、Elsevier、Springer等多個期刊的主編、副主編和編委。

將模型的注意力轉(zhuǎn)移到圖像中最重要的區(qū)域，并且忽視無關(guān)部分的方法稱為注意力機(jī)制。人類的視覺系統(tǒng)使用注意力來幫助高效、有效地分析和理解復(fù)雜場景，這反過來又激勵了研究人員將注意力機(jī)制引入計算機(jī)視覺系統(tǒng)，以提高模型的性能。

在視覺系統(tǒng)中，注意力機(jī)制可以被視為一個動態(tài)的選擇過程，根據(jù)輸入圖像的重要性，通過自適應(yīng)加權(quán)來實現(xiàn)。

在過去的十年里，注意力機(jī)制在計算機(jī)視覺中發(fā)揮了越來越重要的作用。研究進(jìn)展可大致分為四個階段。

第一階段從RAM開始，開創(chuàng)了將深度神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合的工作。它能夠循環(huán)預(yù)測重要區(qū)域，并通過策略梯度以端到端的方式更新整個網(wǎng)絡(luò)。后來，各種相關(guān)論文都采用了類似的策略在視覺中使用注意力。在這一階段，遞歸神經(jīng)網(wǎng)絡(luò)（RNN）是注意力機(jī)制的必要工具。

在第二階段，Jaderberg提出了STN，引入了一個子網(wǎng)來預(yù)測用于選擇輸入中重要區(qū)域的仿射轉(zhuǎn)化，明確預(yù)測判別輸入特性是第二階段的主要特征；DCNS也是其中代表性的網(wǎng)絡(luò)。

在第三階段，SENet 提出了一種隱式自適應(yīng)預(yù)測潛在關(guān)鍵特征的信道注意力網(wǎng)絡(luò)。CBAM和ECANET是本階段的代表性工作。

最后一個階段是自注意力的時代。自我關(guān)注最早出現(xiàn)在Attention Is All You Need 那篇論文中，并迅速在自然語言處理領(lǐng)域取得了顯著的性能提升，隨后有研究人員將自注意力引入計算機(jī)視覺領(lǐng)域，并提出了一種在視頻理解和目標(biāo)檢測方面取得巨大成功的新型non-local 網(wǎng)絡(luò)。Emanet、CCNet、Hamnet和Stand-Alone網(wǎng)絡(luò)這些工作提高了模型的速度、結(jié)果質(zhì)量和通用性。

研究人員在文中還指出了未來注意力機(jī)制的六個可能研究方向：

1. 注意力的必要和充分條件

常見的注意力公式是必要條件，但并非充要條件。例如，GoogleNet符合這個公式，但并不屬于注意力機(jī)制。但目前研究領(lǐng)域還沒人關(guān)注注意力機(jī)制的充要條件，所以這個研究方向還有待探索，也能夠幫助我們對注意力機(jī)制的理解。

2. 通用的注意力塊（general attention block）

目前的研究工作都需要為每項不同的任務(wù)設(shè)計一個特別的注意力機(jī)制，這也要求研究人員在探索潛在的注意力方法方面需要耗費相當(dāng)大的功夫。例如channel attention 是圖像分類的一個很好的選擇，而spatial attention則很適合于語義分割、目標(biāo)檢測等密集的預(yù)測任務(wù)。channel attention主要關(guān)注于重點是什么（what to pay attention to），而spatial attention的關(guān)注重點是哪里（where to pay attention）。

根據(jù)這一觀察結(jié)果，是否可以有一個利用所有類型注意機(jī)制的一般性attention block？例如，軟選擇機(jī)制（branch attention）可以根據(jù)所執(zhí)行的特定任務(wù)在channel attention、spatial attention和temporal attention之間進(jìn)行選擇。

3. 特性和可解釋性（Characterisation and interpretability）

注意力機(jī)制是由人類視覺系統(tǒng)驅(qū)動的，是朝著建立一個可預(yù)測的計算機(jī)視覺系統(tǒng)的目標(biāo)邁出的一步。通常通過繪制注意力圖可以來理解基于注意力的模型，但這只能給人一種直觀的感覺，而非準(zhǔn)確的理解。

但在安全性相關(guān)或?qū)Π踩院苤匾暤膽?yīng)用領(lǐng)域，如醫(yī)療診斷和自動駕駛系統(tǒng)，往往有更嚴(yán)格的要求。在這些領(lǐng)域需要更好地描述工作方法，包括故障模式。發(fā)展具有特征性（charaterisable）和可解釋性的注意力模型可以使它們適用更廣泛的應(yīng)用領(lǐng)域。

4. 稀疏激活（sparse activation）

可視化一些注意力圖（attention map）后可以得到一些和ViT 一致的結(jié)論，即注意力機(jī)制可能會產(chǎn)生稀疏激活。這種現(xiàn)象帶來一個啟示是，稀疏激活可以在深度神經(jīng)網(wǎng)絡(luò)中實現(xiàn)更強(qiáng)的性能。但值得注意的是，稀疏激活與人類認(rèn)知相似，這也許能夠激勵我們探索哪種架構(gòu)更可以模擬人類視覺系統(tǒng)。

5. 基于注意力的預(yù)訓(xùn)練模型

大規(guī)模的基于注意力的預(yù)訓(xùn)練模型在自然語言處理方面取得了巨大的成功。而最近如MoCoV3、DINO、BEiT和MAE已經(jīng)證明基于注意力的模型也非常適合視覺任務(wù)。由于它們能夠適應(yīng)不同的輸入，基于注意的模型可以處理不可見的物體，并且很自然地適合將預(yù)先訓(xùn)練的權(quán)重轉(zhuǎn)移到各種任務(wù)中。所以應(yīng)進(jìn)一步探索預(yù)訓(xùn)練模型和注意力模型的結(jié)合：訓(xùn)練方法、模型結(jié)構(gòu)、訓(xùn)練前任務(wù)和數(shù)據(jù)規(guī)模都值得研究。

6. 優(yōu)化（Optimization）

SGD和Adam非常適合優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)。對于ViT，AdamW的運(yùn)行效果更好。最近有研究人員通過使用一種新的優(yōu)化器，即銳度感知最小化器（sharpness-aware minimizer, SAM），顯著改進(jìn)了ViT。顯然，注意力網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)是不同的模型；不同的優(yōu)化方法對不同的模型可能效果更好。注意力模型的新優(yōu)化方法可能是一個值得研究的領(lǐng)域。

7. 部署（Deployment）

卷積神經(jīng)網(wǎng)絡(luò)具有簡單、統(tǒng)一的結(jié)構(gòu)，易于部署在各種硬件設(shè)備上。然而，在邊緣器件上部署復(fù)雜多樣的基于注意力的模型是一個難題。但實驗表明，基于注意力的模型比卷積神經(jīng)網(wǎng)絡(luò)提供了更好的結(jié)果，因此值得嘗試找到簡單、高效和有效的基于注意力的模型，使得這些模型可以廣泛部署于各種設(shè)備上。

參考資料：

https://arxiv.org/abs/2111.07624

清華南開發(fā)布attention 7年全回顧：注意力機(jī)制還有7大問題要研究！

??新智元報道??