<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          思考NLP和CV中的Local和Global建模

          共 3170字,需瀏覽 7分鐘

           ·

          2021-07-15 03:19

          【寫在前面】

          CNN的感受野受卷積核大小的限制,導(dǎo)致了CNN實(shí)際上是一種Local的信息建模;而Self-Attention(SA)是將每個(gè)位置和所有位置計(jì)算attention weight,考慮了每個(gè)點(diǎn)之間的聯(lián)系,因此SA是一種Global的建模。

          起初,CNN大多用在CV領(lǐng)域中,而SA大多用在NLP領(lǐng)域中。但是隨著SA和CNN各自優(yōu)缺點(diǎn)的顯現(xiàn)(如下表所示),越來越多的文章對(duì)這兩個(gè)結(jié)構(gòu)進(jìn)行了混合的應(yīng)用,使得模型不僅能夠捕獲全局的信息,還能建模局部信息來建模更加細(xì)粒度的信息。本文將結(jié)合兩篇NLP和CV的文章,對(duì)全局信息建模(SA)和局部信息建模(CNN)進(jìn)行進(jìn)一步的分析。

          CNN和SA的優(yōu)缺點(diǎn)分析:

          1)Conv的卷積核是靜態(tài)的,是與輸入的特征無關(guān)的;Self-Attention的權(quán)重是根據(jù)QKV動(dòng)態(tài)計(jì)算得到的,所以Self-Attention的動(dòng)態(tài)自適應(yīng)加權(quán)的。

          2)對(duì)卷積來說,它只關(guān)心每個(gè)位置周圍的特征,因此卷積具有平移不變性。但是Self-Attention不具備這個(gè)性質(zhì)。

          3)Conv的感知范圍受卷積核大小的限制,而大范圍的感知能力有利于模型獲得更多的上下文信息。Self-Attention是對(duì)特征進(jìn)行全局感知。

          1.CNN和SA在NLP中的聯(lián)合應(yīng)用

          1.1.  論文地址和代碼

          MUSE:Parallel Multi-Scale Attention for Sequence to Sequence Learning

          論文地址:https://arxiv.org/abs/1911.09483

          代碼地址:https://github.com/lancopku/MUSE

          核心代碼:https://github.com/xmu-xiaoma666/External-Attention-pytorch/blob/master/attention/MUSEAttention.py

          1.2. Motivation

          Transformer在NLP領(lǐng)域曾經(jīng)掀起了熱潮,原因是SA對(duì)句子序列的建模能力非常強(qiáng),性能上遠(yuǎn)超RNN等結(jié)構(gòu),對(duì)RNN-based NLP時(shí)代進(jìn)行了革新。

          但是一些研究表明,SA對(duì)于短句子的建模非常有效,對(duì)于長句子的建模能力就會(huì)減弱。原因是SA建模時(shí)注意力會(huì)過度集中或過度分散,如下圖所示,有的區(qū)域幾乎沒有attention,有的區(qū)域會(huì)有特別大的attention weight,另外大部分區(qū)域的attention weight都比較小,只有很少一部分的區(qū)域的attention weight比較大。

          除此之外,如下圖所示,SA在短句子上的效果非常好,在長句子的效果極具下降,也在一定程度上顯示了SA對(duì)于長句子序列建模能力的不足。(這一點(diǎn)我倒是不太贊同,因?yàn)椋赡苁且驗(yàn)楸旧黹L句子包含的信息更加豐富(或者信息更加冗余),所以對(duì)于模型來說,長句子序列的學(xué)習(xí)本身就比短句子要難,所以也會(huì)導(dǎo)致性能的下降。因此,是否是因?yàn)镾A對(duì)長句子序列建模能力的不足導(dǎo)致的性能下降,還需要做進(jìn)一步的實(shí)驗(yàn))

          基于以上的發(fā)現(xiàn),作者提出了通過引入多尺度的CNN,在不同尺度上進(jìn)行局部信息的感知,由此來提升SA全局建模能力的不足。

          1.3. 方法

          模型結(jié)構(gòu)如上圖所示,作者將原來只能對(duì)特征進(jìn)行全局建模的SA換成能夠進(jìn)行多尺度建模的CNN與SA的結(jié)合(Multi-Scale Attention)。

          在卷積方面作者用的是深度可分離卷積:

          在這里插入圖片描述

          此外,除了感受野為1的特征,其他尺度的Attention在進(jìn)行特征映射的時(shí)候都采用了與SA參數(shù)共享的映射矩陣。

          為了能夠動(dòng)態(tài)選擇不同感受野處理之后的特征,作者還對(duì)各個(gè)卷積核處理之后的結(jié)果進(jìn)行了動(dòng)態(tài)加權(quán):

          1.4. 實(shí)驗(yàn)

          在翻譯任務(wù)上,MUSE模型能夠超過其他的所有模型。

          在感受野的選擇方面,如果只采用一個(gè)卷積,那么k=3或7的時(shí)候效果比較好;采用多個(gè)卷積,比采用單個(gè)卷積的效果要更好一些。

          2. CV中CNN和SA的聯(lián)合應(yīng)用

          2.1. 論文地址代碼

          CoAtNet: Marrying Convolution and Attention for All Data Sizes

          論文地址:https://arxiv.org/abs/2106.04803

          官方代碼:未開源

          核心代碼:https://github.com/xmu-xiaoma666/External-Attention-pytorch/blob/master/attention/CoAtNet.py

          2.2. Motivation

          在本文的【寫在前面】,我們提到了CNN有一個(gè)特點(diǎn),叫做平移不變性。這是CV任務(wù)中的一個(gè)假設(shè)偏置,對(duì)于提高模型在CV任務(wù)上的泛化能力是非常重要的。而SA對(duì)于捕獲圖片的全局信息是非常重要的,能夠極大的提高模型的學(xué)習(xí)能力。因此,作者就想到了,將這兩者都用到了CV任務(wù)中,讓模型不僅擁有很強(qiáng)的泛化能力,也能擁有很強(qiáng)的學(xué)習(xí)能力。

          2.3. 方法&實(shí)驗(yàn)

          本文倒是沒有提什么特別新穎的方法,不過CNN和SA的串聯(lián)結(jié)構(gòu)做了詳細(xì)的實(shí)驗(yàn)。首先作者提出了四種結(jié)構(gòu),1)C-C-C-C;2)C-C-C-T;3)C-C-T-T ;4)C-T-T-T。其中C代表Convolution,T代表Transformer。

          用這幾個(gè)結(jié)構(gòu)分別在ImageNet1K和JFT數(shù)據(jù)集上做了實(shí)驗(yàn),訓(xùn)練的loss和準(zhǔn)確率如下:

          根據(jù)上面的結(jié)果,作者得出來以下的結(jié)論:

          不同結(jié)構(gòu)的泛化能力排序如下:

          在這里插入圖片描述

          不同結(jié)構(gòu)的學(xué)習(xí)能力排序如下:

          然后,作者為了探究C-C-T-T 和 C-T-T-T,哪一個(gè)比較好。作者在JFT上預(yù)訓(xùn)練后,在ImageNet-1K上再訓(xùn)練了30個(gè)epoch。結(jié)果如下:

          可以看出C-C-T-T的效果比較好,因此作者選用了C-C-T-T作為CoAtNet的結(jié)構(gòu)。

          從上圖中可以看出,CNN+SA的結(jié)構(gòu)確實(shí)比單純的CNN或者SA的結(jié)構(gòu)性能要好。

          【總結(jié)】

          CNN和SA其實(shí)還是有一些相似,又有一些不同的。既然各有優(yōu)缺點(diǎn),將他們進(jìn)行結(jié)合確實(shí)是不個(gè)不錯(cuò)的選擇。但是,個(gè)人覺得,目前的方法將CNN和SA做結(jié)合都比較粗暴,所以會(huì)導(dǎo)致sub-optimal的問題。

          個(gè)人覺得,如果能夠?qū)A融入到CNN中,形成一種內(nèi)容自適應(yīng)的卷積;或者將CNN到SA中,形成一種具有平移不變性的SA,這樣的結(jié)構(gòu),或許會(huì)比當(dāng)前這樣直接并列或者串聯(lián)有意思的多。

          除此之外,出了簡單粗暴的將CNN和SA融合的到一起,最近還有一系列文章提出了局部的注意力(e.g., VOLO[1], Focal Self-Attention[2])來提高模型的能力。

          【參考文獻(xiàn)】

          [1].  Yuan, Li, et al. "VOLO: Vision Outlooker for Visual Recognition." arXiv preprint arXiv:2106.13112 (2021).

          [2]. Yang, J., Li, C., Zhang, P., Dai, X., Xiao, B., Yuan, L., & Gao, J. (2021). Focal Self-attention for Local-Global Interactions in Vision Transformers. arXiv preprint arXiv:2107.00641.


          關(guān)于文章有任何問題,歡迎在評(píng)論區(qū)留言或者添加作者微信: xmu_xiaoma

          瀏覽 45
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  性生活免费网站 | 亚洲最大在线观看 | 黄片国产在线观看 | 成年人网站在线 | 国产精品欧美一区二区三区苍井空 |