<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          CNN+Transformer=SOTA!CNN丟掉的全局信息,Transformer來補(bǔ)

          共 2279字,需瀏覽 5分鐘

           ·

          2021-04-06 23:41



            新智元報(bào)道  

          來源:Microsoft

          編輯:LRS、小勻

          【新智元導(dǎo)讀】微軟在arxiv上發(fā)布新論文,把CNN帶入Transformer后能夠同時(shí)兼顧全局和局部的信息。


          在計(jì)算機(jī)視覺技術(shù)發(fā)展中,最重要的模型當(dāng)屬卷積神經(jīng)網(wǎng)絡(luò)(CNN),它是其他復(fù)雜模型的基礎(chǔ)。

           

          CNN具備三個(gè)重要的特性:一定程度的旋轉(zhuǎn)、縮放不變性;共享權(quán)值和局部感受野;層次化的結(jié)構(gòu),捕捉到的特征從細(xì)節(jié)到整體。

           

           

          這些特性使得CNN非常適合計(jì)算機(jī)視覺任務(wù),也使CNN成為深度學(xué)習(xí)時(shí)代計(jì)算機(jī)視覺領(lǐng)域的基石,但CNN的細(xì)節(jié)捕捉能力使它的全局建模能力較弱。

           

          所以如何使CV模型捕獲全局特征逐漸成為研究熱點(diǎn)。

           

          NLP的模型能解決CV問題?


          2017年,Transformer橫空出世,Attention is all you need!隨后BERT類模型在各大NLP排行榜屠殺,不斷逼近、超過人類的表現(xiàn)。

           

          2020年Google Brain研究員提出的Vision Transformer(ViT)以最小的改動(dòng)將Transformer應(yīng)用于用CV領(lǐng)域。

           

          Transformer的動(dòng)態(tài)注意力機(jī)制、全局建模能力使得ViT在通過超大規(guī)模預(yù)訓(xùn)練后,表現(xiàn)出了很強(qiáng)的特征學(xué)習(xí)能力。

           

          然而,ViT在設(shè)計(jì)上是沒有充分利用視覺信號(hào)的空間信息,ViT仍然需要借助Transformer中的Position Embedding來彌補(bǔ)空間信息的損失。

           

          視覺信號(hào)具有很強(qiáng)的2D結(jié)構(gòu)信息,并且與局部特征具有很強(qiáng)的相關(guān)性,這些先驗(yàn)知識(shí)在ViT的設(shè)計(jì)中都沒有被利用上。

           

          CNN的設(shè)計(jì)又可以很好地彌補(bǔ)ViT設(shè)計(jì)中的這些不足,或者也可以說,ViT的設(shè)計(jì)彌補(bǔ)了CNN全局建模能力較弱的問題。

           

          這篇論文提出一種全新的基礎(chǔ)網(wǎng)絡(luò)Convolutional vision Transformers (CvT),既具備Transforms的動(dòng)態(tài)注意力機(jī)制、全局建模能力,又具備CNN的局部捕捉能力,同時(shí)結(jié)合局部和全局的建模能力。

           

           

          CvT是一種層級(jí)設(shè)計(jì)結(jié)構(gòu),在每一層級(jí),2D的圖像或Tokens通過Convolutional Embedding生成或更新特征向量。

           

          每一層包括N個(gè)典型的Convolutional Transformer Block,把線性變換替換成卷積變換輸入到多頭attention機(jī)制,再進(jìn)行Layer Norm。

           

          Convolutional Projecton使得CvT網(wǎng)絡(luò)可以維持圖像信號(hào)的空間結(jié)構(gòu)信息,也使得Tokens更好的利用了圖像信息的局部信息相關(guān)性,同時(shí)也利用了注意力機(jī)制對(duì)全局信息進(jìn)行建模。

           

          而卷積操作的靈活性,使得我們可以通過設(shè)置卷積操作的步長(zhǎng)來對(duì)key,value進(jìn)行降采樣,從而進(jìn)一步提升Transformer結(jié)構(gòu)的計(jì)算效率。

           

          Convolutional Embedding和Convolutional Projection充分利用了視覺信號(hào)的空間特性,所以在CvT的結(jié)構(gòu)中,空間信息不需要引入position embedding,使得CvT更靈活的應(yīng)用于計(jì)算機(jī)視覺中各類下游任務(wù),如物體檢測(cè),語義分割等。

           

          性能表現(xiàn)


          CvT與同時(shí)期的其他Transformer-based工作相比,在同等模型大小下在ImageNet1k上取得了明顯優(yōu)于其他模型的準(zhǔn)確率。

           

          此外,CvT在大規(guī)模數(shù)據(jù)集ImageNet22k的預(yù)訓(xùn)練上也取得了不錯(cuò)的性能,CvT-W24以更少的參數(shù)量,在ImageNet-1k 基準(zhǔn)測(cè)試集上獲得了87.7%的Top-1準(zhǔn)確率,超越在同樣規(guī)模數(shù)據(jù)集訓(xùn)練的ViT-H/L模型。

           

           

          CvT 和SOTA模型模型在Image net, ImageNet Real和ImageNet V2這些數(shù)據(jù)集上性能的比較。同等規(guī)模和計(jì)算量情況下, CvT的效率優(yōu)于ResNet和ViT,甚至同時(shí)期的其它Transformer-based的工作。

           

          通過網(wǎng)絡(luò)結(jié)構(gòu)搜索技術(shù),對(duì)CvT的模型結(jié)構(gòu)像每層Convolutional Projection中的步長(zhǎng)和每層MLP的expansion ratio進(jìn)行有效的搜索后,最優(yōu)的模型CvT-13-NAS。以18M的模型參數(shù)量, 4.1G的FLOPs在ImageNet1k上取得了82.2的結(jié)果。

           

           

          CvT 和Google的BiT,ViT在下游任務(wù)中的遷移能力,CvT-W24以更少的模型參數(shù)量在ImageNet1k上取得了87.7的結(jié)果,明顯優(yōu)于Google的BiT-152x4和ViT-H/16,進(jìn)一步驗(yàn)證了CvT模型優(yōu)異的性能。

           

           

          CvT是一種結(jié)合了CNN結(jié)構(gòu)和Transformers結(jié)構(gòu)各自優(yōu)勢(shì)的全新基礎(chǔ)網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果也驗(yàn)證了CvT在ImageNet以及各種分類任務(wù)中的有效性??梢哉雇?,這種融合的網(wǎng)絡(luò)勢(shì)必會(huì)對(duì)視覺其他的任務(wù)性能提高進(jìn)一步影響。



          參考資料:

          https://arxiv.org/pdf/2103.15808.pdf



          瀏覽 69
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  成人精品91 | 亚洲AV无MM码性色AV无码网站HMM | 久久狼人 | 亚州的图五月丁香婷婷 | 狠狠躁夜夜躁人人爽视频 |