<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ICCV2021 | 首個(gè)CNN+Transformer的backbone 模型!Conformer準(zhǔn)確率高達(dá)84.1%!

          共 2659字,需瀏覽 6分鐘

           ·

          2021-08-21 01:12

          點(diǎn)擊下方AI算法與圖像處理”,一起進(jìn)步!

          重磅干貨,第一時(shí)間送達(dá)



          來(lái)源: 新智元

          【導(dǎo)讀】Transformer和CNN在處理視覺表征方面都有著各自的優(yōu)勢(shì)以及一些不可避免的問題。因此,國(guó)科大、鵬城實(shí)驗(yàn)室和華為研究人員首次將二者進(jìn)行了融合并提出全新的Conformer模型,其可以在不顯著增加計(jì)算量的前提下顯著提升了基網(wǎng)表征能力。論文已被ICCV 2021接收。

           

          卷積運(yùn)算善于提取局部特征,卻不具備提取全局表征的能力。


          為了感受圖像全局信息,CNN必須依靠堆疊卷積層,采用池化操作來(lái)擴(kuò)大感受野。


          Visual Transformer的提出則打破了CNN在視覺表征方面的壟斷。


          得益于自注意力機(jī)制,Visual Transformer (ViT、Deit)具備了全局、動(dòng)態(tài)感受野的能力,在圖像識(shí)別任務(wù)上取得了更好的結(jié)果。


          但是受限于的計(jì)算復(fù)雜度,Transformer需要減小輸入分辨率、增大下采樣步長(zhǎng),這造成切分patch階段損失圖像細(xì)節(jié)信息。


          因此,中國(guó)科學(xué)院大學(xué)聯(lián)合鵬城實(shí)驗(yàn)室和華為提出了Conformer基網(wǎng)模型,將Transformer與CNN進(jìn)行了融合。


          Conformer模型可以在不顯著增加計(jì)算量的前提下顯著提升了基網(wǎng)表征能力。目前,論文已被ICCV 2021接收。


          論文地址:https://arxiv.org/abs/2105.03889

          項(xiàng)目地址:https://github.com/pengzhiliang/Conformer


          此外,Conformer中含有并行的CNN分支和Transformer分支,通過(guò)特征耦合模塊融合局部與全局特征,目的在于不損失圖像細(xì)節(jié)的同時(shí)捕捉圖像全局信息。


          特征圖可視化

           

          對(duì)一張背景相對(duì)復(fù)雜的圖片的特征進(jìn)行可視化,以此來(lái)說(shuō)明Conformer捕捉局部和全局信息的能力:


          1. 淺層Transformer(DeiT)特征圖(c列)相比于ResNet(a列)丟失很多細(xì)節(jié)信息,而Conformer的Transformer分支特征圖(d列)更好保留了局部特征;


          2. 從深層的特征圖來(lái)看,DeiT特征圖(g列)相比于ResNet(e列)會(huì)保留全局的特征信息,但是噪聲會(huì)更大一點(diǎn);


          3. 得益于Transformer分支提供的全局特征,Conformer的CNN分支特征圖(f列)會(huì)保留更加完整的特征(相比于e列);


          4. Transformer分支特征圖(h列)相比于DeiT(g列)則是保留了更多細(xì)節(jié)信息,且抑制了噪聲。

           

          網(wǎng)絡(luò)結(jié)構(gòu)


          Conformer是一個(gè)并行雙體網(wǎng)結(jié)構(gòu),其中CNN分支采用了ResNet結(jié)構(gòu),Transformer分支則是采用了ViT結(jié)構(gòu)。
           
          網(wǎng)絡(luò)結(jié)構(gòu)圖
           
          (c)展示了Conformer的縮略圖:一個(gè)標(biāo)準(zhǔn)的ResNet stem結(jié)構(gòu),兩條并行分支,兩個(gè)分類器。

          (b)展示了每個(gè)block中Trans和Conv的連接關(guān)系:以2個(gè)bottleneck為例,經(jīng)過(guò)第一個(gè)bottleneck 3x3卷積后的局部特征經(jīng)過(guò)特征耦合模塊(FCU)傳給Transformer block。

          Transformer block將此局部特征與前一個(gè)Trans block的全局特征相加通過(guò)當(dāng)前的trans block,運(yùn)算結(jié)束后再將結(jié)果通過(guò)FCU模塊反傳給Conv block。

          Conv block的最后一個(gè)bottleneck將其與經(jīng)過(guò)1x1卷積后的局部特征相加,一起輸入3x3卷積。

          之所以將Transformer block夾在兩個(gè)3x3卷積之間的原因有兩個(gè)

          1. bottleneck中3x3卷積的channel比較少,使得FCU的fc層參數(shù)不會(huì)很大;


          2. 3x3卷積具有很強(qiáng)的位置先驗(yàn)信息,保證去掉位置編碼后的性能。


          實(shí)驗(yàn)結(jié)果


          Conformer網(wǎng)絡(luò)在ImageNet上做了分類實(shí)驗(yàn),并做為預(yù)訓(xùn)練模型在MSCOCO上做了目標(biāo)檢測(cè)和實(shí)例分割實(shí)驗(yàn)。
           
          分類準(zhǔn)確率對(duì)比
           
          參數(shù)量為37.7M,計(jì)算量為10.6GFlops的Conformer-S超過(guò)了參數(shù)量為86.6M,計(jì)算量為17.6GFlops的DeiT-B 約1.6%的準(zhǔn)確率。

          當(dāng)Conformer-S增大參數(shù)量到83.3M,準(zhǔn)確率則是達(dá)到84.1%
           
          不同基網(wǎng)在分類速度和準(zhǔn)確率上的對(duì)比
           
          目標(biāo)檢測(cè)和實(shí)例分割結(jié)果的對(duì)比

          運(yùn)行幀率為:
           
          目標(biāo)檢測(cè)和實(shí)例分割幀率對(duì)比
           
          在使用FPN+Faster Mask R-CNN框架時(shí),Conformer-S/32在幀率/參數(shù)/計(jì)算量可比的情況下,目標(biāo)檢測(cè)精度超過(guò)Faster RCNN 3.7%,實(shí)例分割超過(guò)Mask R-CNN 3.6%。
           

          分析總結(jié)


          Conformer是第一個(gè)并行的CNN和Transformer混合網(wǎng)絡(luò),通過(guò)提出的特征耦合模塊FCU在每個(gè)階段的局部特征和全局特征都會(huì)進(jìn)行交互,使得Conformer兼具兩者的優(yōu)勢(shì)。

          在分類上,能夠以更小的參數(shù)和計(jì)算量取得更高的準(zhǔn)確率,在目標(biāo)和實(shí)例分割上也能一致地取得大幅度的提升。

          目前Conformer只是在ImageNet1K數(shù)據(jù)集合上訓(xùn)練,其結(jié)合更大預(yù)訓(xùn)練數(shù)據(jù)(如ImageNet21K)集合以后將成為一種很有潛力的基網(wǎng)結(jié)構(gòu)。
           

          作者介紹


          彭智亮、黃瑋,中國(guó)科學(xué)院大學(xué)在讀碩士生

          顧善植,鵬城實(shí)驗(yàn)室工程師

          王耀威,鵬城實(shí)驗(yàn)室研究員

          謝凌曦,華為公司研究員

          焦建彬、葉齊祥,中國(guó)科學(xué)院大學(xué)教授



          參考資料:

          https://arxiv.org/abs/2105.03889


          努力分享優(yōu)質(zhì)的計(jì)算機(jī)視覺相關(guān)內(nèi)容,歡迎關(guān)注:
          個(gè)人微信(如果沒有備注不拉群!
          請(qǐng)注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱



          下載1:何愷明頂會(huì)分享


          AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


          下載2:終身受益的編程指南:Google編程風(fēng)格指南


          AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):c++,即可下載。歷經(jīng)十年考驗(yàn),最權(quán)威的編程規(guī)范!



          下載3 CVPR2021

          AI算法與圖像處公眾號(hào)后臺(tái)回復(fù):CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文


          瀏覽 163
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  爱福利一区二区三区 | 日韩 成人 在线 中字 | AV片网址| 影音先锋激情视频在线 | 免费日韩在线三级黄色电影网址 |