ICCV2021 | 首個(gè)CNN+Transformer的backbone 模型!Conformer準(zhǔn)確率高達(dá)84.1%!
點(diǎn)擊下方“AI算法與圖像處理”,一起進(jìn)步!
重磅干貨,第一時(shí)間送達(dá)

點(diǎn)擊下方“AI算法與圖像處理”,一起進(jìn)步!
重磅干貨,第一時(shí)間送達(dá)

來(lái)源: 新智元
【導(dǎo)讀】Transformer和CNN在處理視覺表征方面都有著各自的優(yōu)勢(shì)以及一些不可避免的問題。因此,國(guó)科大、鵬城實(shí)驗(yàn)室和華為研究人員首次將二者進(jìn)行了融合并提出全新的Conformer模型,其可以在不顯著增加計(jì)算量的前提下顯著提升了基網(wǎng)表征能力。論文已被ICCV 2021接收。
卷積運(yùn)算善于提取局部特征,卻不具備提取全局表征的能力。
為了感受圖像全局信息,CNN必須依靠堆疊卷積層,采用池化操作來(lái)擴(kuò)大感受野。
Visual Transformer的提出則打破了CNN在視覺表征方面的壟斷。
得益于自注意力機(jī)制,Visual Transformer (ViT、Deit)具備了全局、動(dòng)態(tài)感受野的能力,在圖像識(shí)別任務(wù)上取得了更好的結(jié)果。
但是受限于的計(jì)算復(fù)雜度,Transformer需要減小輸入分辨率、增大下采樣步長(zhǎng),這造成切分patch階段損失圖像細(xì)節(jié)信息。
因此,中國(guó)科學(xué)院大學(xué)聯(lián)合鵬城實(shí)驗(yàn)室和華為提出了Conformer基網(wǎng)模型,將Transformer與CNN進(jìn)行了融合。
Conformer模型可以在不顯著增加計(jì)算量的前提下顯著提升了基網(wǎng)表征能力。目前,論文已被ICCV 2021接收。

論文地址:https://arxiv.org/abs/2105.03889
項(xiàng)目地址:https://github.com/pengzhiliang/Conformer
此外,Conformer中含有并行的CNN分支和Transformer分支,通過(guò)特征耦合模塊融合局部與全局特征,目的在于不損失圖像細(xì)節(jié)的同時(shí)捕捉圖像全局信息。

特征圖可視化
對(duì)一張背景相對(duì)復(fù)雜的圖片的特征進(jìn)行可視化,以此來(lái)說(shuō)明Conformer捕捉局部和全局信息的能力:
淺層Transformer(DeiT)特征圖(c列)相比于ResNet(a列)丟失很多細(xì)節(jié)信息,而Conformer的Transformer分支特征圖(d列)更好保留了局部特征;
從深層的特征圖來(lái)看,DeiT特征圖(g列)相比于ResNet(e列)會(huì)保留全局的特征信息,但是噪聲會(huì)更大一點(diǎn);
得益于Transformer分支提供的全局特征,Conformer的CNN分支特征圖(f列)會(huì)保留更加完整的特征(相比于e列);
Transformer分支特征圖(h列)相比于DeiT(g列)則是保留了更多細(xì)節(jié)信息,且抑制了噪聲。
網(wǎng)絡(luò)結(jié)構(gòu)

bottleneck中3x3卷積的channel比較少,使得FCU的fc層參數(shù)不會(huì)很大;
3x3卷積具有很強(qiáng)的位置先驗(yàn)信息,保證去掉位置編碼后的性能。
實(shí)驗(yàn)結(jié)果



分析總結(jié)
作者介紹
參考資料:
https://arxiv.org/abs/2105.03889
個(gè)人微信(如果沒有備注不拉群!) 請(qǐng)注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會(huì)分享
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:終身受益的編程指南:Google編程風(fēng)格指南
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):c++,即可下載。歷經(jīng)十年考驗(yàn),最權(quán)威的編程規(guī)范!
下載3 CVPR2021 在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

