超全總結(jié)!華為諾亞視覺Transformer綜述解讀
點擊下方卡片,關(guān)注“新機(jī)器視覺”公眾號
重磅干貨,第一時間送達(dá)
2021年對計算機(jī)視覺來說是非常重要的一年,各個任務(wù)的SOTA不斷被刷新。這么多種Vision Transformer模型,到底該選哪一個?新手入坑該選哪個方向?華為諾亞方舟實驗室的這一篇綜述或許能給大家?guī)韼椭?/span>
綜述論文鏈接:
https://ieeexplore.ieee.org/document/9716741/
諾亞開源模型:
https://github.com/huawei-noah
華為A+M社區(qū):
https://www.mindspore.cn/resources/hub
如何將Transformer應(yīng)用于計算機(jī)視覺(CV)任務(wù),引起了越來越多研究人員的興趣。在過去很長一段時間內(nèi),CNN成為視覺任務(wù)中的主要模型架構(gòu),但如今Transformer呈現(xiàn)出巨大的潛力,有望在視覺領(lǐng)域中打敗CNN的霸主地位。谷歌提出了ViT架構(gòu),首先將圖像切塊,然后用純Transformer架構(gòu)直接應(yīng)用于圖像塊序列,就能完成對圖像的分類,并在多個圖像識別基準(zhǔn)數(shù)據(jù)集上取得了優(yōu)越的性能。除圖像分類任務(wù)之外,Transformer還被用于解決其他視覺問題,包括目標(biāo)檢測(DETR),語義分割(SETR),圖像處理(IPT)等等。由于其出色的性能,越來越多的研究人員提出了基于Transformer的模型來改進(jìn)各種視覺任務(wù)。為了讓大家對視覺Transformer在這兩年的飛速發(fā)展有一個清晰的感受,圖1展示了視覺Transformer的發(fā)展里程碑,從圖像分類到目標(biāo)檢測,從圖片生成到視頻理解,視覺Transformer展現(xiàn)出了非常強(qiáng)的性能。? ? ??
?
?圖1 視覺Transformer的發(fā)展歷程按照視覺Transformer的設(shè)計和應(yīng)用場景,本文對視覺Transformer模型進(jìn)行了系統(tǒng)性的歸類,如表1所示:骨干網(wǎng)絡(luò)、高/中層視覺、底層視覺、多模態(tài)等,并且在每一章中針對任務(wù)特點進(jìn)行詳細(xì)分析和對比;
本文針對高效的視覺Transformer進(jìn)行了詳細(xì)的分析,尤其是在標(biāo)準(zhǔn)數(shù)據(jù)集和硬件上進(jìn)行了精度和速度的評測,并討論了一些Transformer模型壓縮和加速的方法;
華為是一家具有軟硬件全棧AI解決方案的公司,基于A+M生態(tài),在Transformer領(lǐng)域已經(jīng)做出了很多有影響力的工作,基于這些經(jīng)驗并且聯(lián)合了業(yè)界知名學(xué)者一起進(jìn)行了深入思考和討論,給出了幾個很有潛力的未來方向,供大家參考。

https://arxiv.org/abs/2104.12369
https://arxiv.org/abs/1909.00204
https://arxiv.org/abs/1909.10351
https://arxiv.org/abs/2012.00364
https://arxiv.org/abs/2111.07783
https://arxiv.org/abs/2103.00112
骨干網(wǎng)絡(luò)



目標(biāo)檢測


底層視覺



多模態(tài)


高效Transformer


未來展望

業(yè)界流行有各種類型的神經(jīng)網(wǎng)絡(luò),如CNN、RNN和Transformer。在CV領(lǐng)域,CNN曾經(jīng)是主流選擇,但現(xiàn)在Transformer變得越來越流行。CNN可以捕捉歸納偏置,如平移等變和局部性,而ViT使用大規(guī)模訓(xùn)練來超越歸納偏置。從現(xiàn)有的觀察來看,CNN在小數(shù)據(jù)集上表現(xiàn)良好,而Transformer在大數(shù)據(jù)集上表現(xiàn)更好。而在視覺任務(wù)中,究竟是使用CNN還是Transformer,或者兼二者之所長,是一個值得探究的問題。
大多數(shù)現(xiàn)有的視覺Transformer模型設(shè)計為只處理一項任務(wù),而許多NLP模型,如GPT-3,已經(jīng)演示了Transformer如何在一個模型中處理多項任務(wù)。CV領(lǐng)域的IPT能夠處理多個底層視覺任務(wù),例如超分辨率、圖像去雨和去噪。Perceiver和Perceiver IO 也是可以在多個領(lǐng)域工作的Transformer模型,包括圖像、音頻、多模態(tài)和點云。將所有視覺任務(wù)甚至其他任務(wù)統(tǒng)一到一個Transformer(即一個大統(tǒng)一模型)中是一個令人興奮的課題。
另一個方向是開發(fā)高效的視覺Transformer;具體來說,如果讓Transformer具有更高精度和更低資源消耗。性能決定了該模型是否可以應(yīng)用于現(xiàn)實世界的應(yīng)用,而資源成本則影響其在硬件設(shè)備上的部署。而通常精度與資源消耗息息相關(guān),因此確定如何在兩者之間實現(xiàn)更好的平衡是未來研究的一個有意義的課題。
通過使用大量數(shù)據(jù)進(jìn)行訓(xùn)練,Transformer可以在NLP和CV不同任務(wù)上得到領(lǐng)先的性能。最后,文章還留下一個問題:Transformer能否通過更簡單的計算范式和大量數(shù)據(jù)訓(xùn)練獲得令人滿意的結(jié)果?
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。

