<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          超全總結(jié)!華為諾亞視覺Transformer綜述解讀

          共 4523字,需瀏覽 10分鐘

           ·

          2022-03-06 16:06

          點擊下方卡片,關(guān)注“新機(jī)器視覺”公眾號

          重磅干貨,第一時間送達(dá)

          2021年對計算機(jī)視覺來說是非常重要的一年,各個任務(wù)的SOTA不斷被刷新。這么多種Vision Transformer模型,到底該選哪一個?新手入坑該選哪個方向?華為諾亞方舟實驗室的這一篇綜述或許能給大家?guī)韼椭?/span>


          綜述論文鏈接:
          https://ieeexplore.ieee.org/document/9716741/


          諾亞開源模型:
          https://github.com/huawei-noah


          華為A+M社區(qū):
          https://www.mindspore.cn/resources/hub

          如何將Transformer應(yīng)用于計算機(jī)視覺(CV)任務(wù),引起了越來越多研究人員的興趣。在過去很長一段時間內(nèi),CNN成為視覺任務(wù)中的主要模型架構(gòu),但如今Transformer呈現(xiàn)出巨大的潛力,有望在視覺領(lǐng)域中打敗CNN的霸主地位。谷歌提出了ViT架構(gòu),首先將圖像切塊,然后用純Transformer架構(gòu)直接應(yīng)用于圖像塊序列,就能完成對圖像的分類,并在多個圖像識別基準(zhǔn)數(shù)據(jù)集上取得了優(yōu)越的性能。除圖像分類任務(wù)之外,Transformer還被用于解決其他視覺問題,包括目標(biāo)檢測(DETR),語義分割(SETR),圖像處理(IPT)等等。由于其出色的性能,越來越多的研究人員提出了基于Transformer的模型來改進(jìn)各種視覺任務(wù)。為了讓大家對視覺Transformer在這兩年的飛速發(fā)展有一個清晰的感受,圖1展示了視覺Transformer的發(fā)展里程碑,從圖像分類到目標(biāo)檢測,從圖片生成到視頻理解,視覺Transformer展現(xiàn)出了非常強(qiáng)的性能。? ? ??

          ?

          ?圖1 視覺Transformer的發(fā)展歷程

          對于很多剛接觸視覺Transformer的研究員,看到這么多模型架構(gòu)或許一時沒有頭緒,在面對具體應(yīng)用需求的時候,也不知道選哪一個視覺Transformer架構(gòu)。另外,想做視覺Transformer的同學(xué)也經(jīng)常在問還有沒有新方向可以挖掘。這些問題或多或少的都可以從這一篇涵蓋了200多篇前沿論文的綜述中找到答案:

          • 按照視覺Transformer的設(shè)計和應(yīng)用場景,本文對視覺Transformer模型進(jìn)行了系統(tǒng)性的歸類,如表1所示:骨干網(wǎng)絡(luò)、高/中層視覺、底層視覺、多模態(tài)等,并且在每一章中針對任務(wù)特點進(jìn)行詳細(xì)分析和對比;


          • 本文針對高效的視覺Transformer進(jìn)行了詳細(xì)的分析,尤其是在標(biāo)準(zhǔn)數(shù)據(jù)集和硬件上進(jìn)行了精度和速度的評測,并討論了一些Transformer模型壓縮和加速的方法;


          • 華為是一家具有軟硬件全棧AI解決方案的公司,基于A+M生態(tài),在Transformer領(lǐng)域已經(jīng)做出了很多有影響力的工作,基于這些經(jīng)驗并且聯(lián)合了業(yè)界知名學(xué)者一起進(jìn)行了深入思考和討論,給出了幾個很有潛力的未來方向,供大家參考。



          表1 視覺Transformer代表性工作

          附華為諾亞方舟實驗室Transformer系列工作:

          1、NLP大模型盤古Alpha:
          https://arxiv.org/abs/2104.12369

          2、中文預(yù)訓(xùn)練模型哪吒:
          https://arxiv.org/abs/1909.00204

          3、輕量模型TinyBERT:
          https://arxiv.org/abs/1909.10351

          4、底層視覺IPT:
          https://arxiv.org/abs/2012.00364

          5、多模態(tài)-悟空:
          https://arxiv.org/abs/2111.07783

          6、骨干網(wǎng)絡(luò)架構(gòu)TNT:
          https://arxiv.org/abs/2103.00112

          01

          骨干網(wǎng)絡(luò)


          視覺Transformer的所有組件,包括多頭自注意力、多層感知機(jī)、殘差連接、層歸一化、位置編碼和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),在視覺識別中起著關(guān)鍵作用。為了提高視覺transformer的精度和效率,業(yè)界已經(jīng)提出了許多模型。下表總結(jié)了視覺Transformer骨干網(wǎng)絡(luò)的結(jié)果,可以更好分析現(xiàn)有網(wǎng)絡(luò)的發(fā)展趨勢。從圖2中的結(jié)果可以看出,將CNN和Transformer結(jié)合起來可以獲得更好的性能,這表明卷積的局部連接和注意力的全局連接能夠相互補(bǔ)充。

          表2 代表性CNN和Transformer網(wǎng)絡(luò)在ImageNet結(jié)果的對比

          圖2 代表性CNN和Transformer網(wǎng)絡(luò)的FLOPs/吞吐量對比

          02

          目標(biāo)檢測


          基于Transformer的目標(biāo)檢測方法也引起了廣泛的興趣,這些方法大致可以分為兩類:基于Transformer的檢測集合預(yù)測方法和基于Transformer骨干網(wǎng)絡(luò)的檢測方法。與基于CNN的檢測器相比,基于Transformer的方法在準(zhǔn)確性和運(yùn)行速度方面都表現(xiàn)出了強(qiáng)大的性能。表3展示了在COCO數(shù)據(jù)集上基于Transformer的不同目標(biāo)檢測器的性能。

          將Transformer用于中高層視覺任務(wù),在輸入embedding、位置編碼、損失函數(shù)以及整體架構(gòu)設(shè)計等方面都有較多的探索空間。一些現(xiàn)有方法從不同角度改進(jìn)自注意力模塊,如變形注意力機(jī)制和自適應(yīng)聚類。盡管如此,利用Transformer來解決中高層視覺任務(wù)的探索仍處于初步階段,需要整個業(yè)界進(jìn)一步的研究。例如,在Transformer之前是否有必要使用CNN或PointNet等特征提取模塊以獲得更好的性能?如何像BERT和GPT-3在NLP領(lǐng)域所做的那樣,使用大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)充分利用Transformer的特性?如何通過結(jié)合特定任務(wù)的先驗知識來設(shè)計更強(qiáng)大的體系結(jié)構(gòu)?之前的一些工作已經(jīng)對上述問題進(jìn)行了初步討論,期待有更多研究來探索更強(qiáng)大的視覺Transformer。除了目標(biāo)檢測,Transformer還被應(yīng)用于其他中高層視覺任務(wù),如圖像分割、人體姿態(tài)估計、目標(biāo)跟蹤等,詳細(xì)內(nèi)容可參考原論文。

          表3 基于Transformer的目標(biāo)檢測器在COCO2017上的結(jié)果對比

          03

          底層視覺


          底層視覺是計算機(jī)視覺領(lǐng)域的一個重要問題,如圖像超分辨率和圖像生成等,而目前也有一些工作來研究如何將Transformer應(yīng)用于底層視覺中來。這些任務(wù)通常將圖像作為輸出(高分辨率或去噪圖像),這比分類、分割和檢測等高層視覺任務(wù)(輸出是標(biāo)簽或框)更具挑戰(zhàn)性。圖3和圖4展示了在底層視覺中使用Transformer的方式。在圖像處理任務(wù)中,首先將圖像編碼為一系列token,Transformer編碼器使用該序列作為輸入,進(jìn)而用Transformer解碼器生成所需圖像。在圖像生成任務(wù)中,基于GAN的模型直接學(xué)習(xí)解碼器生成的token,通過線性映射輸出圖像,而基于Transformer的模型訓(xùn)練自編碼器學(xué)習(xí)圖像的碼本,并使用自回歸Transformer模型預(yù)測編碼的token。而一個有意義的未來研究方向是為不同的圖像處理任務(wù)設(shè)計合適的網(wǎng)絡(luò)架構(gòu)。

          圖3 基于Transformer的圖像生成

          圖4 基于Transformer的圖像處理

          04

          多模態(tài)


          許多研究開始熱衷于挖掘Transformer在處理多模態(tài)任務(wù)(如視頻-文本、圖像-文本和音頻-文本)的潛力。CLIP是其中影響力較大的一個工作,其將自然語言作為監(jiān)督信號,來學(xué)習(xí)更有效的圖像表示。CLIP使用大量文本圖像對來聯(lián)合訓(xùn)練文本編碼器和圖像編碼器。CLIP的文本編碼器是一個標(biāo)準(zhǔn)的Transformer,具有mask的自注意力層;對于圖像編碼器,CLIP考慮了兩種類型的架構(gòu):ResNet和視覺Transformer。CLIP在一個新采集的數(shù)據(jù)集上進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含從互聯(lián)網(wǎng)上收集的4億對圖像-文本對。CLIP展示了驚人的零樣本分類性能,在ImageNet-1K數(shù)據(jù)集上實現(xiàn)了76.2% top-1精度,而無需使用任何ImageNet訓(xùn)練標(biāo)簽。華為諾亞的悟空(英文名:FILIP)模型使用雙塔架構(gòu)構(gòu)建圖文表征,取得了更好的效果,如圖5所示??傊?,基于transformer的多模態(tài)模型在統(tǒng)一各種模態(tài)的數(shù)據(jù)和任務(wù)方面顯示出了其架構(gòu)優(yōu)勢,這表明了transformer具備構(gòu)建一個能夠處理大量應(yīng)用的通用智能代理的潛力。

          圖5 FILIP框架

          05

          高效Transformer


          盡管Transformer模型在各種任務(wù)中取得了成功,但它們對內(nèi)存和計算資源的高要求阻礙了它們在端側(cè)設(shè)備(如手機(jī))上的部署。文章還回顧了為高效部署而對Transformer模型進(jìn)行壓縮和加速的研究,這包括網(wǎng)絡(luò)剪枝、低秩分解、知識蒸餾、網(wǎng)絡(luò)量化和緊湊結(jié)構(gòu)設(shè)計。表4列出了一些壓縮Transformer模型的代表性工作,這些工作采用不同的方法來識別Transformer模型中的冗余。具體來說,剪枝側(cè)重于減少Transformer模型中組件(例如,層、頭)的數(shù)量,而分解將原始矩陣表示為多個小矩陣。緊湊模型也可以直接手動(需要足夠的專業(yè)知識)或自動(例如通過NAS)設(shè)計來得到。

          表4 Transformer壓縮代表性工作

          06

          未來展望


          作為一篇綜述論文,對所探究的領(lǐng)域未來方向的牽引也是非常重要的。本文的最后,也為大家提供了幾個有潛力并且很重要的方向:

          • 業(yè)界流行有各種類型的神經(jīng)網(wǎng)絡(luò),如CNN、RNN和Transformer。在CV領(lǐng)域,CNN曾經(jīng)是主流選擇,但現(xiàn)在Transformer變得越來越流行。CNN可以捕捉歸納偏置,如平移等變和局部性,而ViT使用大規(guī)模訓(xùn)練來超越歸納偏置。從現(xiàn)有的觀察來看,CNN在小數(shù)據(jù)集上表現(xiàn)良好,而Transformer在大數(shù)據(jù)集上表現(xiàn)更好。而在視覺任務(wù)中,究竟是使用CNN還是Transformer,或者兼二者之所長,是一個值得探究的問題。

          • 大多數(shù)現(xiàn)有的視覺Transformer模型設(shè)計為只處理一項任務(wù),而許多NLP模型,如GPT-3,已經(jīng)演示了Transformer如何在一個模型中處理多項任務(wù)。CV領(lǐng)域的IPT能夠處理多個底層視覺任務(wù),例如超分辨率、圖像去雨和去噪。Perceiver和Perceiver IO 也是可以在多個領(lǐng)域工作的Transformer模型,包括圖像、音頻、多模態(tài)和點云。將所有視覺任務(wù)甚至其他任務(wù)統(tǒng)一到一個Transformer(即一個大統(tǒng)一模型)中是一個令人興奮的課題。

          • 另一個方向是開發(fā)高效的視覺Transformer;具體來說,如果讓Transformer具有更高精度和更低資源消耗。性能決定了該模型是否可以應(yīng)用于現(xiàn)實世界的應(yīng)用,而資源成本則影響其在硬件設(shè)備上的部署。而通常精度與資源消耗息息相關(guān),因此確定如何在兩者之間實現(xiàn)更好的平衡是未來研究的一個有意義的課題。

          • 通過使用大量數(shù)據(jù)進(jìn)行訓(xùn)練,Transformer可以在NLP和CV不同任務(wù)上得到領(lǐng)先的性能。最后,文章還留下一個問題:Transformer能否通過更簡單的計算范式和大量數(shù)據(jù)訓(xùn)練獲得令人滿意的結(jié)果?


          本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。

          —THE END—
          瀏覽 116
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久久国内| 亚天堂 | 国内精品人妻无码久久久影院蜜桃 | 亚洲优优色 | 18日本xxxxx |