<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Transformer是如何超越ResNet的?

          共 6276字,需瀏覽 13分鐘

           ·

          2021-06-13 09:06

          ↑ 點(diǎn)擊藍(lán)字 關(guān)注極市平臺(tái)

          作者丨ChaucerG
          來(lái)源丨集智書(shū)童
          編輯丨極市平臺(tái)

          極市導(dǎo)讀

           

          本文證明了在沒(méi)有大規(guī)模預(yù)訓(xùn)練或強(qiáng)數(shù)據(jù)增廣的情況下,在ImageNet上從頭開(kāi)始訓(xùn)練時(shí),所得ViT的性能優(yōu)于類(lèi)似大小和吞吐量的ResNet!而且還擁有更敏銳的注意力圖。 >>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺(jué)的最前沿


          1 簡(jiǎn)介

          Vision Transformers(ViTs)和MLPs標(biāo)志著在用通用神經(jīng)架構(gòu)替換手動(dòng)特征或歸納偏置方面的進(jìn)一步努力。現(xiàn)有工作通過(guò)大量數(shù)據(jù)為模型賦能,例如大規(guī)模預(yù)訓(xùn)練和/或重復(fù)的強(qiáng)數(shù)據(jù)增廣,并且還報(bào)告了與優(yōu)化相關(guān)的問(wèn)題(例如,對(duì)初始化和學(xué)習(xí)率的敏感性)。因此,本文從損失幾何的角度研究了ViTs和MLP-Mixer,旨在提高模型在訓(xùn)練和推理時(shí)的泛化效率??梢暬虷essian揭示了收斂模型極其敏感的局部最小值。同時(shí)通過(guò)使用最近提出的銳度感知優(yōu)化器提高平滑度,進(jìn)而大大提高了ViT和MLP-Mixer在跨越監(jiān)督、對(duì)抗、對(duì)比和遷移學(xué)習(xí)(例如,+5.3% 和 +11.0%)的各種任務(wù)上的準(zhǔn)確性和魯棒性使用簡(jiǎn)單的Inception進(jìn)行預(yù)處理,ViT-B/16和Mixer-B/16在ImageNet上的準(zhǔn)確率分別為T(mén)op-1)。作者研究表明,改進(jìn)的平滑度歸因于前幾層中較稀疏的活動(dòng)神經(jīng)元。在沒(méi)有大規(guī)模預(yù)訓(xùn)練或強(qiáng)數(shù)據(jù)增強(qiáng)的情況下,在ImageNet上從頭開(kāi)始訓(xùn)練時(shí),所得 ViT的性能優(yōu)于類(lèi)似大小和吞吐量的ResNet。同時(shí)還擁有更敏銳的注意力圖。

          2 背景和相關(guān)工作

          最近的研究發(fā)現(xiàn),ViT中的self-attention對(duì)性能并不是至關(guān)重要的,因此出現(xiàn)了一些專(zhuān)門(mén)基于mlp的架構(gòu)。這里作者以MLP-Mixer為例。MLP-Mixer與ViT共享相同的輸入層;也就是說(shuō),它將一個(gè)圖像分割成一系列不重疊的Patches/Toekns。然后,它在torkn mlp和channel mlp之間交替使用,其中前者允許來(lái)自不同空間位置的特征融合。

          3 ViTs和MLP-Mixers收斂到銳局部極小值

          目前的ViTs、mlp-mixer和相關(guān)的無(wú)卷積架構(gòu)的訓(xùn)練方法很大程度上依賴(lài)于大量的預(yù)訓(xùn)練或強(qiáng)數(shù)據(jù)增強(qiáng)。它對(duì)數(shù)據(jù)和計(jì)算有很高的要求,并導(dǎo)致許多超參數(shù)需要調(diào)整?,F(xiàn)有的研究表明,當(dāng)在ImageNet上從頭開(kāi)始訓(xùn)練時(shí),如果不結(jié)合那些先進(jìn)的數(shù)據(jù)增強(qiáng),盡管使用了各種正則化技術(shù)(例如,權(quán)重衰減,Dropout等)ViTs的精度依然低于類(lèi)似大小和吞吐量的卷積網(wǎng)絡(luò)。同時(shí)在魯棒性測(cè)試方面,vit和resnet之間也存在較大的差距。此外,Chen等人發(fā)現(xiàn),在訓(xùn)練vit時(shí),梯度會(huì)出現(xiàn)峰值,導(dǎo)致精確度突然下降,Touvron等人也發(fā)現(xiàn)初始化和超參數(shù)對(duì)訓(xùn)練很敏感。這些問(wèn)題其實(shí)都可以歸咎于優(yōu)化問(wèn)題。在本文中,作者研究了ViTs和mlp-mixer的損失情況,從優(yōu)化的角度理解它們,旨在減少它們對(duì)大規(guī)模預(yù)訓(xùn)練或強(qiáng)數(shù)據(jù)增強(qiáng)的依賴(lài)。

          3.1 ViTs和MLP-Mixers收斂到極sharp局部極小值

          眾所周知,當(dāng)模型收斂到曲率小的平坦區(qū)域時(shí)模型會(huì)具有更好的泛化性能。在[36]之后,當(dāng)resnet、vit和MLP-Mixers在ImageNet上使用基本的初始風(fēng)格預(yù)處理從頭開(kāi)始訓(xùn)練時(shí),作者繪制損失圖:

          如圖1(a)到1(c)所示,ViTs和mlp-mixer比ResNets收斂到更清晰的區(qū)域。

          在表1中,通過(guò)計(jì)算主要的Hessian特征值進(jìn)一步驗(yàn)證了結(jié)果。ViT和MLP-Mixer的值比ResNet大一個(gè)數(shù)量級(jí),并且MLP-Mixer的曲率在3種中是最大的(具體分析見(jiàn)4.4節(jié))。

          3.2 Small training errors

          這種向sharp區(qū)域的收斂與圖2(左)所示的訓(xùn)練動(dòng)態(tài)一致。盡管Mixer-B/16參數(shù)少于ViT-B/16(59M vs 87M),同時(shí)它有一個(gè)小的訓(xùn)練誤差,但測(cè)試性能還是比較差的,這意味著使用cross-token MLP學(xué)習(xí)的相互作用比ViTs’ self-attention機(jī)制更容易過(guò)度擬合。這種差異可能解釋了mlp-mixer更容易陷入尖銳的局部最小值。

          3.3 ViTs和MLP-Mixers的可訓(xùn)練性較差

          此外,作者還發(fā)現(xiàn)ViTs和MLP-Mixers的可訓(xùn)練性較差,可訓(xùn)練性定義為通過(guò)梯度下降優(yōu)化的網(wǎng)絡(luò)的有效性。Xiao等人的研究表明,神經(jīng)網(wǎng)絡(luò)的可訓(xùn)練性可以用相關(guān)的神經(jīng)切線(xiàn)核(NTK)的條件數(shù)來(lái)表征:其中是雅可比矩陣。用表示NTK 的特征值,最小的特征值以條件數(shù)κ的速率指數(shù)收斂。如果κ是發(fā)散的,那么網(wǎng)絡(luò)將變得不可訓(xùn)練。如表1所示,ResNets的κ是相當(dāng)穩(wěn)定的,這與之前的研究結(jié)果一致,即ResNets無(wú)論深度如何都具有優(yōu)越的可訓(xùn)練性。然而,當(dāng)涉及到ViT和時(shí),條件數(shù)是不同的MLP-Mixer,證實(shí)了對(duì)ViTs的訓(xùn)練需要額外的輔助。

          4 CNN-Free視覺(jué)架構(gòu)優(yōu)化器原理

          常用的一階優(yōu)化器(如SGD,Adam)只尋求最小化訓(xùn)練損失。它們通常會(huì)忽略與泛化相關(guān)的高階信息,如曲率。然而,深度神經(jīng)網(wǎng)絡(luò)的損失具有高度非凸性,在評(píng)估時(shí)容易達(dá)到接近0的訓(xùn)練誤差,但泛化誤差較高,更談不上在測(cè)試集具有不同分布時(shí)的魯棒性。由于對(duì)視覺(jué)數(shù)據(jù)缺乏歸納偏差ViTs和MLPs放大了一階優(yōu)化器的這種缺陷,導(dǎo)致過(guò)度急劇的損失scene和較差的泛化性能,如前一節(jié)所示。假設(shè)平滑收斂時(shí)的損失scene可以顯著提高那些無(wú)卷積架構(gòu)的泛化能力,那么最近提出的銳度感知最小化(SAM)可以很好的避免銳度最小值。

          4.1 SAM:Overview

          從直覺(jué)上看,SAM尋找的是可以使整個(gè)鄰近訓(xùn)練損失最低的參數(shù)w,訓(xùn)練損失通過(guò)構(gòu)造極小極大目標(biāo):

          其中是neighbourhood ball的大小。在不失一般性的情況下,這里使用范數(shù)作為其強(qiáng)經(jīng)驗(yàn)結(jié)果,這里為了簡(jiǎn)單起見(jiàn)省略了正則化項(xiàng)。由于內(nèi)部最大化下式的確切解很難獲得:

          因此,這里采用了一個(gè)有效的一階近似:

          在范數(shù)下,是當(dāng)前權(quán)值的縮放梯度。計(jì)算后,SAM基于銳度感知梯度更新w。

          4.2 SAM優(yōu)化器實(shí)質(zhì)上改進(jìn)了ViTs和MLP-Mixers

          作者在沒(méi)有大規(guī)模的預(yù)訓(xùn)練或強(qiáng)大的數(shù)據(jù)增強(qiáng)的情況下訓(xùn)練了vit和MLP-Mixers。直接將SAM應(yīng)用于vit的原始ImageNet訓(xùn)練pipeline,而不改變?nèi)魏纬瑓?shù)。pipeline使用了基本的Inception-style的預(yù)處理。最初的mlp-mixer的訓(xùn)練設(shè)置包括強(qiáng)數(shù)據(jù)增強(qiáng)的組合;也用同樣的Inception-style的預(yù)處理來(lái)替換它,以便進(jìn)行公平的比較。

          注意,在應(yīng)用SAM之前,我們對(duì)學(xué)習(xí)速率、權(quán)重衰減、Dropout和隨機(jī)深度進(jìn)行網(wǎng)格搜索。

          • 1 局部極小值周?chē)钠交瑓^(qū)域

          由于SAM, ViTs和mlp-mixer都匯聚在更平滑的區(qū)域,如圖1(d)和1(e)所示。

          曲率測(cè)量,即Hessian矩陣的最大特征值,也減小到一個(gè)小值(見(jiàn)表1)。

          • 2 Higher accuracy

          隨之而來(lái)的是對(duì)泛化性能的極大改進(jìn)。在ImageNet驗(yàn)證集上,SAM將ViT-B/16的top-1精度從74.6%提高到79.9%,將Mixer-B/16的top-1精度從66.4%提高到77.4%。

          相比之下,類(lèi)似規(guī)模的ResNet-152的性能提高了0.8%。根據(jù)經(jīng)驗(yàn),改進(jìn)的程度與架構(gòu)中內(nèi)置的歸納偏差水平呈負(fù)相關(guān)。與基于注意力的ViTs相比,具有inherent translation equivalence和locality的ResNets從landscape smoothing中獲益較少。MLP-Mixers從平滑的loss geometry中獲得最多。此外,SAM對(duì)更大容量(例如:+4.1%的Mixer-S/16 vs. +11.0%的Mixer-B/16)和更長(zhǎng)的patch序列(例如:+2.1%的vits/32 vs. +5.3%的vits /8)的模型帶來(lái)了更大的改進(jìn)。

          • 3 Better robustness

          作者還使用ImageNet-R和ImageNetC評(píng)估了模型的魯棒性,并發(fā)現(xiàn)了smoothed loss landscapes的更大影響。在ImageNet-C上,它通過(guò)噪音、惡劣天氣、模糊等來(lái)破壞圖像,實(shí)驗(yàn)了5種嚴(yán)重程度上19種破壞的平均精度。如表1和表2所示, ViT-B/16和Mixer-B/16的精度分別增加了9.9%和15.0%。

          4.3 無(wú)需預(yù)訓(xùn)練或強(qiáng)大的數(shù)據(jù)增強(qiáng)ViTs優(yōu)于ResNets

          模型體系結(jié)構(gòu)的性能通常與訓(xùn)練策略合并,其中數(shù)據(jù)增強(qiáng)起著關(guān)鍵作用。然而,數(shù)據(jù)增廣的設(shè)計(jì)需要大量的領(lǐng)域?qū)I(yè)知識(shí),而且可能無(wú)法在圖像和視頻之間進(jìn)行轉(zhuǎn)換。由于有了銳度感知優(yōu)化器SAM,可以刪除高級(jí)的數(shù)據(jù)增強(qiáng),并專(zhuān)注于體系結(jié)構(gòu)本身(使用基本的Inception-style的預(yù)處理)。當(dāng)使用SAM在ImageNet上從0開(kāi)始訓(xùn)練時(shí),ViT的準(zhǔn)確性(在ImageNet、ImageNet-Real和ImageNet V2上)和健壯性(在ImageNet-R和ImageNet-R上)方面都優(yōu)于類(lèi)似和更大的ResNet(在推理時(shí)也具有相當(dāng)?shù)耐掏铝?。ViT-B/16在ImageNet、ImageNet-r和ImageNet-C上分別達(dá)到79.9%、26.4%和56.6%的top精度,而對(duì)應(yīng)的ResNet-152則分別達(dá)到79.3%、25.7%和52.2%(見(jiàn)表2)。對(duì)于小型架構(gòu),vit和resnet之間的差距甚至更大。在ImageNet上,ViT-S/16的表現(xiàn)比同樣大小的ResNet-50好1.4%,在ImageNet-C上好6.5%。SAM還顯著改善了MLP-Mixers的結(jié)果。

          4.4 SAM后的內(nèi)在變化

          作者對(duì)模型進(jìn)行了更深入的研究,以理解它們?nèi)绾螐谋举|(zhì)上改變以減少Hessian的特征值以及除了增強(qiáng)泛化之外的變化意味著什么。

          • 結(jié)論1:每個(gè)網(wǎng)絡(luò)組件具有Smoother loss landscapes

          在表3中,將整個(gè)體系結(jié)構(gòu)的Hessian分解成與每一組參數(shù)相關(guān)的小的斜對(duì)角Hessian塊,試圖分析在沒(méi)有SAM訓(xùn)練的模型中,是什么特定的成分導(dǎo)致爆炸。作者觀(guān)察到較淺的層具有較大的Hessian特征值,并且第1個(gè)linear embedding layer產(chǎn)生sharpest的幾何形狀。此外,ViTs中的多頭自注意(MSA)和MLP-Mixers中的token mlp(Token mlp)跨空間位置混合信息,其相對(duì)較低。SAM一致地降低了所有網(wǎng)絡(luò)塊的??梢酝ㄟ^(guò)遞歸mlp的Hessian矩陣得到上述發(fā)現(xiàn)。設(shè)和分別為第k層激活前的值和激活后的值。它們滿(mǎn)足,其中為權(quán)值矩陣,為激活函數(shù)(mlp-mixer中的GELU)。為了簡(jiǎn)單起見(jiàn),在這里省略偏置項(xiàng)。Hessian矩陣相對(duì)于的對(duì)角塊可遞歸計(jì)算為:

          其中?為Kronecker product,為第層的預(yù)激活Hessian,L為目標(biāo)函數(shù)。因此,當(dāng)遞歸公式反向傳播到淺層時(shí),Hessian范數(shù)累積,這也解釋了為什么表3中第一個(gè)塊的比最后一個(gè)塊大得多。

          • 結(jié)論2:Greater weight norms

          應(yīng)用SAM后,作者發(fā)現(xiàn)激活后的值的范數(shù)和權(quán)重的范數(shù)變得更大(見(jiàn)表3),說(shuō)明常用的權(quán)重衰減可能不能有效地正則化ViTs和MLP-Mixers。

          • 結(jié)論3:MLP-Mixers中較稀疏的active neurons

          根據(jù)遞歸公式(3)到(4),作者確定了另一個(gè)影響Hessian的MLP-Mixers的內(nèi)在度量:激活神經(jīng)元的數(shù)量。事實(shí)上,是由大于零的被激活神經(jīng)元決定的,因?yàn)楫?dāng)輸入為負(fù)時(shí),GELU的一階導(dǎo)數(shù)變得非常小。因此,活躍的GELU神經(jīng)元的數(shù)量直接與Hessian規(guī)范相連。

          圖2(右)顯示了每個(gè)塊中被激活的神經(jīng)元的比例,使用ImageNet訓(xùn)練集的10%進(jìn)行計(jì)算??梢钥吹?,SAM極大地減少了前幾層被激活神經(jīng)元的比例,使它們處于更稀疏的狀態(tài)。這一結(jié)果也說(shuō)明了圖像patch的潛在冗余性。

          • 結(jié)論4:ViTs的active neurons高度稀疏

          雖然公式(3)和(4)只涉及mlp,但仍然可以觀(guān)察到vit的第1層激活神經(jīng)元的減少(但不如MLP-Mixers顯著)。更有趣的是,作者發(fā)現(xiàn)ViT中被激活神經(jīng)元的比例比ResNets或MLP-Mixers中要小得多——在大多數(shù)ViT層中,只有不到5%的神經(jīng)元的值大于零。換句話(huà)說(shuō),ViT為網(wǎng)絡(luò)修剪提供了巨大的潛力。這種稀疏性也可以解釋為什么一個(gè)Transformer可以處理多模態(tài)信號(hào)(視覺(jué)、文本和音頻)?

          • 結(jié)論5:ViTs中有更多的感知注意力Maps

          在圖3中可視化了classification token的attention map。有趣的是,經(jīng)過(guò)SAM優(yōu)化的ViT模型能夠編碼合理的分割信息,比傳統(tǒng)SGD優(yōu)化訓(xùn)練的模型具有更好的可解釋性。

          • 結(jié)論6:Higher training errors

          如圖2(左)所示,使用SAM的ViT-B/16比使用vanilla SGD的訓(xùn)練誤差更高。當(dāng)在訓(xùn)練中使用強(qiáng)數(shù)據(jù)增強(qiáng)時(shí),這種正則化效應(yīng)也會(huì)發(fā)生,它迫使網(wǎng)絡(luò)顯式地學(xué)習(xí)RandAugment中的旋轉(zhuǎn)平移等方差和mixup中的線(xiàn)性插值等先驗(yàn)。然而,增益對(duì)不同的訓(xùn)練設(shè)置很敏感(第5.2節(jié)),并導(dǎo)致高噪聲損失曲線(xiàn)(圖2(中間))。

          5 實(shí)驗(yàn)

          具有smoother loss geometry的ViTs和MLP-Mixers可以更好地遷移到下游任務(wù)。

          如果覺(jué)得有用,就請(qǐng)分享到朋友圈吧!

          △點(diǎn)擊卡片關(guān)注極市平臺(tái),獲取最新CV干貨

          公眾號(hào)后臺(tái)回復(fù)“79”獲取CVPR 2021:TransT 直播鏈接~


          極市干貨
          YOLO教程:一文讀懂YOLO V5 與 YOLO V4大盤(pán)點(diǎn)|YOLO 系目標(biāo)檢測(cè)算法總覽全面解析YOLO V4網(wǎng)絡(luò)結(jié)構(gòu)
          實(shí)操教程:PyTorch vs LibTorch:網(wǎng)絡(luò)推理速度誰(shuí)更快?只用兩行代碼,我讓Transformer推理加速了50倍PyTorch AutoGrad C++層實(shí)現(xiàn)
          算法技巧(trick):深度學(xué)習(xí)訓(xùn)練tricks總結(jié)(有實(shí)驗(yàn)支撐)深度強(qiáng)化學(xué)習(xí)調(diào)參Tricks合集長(zhǎng)尾識(shí)別中的Tricks匯總(AAAI2021
          最新CV競(jìng)賽:2021 高通人工智能應(yīng)用創(chuàng)新大賽CVPR 2021 | Short-video Face Parsing Challenge3D人體目標(biāo)檢測(cè)與行為分析競(jìng)賽開(kāi)賽,獎(jiǎng)池7萬(wàn)+,數(shù)據(jù)集達(dá)16671張!


          CV技術(shù)社群邀請(qǐng)函 #

          △長(zhǎng)按添加極市小助手
          添加極市小助手微信(ID : cvmart2)

          備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳)


          即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群


          每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與 10000+來(lái)自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺(jué)開(kāi)發(fā)者互動(dòng)交流~



          覺(jué)得有用麻煩給個(gè)在看啦~  
          瀏覽 91
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  男男射精网站18 | 亚洲AV无码秘 蜜桃枫花恋 | 人人爽人人操人人爱 | 黄色三级艹逼视频 | 国产99在线|