<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          DeiT III:打造ViT最強(qiáng)基準(zhǔn)!還是ViT最牛!

          共 3790字,需瀏覽 8分鐘

           ·

          2022-05-15 22:10

          點(diǎn)藍(lán)色字關(guān)注“機(jī)器學(xué)習(xí)算法工程師

          設(shè)為星標(biāo),干貨直達(dá)!


          繼Three things everyone should know about Vision Transformers這個(gè)工作后,meta AI團(tuán)隊(duì)(原DeiT作者團(tuán)隊(duì))又發(fā)布了DeiT III: Revenge of the ViT,DeiT III通過改進(jìn)訓(xùn)練策略將ViT模型在ImageNet上的有監(jiān)督訓(xùn)練性能提升到新的基準(zhǔn),其中的改進(jìn)包括簡化數(shù)據(jù)增強(qiáng)采用FixRes(即先在較低的圖像分辨率下訓(xùn)練,然后在目標(biāo)分辨率下進(jìn)行微調(diào))。相比其它的訓(xùn)練方案,改進(jìn)后的DeiT III性能有較大的提升,而且在大模型如ViT-H上表現(xiàn)優(yōu)異。在類似的配置下,DeiT III性能可以媲美最近的一些模型如Swin和ConvNext,而且DeiT III性能也達(dá)到了近期的基于圖像掩碼的自監(jiān)督學(xué)習(xí)方法如BeiT和MAE的水準(zhǔn)。

          訓(xùn)練策略

          DeiT III采用的訓(xùn)練策略如下表所示,它是構(gòu)建在timm庫的ResNet最新訓(xùn)練策略和DeiT的訓(xùn)練策略之上,這里ImageNet-1K和ImageNet-21K數(shù)據(jù)集上的訓(xùn)練策略有所區(qū)別,其中ImageNet-1K上的訓(xùn)練時(shí)長默認(rèn)為400 epochs,而ImageNet-21K預(yù)訓(xùn)練時(shí)長為90 epochs,然后在mageNet-1K上微調(diào)50 epochs。相比之前的訓(xùn)練策略,DeiT III采用的訓(xùn)練策略主要有以下幾點(diǎn)主要的改動(dòng)。(1)采用LayerScale

          LayerScale有助于提升深度ViT模型的收斂,這里發(fā)現(xiàn)采用LayerScale可以帶來模型準(zhǔn)確度的提升,這方面也可以見之間的文章:?關(guān)于ViT,你必須要知道的三點(diǎn)改進(jìn)。

          (2)采用BCE損失

          圖像分類模型默認(rèn)都采用CE損失,但timm的訓(xùn)練策略采用BCE損失,這主要是因?yàn)椴捎肕ixUp和CutMix數(shù)據(jù)增強(qiáng)后圖像會(huì)產(chǎn)生語義歧義,采用非互斥的BCE損失更合適。論文發(fā)現(xiàn)采用BCE雖然對小模型ViT-S影響不大,但是能給ViT-B帶來較大的性能提升(300 epochs):80.9 vs 82.2。但是實(shí)驗(yàn)發(fā)現(xiàn)BCE在ImageNet-21K上預(yù)訓(xùn)練并沒有效果,所以還是采用CE損失(包括后面的微調(diào))。(3)用3-Augment替換RandAugment

          這里采用一個(gè)簡單的數(shù)據(jù)增強(qiáng)策略來替換RandAugment(包含14個(gè)數(shù)據(jù)增強(qiáng)),它包括3個(gè)簡單的數(shù)據(jù)增強(qiáng):Grayscale(灰度化),Gaussian Blur(高斯模糊)和Solarization(過曝),稱為3-Augment,效果圖如下所示:對于每個(gè)圖像,以相同的概率隨機(jī)選擇3個(gè)數(shù)據(jù)增強(qiáng)的某一個(gè)進(jìn)行增強(qiáng),此外,還額外采用了ColorJitter(亮度,對比度,飽和度和色調(diào)變換)。相比RandAugment,采用3-Augment可以帶來性能的提升,如下表所示:(4)簡化圖像裁剪(RRC vs SRC)

          Random Resized Crop (RRC)是最常用的圖像裁剪方法:首先根據(jù)設(shè)定的scale和ratio范圍隨機(jī)選擇某個(gè)scale和ratio,然后從原圖裁剪一塊區(qū)域,并resize到固定大小如224。RRC在torchvision中的對應(yīng)函數(shù)為:RandomResizedCrop(224, scale=(0.08, 1.0), ratio=(3/4, 4/3)),scale的默認(rèn)下限為0.08,即只從原圖中裁剪一塊較小的區(qū)域(這個(gè)造成了訓(xùn)練和測試的不一致,F(xiàn)ixRes可以緩解這個(gè)問題),所以這是一種非常heavy的數(shù)據(jù)增強(qiáng),有可能原圖中的標(biāo)注物體并沒有被裁剪到。作者認(rèn)為對于ImageNet-1K數(shù)據(jù)集,RRC作為一種較強(qiáng)的數(shù)據(jù)增強(qiáng)可以防止過擬合,但是對于更大的數(shù)據(jù)集ImageNet-21K(比ImageNet-1K大10倍),存在較小的過擬合風(fēng)險(xiǎn),所以這里提出了一種更簡單的圖像裁剪方法:Simple Random Crop (SRC)**,SRC的操作相對簡單:首先將圖像的最短邊resize到目標(biāo)大小,然后各個(gè)位置補(bǔ)零4個(gè)像素(reflect padding),最后按照目標(biāo)大小從圖像中隨機(jī)裁剪一個(gè)區(qū)域。相比RRC,SRC會(huì)覆蓋原圖的大部分區(qū)域,對比如下所示:

          在ImageNet-21K預(yù)訓(xùn)練實(shí)驗(yàn)中,采用SRC訓(xùn)練的模型效果要優(yōu)于RRC:(5)更長的訓(xùn)練時(shí)長

          DeiT訓(xùn)練300 epochs,而這里默認(rèn)訓(xùn)練400 epochs,作者發(fā)現(xiàn)進(jìn)一步增加訓(xùn)練時(shí)長,模型依然能夠持續(xù)提升,而沒有出現(xiàn)飽和的跡象,對比之下,原來的DeiT訓(xùn)練策略卻出現(xiàn)飽和現(xiàn)象。訓(xùn)練800 epochs可以帶來不小的性能提升,如下所示:(6)采用FixRes

          FixRes策略是先在一個(gè)較小的分辨率下訓(xùn)練,然后在目標(biāo)分辨率下進(jìn)行微調(diào)。作者發(fā)現(xiàn)先在192x192或者160x160大小下訓(xùn)練,然后在224x224大小下微調(diào)20個(gè)epochs,能得到更好的效果(與直接在224x224下訓(xùn)練),而且這可以減少顯存消耗,提升訓(xùn)練速度,對比結(jié)果如下所示:作者發(fā)現(xiàn)FixRes對大模型可以起到一種正則化作用,減少在長時(shí)間訓(xùn)練過程的過擬合,比如ViT-H直接在224x224下訓(xùn)練,800 epochs下的效果比400 epochs下還要差,但是采用FixRes后就可以消除這種gap。由于FixRes降低了顯存使用,這也使訓(xùn)練更大的模型稱為了可能,這里訓(xùn)練了52層的ViT-H,其參數(shù)量達(dá)到了10億,不過效果并沒有太大提升,應(yīng)該還需要在更大規(guī)模的數(shù)據(jù)集上預(yù)訓(xùn)練。

          對比實(shí)驗(yàn)

          對比實(shí)驗(yàn)主要包括四個(gè)部分:與其它架構(gòu)的對比,與自監(jiān)督學(xué)習(xí)方法的對比,遷移學(xué)習(xí)對比,以及在下游分割任務(wù)上的對比。


          (1)與其它架構(gòu)的對比

          首先是ImageNet-1K數(shù)據(jù)集上,與其它主流架構(gòu)的對比,如下表所示,可以看到同樣的參數(shù)下的模型,ViT可以和Swin和ConvNext效果相當(dāng),比如ViT-B模型性能為83.8,而同量級下的Swin-B和ConvNext-B分別為83.5和83.8,不過它們都是在300 epochs下訓(xùn)練的,而ViT訓(xùn)練了800+20 epochs。如果在ImageNet-21K上預(yù)訓(xùn)練,可以得到類似的結(jié)論:另外,這里還對比了在ImageNetV2上的效果,它可以衡量模型的泛化能力,相比其它模型,ViT在ImageNetV2上的效果更好,特別是采用ImageNet-21K數(shù)據(jù)預(yù)訓(xùn)練后。(2)與自監(jiān)督模型的對比

          作者還和基于圖像掩碼的自監(jiān)督學(xué)習(xí)方法BeiT和MAE做了對比,如下表所示,在類似的訓(xùn)練時(shí)長下,有監(jiān)督的ViT可以和自監(jiān)督學(xué)習(xí)方法達(dá)到類似的效果,這說明有監(jiān)督方法在合適的訓(xùn)練策略下是能夠達(dá)到自監(jiān)督方法的效果的。不過這里沒有對比其它自監(jiān)督學(xué)習(xí)方法,如ViT-B采用?PeCo訓(xùn)練可以達(dá)到84.5,這還是有一定的性能差距。

          (3)遷移學(xué)習(xí)對比

          這里對比了6個(gè)不同的分類數(shù)據(jù)集,可以看到新的ViT也具有更好的遷移學(xué)習(xí)效果:(4)語義分割對比

          最后作者對比了采用ViT做為骨干網(wǎng)絡(luò)在語義分割任務(wù)上的效果,可以看到新的ViT可以超過Swin,另外有監(jiān)督的ViT-B也可以超過自監(jiān)督MAE訓(xùn)練的ViT-B。這里一個(gè)額外的疑問是,論文?Benchmarking Detection Transfer Learning with Vision Transformers指出基于MAE的ViT做為檢測模型的骨干網(wǎng)絡(luò)要比有監(jiān)督的ViT要好,如果換成更好的有監(jiān)督模型,是否能夠也推翻這個(gè)結(jié)論?此外,作者還嘗試將這種訓(xùn)練策略用在其它模型上,但是從結(jié)果來看,大部分的模型訓(xùn)練效果并不太好,這或許也說明不同的架構(gòu)確實(shí)需要特定的訓(xùn)練策略才能得到最佳的效果。

          小結(jié)

          從直觀上看,這個(gè)工作就是一個(gè)調(diào)參報(bào)告,但是我覺得這個(gè)工作還是有很大的意義:一方面它將ViT的效果提升到了和其它架構(gòu)類似的水平,這說明簡單的ViT架構(gòu)其實(shí)是足夠的;另外一方面它將ViT的有監(jiān)督訓(xùn)練效果和自監(jiān)督方法拉到了同樣的層次,這也讓我們要重新審視自監(jiān)督方法。

          參考

          • ?DeiT III: Revenge of the ViT
          • ?Three things everyone should know about Vision Transformers
          • ?An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
          • ?Training data-efficient image transformers & distillation through attention



          推薦閱讀

          深入理解生成模型VAE

          DropBlock的原理和實(shí)現(xiàn)

          SOTA模型Swin Transformer是如何煉成的!

          有碼有顏!你要的生成模型VQ-VAE來了!

          集成YYDS!讓你的模型更快更準(zhǔn)!

          輔助模塊加速收斂,精度大幅提升!移動(dòng)端實(shí)時(shí)的NanoDet-Plus來了!

          SimMIM:一種更簡單的MIM方法

          SSD的torchvision版本實(shí)現(xiàn)詳解


          機(jī)器學(xué)習(xí)算法工程師


          ? ??? ? ? ? ? ? ? ? ? ? ????????? ??一個(gè)用心的公眾號


          瀏覽 170
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  800av在线播放 | 亚洲色五月 | 亚洲午夜久影院 | 午夜福利一区二区三区 | 色999国产在线视频 |