ViTAEv2世界第一:6億參數(shù)模型,ImageNet Real 91.2%最高準(zhǔn)確率,更大模型、更多任務(wù)、更高效率

極市導(dǎo)讀
?近期京東探索研究院聯(lián)合悉尼大學(xué)提出了更大規(guī)模、更優(yōu)效果、對(duì)各類視覺任務(wù)具有更好適應(yīng)性的新型視覺主干網(wǎng)絡(luò)ViTAEv2。其中,具有6億參數(shù)的ViTAE-H模型在不依賴任何外源數(shù)據(jù)的情況下,在ImageNet Real數(shù)據(jù)集達(dá)到了91.2%?的分類準(zhǔn)確度,在目前已知方法中排名世界第一。?>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿
以超大規(guī)模模型和無監(jiān)督預(yù)訓(xùn)練方法為代表的超級(jí)深度學(xué)習(xí)技術(shù),正在深刻地影響著人工智能領(lǐng)域的研究進(jìn)展,在機(jī)器視覺、自然語言處理、多模態(tài)分析等多個(gè)領(lǐng)域不斷取得突破。超級(jí)深度模型因其強(qiáng)大的表征能力和高效的樣本效率,被寄予厚望用來幫助解決低資源和零資源情況下的一些挑戰(zhàn)性任務(wù),降低數(shù)據(jù)標(biāo)注成本、加速算法開發(fā)周期、簡(jiǎn)化模型部署,賦能和促進(jìn)新一代自動(dòng)化機(jī)器學(xué)習(xí)技術(shù)的研發(fā)和落地。
目前,針對(duì)視覺主干神經(jīng)網(wǎng)絡(luò)的規(guī)模擴(kuò)展性以及在各類下游任務(wù)上的適用性的研究成為了研究熱點(diǎn),吸引了學(xué)術(shù)界和工業(yè)界越來越多的注意力。探索研究院聯(lián)合國際、國內(nèi)著名大學(xué)在Vision Transformer骨干網(wǎng)絡(luò)[1,2,12]、下游任務(wù)[7,8,9,13]、訓(xùn)練方法[10]等領(lǐng)域取得了一系列研究成果,其中視覺骨干網(wǎng)絡(luò)ViTAE模型的研究工作發(fā)表在國際頂級(jí)學(xué)術(shù)會(huì)議NeurIPS 2021,探索了歸納偏置(Inductive Bias)在Vision Transformer的作用。
近期探索研究院聯(lián)合悉尼大學(xué)在上述研究基礎(chǔ)上進(jìn)一步提出了更大規(guī)模、更優(yōu)效果、對(duì)各類視覺任務(wù)具有更好適應(yīng)性的新型視覺主干網(wǎng)絡(luò)ViTAEv2。其中,具有6億參數(shù)的ViTAE-H模型在不依賴任何外源數(shù)據(jù)的情況下,在ImageNet Real數(shù)據(jù)集達(dá)到了91.2% 的分類準(zhǔn)確度,在目前已知方法中排名世界第一。
【https://paperswithcode.com/sota/image-classification-on-imagenet-real】

【論文鏈接】https://arxiv.org/abs/2202.10108
【代碼鏈接】https://github.com/Annbless/ViTAE
01 研究背景

Vision Transformer模型通過使用attention對(duì)劃分成小塊的圖像進(jìn)行建模,得到了很好的效果。在ViTAE[2]中,我們從模型設(shè)計(jì)的角度在transformer中引入了歸納偏置,并提出兩種新的基礎(chǔ)模塊,即reduction cell (RC)和normal cell (NC), 如圖1所示。Reduction cell使用多尺度卷積來為transformer模型引入尺度不變性。Normal cell使用并行的卷積分支,在不影響transformer全局建模能力的情況下引入局部歸納偏置。通過引入這樣的兩種機(jī)制,ViTAE模型取得了較好的數(shù)據(jù)效率和分類準(zhǔn)確度。
然而,隨著視覺領(lǐng)域超級(jí)深度學(xué)習(xí)的進(jìn)一步發(fā)展,視覺主干網(wǎng)絡(luò)呈現(xiàn)出往大規(guī)模網(wǎng)絡(luò)發(fā)展的趨勢(shì)。此外,視覺主干網(wǎng)絡(luò)也需要適用于各種下游視覺任務(wù),包括檢測(cè),分割,姿態(tài)估計(jì)等任務(wù)。為了進(jìn)一步探索歸納偏置在大規(guī)模Vision Transformer網(wǎng)絡(luò)中的作用,并改進(jìn)ViTAE模型使其能廣泛地適用于多種視覺任務(wù),我們研究了模塊堆疊方法,將ViTAE模型進(jìn)一步拓展到600M規(guī)模,并采用先進(jìn)的自監(jiān)督預(yù)訓(xùn)練方法和遷移學(xué)習(xí)方法對(duì)ViTAE大模型進(jìn)行訓(xùn)練,取得了比同類模型更高的分類準(zhǔn)確率。進(jìn)一步,我們提出了將上述兩種基本組件按照多階段(Multi-stage)方式進(jìn)行堆疊的ViTAEv2模型。相關(guān)技術(shù)細(xì)節(jié)如下文所述。
02 大規(guī)模模型設(shè)計(jì)
為了探索歸納偏置在大規(guī)模Vision Transformer模型中的作用,我們參考ViT[3]的設(shè)計(jì),對(duì)所提出的ViTAE模型進(jìn)行了擴(kuò)展,并對(duì)應(yīng)的提出ViTAE-B (89M),ViTAE-L(311M),和ViTAE-H(644M)模型,分別包含12個(gè)NC模塊,24個(gè)NC模塊,和36個(gè)NC模塊。我們相信ViTAE模型可以進(jìn)一步擴(kuò)展到10億參數(shù)規(guī)模,并將在未來工作中進(jìn)一步研究。然而,當(dāng)模型規(guī)模過大時(shí),ImageNet-1K的數(shù)據(jù)量不足以支撐模型的全監(jiān)督訓(xùn)練,導(dǎo)致其容易過擬合到ImageNet-1K的訓(xùn)練數(shù)據(jù),這使得我們難以分析所引入的歸納偏置在大規(guī)模模型情況下是否仍然有幫助。因此,我們采用了自監(jiān)督學(xué)習(xí)方法MAE[4]中的預(yù)訓(xùn)練-微調(diào)范式對(duì)大規(guī)模ViTAE模型的訓(xùn)練方式進(jìn)行優(yōu)化,并基于此對(duì)ViTAE模型的效果進(jìn)行了分析。
然而,MAE在預(yù)訓(xùn)練階段采用隨機(jī)采樣的圖片塊作為輸入。這樣高度稀疏的離散圖片塊缺失了空間連續(xù)信息,難以讓NC中的卷積分支學(xué)到合適的空間特征表示。受之前研究工作[5]的啟發(fā),在預(yù)訓(xùn)練過程中,我們將卷積分支的卷積核大小由3x3降到1x1,使得卷積分支更多地關(guān)注學(xué)到更好的特征表示而非過度關(guān)注空間信息。在微調(diào)階段,我們使用zero-padding的方式在卷積分支將1x1的卷積核重新改變?yōu)?x3大小的卷積核并進(jìn)行訓(xùn)練。
03 大規(guī)模模型效果
1).分類效果

我們所提出的大規(guī)模ViTAE模型的效果如表1所示,引入歸納偏置的ViTAE-B模型相對(duì)于不包含歸納偏置的ViT-B模型有0.4%分類準(zhǔn)確度的提升。類似的,對(duì)于更大尺寸的模型,例如ViTAE-L(311M),引入歸納偏置仍然可以帶來0.3%分類準(zhǔn)確度的提升。如果使用ImageNet數(shù)據(jù)集本身提供的22k版本進(jìn)行微調(diào),大規(guī)模的ViTAE模型還可以有1.0%左右準(zhǔn)確的提升。此外,僅僅使用ImageNet-1K數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),我們所提出的ViTAE-H(644M)模型在ImageNet-Real數(shù)據(jù)集上達(dá)到了91.2%的分類準(zhǔn)確度,超過了使用額外數(shù)據(jù)進(jìn)行訓(xùn)練的3B規(guī)模的ViT-G[6]模型,在目前已知方法中排名世界第一。 [https://paperswithcode.com/sota/image-classification-on-imagenet-real]
2).少樣本學(xué)習(xí)效果

此外,我們還探索了大規(guī)模ViTAE模型的少樣本學(xué)習(xí)能力。我們分別使用1%,10%,和100%的數(shù)據(jù)對(duì)大規(guī)模ViTAE模型進(jìn)行了微調(diào)。結(jié)果如圖2所示,僅僅使用10%的數(shù)據(jù)進(jìn)行訓(xùn)練,ViTAE-H模型的分類準(zhǔn)確度達(dá)到了82.4%,超過了小規(guī)模模型ViTAE-13M使用100%數(shù)據(jù)進(jìn)行全監(jiān)督訓(xùn)練的準(zhǔn)確度(81.0%)。這說明了大規(guī)模模型具有很強(qiáng)的少樣本學(xué)習(xí)能力。
04 多階段模型設(shè)計(jì)

為了探索引入歸納偏置在多個(gè)視覺任務(wù)上的效果,我們將所提出的RC和NC使用多階段的方式進(jìn)行堆疊并提出了多階段的ViTAEv2模型,如圖3所示。ViTAEv2模型能夠輸出多尺度的特征,這使得ViTAEv2模型可以和當(dāng)前大多數(shù)用于檢測(cè)、分割、姿態(tài)估計(jì)等任務(wù)的模型兼容,大大提升了ViTAE模型在下游任務(wù)的易用性。然而,最初版本的ViTAE模型采用原始的全注意力機(jī)制對(duì)輸入圖片進(jìn)行操作。在輸入圖片尺寸變大的情況下,這樣的全注意力機(jī)制會(huì)以圖像尺寸的平方的級(jí)別增加計(jì)算復(fù)雜度,因此制約ViTAE模型的實(shí)際應(yīng)用。為了降低這樣的計(jì)算消耗并進(jìn)一步引入歸納偏置,我們參考Swin Transformer [11],在ViTAEv2模型中額外引入了窗口注意力計(jì)算機(jī)制(window attention),使得注意力計(jì)算的代價(jià)和圖像尺寸呈線性關(guān)系。具體來說,在注意力計(jì)算時(shí),我們將圖片劃分成不重疊的窗口,并在每個(gè)窗口內(nèi)部獨(dú)立進(jìn)行注意力的計(jì)算。

然而,引入這樣的窗口注意力機(jī)制會(huì)制約Vision Transformer模型對(duì)長(zhǎng)距離信息的建模能力。為此,我們探索了在不同階段使用窗口注意力機(jī)制對(duì)模型表現(xiàn)和計(jì)算代價(jià)的影響,結(jié)果如表2所示。在表2中,P代表使用performer進(jìn)行注意力計(jì)算,F(xiàn)表示使用全注意力機(jī)制,W表示使用窗口注意力機(jī)制。我們發(fā)現(xiàn),在前兩個(gè)階段使用窗口注意力機(jī)制,后兩個(gè)階段使用全注意力機(jī)制可以取得性能和計(jì)算代價(jià)的最佳權(quán)衡。因此,我們采用了“WWFF”的方式對(duì)ViTAEv2模型進(jìn)行了設(shè)計(jì)。此外,需要注意的是,ViTAEv2模型并不需要Swin Transformer中采用的額外相對(duì)位置編碼和窗口移動(dòng)(window shift)機(jī)制即可得到較好的效果,這歸功于ViTAE模型中卷積模塊已經(jīng)能夠提供位置信息并促進(jìn)跨窗信息融合。對(duì)相對(duì)位置編碼和窗口移動(dòng)機(jī)制的消融實(shí)驗(yàn)結(jié)果如表3所示。

05 分類任務(wù)效果分析


我們首先在ImageNet-1K數(shù)據(jù)集上評(píng)估了所提出的ViTAEv2模型的分類任務(wù)表現(xiàn)能力。結(jié)果如表4所示。所提出的ViTAEv2模型在各個(gè)模型尺寸下均取得了SOTA的分類任務(wù)表現(xiàn),并以更少的參數(shù)量取得了超越非多階段堆疊方式的ViTAE模型。這驗(yàn)證了所引入的歸納偏置在多階段的堆疊方式下的有效性。
06 下游任務(wù)效果分析
我們?cè)谖矬w檢測(cè)、分割、和姿態(tài)估計(jì)三個(gè)下游任務(wù)上,對(duì)所提出的ViTAEv2模型的效果進(jìn)行了分析和比較。我們使用MS COCO數(shù)據(jù)集進(jìn)行檢測(cè)任務(wù)的評(píng)估,使用ADE20K數(shù)據(jù)集對(duì)分割任務(wù)進(jìn)行評(píng)估,以及使用AP10K數(shù)據(jù)集對(duì)動(dòng)物姿態(tài)估計(jì)任務(wù)的表現(xiàn)進(jìn)行評(píng)估。結(jié)果如表5(物體檢測(cè)和實(shí)例分割任務(wù)),表6(語義分割任務(wù)),和表7(動(dòng)物姿態(tài)估計(jì)任務(wù))所示,我們所提出的ViTAEv2模型在各個(gè)下游任務(wù)上均取得了SOTA的效果,并顯著高于其他同期模型。



07 推理速度分析

我們進(jìn)一步評(píng)估了所提出的ViTAEv2模型的推理速度和模型表現(xiàn)。我們選取了模型規(guī)模相似的模型,并對(duì)所有模型使用TensorRT進(jìn)行加速。結(jié)果如表8所示。我們可以發(fā)現(xiàn),和Swin Transformer相比,ViTAEv2慢了10%左右的速度但是有1.3%分類準(zhǔn)確度的顯著提升。相較于T2T-ViT-24模型,ViTAEv2模型在推理速度和分類準(zhǔn)確度上均有優(yōu)勢(shì)。
08 總結(jié)&未來工作
在本項(xiàng)研究工作中,我們探索并驗(yàn)證了歸納偏置在大規(guī)模Vision Transformer模型中的有效性,并取得了ImageNet Real上91.2%的最佳分類準(zhǔn)確度。此外,使用多階段堆疊方式的ViTAEv2模型在分類、檢測(cè)、分割、姿態(tài)估計(jì)等任務(wù)上取得了SOTA的效果。這進(jìn)一步說明了面對(duì)多種下游任務(wù)場(chǎng)景,歸納偏置對(duì)于提升Vision Transformer模型性能仍然效果顯著。目前,我們主要探索了局部性和尺度不變性歸納偏置在Vision Transformer中的作用,未來還可以探索更多的歸納偏置的影響,如視角不變性等。由于ViTAE模型采用了并行的卷積和注意力分支的結(jié)構(gòu),盡管在推理過程中ViTAE模型可以利用并行計(jì)算的方式得到加速,但是使用基于動(dòng)態(tài)圖技術(shù)的深度學(xué)習(xí)框架(例如PyTorch)訓(xùn)練并行結(jié)構(gòu)的效率會(huì)有下降。這個(gè)問題可以采用基于靜態(tài)圖技術(shù)的深度學(xué)習(xí)框架(例如TensorFlow)進(jìn)行解決。如何從訓(xùn)練方法、模型架構(gòu)設(shè)計(jì)進(jìn)一步提升ViTAE模型的性能、降低訓(xùn)練和推理代價(jià)是值得未來進(jìn)一步探索的研究方向。
參考文獻(xiàn)
[1] Zhang Q, Xu Y, Zhang J, et al. ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond. arXiv preprint arXiv: 2202.10108, 2021.
[2] Xu Y, Zhang Q, Zhang J, et al. Vitae: Vision Transformer advanced by exploring intrinsic Inductive Bias. Neurips, 2021.
[3] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale. ICLR, 2021.
[4] He K, Chen X, Xie S, et al. Masked autoencoders are scalable vision learners. arXiv preprint arXiv:2111.06377, 2021.
[5] Zhang J, Cao Y, Wang Y, et al. Fully point-wise convolutional neural network for modeling statistical regularities in natural images. ACM MM, 2018.
[6] Zhai X, Kolesnikov A, Houlsby N, et al. Scaling Vision Transformers. arXiv preprint arXiv:2106.04560, 2021.
[7] Wang W, Cao Y, Zhang J, et al. FP-DETR: Detection Transformer Advanced by Fully Pre-training. ICLR, 2022.
[8] Lan M, Zhang J, He F, et al. Siamese Network with Interactive Transformer for Video Object Segmentation. AAAI, 2022.
[9] Wang W, Cao Y, Zhang J, et al. Exploring Sequence Feature Alignment for Domain Adaptive Detection Transformers. ACM MM, 2021.
[10] Xu Y, Zhang Q, Zhang J, et al. RegionCL: Can Simple Region Swapping Contribute to Contrastive Learning?. arXiv preprint arXiv:2111.12309, 2021.
[11] Liu Z, Lin Y, Cao Y, et al. Swin transformer: Hierarchical Vision Transformer using shifted windows. ICCV, 2021.
[12] He L, Dong Y, Wang Y, et al. Gauge equivariant transformer. Neurips, 2021.
[13] Yu H, Xu Y, Zhang J, et al. AP-10K: A Benchmark for Animal Pose Estimation in the Wild. Neurips, 2021.
公眾號(hào)后臺(tái)回復(fù)“數(shù)據(jù)集”獲取30+深度學(xué)習(xí)數(shù)據(jù)集下載~

#?CV技術(shù)社群邀請(qǐng)函?#

備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳)
即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動(dòng)交流~

