<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ConvNeXt v2 | 2023年ConvNeXt再次超越SOTA的Transformer

          共 7576字,需瀏覽 16分鐘

           ·

          2023-01-09 15:34

          極市導(dǎo)讀

           

          本文提出 FCMAE 的框架,這種自監(jiān)督學(xué)習(xí)技術(shù)和架構(gòu)改進的協(xié)同設(shè)計產(chǎn)生了一個 ConvNeXt V2 的新模型,它顯著提高了純 ConvNet 在各種識別基準(zhǔn)上的性能, >>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿

          本文目錄

          1 ConvNeXt V2:使用 MAE 協(xié)同設(shè)計和擴展 ConvNets
          (來自 KAIST,Meta AI,F(xiàn)AIR,紐約大學(xué) [ConvNeXt 原作者劉壯,謝賽寧團隊])
          1 ConvNeXt V2 論文解讀
          1.1 背景和動機
          1.2 自監(jiān)督學(xué)習(xí)方法 FCMAE 的初步設(shè)計
          1.3 自監(jiān)督學(xué)習(xí)方法 FCMAE 的進一步優(yōu)化
          1.3.1 Feature collapse 現(xiàn)象
          1.3.2 特征余弦距離分析
          1.3.3 全局響應(yīng)歸一化
          1.3.4 ConvNeXt V2
          1.4 實驗結(jié)果

          1 ConvNeXt V2:使用 MAE 協(xié)同設(shè)計和擴展 ConvNets

          論文名稱:ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

          論文地址:

          https://arxiv.org/pdf/2301.00808.pdf

          1.1 背景和動機

          在前幾十年的突破性研究的基礎(chǔ)上,視覺識別領(lǐng)域迎來了大規(guī)模視覺表征學(xué)習(xí)的新時代。大規(guī)模預(yù)訓(xùn)練視覺模型已經(jīng)成為表征學(xué)習(xí)和實現(xiàn)各種各樣視覺應(yīng)用的基本工具。關(guān)于視覺表征學(xué)習(xí)的性能,一般認(rèn)為受到以下三個主要因素的影響:

          • 使用的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
          • 訓(xùn)練這個神經(jīng)網(wǎng)絡(luò)的方法
          • 訓(xùn)練使用的數(shù)據(jù)

          在視覺識別領(lǐng)域,以上三個子領(lǐng)域的進步都有助于模型整體性能的提高。

          關(guān)于第一點:神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計的創(chuàng)新, 一直在表征學(xué)習(xí)領(lǐng)域發(fā)揮著重要作用。卷積神經(jīng)網(wǎng)絡(luò)架構(gòu) (ConvNets) 對計算機視覺研究產(chǎn)生了重大影響,它通過卷積操作學(xué)習(xí)通用特征,適用于各種視覺識別任務(wù)。近年來,最初為自然語言處理開發(fā)的 Transformer 體系結(jié)構(gòu)也很受歡迎,因為它在模型和數(shù)據(jù)集大小方面有很好的擴展性。

          ConvNeXt[1]是視覺架構(gòu)的范例,它使傳統(tǒng)的卷積網(wǎng)絡(luò)現(xiàn)代化,并證明純卷積模型也可以是可擴展的體系結(jié)構(gòu)。然而,探索神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計空間的最常用方法仍然是通過對 ImageNet 上的監(jiān)督學(xué)習(xí)性能進行基準(zhǔn)測試。

          關(guān)于第二點:訓(xùn)練這個神經(jīng)網(wǎng)絡(luò)的方法, 視覺表征學(xué)習(xí)的重點已經(jīng)從帶有標(biāo)簽的有監(jiān)督學(xué)習(xí)轉(zhuǎn)向自監(jiān)督預(yù)訓(xùn)練。比如,MAE[2] 在視覺領(lǐng)域的掩蔽語言建模中取得了成功,并迅速成為一種流行的視覺表征學(xué)習(xí)方法。然而,自監(jiān)督學(xué)習(xí)使用的模型架構(gòu)往往是為有監(jiān)督學(xué)習(xí)設(shè)置的架構(gòu),并假設(shè)這個架構(gòu)是固定的。比如,MAE 使用 Vision Transformer 架構(gòu)做實驗。

          因此,在本文中作者希望將架構(gòu)的設(shè)計和自監(jiān)督學(xué)習(xí)框架的設(shè)計結(jié)合起來,但是直接在 MAE 上使用 ConvNeXt 架構(gòu)是有問題的。因為 MAE 的 Encoder-Decoder 設(shè)計是針對 Transformer 這樣的序列信息處理能力強的模型設(shè)計的,compute-heavy encoder 可以專注于可見的 Patches,從而降低了預(yù)訓(xùn)練成本。這種設(shè)計可能與使用密集滑動窗口的標(biāo)準(zhǔn) ConvNets 不兼容。所以,自監(jiān)督學(xué)習(xí)的訓(xùn)練目標(biāo)和架構(gòu)之間的關(guān)系需要明確,否則就不清楚是否能實現(xiàn)最佳性能。經(jīng)驗證據(jù)表明,Transformer 和 ConvNet 可能具有不同的特征學(xué)習(xí)行為,這些行為可能會影響表征的質(zhì)量。

          為此,作者提出協(xié)同設(shè)計神經(jīng)網(wǎng)絡(luò)的架構(gòu)和掩碼自編碼器,目的是使基于掩碼的自監(jiān)督學(xué)習(xí)對 ConvNeXt 模型有效,使得性能接近 Transformer 獲得的結(jié)果。在設(shè)計掩碼自編碼器時,我們將掩碼輸入視為一組 Sparse Patches,并使用稀疏卷積僅處理可見部分。在實踐中,可以使用稀疏卷積實現(xiàn) ConvNeXt,并且在 Fine-tuning 時,權(quán)重被轉(zhuǎn)換回標(biāo)準(zhǔn)的密集層,而不需要特殊處理。為了進一步提高預(yù)訓(xùn)練效率,作者在實現(xiàn)解碼器時,也使用 ConvNeXt 塊,使整個設(shè)計完全卷積化。

          本文動機:

          基于有監(jiān)督訓(xùn)練的 ConvNeXt 性能卓越,受最近自監(jiān)督方法 MAE 的啟發(fā),ConvNeXt 的性能還可能受益于 MAE。但是,直接結(jié)合這兩種技術(shù)性能一般,因此本文提出 FCMAE 的框架,這種自監(jiān)督學(xué)習(xí)技術(shù)架構(gòu)改進的協(xié)同設(shè)計產(chǎn)生了一個 ConvNeXt V2 的新模型,它顯著提高了純 ConvNet 在各種識別基準(zhǔn)上的性能。

          1.2 自監(jiān)督學(xué)習(xí)方法 FCMAE 的初步設(shè)計

          圖1:自監(jiān)督學(xué)習(xí)方法 FCMAE 流程

          如上圖1所示,自監(jiān)督學(xué)習(xí)方法 FCMAE 概念上簡單,并以完全卷積的方式運行。原始的輸入信號被隨機 mask,輸入 Encoder,希望 Encoder + Decoder 的輸出預(yù)測 mask 掉的部分。

          作者使用 masking ratio 為0.6的隨機掩碼策略。由于卷積模型具有分層設(shè)計,其中特征在不同階段進行下采樣,掩碼在最后階段生成,并遞歸上采樣直至最佳分辨率。作者從原始輸入圖像中隨機去除 60% 的 32×32 Patches,數(shù)據(jù)增強只使用 Random resized cropping。

          Encoder 設(shè)計

          作者使用 ConvNeXt 作為 Encoder。但是這樣做自然產(chǎn)生一個問題:MAE 的一個自然的挑戰(zhàn)是防止模型學(xué)習(xí)到復(fù)制和粘貼信息的 shortcuts,因為這樣得到的模型沒有重建能力。當(dāng) Transformer 模型作為 Encoder 時,這個問題很好解決,只需要將可見的 Patches 作為編碼器的唯一輸入即可。但是當(dāng) ConvNets 模型作為 Encoder 時,這個問題不好解決了,因為必須保留二維的圖像結(jié)構(gòu)。之前的工作 BEiT,SimMIM 的做法是在輸入端引入一些可學(xué)習(xí)的 masked tokens,這些方法降低了預(yù)訓(xùn)練的效率,并導(dǎo)致訓(xùn)練和測試時間不一致,因為在測試時沒有 masked tokens。當(dāng) masking ratio 很高時,這尤其成問題。

          為了解決這個問題,作者從 "稀疏數(shù)據(jù)的視角" 來觀察 masked image,關(guān)鍵的觀點是,masked image 可以表示為一個二維稀疏像素陣列。因此可以很自然地想到使用稀疏卷積,以促進 MAE 的訓(xùn)練。在預(yù)訓(xùn)練期間,將卷積替換為 submanifold sparse convolution,這使得模型只能在可見數(shù)據(jù)點上操作;在微調(diào)階段,稀疏卷積層可以轉(zhuǎn)換回標(biāo)準(zhǔn)卷積,而不需要額外的處理。

          Decoder 設(shè)計

          作者使用1個 ConvNeXt Block 作為 Decoder。這在總體上形成了非對稱的 Encoder-Decoder 體系結(jié)構(gòu),因為 Encoder 更重,且具有分層架構(gòu)。

          Reconstruction target 設(shè)計

          遵循 MAE 的做法,使用重建目標(biāo)和真值之間的 Mean Squared Error, MSE Loss,作為 Reconstruction target。損失函數(shù)僅應(yīng)用于 masked patches。

          作者分別使用 ImageNet-1K (IN1K) 數(shù)據(jù)集進行800和100個 Epoch 的預(yù)訓(xùn)練和微調(diào)。

          為了理解 FCMAE 框架中使用稀疏卷積的影響,作者首先研究它在掩碼圖像預(yù)訓(xùn)練期間如何影響表征學(xué)習(xí)的質(zhì)量。實證研究結(jié)果表明,為了達(dá)到良好的效果,防止信息泄漏是至關(guān)重要的。

          圖2:使用稀疏卷積的影響

          接下來,作者將 FCMAE 與監(jiān)督學(xué)習(xí)進行比較。如下圖3所示,實驗結(jié)果如下。有監(jiān)督訓(xùn)練 100 Epochs 精度是82.7%,有監(jiān)督訓(xùn)練 300 Epochs 精度是83.8%,F(xiàn)CMAE 進行 800和100個 Epoch 的預(yù)訓(xùn)練和微調(diào)結(jié)果是 83.7%。說明 FCMAE 預(yù)訓(xùn)練提供了比隨機基線更好的初始化 (82.7→83.7),但它仍然不如在原始監(jiān)督訓(xùn)練的最佳性能。

          圖3:FCMAE 與監(jiān)督學(xué)習(xí)進行比較

          1.3 自監(jiān)督學(xué)習(xí)方法 FCMAE 的進一步優(yōu)化

          至此,自監(jiān)督學(xué)習(xí)方法 FCMAE 實現(xiàn)了接近有監(jiān)督學(xué)習(xí)的性能,但是這與 Transformer + 自監(jiān)督訓(xùn)練的性能遠(yuǎn)超有監(jiān)督訓(xùn)練的結(jié)果形成了對比。因此,作者接下來探索自監(jiān)督學(xué)習(xí)方法 FCMAE 的進一步優(yōu)化。

          1.3.1 Feature collapse現(xiàn)象

          作者首先提出一種新的標(biāo)準(zhǔn)化技術(shù):Global Response Normalization,使 FCMAE 預(yù)訓(xùn)練與 ConvNeXt 架構(gòu)結(jié)合起來更加有效。作者首先觀察到一種 Feature collapse 現(xiàn)象。如下圖4所示,作者可視化了一個 FCMAE 預(yù)訓(xùn)練的 ConvNeXt-Base 模型的激活,并注意到一個 Feature collapse 現(xiàn)象,即:有許多死的或飽和的特征映射,激活在通道之間變得多余。這一現(xiàn)象主要在一個 ConvNeXt 塊中的 MLP 的 channel expansion 層中觀察到。

          圖4:Feature collapse 現(xiàn)象

          1.3.2 特征余弦距離分析

          為了進一步定量地驗證我們的觀察結(jié)果, 作者進行了特征余弦距離分析。給定激活值 是第 個通道的特征, 將它 reshape 成一個 維的張量, 然 后計算 pair-wise cosine distance: 。

          這個距離值越大,特征的多樣性越強。反之,距離值越小,特征的冗余性越強。 為了進行分析,作者從 ImageNet-1K 驗證集中的不同類別中隨機選擇1000張圖像,并從不同模型的每一層中提取高維特征,包括 FCMAE模型、有監(jiān)督訓(xùn)練的 ConvNeXt 模型和 MAE 預(yù)訓(xùn)練的 ViT 模型。然后計算每個圖像的每層距離,并對所有圖像的值求平均值。 結(jié)果如下圖5所示,F(xiàn)CMAE 預(yù)訓(xùn)練的 ConvNeXt 模型表現(xiàn)出明顯的特征崩潰趨勢,與作者從之前的激活可視化中觀察到的一致,這促使作者考慮在學(xué)習(xí)過程中使特征多樣化并防止特征崩潰的方法。

          圖5:特征余弦距離分析

          1.3.3 全局響應(yīng)歸一化

          緩解特征坍塌的方法,其實就是要增加神經(jīng)元的多樣性。在人類大腦中,有許多促進神經(jīng)元多樣性的機制。

          例如,橫向抑制 (lateral inhibition[3][4]) 可以幫助增強被激活神經(jīng)元的反應(yīng),增加單個神經(jīng)元對刺激的對比度和選擇性,同時還可以增加整個神經(jīng)元群體的反應(yīng)多樣性。

          在深度學(xué)習(xí)中,這種形式的橫向抑制可以通過 Response Normalization[5]來實現(xiàn)。在這項工作中,作者引入了一種新的響應(yīng)歸一化層,稱為全局響應(yīng)歸一化 (Global Response Normalization, GRN),其目的是提高信道的對比度和選擇性。給定一個輸入特征 ,所提出的 GRN 包括三個步驟

          • 全局特征聚合
          • 特征歸一化
          • 特征校準(zhǔn)

          全局特征聚合

          通過一個 函數(shù),把空間特征聚合成為一個向量:

          這可以看作是一個簡單的池化層。作者在圖6中嘗試了不同的函數(shù)。

          圖6:全局特征聚合消融實驗

          發(fā)現(xiàn) L2 范數(shù)效果最好, 通過使用 L2 范數(shù), 能夠?qū)τ诿總€ channel 的特征得到一個值, 最終得到一組聚合的值: , 式中, 是聚合第 個 channel 的統(tǒng)計信息的標(biāo)量。

          特征歸一化

          如下式所示對第 個 channel 的統(tǒng)計信息的標(biāo)量進行歸一化,式2計算其相對于所有其他通道的相對重要性。

          圖7:不同特征歸一化方法的消融實驗

          特征校準(zhǔn)

          最后使用計算出的特征歸一化分?jǐn)?shù)校準(zhǔn)原始輸入響應(yīng):

          為了簡化優(yōu)化, 作者添加了兩個額外的可學(xué)習(xí)參數(shù) , 并將它們初始化為零。作者還在 GRN 層的輸入和輸出之間添加了一個殘差連接。最終變?yōu)? .

          GRN 與其他歸一化策略的消融實驗結(jié)果如下圖8所示。

          圖8:GRN 與其他歸一化策略的消融實驗結(jié)果

          可以觀察到,只有 GRN 可以顯著優(yōu)于監(jiān)督基線模型。LRN 缺乏全局背景,因為它只對比附近鄰居的 channel。BN 沿 Batch 軸在空間上歸一化,不適合掩碼輸入。LN 通過全局均值和方差標(biāo)準(zhǔn)化隱含地鼓勵特征競爭,但不像 GRN那樣有效。

          GRN 與其他 feature gating 的消融實驗結(jié)果如下圖9所示。GRN 類似于一種 feature gating 的方法,作者對比了它和 SE 模塊[6],和 CBAM 方法[7]。SE 模塊側(cè)重于給 channel 維度的 gating,CBAM 方法側(cè)重于給 spatial 維度的 gating。與它們相比,GRN 更簡單,更有效,因為它不需要額外的參數(shù)層 (如 MLP)。

          圖9:GRN 與其他 feature gating 的消融實驗結(jié)果

          最后,作者研究了 GRN 在預(yù)訓(xùn)練和微調(diào)中的重要性。如下圖10所示,從微調(diào)中刪除 GRN,或者只在微調(diào)時添加新初始化的 GRN。無論哪種方式都會觀察到顯著的性能下降,這表明 GRN 在預(yù)訓(xùn)練和微調(diào)中的重要性。

          圖10:GRN 在預(yù)訓(xùn)練和微調(diào)中的重要性

          1.3.4 ConvNeXt V2

          ConvNeXt V2 和 ConvNeXt V1 的對比如下圖11所示。與 ConvNeXt V1 相比,V2 丟棄了 Layer Scale,并使用了 GRN。從圖4的可視化和圖5的余弦距離分析中,可以觀察到 ConvNeXt V2 有效地緩解了特征崩潰問題。余弦距離值始終較高,表明特征多樣性在各層之間保持不變??梢暬Y(jié)果類似于 MAE 預(yù)訓(xùn)練的 ViT 模型。

          圖11:ConvNeXt V2 和 ConvNeXt V1 的對比

          如下圖12所示為 FCMAE 和 ConvNeXt V2 配合與監(jiān)督學(xué)習(xí)進行比較的實驗結(jié)果,F(xiàn)CMAE 預(yù)訓(xùn)練模型可以顯著優(yōu)于300 Epochs 有監(jiān)督訓(xùn)練的 ConvNeXt 模型。GRN 通過增強特征多樣性來提高表征學(xué)習(xí)的質(zhì)量。

          圖12:FCMAE 和 ConvNeXt V2 配合與監(jiān)督學(xué)習(xí)進行比較

          1.4 實驗結(jié)果

          ImageNet 實驗結(jié)果

          本節(jié)展示 FCMAE 預(yù)訓(xùn)練框架下的 ConvNeXt V2 架構(gòu)的實驗結(jié)果,作者展示了這些設(shè)計很好地協(xié)同作用。聯(lián)合設(shè)計的作用如下圖13所示。

          可以發(fā)現(xiàn),在不修改模型架構(gòu)的情況下,使用 FCMAE 框架對表示學(xué)習(xí)質(zhì)量的影響有限。類似地,在監(jiān)督訓(xùn)練的設(shè)置下,GRN 層對性能的影響相當(dāng)小。然而,兩者的結(jié)合在微調(diào)性能上有顯著的改善。這說明模型的架構(gòu)和學(xué)習(xí)框架應(yīng)該一起設(shè)計,尤其是在涉及到自監(jiān)督學(xué)習(xí)的時候。

          圖13:架構(gòu)和訓(xùn)練策略協(xié)同設(shè)計的重要性

          模型的擴展性

          ConvNeXt V2 從小到大的模型架構(gòu)依次是:

          Atto (3.7M),F(xiàn)emto (5.2M),Pico (9.1M),Nano (15.6M),Tiny (28M),Base (89M),Large (198M),Huge (659M)

          • ConvNeXt V2-A: C=40, B=(2, 2, 6, 2)
          • ConvNeXt V2-F: C=48, B=(2, 2, 6, 2)
          • ConvNeXt V2-P: C=64, B=(2, 2, 6, 2)
          • ConvNeXt V2-N: C=80, B=(2, 2, 8, 2)
          • ConvNeXt V2-T: C=96, B=(3, 3, 9, 3)
          • ConvNeXt V2-B: C=128, B=(3, 3, 27, 3)
          • ConvNeXt V2-L: C=192, B=(3, 3, 27, 3)
          • ConvNeXt V2-H: C=352, B=(3, 3, 27, 3)

          與其他自監(jiān)督方法比較

          作者將 FCMAE + ConvNeXt V2 與之前的 MIM 進行了比較,這些方法都是為基于 ViT 的模型設(shè)計的。如下圖14所示,在所有模型尺寸上都優(yōu)于用 SimMIM 預(yù)訓(xùn)練的 Swin Transformer。但不如使用 MAE 預(yù)訓(xùn)練的普通 ViT 模型。

          圖14:FCMAE 與其他自監(jiān)督方法的比較

          ImageNet-22K intermediate fine-tuning 實驗結(jié)果

          實驗包含3步:FCMAE 預(yù)訓(xùn)練,ImageNet-22K 微調(diào),ImageNet-1K 微調(diào)。 使用 384×384 分辨率的圖像進行預(yù)訓(xùn)練和微調(diào)。結(jié)果如圖15所示,本文方法使用基于卷積的架構(gòu),僅使用公開可用的數(shù)據(jù)實現(xiàn)了高于 Transformer 模型的精度。

          圖15:ImageNet-22K intermediate fine-tuning 實驗結(jié)果

          COCO 目標(biāo)檢測和實例分割實驗結(jié)果

          數(shù)據(jù)集:COCO,模型 Mask R-CNN。實驗結(jié)果如下圖16所示??梢钥吹剑?dāng)模型架構(gòu)從 V1 變?yōu)?V2,以及加入 GRN 之后,性能都有提升。在此基礎(chǔ)上,當(dāng)從有監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練模型過渡到基于 FCMAE 的自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練模型之后,模型性能得到了進一步的提升。

          圖16:COCO 目標(biāo)檢測和實例分割實驗結(jié)果

          ADE20K 語義分割實驗結(jié)果

          數(shù)據(jù)集:ADE20K,模型 UperNet。實驗結(jié)果如下圖17所示。結(jié)果呈現(xiàn)出與目標(biāo)檢測實驗相似的趨勢,并且最終模型比 ConvNeXt V1 的模型表現(xiàn)出顯著改進,并且性能與 Swin transformer 模型接近。

          圖17:ADE20K 語義分割實驗結(jié)果

          總結(jié)

          基于有監(jiān)督訓(xùn)練的 ConvNeXt 性能卓越,受最近自監(jiān)督方法 MAE 的啟發(fā),ConvNeXt 的性能還可能受益于 MAE。但是,直接結(jié)合這兩種技術(shù)性能一般,因此本文提出 FCMAE 的框架,這種自監(jiān)督學(xué)習(xí)技術(shù)和架構(gòu)改進的協(xié)同設(shè)計產(chǎn)生了一個 ConvNeXt V2 的新模型,它顯著提高了純 ConvNet 在各種識別基準(zhǔn)上的性能,使之接近 Transformer 相關(guān)的模型。

          參考

          1. ^A ConvNet for the 2020s
          2. ^Masked Autoencoders Are Scalable Vision Learners
          3. ^Application of fourier analysis to the visibility of gratings
          4. ^INHIBITION IN THE EYE OF LIMULUS
          5. ^ImageNet Classification with Deep Convolutional Neural Networks
          6. ^Squeeze-and-Excitation Networks
          7. ^CBAM: Convolutional Block Attention Module

          瀏覽 41
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  一区二区三视频 | 国产三级在线播放一 | 亚洲国产成人一区二区 | 欧美,国产特级黄片 | 快色网站 |