VIT 的復(fù)仇 ?。?/h1>

作者:Adam Zewe ?機(jī)器之心編譯
大家好,我是DASOU。
之前VIT橫空出世,我寫過一個(gè)解讀文章:VIT:如何將Transformer更好的應(yīng)用到CV領(lǐng)域
最近發(fā)現(xiàn)一個(gè)新出的論文,提出三種數(shù)據(jù)增強(qiáng)方法:灰度、過度曝光、高斯模糊,以及一種簡單的隨機(jī)修剪方法 (SRC)。實(shí)驗(yàn)結(jié)果表明,這些新方法在效果上大大優(yōu)于 ViT 此前的全監(jiān)督訓(xùn)練方法。
Transformer 模型 [55] 及其衍生模型在 NLP 任務(wù)中取得巨大成功后,在計(jì)算機(jī)視覺任務(wù)中也越來越受歡迎。這一系列的模型越來越多地用于圖像分類 [13]、檢測與分割 [3]、視頻分析等領(lǐng)域。尤其是 Dosovistky 等人 [13] 提出的視覺 Transformer(ViT)成為了卷積結(jié)構(gòu)的合理替代模型。這些現(xiàn)象說明 Transformers 模型已經(jīng)可以作為一種通用架構(gòu),來通過注意力機(jī)制學(xué)習(xí)卷積以及更大區(qū)間的操作 [5,8]。相比之下,卷積網(wǎng)絡(luò) [20,27,29,41] 本就具備了平移不變性,不用再通過訓(xùn)練來獲取。因此,包含卷積的混合體系結(jié)構(gòu)比普通 Transformers 收斂得更快也就不足為奇了 [18]。
因?yàn)?Transformer 僅將多個(gè) patch 中相同位置的像素合并,所以 Transformer 必須了解圖像的結(jié)構(gòu),同時(shí)優(yōu)化模型,以便它處理用來解決給定任務(wù)目標(biāo)的輸入。這些任務(wù)可以是在監(jiān)督情況下產(chǎn)生標(biāo)簽,或者在自監(jiān)督方法下的其他代理任務(wù)。然而,盡管 Transformer 取得了巨大的成功,但在計(jì)算機(jī)視覺方面研究如何有效訓(xùn)練視覺 Transformer 的工作卻很少,特別是在像 ImageNet1k 這樣的中型數(shù)據(jù)集上。從 Dosovistky 等人的工作 [13] 開始,訓(xùn)練步驟大多是使用 Touvron 等人 [48] 和施泰納等人 [42] 提出的方法的變體。相比之下,有許多工作通過引入池化、更有效的注意力機(jī)制或者重新結(jié)合卷積和金字塔結(jié)構(gòu)的混合架構(gòu)提出了替代架構(gòu)。這些新設(shè)計(jì)雖然對某些任務(wù)特別有效,但不太通用。所以研究者們會(huì)困惑,性能的提高到底是由于特定的架構(gòu)設(shè)計(jì),還是因?yàn)樗凑?ViT 卷積所提出的方式改進(jìn)了優(yōu)化過程。
最近,受時(shí)下流行的基于 BerT 預(yù)訓(xùn)練啟發(fā)的自監(jiān)督方法為計(jì)算機(jī)視覺中的 BerT 時(shí)代帶來了希望。從 Transformer 架構(gòu)本身出發(fā),NLP 和 CV 領(lǐng)域之間存在一些相似之處。然而,并非在所有方面都是相同的:處理的模態(tài)具有不同的性質(zhì)(連續(xù)與離散)。CV 提供像 ImageNet [40] 這樣的大型帶有注釋的數(shù)據(jù)庫,并且在 ImageNet 上進(jìn)行全監(jiān)督的預(yù)訓(xùn)練對于處理不同的下游任務(wù)(例如遷移學(xué)習(xí) [37] 或語義分割)是有效的。
如果沒有對 ImageNet 上全監(jiān)督方法的進(jìn)一步研究,很難斷定像 BeiT [2] 這樣的自監(jiān)督方法的性能是否該歸因于網(wǎng)絡(luò)的訓(xùn)練過程,例如數(shù)據(jù)增強(qiáng)、正則化、優(yōu)化,或能夠?qū)W習(xí)更一般的隱式表示的底層機(jī)制。在本文中,研究者們沒有強(qiáng)行回答這個(gè)難題,而是通過更新常規(guī) ViT 架構(gòu)的訓(xùn)練程序來探討這個(gè)問題。

論文地址:https://arxiv.org/pdf/2204.07118.pdf
研究者們希望這個(gè)工作能有助于更好地理解如何充分利用 Transformer 的潛力以及說明類似 BerT 的預(yù)訓(xùn)練的重要性。他們的工作建立在最新的全監(jiān)督和自監(jiān)督方法的基礎(chǔ)上,并對數(shù)據(jù)增強(qiáng)提出了新的見解。作者為 ImageNet-1k 和 ImageNet-21k 上的 ViT 提出了新的訓(xùn)練方法。主要構(gòu)成如下:
作者以 Wightman 等人的工作 [57] 為基礎(chǔ),同樣使用 ResNet50 。特別之處在于,僅對 Imagenet1k 的訓(xùn)練過程采用二元交叉熵?fù)p失,這一步可以通過引入一些顯著改善大型 ViT [51] 訓(xùn)練的方法,即 stochastic depth [24] 和 LayerScale [51],來實(shí)現(xiàn)。
3-Augment:這是一種簡單的數(shù)據(jù)增強(qiáng)方式,靈感來自于自監(jiān)督學(xué)習(xí)。令人驚訝的是,在使用 ViT 時(shí),作者觀察到這種方法比用于訓(xùn)練 ViT 的常用自動(dòng) / 學(xué)習(xí)數(shù)據(jù)增強(qiáng)(如 RandAugment [6])效果更好。
在像 ImageNet-21k 這樣的更大數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練時(shí),簡單隨機(jī)裁剪的方式比調(diào)整大小后再隨機(jī)裁剪的方式更有效。
訓(xùn)練時(shí)降低分辨率。這種選擇減少了訓(xùn)練和測試過程的差異 [53],而且還沒有被 ViT 使用。作者觀察到這樣做還能通過防止過擬合,來使得對最大的模型產(chǎn)生正則化效果。例如,目標(biāo)分辨率是 224 × 224 ,在分辨率 126 × 126(81 個(gè) token)下預(yù)訓(xùn)練的 ViT-H 在 ImageNet-1k 上的性能比在分辨率 224 × 224(256 個(gè) token)下預(yù)訓(xùn)練時(shí)更好。并且在預(yù)訓(xùn)練時(shí)的要求也較低,因?yàn)?token 數(shù)量減少了 70%。從這個(gè)角度來看,這樣做提供了與掩碼自編碼器 [19] 類似的縮放屬性。
這種 “新” 訓(xùn)練策略不會(huì)因最大模型而飽和,這比 Touvron 等人的 Data-Efficient Image Transformer (DeiT) [48] 又多邁出了一步。至此,研究者們在圖像分類和分割方面都獲得了具有競爭力的性能,即使是與最近流行的架構(gòu)(如 SwinTransformers [31] 或現(xiàn)代卷積網(wǎng)絡(luò)架構(gòu)(如 ConvNext [32])相比也是如此。下面闡述一些作者認(rèn)為有趣的結(jié)果。
即使在中等規(guī)模的數(shù)據(jù)集上,研究者也會(huì)利用具有更多能力的模型。例如,僅在 ImageNet1k 上訓(xùn)練 ViT-H 時(shí), top-1 準(zhǔn)確率達(dá)到 85.2%,這比文獻(xiàn)中報(bào)道的分辨率為 224×224 的監(jiān)督訓(xùn)練過程的最佳 ViT-H 提高了 +5.1%。
ImageNet-1k 訓(xùn)練程序允許訓(xùn)練十億參數(shù)的 ViT-H(52 層),無需任何超參數(shù)適應(yīng),只需使用與 ViT-H 相同的隨機(jī)深度下降率。在 224×224 時(shí)達(dá)到 84.9%,即比在相同設(shè)置下訓(xùn)練的相應(yīng) ViT-H 高 +0.2%。
在不犧牲性能的情況下,將所需的 GPU 數(shù)量和 ViT-H 的訓(xùn)練時(shí)間都能減少一半 以上,從而可以在不減少資源的情況下有效地訓(xùn)練此類模型。這要?dú)w功于研究者以較低分辨率進(jìn)行的預(yù)訓(xùn)練,從而減少了峰值記憶。
對于 ViT-B 和 Vit-L 模型,作者提出的監(jiān)督訓(xùn)練方法與具有默認(rèn)設(shè)置的類似 BerT 的自監(jiān)督方法 [2, 19] 相當(dāng),并且在使用相同級別的注釋和更少的 epoch 時(shí),兩者都適用于圖像分類和語義分割任務(wù)。
通過這種改進(jìn)的訓(xùn)練過程,vanilla ViT 縮小了與最近最先進(jìn)架構(gòu)的差距,同時(shí)通常能提供更好的計(jì)算 / 性能權(quán)衡。作者提出的模型在附加測試集 ImageNet-V2 [39] 上也相對更好,這表明他們訓(xùn)練的模型比先前的大多數(shù)工作能更好地泛化到另一個(gè)驗(yàn)證集上。
對遷移學(xué)習(xí)分類任務(wù)中使用的裁剪比率的影響進(jìn)行消融實(shí)驗(yàn)。研究者觀察到裁剪結(jié)果對性能有顯著影響,但最佳值很大程度上取決于目標(biāo)數(shù)據(jù)集 / 任務(wù)。
?Vision Transformers 重溫訓(xùn)練和預(yù)訓(xùn)練
在本節(jié)中,研究者介紹了視覺 Transformers 的訓(xùn)練過程,并將其與現(xiàn)有方法進(jìn)行比較。他們在表 1 中詳細(xì)說明了不同的成分?;?Wightman 等人 [57] 和 Touvron 等人 [48] 的工作,作者介紹了幾個(gè)對最終模型精度有重大影響的改動(dòng)。

數(shù)據(jù)增強(qiáng)
自從 AlexNet 出現(xiàn)以來,用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)增強(qiáng)流程有幾次重大的修改。有趣的是,相同的數(shù)據(jù)增強(qiáng),如 RandAugment [6],被廣泛用于 ViT,而他們的策略最初是為了卷積網(wǎng)絡(luò)學(xué)習(xí)而產(chǎn)生的。鑒于這些架構(gòu)中的架構(gòu)先驗(yàn)和偏差是完全不同的,增強(qiáng)策略可能無法適應(yīng),并且考慮到選擇中涉及的大量選擇,可能會(huì)過擬合。因此,研究者重新審視了這個(gè)先驗(yàn)步驟。
3-Augment:作者提出了一個(gè)簡單的數(shù)據(jù)增強(qiáng),靈感來自監(jiān)督學(xué)習(xí) (SSL) 中使用的內(nèi)容。作者提出應(yīng)該考慮以下三種變形:
灰度:有利于顏色不變性并更加關(guān)注形狀。
過度曝光:會(huì)在顏色上添加強(qiáng)烈的噪點(diǎn),以更加適應(yīng)顏色強(qiáng)度的變化,從而更加關(guān)注形狀。
高斯模糊:為了稍微改變圖像中的細(xì)節(jié)。
對于每張圖像,他們以均值概率來選擇其中一個(gè)數(shù)據(jù)增強(qiáng)。除了這 3 個(gè)增強(qiáng)選項(xiàng)之外,還包括常見的顏色抖動(dòng)和水平翻轉(zhuǎn)。圖 2 說明了 3-Augment 方法中使用的不同增強(qiáng)。

在表 2 中,他們提供了對不同數(shù)據(jù)增強(qiáng)組件的消融實(shí)驗(yàn)結(jié)果。

裁剪
GoogleNet [43] 中介紹了 Random Resized Crop (RRC)。它是一種限制模型過度擬合的正則化,同時(shí)有利于模型所做的決策對于某一類轉(zhuǎn)換是不變的。這種數(shù)據(jù)增強(qiáng)在 Imagenet1k 上被認(rèn)為很重要,能防止過度擬合,這種情況恰好在現(xiàn)代大型模型中較為常見。
然而,這種裁剪策略在訓(xùn)練圖像和測試圖像之間引入了一些長寬比和物體的明顯尺寸方面的差異 [53]。由于 ImageNet-21k 包含更多的圖像,不太容易過度擬合。因此,研究者質(zhì)疑強(qiáng) RRC 正則化的優(yōu)勢是否能夠彌補(bǔ)在更大數(shù)據(jù)集上訓(xùn)練時(shí)的缺點(diǎn)。
簡單隨機(jī)裁剪 (SRC) 是一種更簡單的裁剪提取方法。它類似于 AlexNet [27] 中提出的原始裁剪選擇:調(diào)整圖像的大小,使最小的邊與訓(xùn)練分辨率相匹配。然后在所有邊應(yīng)用一個(gè) 4 像素的反射填充,最后應(yīng)用一個(gè)沿圖像 x 軸隨機(jī)選擇訓(xùn)練圖形大小的正方形裁剪機(jī)制
圖 3 顯示 RRC 和 SRC 采樣的裁剪框。RRC 提供了很多不同大小和形狀的裁剪框。相比之下,SRC 覆蓋了整個(gè)圖像的更多部分并保留了縱橫比,但提供的形狀多樣性較少:裁剪框顯著重疊。因此,在 ImageNet1k 上進(jìn)行訓(xùn)練時(shí),使用常用的 RRC 性能更好。舉個(gè)例子來說,如果不使用 RRC,ViT-S 上的 top-1 準(zhǔn)確率會(huì)降低 0.9%。

然而,在 ImageNet-21k(比 ImageNet-1k 大 10 倍)中,過擬合的風(fēng)險(xiǎn)較小,并且增加 RRC 提供的正則化和多樣性并不重要。在這種情況下,SRC 具有了減少外觀尺寸和縱橫比差異的優(yōu)勢。更重要的是,它使圖像的實(shí)際標(biāo)簽與裁剪后的標(biāo)簽相匹配的可能性更高:RRC 在裁剪方面相對激進(jìn),在許多情況下,標(biāo)記的對象甚至不存在于作物中,如圖 4 所示,其中一些裁剪不包含標(biāo)記的對象。例如,對于 RRC,左側(cè)示例中的裁剪圖片沒有斑馬,或者中間示例中的三個(gè)裁剪圖片中沒有火車。SRC 不太可能發(fā)生這種情況,因?yàn)?SRC 覆蓋了圖像像素的大部分。

在表 5 中,研究者提供了 ImageNet-21k 上隨機(jī)調(diào)整裁剪大小的消融實(shí)驗(yàn)結(jié)果,可以看到這些裁剪方式能轉(zhuǎn)化為性能方面的顯著提升。

實(shí)驗(yàn)結(jié)果
研究者對圖像分類(在 ImageNet-21k 上進(jìn)行和不進(jìn)行預(yù)訓(xùn)練的 ImageNet-1k)、遷移學(xué)習(xí)和語義分割的評估表明,他們的程序大大優(yōu)于以前針對 ViT 的全監(jiān)督訓(xùn)練方案。該研究還表明,經(jīng)過監(jiān)督訓(xùn)練的 ViT 的性能與最近的架構(gòu)性能相當(dāng)。這些結(jié)果可以作為最近在 ViT 上使用的自監(jiān)督方法的更好基準(zhǔn)模型。

瀏覽
53

作者:Adam Zewe ?機(jī)器之心編譯
大家好,我是DASOU。
之前VIT橫空出世,我寫過一個(gè)解讀文章:VIT:如何將Transformer更好的應(yīng)用到CV領(lǐng)域
最近發(fā)現(xiàn)一個(gè)新出的論文,提出三種數(shù)據(jù)增強(qiáng)方法:灰度、過度曝光、高斯模糊,以及一種簡單的隨機(jī)修剪方法 (SRC)。實(shí)驗(yàn)結(jié)果表明,這些新方法在效果上大大優(yōu)于 ViT 此前的全監(jiān)督訓(xùn)練方法。
Transformer 模型 [55] 及其衍生模型在 NLP 任務(wù)中取得巨大成功后,在計(jì)算機(jī)視覺任務(wù)中也越來越受歡迎。這一系列的模型越來越多地用于圖像分類 [13]、檢測與分割 [3]、視頻分析等領(lǐng)域。尤其是 Dosovistky 等人 [13] 提出的視覺 Transformer(ViT)成為了卷積結(jié)構(gòu)的合理替代模型。這些現(xiàn)象說明 Transformers 模型已經(jīng)可以作為一種通用架構(gòu),來通過注意力機(jī)制學(xué)習(xí)卷積以及更大區(qū)間的操作 [5,8]。相比之下,卷積網(wǎng)絡(luò) [20,27,29,41] 本就具備了平移不變性,不用再通過訓(xùn)練來獲取。因此,包含卷積的混合體系結(jié)構(gòu)比普通 Transformers 收斂得更快也就不足為奇了 [18]。
因?yàn)?Transformer 僅將多個(gè) patch 中相同位置的像素合并,所以 Transformer 必須了解圖像的結(jié)構(gòu),同時(shí)優(yōu)化模型,以便它處理用來解決給定任務(wù)目標(biāo)的輸入。這些任務(wù)可以是在監(jiān)督情況下產(chǎn)生標(biāo)簽,或者在自監(jiān)督方法下的其他代理任務(wù)。然而,盡管 Transformer 取得了巨大的成功,但在計(jì)算機(jī)視覺方面研究如何有效訓(xùn)練視覺 Transformer 的工作卻很少,特別是在像 ImageNet1k 這樣的中型數(shù)據(jù)集上。從 Dosovistky 等人的工作 [13] 開始,訓(xùn)練步驟大多是使用 Touvron 等人 [48] 和施泰納等人 [42] 提出的方法的變體。相比之下,有許多工作通過引入池化、更有效的注意力機(jī)制或者重新結(jié)合卷積和金字塔結(jié)構(gòu)的混合架構(gòu)提出了替代架構(gòu)。這些新設(shè)計(jì)雖然對某些任務(wù)特別有效,但不太通用。所以研究者們會(huì)困惑,性能的提高到底是由于特定的架構(gòu)設(shè)計(jì),還是因?yàn)樗凑?ViT 卷積所提出的方式改進(jìn)了優(yōu)化過程。
最近,受時(shí)下流行的基于 BerT 預(yù)訓(xùn)練啟發(fā)的自監(jiān)督方法為計(jì)算機(jī)視覺中的 BerT 時(shí)代帶來了希望。從 Transformer 架構(gòu)本身出發(fā),NLP 和 CV 領(lǐng)域之間存在一些相似之處。然而,并非在所有方面都是相同的:處理的模態(tài)具有不同的性質(zhì)(連續(xù)與離散)。CV 提供像 ImageNet [40] 這樣的大型帶有注釋的數(shù)據(jù)庫,并且在 ImageNet 上進(jìn)行全監(jiān)督的預(yù)訓(xùn)練對于處理不同的下游任務(wù)(例如遷移學(xué)習(xí) [37] 或語義分割)是有效的。
如果沒有對 ImageNet 上全監(jiān)督方法的進(jìn)一步研究,很難斷定像 BeiT [2] 這樣的自監(jiān)督方法的性能是否該歸因于網(wǎng)絡(luò)的訓(xùn)練過程,例如數(shù)據(jù)增強(qiáng)、正則化、優(yōu)化,或能夠?qū)W習(xí)更一般的隱式表示的底層機(jī)制。在本文中,研究者們沒有強(qiáng)行回答這個(gè)難題,而是通過更新常規(guī) ViT 架構(gòu)的訓(xùn)練程序來探討這個(gè)問題。

論文地址:https://arxiv.org/pdf/2204.07118.pdf
研究者們希望這個(gè)工作能有助于更好地理解如何充分利用 Transformer 的潛力以及說明類似 BerT 的預(yù)訓(xùn)練的重要性。他們的工作建立在最新的全監(jiān)督和自監(jiān)督方法的基礎(chǔ)上,并對數(shù)據(jù)增強(qiáng)提出了新的見解。作者為 ImageNet-1k 和 ImageNet-21k 上的 ViT 提出了新的訓(xùn)練方法。主要構(gòu)成如下:
作者以 Wightman 等人的工作 [57] 為基礎(chǔ),同樣使用 ResNet50 。特別之處在于,僅對 Imagenet1k 的訓(xùn)練過程采用二元交叉熵?fù)p失,這一步可以通過引入一些顯著改善大型 ViT [51] 訓(xùn)練的方法,即 stochastic depth [24] 和 LayerScale [51],來實(shí)現(xiàn)。
3-Augment:這是一種簡單的數(shù)據(jù)增強(qiáng)方式,靈感來自于自監(jiān)督學(xué)習(xí)。令人驚訝的是,在使用 ViT 時(shí),作者觀察到這種方法比用于訓(xùn)練 ViT 的常用自動(dòng) / 學(xué)習(xí)數(shù)據(jù)增強(qiáng)(如 RandAugment [6])效果更好。
在像 ImageNet-21k 這樣的更大數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練時(shí),簡單隨機(jī)裁剪的方式比調(diào)整大小后再隨機(jī)裁剪的方式更有效。
訓(xùn)練時(shí)降低分辨率。這種選擇減少了訓(xùn)練和測試過程的差異 [53],而且還沒有被 ViT 使用。作者觀察到這樣做還能通過防止過擬合,來使得對最大的模型產(chǎn)生正則化效果。例如,目標(biāo)分辨率是 224 × 224 ,在分辨率 126 × 126(81 個(gè) token)下預(yù)訓(xùn)練的 ViT-H 在 ImageNet-1k 上的性能比在分辨率 224 × 224(256 個(gè) token)下預(yù)訓(xùn)練時(shí)更好。并且在預(yù)訓(xùn)練時(shí)的要求也較低,因?yàn)?token 數(shù)量減少了 70%。從這個(gè)角度來看,這樣做提供了與掩碼自編碼器 [19] 類似的縮放屬性。
這種 “新” 訓(xùn)練策略不會(huì)因最大模型而飽和,這比 Touvron 等人的 Data-Efficient Image Transformer (DeiT) [48] 又多邁出了一步。至此,研究者們在圖像分類和分割方面都獲得了具有競爭力的性能,即使是與最近流行的架構(gòu)(如 SwinTransformers [31] 或現(xiàn)代卷積網(wǎng)絡(luò)架構(gòu)(如 ConvNext [32])相比也是如此。下面闡述一些作者認(rèn)為有趣的結(jié)果。
即使在中等規(guī)模的數(shù)據(jù)集上,研究者也會(huì)利用具有更多能力的模型。例如,僅在 ImageNet1k 上訓(xùn)練 ViT-H 時(shí), top-1 準(zhǔn)確率達(dá)到 85.2%,這比文獻(xiàn)中報(bào)道的分辨率為 224×224 的監(jiān)督訓(xùn)練過程的最佳 ViT-H 提高了 +5.1%。
ImageNet-1k 訓(xùn)練程序允許訓(xùn)練十億參數(shù)的 ViT-H(52 層),無需任何超參數(shù)適應(yīng),只需使用與 ViT-H 相同的隨機(jī)深度下降率。在 224×224 時(shí)達(dá)到 84.9%,即比在相同設(shè)置下訓(xùn)練的相應(yīng) ViT-H 高 +0.2%。
在不犧牲性能的情況下,將所需的 GPU 數(shù)量和 ViT-H 的訓(xùn)練時(shí)間都能減少一半 以上,從而可以在不減少資源的情況下有效地訓(xùn)練此類模型。這要?dú)w功于研究者以較低分辨率進(jìn)行的預(yù)訓(xùn)練,從而減少了峰值記憶。
對于 ViT-B 和 Vit-L 模型,作者提出的監(jiān)督訓(xùn)練方法與具有默認(rèn)設(shè)置的類似 BerT 的自監(jiān)督方法 [2, 19] 相當(dāng),并且在使用相同級別的注釋和更少的 epoch 時(shí),兩者都適用于圖像分類和語義分割任務(wù)。
通過這種改進(jìn)的訓(xùn)練過程,vanilla ViT 縮小了與最近最先進(jìn)架構(gòu)的差距,同時(shí)通常能提供更好的計(jì)算 / 性能權(quán)衡。作者提出的模型在附加測試集 ImageNet-V2 [39] 上也相對更好,這表明他們訓(xùn)練的模型比先前的大多數(shù)工作能更好地泛化到另一個(gè)驗(yàn)證集上。
對遷移學(xué)習(xí)分類任務(wù)中使用的裁剪比率的影響進(jìn)行消融實(shí)驗(yàn)。研究者觀察到裁剪結(jié)果對性能有顯著影響,但最佳值很大程度上取決于目標(biāo)數(shù)據(jù)集 / 任務(wù)。
?Vision Transformers 重溫訓(xùn)練和預(yù)訓(xùn)練
在本節(jié)中,研究者介紹了視覺 Transformers 的訓(xùn)練過程,并將其與現(xiàn)有方法進(jìn)行比較。他們在表 1 中詳細(xì)說明了不同的成分?;?Wightman 等人 [57] 和 Touvron 等人 [48] 的工作,作者介紹了幾個(gè)對最終模型精度有重大影響的改動(dòng)。

數(shù)據(jù)增強(qiáng)
自從 AlexNet 出現(xiàn)以來,用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)增強(qiáng)流程有幾次重大的修改。有趣的是,相同的數(shù)據(jù)增強(qiáng),如 RandAugment [6],被廣泛用于 ViT,而他們的策略最初是為了卷積網(wǎng)絡(luò)學(xué)習(xí)而產(chǎn)生的。鑒于這些架構(gòu)中的架構(gòu)先驗(yàn)和偏差是完全不同的,增強(qiáng)策略可能無法適應(yīng),并且考慮到選擇中涉及的大量選擇,可能會(huì)過擬合。因此,研究者重新審視了這個(gè)先驗(yàn)步驟。
3-Augment:作者提出了一個(gè)簡單的數(shù)據(jù)增強(qiáng),靈感來自監(jiān)督學(xué)習(xí) (SSL) 中使用的內(nèi)容。作者提出應(yīng)該考慮以下三種變形:
灰度:有利于顏色不變性并更加關(guān)注形狀。
過度曝光:會(huì)在顏色上添加強(qiáng)烈的噪點(diǎn),以更加適應(yīng)顏色強(qiáng)度的變化,從而更加關(guān)注形狀。
高斯模糊:為了稍微改變圖像中的細(xì)節(jié)。
對于每張圖像,他們以均值概率來選擇其中一個(gè)數(shù)據(jù)增強(qiáng)。除了這 3 個(gè)增強(qiáng)選項(xiàng)之外,還包括常見的顏色抖動(dòng)和水平翻轉(zhuǎn)。圖 2 說明了 3-Augment 方法中使用的不同增強(qiáng)。

在表 2 中,他們提供了對不同數(shù)據(jù)增強(qiáng)組件的消融實(shí)驗(yàn)結(jié)果。

裁剪
GoogleNet [43] 中介紹了 Random Resized Crop (RRC)。它是一種限制模型過度擬合的正則化,同時(shí)有利于模型所做的決策對于某一類轉(zhuǎn)換是不變的。這種數(shù)據(jù)增強(qiáng)在 Imagenet1k 上被認(rèn)為很重要,能防止過度擬合,這種情況恰好在現(xiàn)代大型模型中較為常見。
然而,這種裁剪策略在訓(xùn)練圖像和測試圖像之間引入了一些長寬比和物體的明顯尺寸方面的差異 [53]。由于 ImageNet-21k 包含更多的圖像,不太容易過度擬合。因此,研究者質(zhì)疑強(qiáng) RRC 正則化的優(yōu)勢是否能夠彌補(bǔ)在更大數(shù)據(jù)集上訓(xùn)練時(shí)的缺點(diǎn)。
簡單隨機(jī)裁剪 (SRC) 是一種更簡單的裁剪提取方法。它類似于 AlexNet [27] 中提出的原始裁剪選擇:調(diào)整圖像的大小,使最小的邊與訓(xùn)練分辨率相匹配。然后在所有邊應(yīng)用一個(gè) 4 像素的反射填充,最后應(yīng)用一個(gè)沿圖像 x 軸隨機(jī)選擇訓(xùn)練圖形大小的正方形裁剪機(jī)制
圖 3 顯示 RRC 和 SRC 采樣的裁剪框。RRC 提供了很多不同大小和形狀的裁剪框。相比之下,SRC 覆蓋了整個(gè)圖像的更多部分并保留了縱橫比,但提供的形狀多樣性較少:裁剪框顯著重疊。因此,在 ImageNet1k 上進(jìn)行訓(xùn)練時(shí),使用常用的 RRC 性能更好。舉個(gè)例子來說,如果不使用 RRC,ViT-S 上的 top-1 準(zhǔn)確率會(huì)降低 0.9%。

然而,在 ImageNet-21k(比 ImageNet-1k 大 10 倍)中,過擬合的風(fēng)險(xiǎn)較小,并且增加 RRC 提供的正則化和多樣性并不重要。在這種情況下,SRC 具有了減少外觀尺寸和縱橫比差異的優(yōu)勢。更重要的是,它使圖像的實(shí)際標(biāo)簽與裁剪后的標(biāo)簽相匹配的可能性更高:RRC 在裁剪方面相對激進(jìn),在許多情況下,標(biāo)記的對象甚至不存在于作物中,如圖 4 所示,其中一些裁剪不包含標(biāo)記的對象。例如,對于 RRC,左側(cè)示例中的裁剪圖片沒有斑馬,或者中間示例中的三個(gè)裁剪圖片中沒有火車。SRC 不太可能發(fā)生這種情況,因?yàn)?SRC 覆蓋了圖像像素的大部分。

在表 5 中,研究者提供了 ImageNet-21k 上隨機(jī)調(diào)整裁剪大小的消融實(shí)驗(yàn)結(jié)果,可以看到這些裁剪方式能轉(zhuǎn)化為性能方面的顯著提升。

實(shí)驗(yàn)結(jié)果
研究者對圖像分類(在 ImageNet-21k 上進(jìn)行和不進(jìn)行預(yù)訓(xùn)練的 ImageNet-1k)、遷移學(xué)習(xí)和語義分割的評估表明,他們的程序大大優(yōu)于以前針對 ViT 的全監(jiān)督訓(xùn)練方案。該研究還表明,經(jīng)過監(jiān)督訓(xùn)練的 ViT 的性能與最近的架構(gòu)性能相當(dāng)。這些結(jié)果可以作為最近在 ViT 上使用的自監(jiān)督方法的更好基準(zhǔn)模型。

