視覺Transformer的復仇!Meta AI提出DeiT III:ViT訓練的全新baseline
點擊上方“視學算法”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
轉載自:機器之心?
作者:Adam Zewe ?|??編輯:趙陽、張倩
本文提出了訓練視覺 Transformer(ViT)的三種數(shù)據(jù)增強方法:灰度、過度曝光、高斯模糊,以及一種簡單的隨機剪枝方法 (SRC)。實驗結果表明,這些新方法在效果上大大優(yōu)于 ViT 此前的全監(jiān)督訓練方法。


作者以 Wightman 等人的工作 [57] 為基礎,同樣使用 ResNet50 。特別之處在于,僅對 Imagenet1k 的訓練過程采用二元交叉熵損失,這一步可以通過引入一些顯著改善大型 ViT [51] 訓練的方法,即 stochastic depth [24] 和 LayerScale [51],來實現(xiàn)。
3-Augment:這是一種簡單的數(shù)據(jù)增強方式,靈感來自于自監(jiān)督學習。令人驚訝的是,在使用 ViT 時,作者觀察到這種方法比用于訓練 ViT 的常用自動 / 學習數(shù)據(jù)增強(如 RandAugment [6])效果更好。
在像 ImageNet-21k 這樣的更大數(shù)據(jù)集上進行預訓練時,簡單隨機裁剪的方式比調整大小后再隨機裁剪的方式更有效。
訓練時降低分辨率。這種選擇減少了訓練和測試過程的差異 [53],而且還沒有被 ViT 使用。作者觀察到這樣做還能通過防止過擬合,來使得對最大的模型產(chǎn)生正則化效果。例如,目標分辨率是 224 × 224 ,在分辨率 126 × 126(81 個 token)下預訓練的 ViT-H 在 ImageNet-1k 上的性能比在分辨率 224 × 224(256 個 token)下預訓練時更好。并且在預訓練時的要求也較低,因為 token 數(shù)量減少了 70%。從這個角度來看,這樣做提供了與掩碼自編碼器 [19] 類似的縮放屬性。

灰度:有利于顏色不變性并更加關注形狀。
過度曝光:會在顏色上添加強烈的噪點,以更加適應顏色強度的變化,從而更加關注形狀。
高斯模糊:為了稍微改變圖像中的細節(jié)。







點個在看 paper不斷!
