?ViT訓(xùn)練的全新baseline!

來源:機器之心 本文約3500字,建議閱讀10+分鐘
本文為你介紹ViT的三種數(shù)據(jù)增強方法。
本文提出了訓(xùn)練視覺 Transformer(ViT)的三種數(shù)據(jù)增強方法:灰度、過度曝光、高斯模糊,以及一種簡單的隨機修剪方法 (SRC)。實驗結(jié)果表明,這些新方法在效果上大大優(yōu)于 ViT 此前的全監(jiān)督訓(xùn)練方法。


作者以 Wightman 等人的工作 [57] 為基礎(chǔ),同樣使用 ResNet50 。特別之處在于,僅對 Imagenet1k 的訓(xùn)練過程采用二元交叉熵?fù)p失,這一步可以通過引入一些顯著改善大型 ViT [51] 訓(xùn)練的方法,即 stochastic depth [24] 和 LayerScale [51],來實現(xiàn)。 3-Augment:這是一種簡單的數(shù)據(jù)增強方式,靈感來自于自監(jiān)督學(xué)習(xí)。令人驚訝的是,在使用 ViT 時,作者觀察到這種方法比用于訓(xùn)練 ViT 的常用自動 / 學(xué)習(xí)數(shù)據(jù)增強(如 RandAugment [6])效果更好。 在像 ImageNet-21k 這樣的更大數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練時,簡單隨機裁剪的方式比調(diào)整大小后再隨機裁剪的方式更有效。 訓(xùn)練時降低分辨率。這種選擇減少了訓(xùn)練和測試過程的差異 [53],而且還沒有被 ViT 使用。作者觀察到這樣做還能通過防止過擬合,來使得對最大的模型產(chǎn)生正則化效果。例如,目標(biāo)分辨率是 224 × 224 ,在分辨率 126 × 126(81 個 token)下預(yù)訓(xùn)練的 ViT-H 在 ImageNet-1k 上的性能比在分辨率 224 × 224(256 個 token)下預(yù)訓(xùn)練時更好。并且在預(yù)訓(xùn)練時的要求也較低,因為 token 數(shù)量減少了 70%。從這個角度來看,這樣做提供了與掩碼自編碼器 [19] 類似的縮放屬性。

灰度:有利于顏色不變性并更加關(guān)注形狀。 過度曝光:會在顏色上添加強烈的噪點,以更加適應(yīng)顏色強度的變化,從而更加關(guān)注形狀。 高斯模糊:為了稍微改變圖像中的細(xì)節(jié)。






評論
圖片
表情
