ViT 訓(xùn)練的全新baseline
選自arXiv
作者:Adam Zewe ?機(jī)器之心編譯??編輯:趙陽、張倩
本文提出了訓(xùn)練視覺 Transformer(ViT)的三種數(shù)據(jù)增強(qiáng)方法:灰度、過度曝光、高斯模糊,以及一種簡(jiǎn)單的隨機(jī)修剪方法 (SRC)。實(shí)驗(yàn)結(jié)果表明,這些新方法在效果上大大優(yōu)于 ViT 此前的全監(jiān)督訓(xùn)練方法。


作者以 Wightman 等人的工作 [57] 為基礎(chǔ),同樣使用 ResNet50 。特別之處在于,僅對(duì) Imagenet1k 的訓(xùn)練過程采用二元交叉熵?fù)p失,這一步可以通過引入一些顯著改善大型 ViT [51] 訓(xùn)練的方法,即 stochastic depth [24] 和 LayerScale [51],來實(shí)現(xiàn)。
3-Augment:這是一種簡(jiǎn)單的數(shù)據(jù)增強(qiáng)方式,靈感來自于自監(jiān)督學(xué)習(xí)。令人驚訝的是,在使用 ViT 時(shí),作者觀察到這種方法比用于訓(xùn)練 ViT 的常用自動(dòng) / 學(xué)習(xí)數(shù)據(jù)增強(qiáng)(如 RandAugment [6])效果更好。
在像 ImageNet-21k 這樣的更大數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練時(shí),簡(jiǎn)單隨機(jī)裁剪的方式比調(diào)整大小后再隨機(jī)裁剪的方式更有效。
訓(xùn)練時(shí)降低分辨率。這種選擇減少了訓(xùn)練和測(cè)試過程的差異 [53],而且還沒有被 ViT 使用。作者觀察到這樣做還能通過防止過擬合,來使得對(duì)最大的模型產(chǎn)生正則化效果。例如,目標(biāo)分辨率是 224 × 224 ,在分辨率 126 × 126(81 個(gè) token)下預(yù)訓(xùn)練的 ViT-H 在 ImageNet-1k 上的性能比在分辨率 224 × 224(256 個(gè) token)下預(yù)訓(xùn)練時(shí)更好。并且在預(yù)訓(xùn)練時(shí)的要求也較低,因?yàn)?token 數(shù)量減少了 70%。從這個(gè)角度來看,這樣做提供了與掩碼自編碼器 [19] 類似的縮放屬性。

灰度:有利于顏色不變性并更加關(guān)注形狀。
過度曝光:會(huì)在顏色上添加強(qiáng)烈的噪點(diǎn),以更加適應(yīng)顏色強(qiáng)度的變化,從而更加關(guān)注形狀。
高斯模糊:為了稍微改變圖像中的細(xì)節(jié)。






猜您喜歡:
?戳我,查看GAN的系列專輯~!附下載 |?《可解釋的機(jī)器學(xué)習(xí)》中文版
附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》
附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享
《基于深度學(xué)習(xí)的表面缺陷檢測(cè)方法綜述》
《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》
