何凱明團隊又出新論文!北大、上交校友教你用ViT做遷移學習
視學算法報道??
視學算法報道??
編輯:LRS 好困 小咸魚
【新智元導讀】何凱明團隊又發(fā)新論文了!這次他們研究的是如何將預訓練好的ViT遷移到檢測模型上,使標準ViT模型能夠作為Mask R-CNN的骨干使用。結(jié)果表明,與有監(jiān)督和先前的自我監(jiān)督的預訓練方法相比,AP box絕對值增加了4%。




研究方法


FPN中的卷積后加入Batch Normalization;
在RPN(region proposal network)中使用兩個卷積;
采用四個帶BN的卷積后接一個全連接用來RoI (reigon-of-interest) 分類與box回歸頭,而非原始的兩層無normalization的MLP;
標準mask頭中的卷積后加入BN

對每個初始化,固定dp=0.0,對lr與wd采用grid搜索,固定搜索中心為,以此為中心搜索;
對于ViT-B,從中選擇dp(預訓練參數(shù)時,訓練50epoch;從頭開始時,則訓練100epoch,dp=0.1為最優(yōu)選擇;
對于ViT-L,采用了ViT-B的最優(yōu)lr與wd,發(fā)現(xiàn)dp=0.3是最佳選擇。
實驗部分
Random:即所有參數(shù)均隨機初始化,無預訓練;
Supervised:即ViT骨干在ImageNet上通過監(jiān)督方式預訓練,分別為300和200epoch;
MoCoV3:即在ImageNet上采用無監(jiān)督方式預訓練ViT-B與ViT-L,300epoch;
BEiT:即采用BEiT方式對ViT-B與ViT-L預訓練,800epoch;
MAE:使用MAE 無監(jiān)督方法在ImageNet-1K上訓練后得到ViT-B和ViT-L的權(quán)重。

不同的預訓練方法采用了不同的epoch;
BEiT采用可學習相對位置bias,而非其他方法中的絕對位置embedding;
BEiT在預訓練過程中采用了layer scale,而其他方法沒采用;
研究人員嘗試對預訓練數(shù)據(jù)標準化,而BEiT額外采用了DALL-E中的discrete VAE,在約2.5億專有和未公開圖像上訓練作為圖像tokenizer。

無論初始化過程如何,文中提出的Mask R-CNN訓練過程都更加平滑,甚至它都不需要stabilizing的技術(shù)手段,如gradient clipping。
相比有監(jiān)督訓練,從頭開始訓練具有1.4倍的性能提升。實驗結(jié)果也證明了有監(jiān)督預訓練并不一定比隨機初始化更強;
基于對比學習的MoCoV3具有與監(jiān)督預訓練相當?shù)男阅埽?/span>
對于ViT-B來說,BEiT與MAE均優(yōu)于隨機初始化與有監(jiān)督預訓練;
對于ViT-L,BEiT與MAE帶來的性能提升進一步擴大。

理想情況下,每個訓練過程的drop path rate都應進行調(diào)整,因為可以觀察到,當模型接受更長時間的訓練時,最佳dp值可能需要增加。
?
在所有情況下都可以通過訓練來獲得更好的結(jié)果,例如加長訓練時間,使用更復雜的訓練流程,使用更好的正則化和更大的數(shù)據(jù)增強。
結(jié)論
參考資料:
https://arxiv.org/abs/2111.11429

點個在看 paper不斷!
評論
圖片
表情
