何凱明團(tuán)隊(duì)又出新論文!北大、上交校友教你用ViT做遷移學(xué)習(xí)

??新智元報(bào)道??

??新智元報(bào)道??
編輯:LRS 好困 小咸魚(yú)
【新智元導(dǎo)讀】何凱明團(tuán)隊(duì)又發(fā)新論文了!這次他們研究的是如何將預(yù)訓(xùn)練好的ViT遷移到檢測(cè)模型上,使標(biāo)準(zhǔn)ViT模型能夠作為Mask R-CNN的骨干使用。結(jié)果表明,與有監(jiān)督和先前的自我監(jiān)督的預(yù)訓(xùn)練方法相比,AP box絕對(duì)值增加了4%。




研究方法


FPN中的卷積后加入Batch Normalization;
在RPN(region proposal network)中使用兩個(gè)卷積;
采用四個(gè)帶BN的卷積后接一個(gè)全連接用來(lái)RoI (reigon-of-interest) 分類與box回歸頭,而非原始的兩層無(wú)normalization的MLP;
標(biāo)準(zhǔn)mask頭中的卷積后加入BN

對(duì)每個(gè)初始化,固定dp=0.0,對(duì)lr與wd采用grid搜索,固定搜索中心為,以此為中心搜索;
對(duì)于ViT-B,從中選擇dp(預(yù)訓(xùn)練參數(shù)時(shí),訓(xùn)練50epoch;從頭開(kāi)始時(shí),則訓(xùn)練100epoch,dp=0.1為最優(yōu)選擇;
對(duì)于ViT-L,采用了ViT-B的最優(yōu)lr與wd,發(fā)現(xiàn)dp=0.3是最佳選擇。
實(shí)驗(yàn)部分
Random:即所有參數(shù)均隨機(jī)初始化,無(wú)預(yù)訓(xùn)練;
Supervised:即ViT骨干在ImageNet上通過(guò)監(jiān)督方式預(yù)訓(xùn)練,分別為300和200epoch;
MoCoV3:即在ImageNet上采用無(wú)監(jiān)督方式預(yù)訓(xùn)練ViT-B與ViT-L,300epoch;
BEiT:即采用BEiT方式對(duì)ViT-B與ViT-L預(yù)訓(xùn)練,800epoch;
MAE:使用MAE 無(wú)監(jiān)督方法在ImageNet-1K上訓(xùn)練后得到ViT-B和ViT-L的權(quán)重。

不同的預(yù)訓(xùn)練方法采用了不同的epoch;
BEiT采用可學(xué)習(xí)相對(duì)位置bias,而非其他方法中的絕對(duì)位置embedding;
BEiT在預(yù)訓(xùn)練過(guò)程中采用了layer scale,而其他方法沒(méi)采用;
研究人員嘗試對(duì)預(yù)訓(xùn)練數(shù)據(jù)標(biāo)準(zhǔn)化,而B(niǎo)EiT額外采用了DALL-E中的discrete VAE,在約2.5億專有和未公開(kāi)圖像上訓(xùn)練作為圖像tokenizer。

無(wú)論初始化過(guò)程如何,文中提出的Mask R-CNN訓(xùn)練過(guò)程都更加平滑,甚至它都不需要stabilizing的技術(shù)手段,如gradient clipping。
相比有監(jiān)督訓(xùn)練,從頭開(kāi)始訓(xùn)練具有1.4倍的性能提升。實(shí)驗(yàn)結(jié)果也證明了有監(jiān)督預(yù)訓(xùn)練并不一定比隨機(jī)初始化更強(qiáng);
基于對(duì)比學(xué)習(xí)的MoCoV3具有與監(jiān)督預(yù)訓(xùn)練相當(dāng)?shù)男阅埽?/span>
對(duì)于ViT-B來(lái)說(shuō),BEiT與MAE均優(yōu)于隨機(jī)初始化與有監(jiān)督預(yù)訓(xùn)練;
對(duì)于ViT-L,BEiT與MAE帶來(lái)的性能提升進(jìn)一步擴(kuò)大。

理想情況下,每個(gè)訓(xùn)練過(guò)程的drop path rate都應(yīng)進(jìn)行調(diào)整,因?yàn)榭梢杂^察到,當(dāng)模型接受更長(zhǎng)時(shí)間的訓(xùn)練時(shí),最佳dp值可能需要增加。
?
在所有情況下都可以通過(guò)訓(xùn)練來(lái)獲得更好的結(jié)果,例如加長(zhǎng)訓(xùn)練時(shí)間,使用更復(fù)雜的訓(xùn)練流程,使用更好的正則化和更大的數(shù)據(jù)增強(qiáng)。
結(jié)論
參考資料:
https://arxiv.org/abs/2111.11429

評(píng)論
圖片
表情
