在线看一区二区三区四区,传媒一二三区在线视频,男女无码视频,精品国产aaa,免费黄片网站在线观看,国产性爱一区二区三区,刘玥一级婬片A片AAA,北条麻妃A片

作者丨h(huán)appy? ? ? ?編輯丨極市平臺(tái)

導(dǎo)讀

本文是FAIR的何愷明團(tuán)隊(duì)關(guān)于ViT在COCO檢測(cè)任務(wù)上的遷移學(xué)習(xí)性能研究。它以Mask R-CNN作為基線(xiàn)框架，以ViT作為骨干網(wǎng)絡(luò)，探索了不同初始化策略對(duì)于模型性能的影響。實(shí)驗(yàn)表明：masking機(jī)制的無(wú)監(jiān)督學(xué)習(xí)機(jī)制(如MAE、BEiT)首次在COCO檢測(cè)任務(wù)遷移學(xué)習(xí)中取得了令人信服的性能提升?。?

論文鏈接：https://arxiv.org/abs/2111.11429

本文是FAIR的何愷明團(tuán)隊(duì)關(guān)于ViT在COCO檢測(cè)任務(wù)上的遷移學(xué)習(xí)性能研究。它以Mask R-CNN作為基線(xiàn)框架，以ViT作為骨干網(wǎng)絡(luò)，探索了不同初始化策略對(duì)于模型性能的影響；與此同時(shí)，為盡可能保證對(duì)比的公平性，還對(duì)不同超參數(shù)進(jìn)行了大量的實(shí)驗(yàn)；此外，為將ViT作為多尺度模式，參考XCiT對(duì)ViT不同部分的特征進(jìn)行尺度調(diào)整以達(dá)成多尺度特征輸出；為使得ViT模型能處理大分辨率圖像，還對(duì)ViT的架構(gòu)進(jìn)行了改進(jìn)，引入了全局與局部自注意力機(jī)制，進(jìn)一步提升了模型性能取得了更佳的均衡。該文的一系列實(shí)驗(yàn)表明：masking機(jī)制的無(wú)監(jiān)督學(xué)習(xí)機(jī)制(如MAE、BEiT)首次在COCO檢測(cè)任務(wù)遷移學(xué)習(xí)中取得了令人信服的性能提升 。

Abstract

為測(cè)試預(yù)訓(xùn)練模型能否帶來(lái)性能增益(準(zhǔn)確率提升或者訓(xùn)練速度提升)，目標(biāo)檢測(cè)是一個(gè)常用的且非常重要的下游任務(wù)。面對(duì)新的ViT模型時(shí)，目標(biāo)檢測(cè)的復(fù)雜性使得該基線(xiàn)變得尤為重要(non-trivial )。然而架構(gòu)不一致、緩慢訓(xùn)練、高內(nèi)存占用以及未知訓(xùn)練機(jī)制等困難阻礙了標(biāo)準(zhǔn)ViT在目標(biāo)檢測(cè)任務(wù)上的遷移學(xué)習(xí)。

本文提出了訓(xùn)練技術(shù)以克服上述挑戰(zhàn)，并采用標(biāo)準(zhǔn)ViT作為Mask R-CNN的骨干。這些工具構(gòu)成了本文的主要目標(biāo)：我們比較了五種ViT初始化，包含SOTA自監(jiān)督學(xué)習(xí)方法、監(jiān)督初始化、強(qiáng)隨機(jī)初始化基線(xiàn)。

結(jié)果表明：近期提出的Masking無(wú)監(jiān)督學(xué)習(xí)方法首次提供令人信服的遷移學(xué)習(xí)性能改善 。相比監(jiān)督與其他自監(jiān)督預(yù)訓(xùn)練方法，它可以提升 指標(biāo)高達(dá)4% ；此外masking初始化具有更好的擴(kuò)展性，能夠隨模型尺寸提升進(jìn)一步提升其性能。

Method

因其在目標(biāo)檢測(cè)與遷移學(xué)習(xí)領(lǐng)域的無(wú)處不在性，我們采用Mask R-CNN作為基線(xiàn)方案。該選擇也旨在對(duì)簡(jiǎn)潔性與復(fù)雜性進(jìn)行均衡，同時(shí)提供具有競(jìng)爭(zhēng)力(也許并非SOTA)的結(jié)果。相比原始版本，我們?yōu)镸ask R-CNN提供了不同的改進(jìn)模塊與訓(xùn)練方案。

ViT Backbone

接下來(lái)，我們將解決如下兩個(gè)ViT作為Mask R-CNN骨干的技術(shù)障礙

如何與FPN適配；
如何降低內(nèi)存占用與推理耗時(shí)。

FPN Compatibility ?Mask R-CNN可以與輸出單尺度特征的骨干，也可與輸出多尺度特征(多尺度特征將被送入FPN處理)的骨干協(xié)同工作。由于FPN能夠提供更好的檢測(cè)結(jié)果，故我們采用了FPN方案。

然而，采用FPN存在這樣一個(gè)問(wèn)題：ViT僅輸出單尺度特征，而非CNN的多尺度特征 。為解決該問(wèn)題，我們采用了XCiT中的技術(shù)對(duì)ViT中間特征進(jìn)行上/下采樣以提供四種不同分辨率的特征(可參見(jiàn)上面圖示綠框部分)。

第一個(gè)模塊采用兩個(gè)stride=2的轉(zhuǎn)置卷積進(jìn)行4倍上采樣；第二個(gè)模塊采用一個(gè)stride=2的轉(zhuǎn)置卷積進(jìn)行2倍上采樣；第三個(gè)模塊不做任何處理；最后一個(gè)模塊采用stride=2的MaxPool進(jìn)行下采樣。

假設(shè)塊尺寸為16，這些模塊將輸出stride分別為4、8、16、32的特征并被送入到FPN中。

注：Swin與MViT通過(guò)修改VIT架構(gòu)解決了ViT無(wú)法輸出多尺度特征的問(wèn)題。這種處理方式也是一個(gè)重要的研究方向，但它與ViT的簡(jiǎn)單設(shè)計(jì)相悖，會(huì)阻礙新的無(wú)監(jiān)督學(xué)習(xí)(如MAE)探索。因此，本文僅聚焦于上述生成多尺度特征的改動(dòng)方式。

Reducing Memory and Time Complexity ?采用ViT作為Mask R-CNN的骨干會(huì)導(dǎo)致內(nèi)存與耗時(shí)挑戰(zhàn)。ViT中的每個(gè)自注意力操作會(huì)占用空間。

在預(yù)訓(xùn)練過(guò)程中，該復(fù)雜度是可控的()。而在目標(biāo)檢測(cè)中，標(biāo)準(zhǔn)圖像尺寸為，這就需要近21倍多的像素和圖像塊，這種高分辨率用于檢測(cè)小目標(biāo)。由于自注意力的復(fù)雜度，哪怕基線(xiàn)ViT-B也需要占用20-30G GPU顯存(batch=1，F(xiàn)P16) 。

為降低空間與時(shí)間復(fù)雜度，我們采用Windowed Self-attention，即局部自注意力，而非全局自注意力。我們將圖像塊拆分為非重疊窗口并在每個(gè)窗口獨(dú)立計(jì)算自注意力。這種處理方式可以大幅降低空間復(fù)雜度與時(shí)間復(fù)雜度，我們默認(rèn)設(shè)置。

Windowed Self-attention的一個(gè)缺陷在于：骨干不能跨窗口聚合信息。針對(duì)此，我們每 隔模塊添加一個(gè)全局自注意力模塊 。

Upgraded Modules

相比原始Mask R-CNN，我們對(duì)其內(nèi)置模塊進(jìn)行了如下改動(dòng)：

FPN中的卷積后接BN；
RPN中采用兩個(gè)卷積，而非一個(gè)卷積；
RoI分類(lèi)與Box回歸頭采用四個(gè)卷積(帶BN)并后接一個(gè)全連接，而非原始的兩層MLP(無(wú)BN)；
Mask頭中的卷積后接BN

Training Formula

相比原始訓(xùn)練機(jī)制，我們采用了從頭開(kāi)始訓(xùn)練+更長(zhǎng)訓(xùn)練周期的訓(xùn)練機(jī)制(如400epoch)。我們希望讓超參盡可能的少，同時(shí)抵制采用額外的數(shù)據(jù)增廣與正則技術(shù)。然而，我們發(fā)現(xiàn)：DropPath對(duì)于ViT骨干非常有效(性能提升達(dá)2)，故我們采用了該技術(shù)。

總而言之，訓(xùn)練機(jī)制如下：

LSJ數(shù)據(jù)增廣(分辨率，尺度范圍[0.1,2.0])；
AdamW+Cosine學(xué)習(xí)率衰減+linear warmup
DropPath正則技術(shù)；
batch=64，混合精度訓(xùn)練。

當(dāng)采用預(yù)訓(xùn)練初始時(shí)，微調(diào)100epoch；當(dāng)從頭開(kāi)始訓(xùn)練時(shí)，訓(xùn)練400epoch。

Hyperparameter Tuning Protocol

為使上述訓(xùn)練機(jī)制適用于同模型，我對(duì)學(xué)習(xí)率lr、權(quán)值wd衰減以及drop path rate三個(gè)超參進(jìn)行微調(diào)，同時(shí)保持其他不變。我們采用ViT-B+MoCoV3進(jìn)行了大量實(shí)驗(yàn)以估計(jì)合理的超參范圍，基于所得估計(jì)我們構(gòu)建了如下調(diào)節(jié)機(jī)制：

對(duì)每個(gè)初始化，我們固定dp=0.0，對(duì)lr與wd采用grid搜索，固定搜索中心為，以此為中心搜索；
對(duì)于ViT-B，我們從中選擇dp(預(yù)訓(xùn)練參數(shù)時(shí)，訓(xùn)練50epoch；從頭開(kāi)始時(shí)，則訓(xùn)練100epoch)，dp=0.1為最優(yōu)選擇；
對(duì)于ViT-L，我們采用了ViT-B的最后lr與wd，并發(fā)現(xiàn)dp=0.3是最佳選擇。

注：在訓(xùn)練與推理過(guò)程中，圖像將padding到尺寸。

Initialization Methods

在骨干初始化方面，我們比較了以下五種：

Random：即所有參數(shù)均隨機(jī)初始化，無(wú)預(yù)訓(xùn)練；
Supervised：即ViT骨干在ImageNet上通過(guò)監(jiān)督方式預(yù)訓(xùn)練，分別為300和200epoch；
MoCoV3：即在ImageNet上采用無(wú)監(jiān)督方式預(yù)訓(xùn)練ViT-B與ViT-L，300epoch；
BEiT：即采用BEiT方式對(duì)ViT-B與ViT-L預(yù)訓(xùn)練，800epoch；
MAE：即采用MAE對(duì)ViT-B與ViT-L預(yù)訓(xùn)練，1600eoch；

Nuisance Factors in Pre-training

盡管我們盡可能進(jìn)行公平比較，但仍存一些“令人討厭”的不公因子：

不同的預(yù)訓(xùn)練方法采用了不同的epoch；
BEiT采用可學(xué)習(xí)相對(duì)位置偏置，而非其他方法中的絕對(duì)位置嵌入；
BEiT在預(yù)訓(xùn)練過(guò)程中采用了layer scale，而其他方法沒(méi)采用；
我們嘗試對(duì)與訓(xùn)練數(shù)據(jù)標(biāo)準(zhǔn)化，而B(niǎo)EiT額外采用了dVAE。

Experiments&Analysis

上表比較了不同初始化方案的性能，從中可以看到：

無(wú)論何種初始化，采用ViT-B/L作為骨干的Mask R-CNN訓(xùn)練比較平滑，并無(wú)不穩(wěn)定因素，也不需要額外的類(lèi)似梯度裁剪的穩(wěn)定技術(shù) ；
相比監(jiān)督訓(xùn)練，從頭開(kāi)始訓(xùn)練具有1.4指標(biāo)提升(ViT-L)。也即是說(shuō)：監(jiān)督預(yù)訓(xùn)練并不一定比隨機(jī)初始化更強(qiáng)；
MoCoV3具有與監(jiān)督預(yù)訓(xùn)練相當(dāng)?shù)男阅埽?/p>
對(duì)于ViT-B，BEiT與MAE均優(yōu)于隨機(jī)初始化與監(jiān)督預(yù)訓(xùn)練；
對(duì)于ViT-L，BEiT與MAE帶來(lái)的性能提升進(jìn)一步擴(kuò)大，比監(jiān)督預(yù)訓(xùn)練高達(dá)4.0.

上圖給出了預(yù)訓(xùn)練是如何影響微調(diào)收斂的，可以看到：相比隨機(jī)初始化，預(yù)訓(xùn)練初始化可以顯著加速收斂過(guò)程，大約加速4倍 。

Discussion

對(duì)于遷移學(xué)習(xí)來(lái)說(shuō)，COCO數(shù)據(jù)集極具挑戰(zhàn)性。由于較大的訓(xùn)練集(約118K+0.9M標(biāo)準(zhǔn)目標(biāo))，當(dāng)隨機(jī)初始化訓(xùn)練時(shí)可以取得非常好的結(jié)果。我們發(fā)現(xiàn)：

現(xiàn)有的方法(如監(jiān)督預(yù)訓(xùn)練、MoCoV3無(wú)監(jiān)督預(yù)訓(xùn)練)的性能反而會(huì)弱于隨機(jī)初始化基線(xiàn)方案 。
已有的無(wú)監(jiān)督遷移學(xué)習(xí)改進(jìn)對(duì)比的均為監(jiān)督預(yù)訓(xùn)練，并不包含隨機(jī)初始化方案；
此外，他們采用了較弱的模型，具有更低的結(jié)果(約40)，這就導(dǎo)致：不確定如何將已有方法遷移到SOTA模型中。

我們發(fā)現(xiàn)：MAE與BEiT提供了首個(gè)令人信服的COCO數(shù)據(jù)集上的指標(biāo)提升 。更重要的是：這些masking方案具有隨模型大小提升進(jìn)一步改善檢測(cè)遷移學(xué)習(xí)能力的潛力 ，而監(jiān)督預(yù)訓(xùn)練與MoCoV3等初始化方式并無(wú)該能力。

Ablations and Analysis

上表對(duì)比了單尺度與多尺度版本Mask R-CNN的性能，從中可以看到：多尺度FPN設(shè)計(jì)可以帶來(lái)1.3-1.7指標(biāo)提升 ，而耗時(shí)僅提升5-10%，多尺度內(nèi)存占用提升小于1%。

上表對(duì)比了降低顯存與時(shí)間復(fù)雜度的不同策略，可以看到：

局部+全局的組合方式(即第二種)具有最佳的內(nèi)存占用與耗時(shí)均衡；
相比純局部自注意力方式，全局自注意力可以帶來(lái)2.6指標(biāo)提升。

上表比較了不同位置信息的性能對(duì)比，從中可以看到：

對(duì)于僅使用絕對(duì)位置嵌入的預(yù)訓(xùn)練模型，在微調(diào)階段引入相對(duì)位置偏置可以帶來(lái)0.2-0.3指標(biāo)提升；
預(yù)訓(xùn)練相對(duì)位置偏置可以帶來(lái)0.1-0.3指標(biāo)增益；
相對(duì)位置偏置會(huì)引入額外的負(fù)載：訓(xùn)練與推理耗時(shí)分別增加25%和15%，內(nèi)存占用提升15%。