<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          FAIR何愷明團(tuán)隊(duì)最新研究:定義ViT檢測(cè)遷移學(xué)習(xí)基線(xiàn)

          共 4526字,需瀏覽 10分鐘

           ·

          2021-11-29 02:39

          作者丨h(huán)appy? ? ? ?編輯丨極市平臺(tái)

          導(dǎo)讀

          ?

          本文是FAIR的何愷明團(tuán)隊(duì)關(guān)于ViT在COCO檢測(cè)任務(wù)上的遷移學(xué)習(xí)性能研究。它以Mask R-CNN作為基線(xiàn)框架,以ViT作為骨干網(wǎng)絡(luò),探索了不同初始化策略對(duì)于模型性能的影響。實(shí)驗(yàn)表明:masking機(jī)制的無(wú)監(jiān)督學(xué)習(xí)機(jī)制(如MAE、BEiT)首次在COCO檢測(cè)任務(wù)遷移學(xué)習(xí)中取得了令人信服的性能提升?。?

          論文鏈接:https://arxiv.org/abs/2111.11429

          本文是FAIR的何愷明團(tuán)隊(duì)關(guān)于ViT在COCO檢測(cè)任務(wù)上的遷移學(xué)習(xí)性能研究。它以Mask R-CNN作為基線(xiàn)框架,以ViT作為骨干網(wǎng)絡(luò),探索了不同初始化策略對(duì)于模型性能的影響;與此同時(shí),為盡可能保證對(duì)比的公平性,還對(duì)不同超參數(shù)進(jìn)行了大量的實(shí)驗(yàn);此外,為將ViT作為多尺度模式,參考XCiT對(duì)ViT不同部分的特征進(jìn)行尺度調(diào)整以達(dá)成多尺度特征輸出;為使得ViT模型能處理大分辨率圖像,還對(duì)ViT的架構(gòu)進(jìn)行了改進(jìn),引入了全局與局部自注意力機(jī)制,進(jìn)一步提升了模型性能取得了更佳的均衡。該文的一系列實(shí)驗(yàn)表明:masking機(jī)制的無(wú)監(jiān)督學(xué)習(xí)機(jī)制(如MAE、BEiT)首次在COCO檢測(cè)任務(wù)遷移學(xué)習(xí)中取得了令人信服的性能提升 。

          Abstract

          為測(cè)試預(yù)訓(xùn)練模型能否帶來(lái)性能增益(準(zhǔn)確率提升或者訓(xùn)練速度提升),目標(biāo)檢測(cè)是一個(gè)常用的且非常重要的下游任務(wù)。面對(duì)新的ViT模型時(shí),目標(biāo)檢測(cè)的復(fù)雜性使得該基線(xiàn)變得尤為重要(non-trivial )。然而架構(gòu)不一致、緩慢訓(xùn)練、高內(nèi)存占用以及未知訓(xùn)練機(jī)制等困難阻礙了標(biāo)準(zhǔn)ViT在目標(biāo)檢測(cè)任務(wù)上的遷移學(xué)習(xí)。

          本文提出了訓(xùn)練技術(shù)以克服上述挑戰(zhàn),并采用標(biāo)準(zhǔn)ViT作為Mask R-CNN的骨干。這些工具構(gòu)成了本文的主要目標(biāo):我們比較了五種ViT初始化,包含SOTA自監(jiān)督學(xué)習(xí)方法、監(jiān)督初始化、強(qiáng)隨機(jī)初始化基線(xiàn)。

          結(jié)果表明:近期提出的Masking無(wú)監(jiān)督學(xué)習(xí)方法首次提供令人信服的遷移學(xué)習(xí)性能改善 。相比監(jiān)督與其他自監(jiān)督預(yù)訓(xùn)練方法,它可以提升 指標(biāo)高達(dá)4% ;此外masking初始化具有更好的擴(kuò)展性,能夠隨模型尺寸提升進(jìn)一步提升其性能。

          Method

          因其在目標(biāo)檢測(cè)與遷移學(xué)習(xí)領(lǐng)域的無(wú)處不在性,我們采用Mask R-CNN作為基線(xiàn)方案。該選擇也旨在對(duì)簡(jiǎn)潔性與復(fù)雜性進(jìn)行均衡,同時(shí)提供具有競(jìng)爭(zhēng)力(也許并非SOTA)的結(jié)果。相比原始版本,我們?yōu)镸ask R-CNN提供了不同的改進(jìn)模塊與訓(xùn)練方案。

          ViT Backbone

          接下來(lái),我們將解決如下兩個(gè)ViT作為Mask R-CNN骨干的技術(shù)障礙

          • 如何與FPN適配;

          • 如何降低內(nèi)存占用與推理耗時(shí)。

          FPN Compatibility ?Mask R-CNN可以與輸出單尺度特征的骨干,也可與輸出多尺度特征(多尺度特征將被送入FPN處理)的骨干協(xié)同工作。由于FPN能夠提供更好的檢測(cè)結(jié)果,故我們采用了FPN方案。

          然而,采用FPN存在這樣一個(gè)問(wèn)題:ViT僅輸出單尺度特征,而非CNN的多尺度特征 。為解決該問(wèn)題,我們采用了XCiT中的技術(shù)對(duì)ViT中間特征進(jìn)行上/下采樣以提供四種不同分辨率的特征(可參見(jiàn)上面圖示綠框部分)。

          第一個(gè)模塊采用兩個(gè)stride=2的轉(zhuǎn)置卷積進(jìn)行4倍上采樣;第二個(gè)模塊采用一個(gè)stride=2的轉(zhuǎn)置卷積進(jìn)行2倍上采樣;第三個(gè)模塊不做任何處理;最后一個(gè)模塊采用stride=2的MaxPool進(jìn)行下采樣。

          假設(shè)塊尺寸為16,這些模塊將輸出stride分別為4、8、16、32的特征并被送入到FPN中。

          注:Swin與MViT通過(guò)修改VIT架構(gòu)解決了ViT無(wú)法輸出多尺度特征的問(wèn)題。這種處理方式也是一個(gè)重要的研究方向,但它與ViT的簡(jiǎn)單設(shè)計(jì)相悖,會(huì)阻礙新的無(wú)監(jiān)督學(xué)習(xí)(如MAE)探索。因此,本文僅聚焦于上述生成多尺度特征的改動(dòng)方式。

          Reducing Memory and Time Complexity ?采用ViT作為Mask R-CNN的骨干會(huì)導(dǎo)致內(nèi)存與耗時(shí)挑戰(zhàn)。ViT中的每個(gè)自注意力操作會(huì)占用空間。

          在預(yù)訓(xùn)練過(guò)程中,該復(fù)雜度是可控的()。而在目標(biāo)檢測(cè)中,標(biāo)準(zhǔn)圖像尺寸為,這就需要近21倍多的像素和圖像塊,這種高分辨率用于檢測(cè)小目標(biāo)。由于自注意力的復(fù)雜度,哪怕基線(xiàn)ViT-B也需要占用20-30G GPU顯存(batch=1,F(xiàn)P16) 。

          為降低空間與時(shí)間復(fù)雜度,我們采用Windowed Self-attention,即局部自注意力,而非全局自注意力。我們將圖像塊拆分為非重疊窗口并在每個(gè)窗口獨(dú)立計(jì)算自注意力。這種處理方式可以大幅降低空間復(fù)雜度與時(shí)間復(fù)雜度,我們默認(rèn)設(shè)置

          Windowed Self-attention的一個(gè)缺陷在于:骨干不能跨窗口聚合信息。針對(duì)此,我們每模塊添加一個(gè)全局自注意力模塊 。

          Upgraded Modules

          相比原始Mask R-CNN,我們對(duì)其內(nèi)置模塊進(jìn)行了如下改動(dòng):

          • FPN中的卷積后接BN;

          • RPN中采用兩個(gè)卷積,而非一個(gè)卷積;

          • RoI分類(lèi)與Box回歸頭采用四個(gè)卷積(帶BN)并后接一個(gè)全連接,而非原始的兩層MLP(無(wú)BN);

          • Mask頭中的卷積后接BN

          Training Formula

          相比原始訓(xùn)練機(jī)制,我們采用了從頭開(kāi)始訓(xùn)練+更長(zhǎng)訓(xùn)練周期的訓(xùn)練機(jī)制(如400epoch)。我們希望讓超參盡可能的少,同時(shí)抵制采用額外的數(shù)據(jù)增廣與正則技術(shù)。然而,我們發(fā)現(xiàn):DropPath對(duì)于ViT骨干非常有效(性能提升達(dá)2),故我們采用了該技術(shù)。

          總而言之,訓(xùn)練機(jī)制如下:

          • LSJ數(shù)據(jù)增廣(分辨率,尺度范圍[0.1,2.0]);

          • AdamW+Cosine學(xué)習(xí)率衰減+linear warmup

          • DropPath正則技術(shù);

          • batch=64,混合精度訓(xùn)練。

          當(dāng)采用預(yù)訓(xùn)練初始時(shí),微調(diào)100epoch;當(dāng)從頭開(kāi)始訓(xùn)練時(shí),訓(xùn)練400epoch。

          Hyperparameter Tuning Protocol

          為使上述訓(xùn)練機(jī)制適用于同模型,我對(duì)學(xué)習(xí)率lr、權(quán)值wd衰減以及drop path rate三個(gè)超參進(jìn)行微調(diào),同時(shí)保持其他不變。我們采用ViT-B+MoCoV3進(jìn)行了大量實(shí)驗(yàn)以估計(jì)合理的超參范圍,基于所得估計(jì)我們構(gòu)建了如下調(diào)節(jié)機(jī)制:

          • 對(duì)每個(gè)初始化,我們固定dp=0.0,對(duì)lr與wd采用grid搜索,固定搜索中心為,以此為中心搜索;

          • 對(duì)于ViT-B,我們從中選擇dp(預(yù)訓(xùn)練參數(shù)時(shí),訓(xùn)練50epoch;從頭開(kāi)始時(shí),則訓(xùn)練100epoch),dp=0.1為最優(yōu)選擇;

          • 對(duì)于ViT-L,我們采用了ViT-B的最后lr與wd,并發(fā)現(xiàn)dp=0.3是最佳選擇。

          注:在訓(xùn)練與推理過(guò)程中,圖像將padding到尺寸。

          Initialization Methods

          在骨干初始化方面,我們比較了以下五種:

          • Random:即所有參數(shù)均隨機(jī)初始化,無(wú)預(yù)訓(xùn)練;

          • Supervised:即ViT骨干在ImageNet上通過(guò)監(jiān)督方式預(yù)訓(xùn)練,分別為300和200epoch;

          • MoCoV3:即在ImageNet上采用無(wú)監(jiān)督方式預(yù)訓(xùn)練ViT-B與ViT-L,300epoch;

          • BEiT:即采用BEiT方式對(duì)ViT-B與ViT-L預(yù)訓(xùn)練,800epoch;

          • MAE:即采用MAE對(duì)ViT-B與ViT-L預(yù)訓(xùn)練,1600eoch;

          Nuisance Factors in Pre-training

          盡管我們盡可能進(jìn)行公平比較,但仍存一些“令人討厭”的不公因子:

          • 不同的預(yù)訓(xùn)練方法采用了不同的epoch;

          • BEiT采用可學(xué)習(xí)相對(duì)位置偏置,而非其他方法中的絕對(duì)位置嵌入;

          • BEiT在預(yù)訓(xùn)練過(guò)程中采用了layer scale,而其他方法沒(méi)采用;

          • 我們嘗試對(duì)與訓(xùn)練數(shù)據(jù)標(biāo)準(zhǔn)化,而B(niǎo)EiT額外采用了dVAE。

          Experiments&Analysis

          上表比較了不同初始化方案的性能,從中可以看到:

          • 無(wú)論何種初始化,采用ViT-B/L作為骨干的Mask R-CNN訓(xùn)練比較平滑,并無(wú)不穩(wěn)定因素,也不需要額外的類(lèi)似梯度裁剪的穩(wěn)定技術(shù)

          • 相比監(jiān)督訓(xùn)練,從頭開(kāi)始訓(xùn)練具有1.4指標(biāo)提升(ViT-L)。也即是說(shuō):監(jiān)督預(yù)訓(xùn)練并不一定比隨機(jī)初始化更強(qiáng);

          • MoCoV3具有與監(jiān)督預(yù)訓(xùn)練相當(dāng)?shù)男阅埽?/p>

          • 對(duì)于ViT-B,BEiT與MAE均優(yōu)于隨機(jī)初始化與監(jiān)督預(yù)訓(xùn)練;

          • 對(duì)于ViT-L,BEiT與MAE帶來(lái)的性能提升進(jìn)一步擴(kuò)大,比監(jiān)督預(yù)訓(xùn)練高達(dá)4.0.

          上圖給出了預(yù)訓(xùn)練是如何影響微調(diào)收斂的,可以看到:相比隨機(jī)初始化,預(yù)訓(xùn)練初始化可以顯著加速收斂過(guò)程,大約加速4倍

          Discussion

          對(duì)于遷移學(xué)習(xí)來(lái)說(shuō),COCO數(shù)據(jù)集極具挑戰(zhàn)性。由于較大的訓(xùn)練集(約118K+0.9M標(biāo)準(zhǔn)目標(biāo)),當(dāng)隨機(jī)初始化訓(xùn)練時(shí)可以取得非常好的結(jié)果。我們發(fā)現(xiàn):

          • 現(xiàn)有的方法(如監(jiān)督預(yù)訓(xùn)練、MoCoV3無(wú)監(jiān)督預(yù)訓(xùn)練)的性能反而會(huì)弱于隨機(jī)初始化基線(xiàn)方案

          • 已有的無(wú)監(jiān)督遷移學(xué)習(xí)改進(jìn)對(duì)比的均為監(jiān)督預(yù)訓(xùn)練,并不包含隨機(jī)初始化方案;

          • 此外,他們采用了較弱的模型,具有更低的結(jié)果(約40),這就導(dǎo)致:不確定如何將已有方法遷移到SOTA模型中。

          我們發(fā)現(xiàn):MAE與BEiT提供了首個(gè)令人信服的COCO數(shù)據(jù)集上的指標(biāo)提升 。更重要的是:這些masking方案具有隨模型大小提升進(jìn)一步改善檢測(cè)遷移學(xué)習(xí)能力的潛力 ,而監(jiān)督預(yù)訓(xùn)練與MoCoV3等初始化方式并無(wú)該能力。

          Ablations and Analysis

          上表對(duì)比了單尺度與多尺度版本Mask R-CNN的性能,從中可以看到:多尺度FPN設(shè)計(jì)可以帶來(lái)1.3-1.7指標(biāo)提升 ,而耗時(shí)僅提升5-10%,多尺度內(nèi)存占用提升小于1%。

          上表對(duì)比了降低顯存與時(shí)間復(fù)雜度的不同策略,可以看到:

          • 局部+全局的組合方式(即第二種)具有最佳的內(nèi)存占用與耗時(shí)均衡;

          • 相比純局部自注意力方式,全局自注意力可以帶來(lái)2.6指標(biāo)提升。

          上表比較了不同位置信息的性能對(duì)比,從中可以看到:

          • 對(duì)于僅使用絕對(duì)位置嵌入的預(yù)訓(xùn)練模型,在微調(diào)階段引入相對(duì)位置偏置可以帶來(lái)0.2-0.3指標(biāo)提升;

          • 預(yù)訓(xùn)練相對(duì)位置偏置可以帶來(lái)0.1-0.3指標(biāo)增益;

          • 相對(duì)位置偏置會(huì)引入額外的負(fù)載:訓(xùn)練與推理耗時(shí)分別增加25%和15%,內(nèi)存占用提升15%。

          上圖對(duì)比了預(yù)訓(xùn)練周期對(duì)于性能的影響,可以看到:

          • 在100-800epoch預(yù)訓(xùn)練周期下,越多的預(yù)訓(xùn)練周期帶來(lái)越高的遷移學(xué)習(xí)性能;

          • 在800-1600epoch下,仍可帶來(lái)0.2指標(biāo)的性能增益。

          上圖給出了TIDE工具生成的誤差分析,可以看到:

          • 對(duì)于正確定位的目標(biāo),所有的初始化可以得到相似的分類(lèi)性能;

          • 相比其他初始化,MAE與BEiT可以改善定位性能。

          上表給出了不同骨干的復(fù)雜度對(duì)比(ViT-B與ResNet-101具有相同的性能:48.9),可以看到:

          • 在推理耗時(shí)方面,ResNet-101骨干更快;

          • 在訓(xùn)練方面,ViT-B僅需200epoch即可達(dá)到峰值性能,而ResNet-101需要400epoch。

          ——The ?End——


          覺(jué)得有用麻煩給個(gè)在看啦~??
          瀏覽 38
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  草骚逼视频 | 熟女七区| 日本五码在线 | 五月色在线视频 | 婷婷AV免费 |