<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          訓(xùn)練CV模型新思路來了:用NLP大火的Prompt替代微調(diào),性能全面提升

          共 1938字,需瀏覽 4分鐘

           ·

          2022-04-16 22:31


          本文經(jīng)ai新媒體量子位(公眾號 id:qbitai)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處

          本文約1500字,建議閱讀5分鐘

          通過Prompt來調(diào)整基于Transformer的視覺模型。


          Prompt tuning,作為NLP領(lǐng)域中的一個“新寵”,甚至曾被學(xué)者譽(yù)為NLP預(yù)訓(xùn)練新范式。

          那么,它能否借鑒到CV領(lǐng)域并產(chǎn)生同樣的成績呢?

          現(xiàn)在,來自康奈爾大學(xué)和Meta AI等機(jī)構(gòu),通過Prompt來調(diào)整基于Transformer的視覺模型,結(jié)果發(fā)現(xiàn):

          完全可以!

          比起全面微調(diào),Prompt性能提升顯著。無論模型的規(guī)模和訓(xùn)練數(shù)據(jù)怎么變,24種情況中有20種都完全勝出。


          與此同時,它還能大幅降低每項任務(wù)所需的存儲成本。


          只使用不到1%的模型參數(shù)


          大家一貫使用的全面微調(diào)(full fine-tuning),需要為每個下游任務(wù)存儲和部署單獨(dú)的主干參數(shù)副本,成本太高,尤其是現(xiàn)在基于Transformer的模型越來越大,已經(jīng)超過CNN架構(gòu)。

          所謂Prompt,最初指的是在輸入文本中預(yù)編語言指令,以便預(yù)培訓(xùn)的語言模型后續(xù)可以直接理解各種下游任務(wù)。

          它曾讓GPT-3即使在少樣本或零樣本的情況下表現(xiàn)出很強(qiáng)的泛化能力。

          最近一些成果則表明,Prompt與完全微調(diào)的性能相當(dāng),參數(shù)存儲量還減少了1000倍。

          NLP中的高超性能讓不少人開始在CV領(lǐng)域中探索Prompt的魔力,不過都只局限于跨模態(tài)任務(wù)中文本編碼器的輸入。

          在本文中,作者將他們所提出的Visual Prompt Tuning方法,簡稱為VPT。這是首次有人將Prompt應(yīng)用到視覺模型主干(backbone),并做出成果。

          具體來說,比起全面微調(diào),VPT受最新大型NLP模型調(diào)整方法的啟發(fā),只在輸入空間中引入少量可特定某任務(wù)訓(xùn)練的參數(shù)(不到模型參數(shù)的1%),同時在訓(xùn)練下游任務(wù)期間凍結(jié)(freeze)預(yù)訓(xùn)練模型的主干


          在實(shí)操中,這些附加參數(shù)只用預(yù)先加入到每個Transformer層的輸入序列中,并在微調(diào)期間與線性head一起學(xué)習(xí)。

          他們一共探索出兩種變體:

          VPT-Deep變體為Transformer編碼器每層的輸入預(yù)先設(shè)置一組可學(xué)習(xí)的參數(shù);

          VPT-Shallow變體則僅將提示參數(shù)插入第一層的輸入。

          兩者在下游任務(wù)的訓(xùn)練過程中,只有特定于任務(wù)的提示和線性頭的參數(shù)會更新,而整個Transformer編碼器被凍結(jié)。


          接下來,是騾子是馬?拉出來溜溜~

          20/24的優(yōu)勝率


          實(shí)驗(yàn)涉及兩種在ImageNet-21k上預(yù)訓(xùn)練好的主干,一個來自Vision Transformer,一個來自Swin Transformer。

          進(jìn)行對比的微調(diào)方法有三大種,7小種,包括:

          (1)完全微調(diào):更新所有主干和分類頭(classification head)參數(shù)
          (2)以分類頭為重點(diǎn)的微調(diào),包括Linear、Partial-k和Mlp-k三種;
          (3)以及在微調(diào)過程中更新一個主干子集參數(shù)或向主干添加新的可訓(xùn)練參數(shù)的方法,分為Sidetune、Bias和Adapter三種。


          實(shí)驗(yàn)的數(shù)據(jù)集有兩組,一共涉及24個跨不同領(lǐng)域的下游識別任務(wù),包括:

          (1)由5個基準(zhǔn)細(xì)粒度視覺分類任務(wù)組成的FGVC;
          (2)由19個不同視覺分類集合組成的VTAB-1k,細(xì)分為使用標(biāo)準(zhǔn)相機(jī)拍攝的自然圖像任務(wù)(Natural)、用專用設(shè)備(如衛(wèi)星圖像)捕獲的圖像任務(wù)(Specialized)以及需
          要幾何理解的任務(wù)(Structured),比如物體計數(shù)。

          測得每項任務(wù)上的平均準(zhǔn)確度后,得出的主要結(jié)果如下:

          VPT-Deep在24個任務(wù)中有20個的表現(xiàn)都優(yōu)于全面微調(diào),同時使用的總模型參數(shù)顯著減少(1.18× vs. 24.02×);

          要知道,在NLP領(lǐng)域中Prompt再厲害,性能也不會超過全面微調(diào)。這說明Prompt很適用于視覺Transformer模型。

          和其他微調(diào)方法相比(b、c組),VPT-Deep的性能則全部勝出。


          此外,選擇不同主干參數(shù)規(guī)模和模型規(guī)模的ViT(ViT-B、ViT-L和ViT-H)進(jìn)行測試還發(fā)現(xiàn),VPT方法不會受影響,依然基本保持性能領(lǐng)先。


          而在Swin Transformer中,全面微調(diào)法的平均準(zhǔn)確度雖然更高,但也付出了巨大的參數(shù)代價。

          其他微調(diào)方法則全部不敵VPT。


          作者介紹


          一作賈夢霖,康奈爾大學(xué)信息科學(xué)(Information Science)博士生,主要研究方向?yàn)橐曈X和文本信息的細(xì)粒度識別,截至目前共發(fā)表過4篇頂會。


          共同一作為唐路明,也是康奈爾大學(xué)的一位計算機(jī)博士在讀學(xué)生,本科畢業(yè)于清華大學(xué)數(shù)學(xué)與物理專業(yè)。

          他的主要研究方向?yàn)闄C(jī)器學(xué)習(xí)和計算機(jī)視覺的交叉領(lǐng)域。



          論文地址:

          https://arxiv.org/abs/2203.12119


          編輯:于騰凱
          校對:林亦霖





          瀏覽 33
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  东京热小视频 | 大香蕉在线视频看精品 | 欧美精品成人一区二区在线观看 | 成人综合中文字幕 | 欧美大香蕉专区网 |