<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          地表最強VLP模型!谷歌大腦和CMU華人團隊提出極簡弱監(jiān)督模型,多模態(tài)下達到SOTA

          共 3309字,需瀏覽 7分鐘

           ·

          2021-09-02 13:42



            新智元報道  

          來源:arxiv

          編輯:Priscilla 好困

          【新智元導(dǎo)讀】谷歌大腦與CMU華人團隊提出全新圖像+文本預(yù)訓(xùn)練模型SimVLM,在最簡單的模型結(jié)構(gòu)與訓(xùn)練方式下也能在6個多模態(tài)基準領(lǐng)域達到SOTA,與現(xiàn)有VLP模型相比泛化能力更強。


          近年來,視覺-語言預(yù)訓(xùn)練(vision-language pretraining, VLP)取得了快速進展。
           
          各個研究團隊也提出了很多方法,但很大一部分都需要將圖像區(qū)域特征回歸的對象檢測或標記作為預(yù)訓(xùn)練目標的一部分,如LXMERT等。
           
           
          這些方法需要有強大的物體檢測模型,如Fast(er) R-CNN,而所需訓(xùn)練集則要事先進行數(shù)據(jù)的標注,因此建立訓(xùn)練流水線的成本也會隨之增加,模型的可擴展性也會降低。
           
          另一方面,也有研究也提出了利用多種跨模態(tài)損失函數(shù)作為訓(xùn)練目標的一部分,如圖像-文本匹配等。
           
          這些函數(shù)經(jīng)常與圖像標注生成、MLM(masked language modeling)等其它目標混合在一起,形成復(fù)合預(yù)訓(xùn)練損失,導(dǎo)致不同損失和數(shù)據(jù)集之間難以平衡,從而令優(yōu)化程序變得復(fù)雜。
           
          為此,卡內(nèi)基梅隆大學(xué)和谷歌大腦的團隊提出了一個全新的圖像-文本預(yù)訓(xùn)練模型SimVLM(Simple Visual Language Model)。
           
          https://arxiv.org/pdf/2108.10904.pdf
           
          SimVLM模型與現(xiàn)有的VLP模型有三大區(qū)別
           
          1. 只使用了單一的預(yù)訓(xùn)練損失,是當(dāng)前最簡化的VLP模型;
          2. 只使用了弱監(jiān)督,極大地降低了對預(yù)訓(xùn)練數(shù)據(jù)的要求;
          3. 使生成模型具備了極強的零樣本能力,包含零樣本跨模態(tài)遷移和開放式視覺問答(VQA)。
           
          不僅如此,SimVLM在不使用任何trick和額外數(shù)據(jù)的情況下,同時在6種多模態(tài)基準上達到了SOTA,證明即使是最簡單的架構(gòu)和訓(xùn)練方式都能在多模態(tài)領(lǐng)域取得極佳的效果。


          作者甚至發(fā)推直言:「PrefixLM is all you need for VLP!」 

          SimVLM


          與之前的工作不同,SimVLM通過利用大規(guī)模弱監(jiān)督來降低訓(xùn)練復(fù)雜度,并使用單個前綴語言建模目標進行端到端訓(xùn)練。
           
          在不使用額外數(shù)據(jù)或針對特定任務(wù)的定制的情況下,生成的模型顯著優(yōu)于以前的預(yù)訓(xùn)練方法,并在包括VQA (+3.74% vqa-分數(shù))、NLVR2(準確度+1.17%)、SNLI-VE(準確度+1.37%)和圖像標注任務(wù)(平均CIDEr分數(shù)+10.1%)。
           
          模型使用Pre?xLM來保留視覺語言表征。Pre?xLM與標準的語言模型不同,它能夠?qū)re?x序列應(yīng)用雙向注意力(如x<Tp),并只對剩余的標記進行自回歸分解(如x≥Tp)。
           
           
          直觀地說,圖像可以被認為是其文本描述的前綴,因為它們經(jīng)常出在文本之前。
           
          因此,對于一個給定的圖像-文本對,將長度為Ti的圖像特征序列預(yù)置到文本序列中,并強制模型對長度為Tp≥Ti的前綴進行采樣,只計算文本數(shù)據(jù)的語言模型損失。
           
          與之前的VLP方法相比,論文提出的方法不僅有MLM中的雙向語境表征,而且還可以進行類似于LM的文本生成。
           
          SimVLM模型
          用Pre?xLM訓(xùn)練圖像-文本對的例子:對于純文本的語料庫,可以直接刪除圖像塊,只使用文本標記。
           

          結(jié)果分析


          在零樣本圖像標注方面,SimVLM不僅能夠捕捉現(xiàn)實世界的概念,而且還能提供對視覺輸入的詳細描述。
           
          (a)零樣本圖像標注 (b)零樣本跨模態(tài)德語圖像標注 (c)生成式VQA (d)零樣本視覺文本補全 (e)零樣本開放式VQA。
           
          解碼后的樣本能夠解釋有多個物體的復(fù)雜場景(如有飲料的桌子);而且模型還顯示出對細粒度抽象的理解,如具體的汽車品牌和型號(如阿斯頓-馬?。?;甚至在對人類來說可能很棘手的挑戰(zhàn)性圖片上表現(xiàn)得很穩(wěn)健,比如抽象的圖片。
           
          結(jié)果表明,模型能夠?qū)W習(xí)到廣泛的現(xiàn)實世界的概念,并能在零樣本的情況下進行概括。
           
          此外,研究團隊對一組多樣化的視覺-語言基準進行系統(tǒng)實驗,包括視覺問答、圖像標注、視覺推理和多模態(tài)翻譯等。
           
          不僅將SimVLM模型作為預(yù)訓(xùn)練微調(diào)范式中的通用VL表征學(xué)習(xí)進行檢查,而且還研究了其對開放式VL理解的零樣本泛化。
           
          經(jīng)過實驗前的準備與微調(diào),從數(shù)據(jù)中可以看出,SimVLM明顯優(yōu)于所有現(xiàn)有模型,并且在所有任務(wù)上都實現(xiàn)了SOTA。這表明SimVLM的生成式預(yù)訓(xùn)練方法非常有效,而且表征弱監(jiān)督的簡單框架足以學(xué)習(xí)高質(zhì)量的多模態(tài)表征。
           
          常見VL基準上視覺-語言預(yù)訓(xùn)練方法的單一模型結(jié)果
           
          SimVLM的零樣本性能與CoCo上的完全監(jiān)督基準相當(dāng),在概念豐富的NoCaps基準上具有強大的泛化能力,比預(yù)訓(xùn)練模型獲得的分數(shù)更高。
           
          在CoCo和NoCaps上的不同測試結(jié)果
           
          作者在GLUE基準測試中將SimVLM與現(xiàn)有的VLP模型進行了比較,結(jié)果顯示,SimVLM的性能優(yōu)于現(xiàn)有的VLP方法,與BERT性能相當(dāng),表明SimVLM具有良好的語言理解能力。
           
          BERT與其他VLP在GLUE基準上的單一文本任務(wù)性能比對
           
          與SOTA表征學(xué)習(xí)方法相比,對ImageNet分類的線性評估。
           
          此外,作者根據(jù)上圖的線性評估計算ImageNet上的top-1準確率。
           
          結(jié)果顯示,SimVLM模型也學(xué)習(xí)了高質(zhì)量的圖像表征。
           
          所有實驗都表明,SimVLM能夠有效地捕獲特定于模態(tài)的信息,為弱監(jiān)督下更強的視覺語言理解奠定了堅實的基礎(chǔ)。
           

          團隊介紹


           
          王子瑞,論文一作,卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所的博士生在讀。
           
          此前在卡內(nèi)基梅隆大學(xué)獲得了計算機科學(xué)和數(shù)學(xué)的學(xué)士學(xué)位。
           
          項目曾在SuperGLUE數(shù)據(jù)集上獲得了第一個高于人類的SOTA性能(超過90分)。
           
          研究方向為遷移學(xué)習(xí),元學(xué)習(xí),自然語言處理,計算機視覺。
           
           
           
          Jiahui Yu,谷歌大腦的高級研究科學(xué)家。
           
          于2020年在伊利諾伊大學(xué)厄巴納-香檳分校獲得博士學(xué)位。在2016年在中國科技大學(xué)獲得了學(xué)士學(xué)位。
           
          讀博士期間曾在微軟亞洲研究院、Face++/Megvii、Adobe Research、Snap Research、Jump Trading、百度研究院、Nvidia Research和谷歌大腦工作。
           
          研究興趣是序列建模(語言,語音,視頻,金融數(shù)據(jù)),機器感知(視覺),生成模型(GANs),和高性能計算。
           
           
          (Adams) Wei Yu,谷歌大腦的研究科學(xué)家。
           
          畢業(yè)于卡內(nèi)基梅隆大學(xué),在2015年獲得了自然語言處理的碩士學(xué)位,2019年獲得機器學(xué)習(xí)的博士學(xué)位。
           
          Zihang Dai,谷歌大腦的研究科學(xué)家。
           
          本科就讀于清華大學(xué),并于2013年獲得學(xué)士學(xué)位。2016年在卡內(nèi)基梅隆大學(xué)獲得計算機科學(xué)碩士學(xué)位,2020年獲得博士學(xué)位。
           
          Yuan Cao,谷歌大腦的研究科學(xué)家。
           
          曾就讀于上海交通大學(xué)電子工程專業(yè),在2005年獲得學(xué)士學(xué)位,2008年獲得碩士學(xué)位。
           
          2015年在約翰斯·霍普金斯大學(xué)獲得博士學(xué)位。
           
          Yulia Tsvetkov,華盛頓大學(xué)計算機科學(xué)與工程學(xué)院助理教授,于2016年獲得卡內(nèi)基梅隆大學(xué)博士學(xué)位。



          參考資料:

          https://arxiv.org/pdf/2108.10904.pdf



          瀏覽 134
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美日韩性爱一区二区三区 | 正在播放:【性感女侍】疯狂做爱 | ezrabebe | 日韩在线视频导航 | 啪啪视频免费看 |