久热视频在线播放,婷婷在线无码,亚洲成人AV在线播放,97成人片,国产精品乱码一区二区,无码人妻精品一二三在线99绯色,外国操逼视频网站,麻豆久久久久久久久91

新智元報道

來源：arxiv

編輯：Priscilla 好困

【新智元導(dǎo)讀】谷歌大腦與CMU華人團隊提出全新圖像+文本預(yù)訓(xùn)練模型SimVLM，在最簡單的模型結(jié)構(gòu)與訓(xùn)練方式下也能在6個多模態(tài)基準領(lǐng)域達到SOTA，與現(xiàn)有VLP模型相比泛化能力更強。

近年來，視覺-語言預(yù)訓(xùn)練（vision-language pretraining, VLP）取得了快速進展。

各個研究團隊也提出了很多方法，但很大一部分都需要將圖像區(qū)域特征回歸的對象檢測或標記作為預(yù)訓(xùn)練目標的一部分，如LXMERT等。

這些方法需要有強大的物體檢測模型，如Fast(er) R-CNN，而所需訓(xùn)練集則要事先進行數(shù)據(jù)的標注，因此建立訓(xùn)練流水線的成本也會隨之增加，模型的可擴展性也會降低。

另一方面，也有研究也提出了利用多種跨模態(tài)損失函數(shù)作為訓(xùn)練目標的一部分，如圖像-文本匹配等。

這些函數(shù)經(jīng)常與圖像標注生成、MLM（masked language modeling）等其它目標混合在一起，形成復(fù)合預(yù)訓(xùn)練損失，導(dǎo)致不同損失和數(shù)據(jù)集之間難以平衡，從而令優(yōu)化程序變得復(fù)雜。

為此，卡內(nèi)基梅隆大學(xué)和谷歌大腦的團隊提出了一個全新的圖像-文本預(yù)訓(xùn)練模型SimVLM（Simple Visual Language Model）。

https://arxiv.org/pdf/2108.10904.pdf

SimVLM模型與現(xiàn)有的VLP模型有三大區(qū)別：

只使用了單一的預(yù)訓(xùn)練損失，是當(dāng)前最簡化的VLP模型；
只使用了弱監(jiān)督，極大地降低了對預(yù)訓(xùn)練數(shù)據(jù)的要求；
使生成模型具備了極強的零樣本能力，包含零樣本跨模態(tài)遷移和開放式視覺問答（VQA）。

不僅如此，SimVLM在不使用任何trick和額外數(shù)據(jù)的情況下，同時在6種多模態(tài)基準上達到了SOTA，證明即使是最簡單的架構(gòu)和訓(xùn)練方式都能在多模態(tài)領(lǐng)域取得極佳的效果。

作者甚至發(fā)推直言：「PrefixLM is all you need for VLP!」

SimVLM

與之前的工作不同，SimVLM通過利用大規(guī)模弱監(jiān)督來降低訓(xùn)練復(fù)雜度，并使用單個前綴語言建模目標進行端到端訓(xùn)練。

在不使用額外數(shù)據(jù)或針對特定任務(wù)的定制的情況下，生成的模型顯著優(yōu)于以前的預(yù)訓(xùn)練方法，并在包括VQA (+3.74% vqa-分數(shù)）、NLVR2（準確度+1.17%）、SNLI-VE（準確度+1.37%）和圖像標注任務(wù)（平均CIDEr分數(shù)+10.1%）。

模型使用Pre?xLM來保留視覺語言表征。Pre?xLM與標準的語言模型不同，它能夠?qū)re?x序列應(yīng)用雙向注意力（如x<Tp），并只對剩余的標記進行自回歸分解（如x≥Tp）。

直觀地說，圖像可以被認為是其文本描述的前綴，因為它們經(jīng)常出在文本之前。

因此，對于一個給定的圖像-文本對，將長度為Ti的圖像特征序列預(yù)置到文本序列中，并強制模型對長度為Tp≥Ti的前綴進行采樣，只計算文本數(shù)據(jù)的語言模型損失。

與之前的VLP方法相比，論文提出的方法不僅有MLM中的雙向語境表征，而且還可以進行類似于LM的文本生成。

SimVLM模型

用Pre?xLM訓(xùn)練圖像-文本對的例子：對于純文本的語料庫，可以直接刪除圖像塊，只使用文本標記。

結(jié)果分析

在零樣本圖像標注方面，SimVLM不僅能夠捕捉現(xiàn)實世界的概念，而且還能提供對視覺輸入的詳細描述。

(a)零樣本圖像標注 (b)零樣本跨模態(tài)德語圖像標注 (c)生成式VQA (d)零樣本視覺文本補全 (e)零樣本開放式VQA。

解碼后的樣本能夠解釋有多個物體的復(fù)雜場景（如有飲料的桌子）；而且模型還顯示出對細粒度抽象的理解，如具體的汽車品牌和型號（如阿斯頓-馬?。?；甚至在對人類來說可能很棘手的挑戰(zhàn)性圖片上表現(xiàn)得很穩(wěn)健，比如抽象的圖片。

結(jié)果表明，模型能夠?qū)W習(xí)到廣泛的現(xiàn)實世界的概念，并能在零樣本的情況下進行概括。

此外，研究團隊對一組多樣化的視覺-語言基準進行系統(tǒng)實驗，包括視覺問答、圖像標注、視覺推理和多模態(tài)翻譯等。

不僅將SimVLM模型作為預(yù)訓(xùn)練微調(diào)范式中的通用VL表征學(xué)習(xí)進行檢查，而且還研究了其對開放式VL理解的零樣本泛化。

經(jīng)過實驗前的準備與微調(diào)，從數(shù)據(jù)中可以看出，SimVLM明顯優(yōu)于所有現(xiàn)有模型，并且在所有任務(wù)上都實現(xiàn)了SOTA。這表明SimVLM的生成式預(yù)訓(xùn)練方法非常有效，而且表征弱監(jiān)督的簡單框架足以學(xué)習(xí)高質(zhì)量的多模態(tài)表征。