多模態(tài)預(yù)訓(xùn)練模型綜述

極市導(dǎo)讀
?本文梳理總結(jié)了11個(gè)通用型的預(yù)訓(xùn)練模型。?>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿
前言
2021年諾貝爾生理學(xué)、醫(yī)學(xué)獎揭曉,獲獎?wù)呤谴骶S·朱利葉斯(DavidJulius)和阿代姆·帕塔博蒂安(Ardem Patapoutian),表彰他們在“發(fā)現(xiàn)溫度和觸覺感受器”方面作出的貢獻(xiàn)。那作為算法從業(yè)者,我們該思考些什么呢?人在感知這個(gè)世界的時(shí)候,主要的方式就是視覺,嗅覺,聽覺等等。其中語音,文字和圖像是最重要的傳播載體,這三個(gè)領(lǐng)域的研究也都在這幾年得到了快速的發(fā)展,今天我們就來看看其交叉的領(lǐng)域即文字+圖像的圖文多模態(tài),其實(shí)多模態(tài)涉及的領(lǐng)域很多,今天我們只看文字+圖像這一分支(下文提到的多模態(tài)僅僅指語言視覺模型即Vision-Language 預(yù)訓(xùn)練模型)。從2018年Bert橫空出世以后,以預(yù)訓(xùn)練模型為基石的各個(gè)領(lǐng)域百花齊放,下面我們要梳理的多模態(tài)預(yù)訓(xùn)練模型也是在這樣一個(gè)背景下誕生的~~,具體大概是從2019年開始涌現(xiàn)的。目前布局在這一賽道的公司包括:騰訊、百度、谷歌、微軟、Facebook、UCLA等等。
技術(shù)是不斷更新的,相信以后會有更多的技術(shù)涌現(xiàn)出來,如果大家對這一方向比較感興趣的話,可以實(shí)時(shí)關(guān)注VCR的榜單或者其他相關(guān)的榜單,就可以追蹤到最新的idea。
VCR榜單:https://visualcommonsense.com/leaderboard/
除此之外,一些之前的有關(guān)預(yù)訓(xùn)練模型的其他方向的trick也被同步應(yīng)用到了多模態(tài)預(yù)訓(xùn)練模型,比如Prompt-Tuning等等:
CPT:https://arxiv.org/pdf/2109.11797.pdf
需要說明的是目前這一賽道大的方面分為兩塊:通用型的預(yù)訓(xùn)練&特定領(lǐng)域的預(yù)訓(xùn)練,具體一些論文大家可以看:
GitHub - yuewang-cuhk/awesome-vision-language-pretraining-papers: Recent Advances in Vision and Language PreTrained Models (VL-PTMs)
https://github.com/yuewang-cuhk/awesome-vision-language-pretraining-papers
我們這里主要梳理通用型的預(yù)訓(xùn)練模型,與之相對的就是還有一些工作是研究一些特定領(lǐng)域的圖文預(yù)訓(xùn)練模型的,當(dāng)然文章最后也會簡單介紹一篇特定領(lǐng)域的多模態(tài)預(yù)訓(xùn)練模型。
全文較長,建議收藏,慢慢消化~~~
Tasks & Datasets
● 一些常用的公開數(shù)據(jù)集

最近又有一個(gè)更大的多模態(tài)圖文數(shù)據(jù)集:LAION-400,其包含了4億圖文對:https://sail.usc.edu/iemocap/
● 一些常見下游任務(wù)

主要分為理解式和生成式任務(wù);理解式任務(wù)包括問答,推理,檢索等等,如下圖的VQA;生成式任務(wù)包括比如根據(jù)文字生成圖片或者根據(jù)圖片生成文字等等。

Key technology
為了大家對該方向的paper有一個(gè)更好的全局把握,這里先來梳理一下相關(guān)的技術(shù)點(diǎn)(部分看不懂的不要緊,可以詳細(xì)看后面的論文,先大概腦子里有個(gè)整體框架就行),可以想象到要設(shè)計(jì)一個(gè)Vision-Language 預(yù)訓(xùn)練模型,其實(shí)主要涉及到三個(gè)關(guān)鍵技術(shù):特征提取、特征融合和預(yù)訓(xùn)練任務(wù)。
(1)特征提取要解決的問題是怎么分別量化文字和圖像,進(jìn)而送到模型學(xué)習(xí)?
(2)特征融合要解決的問題是怎么讓文字和圖像的表征交互?
(3)預(yù)訓(xùn)練任務(wù)就是怎么去設(shè)計(jì)一些預(yù)訓(xùn)練任務(wù)來輔助模型學(xué)習(xí)到圖文的對齊信息?
當(dāng)然還有一些其他的零零散散的,但是也很重要的trick,比如:
(1) 訓(xùn)練的數(shù)據(jù)是文本和圖像pair,怎么挖掘?
(2) 訓(xùn)練好的預(yù)訓(xùn)練模型怎么增量學(xué)習(xí)?
(3) 訓(xùn)練好的預(yù)訓(xùn)練模型怎么壓縮?
(4) ......
目前這三個(gè)技術(shù)的通常做法是:
(1) 特征提?。何谋径说谋碚鳂?biāo)配就是bert的tokenizer,更早的可能有LSTM;圖像的話就是使用一些傳統(tǒng)經(jīng)典的卷積網(wǎng)絡(luò),按提取的形式主要有三種Rol、Pixel、Patch三種形式。
(2) 特征融合:目前的主流的做法不外乎兩種即雙流two-stream或者單流single-stream;前者基本上就是雙塔網(wǎng)絡(luò),然后在模型最后的時(shí)候設(shè)計(jì)一些layer進(jìn)行交互,所以雙流結(jié)構(gòu)的交互發(fā)生的時(shí)間更晚。后者就是一個(gè)網(wǎng)絡(luò)比如transformer,其從一開始就進(jìn)入一個(gè)網(wǎng)絡(luò)進(jìn)行交互,所以單流結(jié)構(gòu)的交互時(shí)間發(fā)生的更早且全程發(fā)生,更靈活;當(dāng)然還有一類是Multi-stream(MMFT-BERT),目前還不多,不排除將來出現(xiàn)基于圖文音等Multi-stream多模態(tài)模型。
(3) 預(yù)訓(xùn)練任務(wù):這里就是最有意思的地方,也是大部分多模態(tài)paper的idea體現(xiàn)。這里就先總結(jié)一些常見的標(biāo)配任務(wù),一些特色的任務(wù)后面paper單獨(dú)介紹
大家可以記一下下面的仍無簡稱,后面介紹paper的時(shí)候,凡是使用了相關(guān)預(yù)訓(xùn)練任務(wù),都以簡稱一筆帶過。
3.1 Masked Language Modeling ( MLM ):傳統(tǒng)的文本屏蔽語言模型,針對的是文本流。
3.2 Masked Region Modeling(MRM):模仿MLM,只不過這里是對圖片進(jìn)行隨機(jī)mask,針對的是圖像流。被隨機(jī)屏蔽的概率是15% ,替換成 0 和保持不變的概率分別是 90%和10%,這里又可以細(xì)化的分為Masked Region Feature Regression (MRFR) ,Masked Region Classification (MRC)和Masked Region Classification with KL-Divergence (MRC-kl)。主要的loss分別是L2 regression,cross-entropy (CE) loss,KL divergence 。
3.3 Image-Text Matching ( ITM ): 圖文匹配任務(wù),針對的是圖文交互流,即判斷當(dāng)前pair是不是匹配(就是個(gè)分類任務(wù)),具體的是將圖片的IMG token和文本的cls做element-wise product再經(jīng)過一個(gè)MLP層來做相似性的監(jiān)督學(xué)習(xí)。
papers & Summary
VILBERT

論文鏈接:https://arxiv.org/pdf/1908.02265.pdf
代碼鏈接:https://github.com/facebookresearch/vilbert-multi-task
(1)特征提?。何谋静捎玫氖莃ert的tokenizer,圖片是基于一個(gè)pretrain的object-detection網(wǎng)絡(luò)生成圖像rpn及其視覺特征。具體的是使用bounding boxes的左上角和右下角的坐標(biāo)以及圖像區(qū)域的覆蓋占比形成的一個(gè)5-dim的vec,然后用一個(gè)MLP將之映射成與視覺特征一樣的維數(shù),然后做sum。
(2) 特征融合:可以看到這里其實(shí)是two-stream,交互主要是靠Co-TRM來完成的,那什么是Co-TRM呢?下面的右圖就是Co-TRM,傳統(tǒng)的TRM的q,k,v是來自同一個(gè)vec(self-attention),這里為了交互改進(jìn)了這一結(jié)構(gòu),具體的為了在表征圖片的時(shí)候考慮到其文本的上下文,那么q來自圖片,而k,v都來自文本,同樣在表征文本的時(shí)候,其k,v來自圖片。

(3) 預(yù)訓(xùn)練任務(wù):MLM、MRM:MRC-kl、ITM
B2T2

論文鏈接:https://arx-iv.org/pdf/1908.05054v1.pdf
(1)特征提取:文本采用的是bert的tokenizer,圖片采用ResNet。
(2) 特征融合:可以看到這里是single-stream,這里的交互主要是靠加和,如下:等號右邊的第一項(xiàng)就是正常的文本部分,第二項(xiàng)是圖像特征。R是一個(gè)矩陣,可以簡單理解為屏蔽矩陣,元素值只有(0,1),只有對應(yīng)的文本token在圖像的bounding box出現(xiàn)是1,也即最后才加和

(3) 預(yù)訓(xùn)練任務(wù):MLM、ITM。
LXMERT

論文鏈接:https://arxiv.org/pdf/1908.07490.pdf
代碼鏈接:https://github.com/airsplay/lxmert
(1)特征提?。何谋静捎玫氖莃ert的tokenizer,圖片這里使用的是object-detection對圖片進(jìn)行分塊,注意這里只是得到了Rol, 本質(zhì)上還是圖片,為了量化具體采用的是pre-trained R-CNN提取得到的表征。
(2) 特征融合:可以看到這里是two-stream,和Co-TRM結(jié)果基本一樣。
(3) 預(yù)訓(xùn)練任務(wù):MLM、MRM:MRC/ MRC-kl、ITM、QA
這里的QA:一個(gè)問答任務(wù),作者為了擴(kuò)大預(yù)訓(xùn)練的數(shù)據(jù)集,使用問答數(shù)據(jù)集,同時(shí)為了對比QA是否帶來效果,做了一個(gè)消融實(shí)驗(yàn)(不加QA 20 epoch VS 10 epoch 不加QA 和10 epoch 加QA)發(fā)現(xiàn)QA帶來收益。
VisualBERT

論文鏈接:https://arxiv.org/pdf/1908.03557.pdf
論文代碼:https://github.com/uclanlp/visualbert
(1)特征提?。何谋静捎玫氖莃ert的tokenizer,圖片這里依然使用的是ROI。
(2) 特征融合:可以看到這里是single-stream。
(3) 預(yù)訓(xùn)練任務(wù):MLM、ITM
Unicoder-VL

論文鏈接:https://arxiv.org/pdf/1908.06066.pdf
(1)特征提?。何谋静捎玫腷ert的tokenizer,圖片這里依然使用的是object-detection + Faster-RCNN。
(2) 特征融合:可以看到這里是single-stream,右半部分是文本,左半邊部分是圖像部分,基本上類似VL-BERT。
(3) 預(yù)訓(xùn)練任務(wù):MLM、MRM:MRC、ITM
需要說明的是在MASK的時(shí)候,這里和VL-BERT不同的是,其實(shí)在Faster-RCNN之后mask(置0)
VL-BERT

論文鏈接:https://arxiv.org/pdf/1908.08530.pdf
代碼鏈接:https://github.com/jackroos/VL-BERT
(1)特征提?。何谋静捎玫腷ert的tokenizer,圖片這里依然使用的是object-detection+Faster-RCNN。
(2) 特征融合:可以看到這里是single-stream,左半部分是文本,右邊部分是圖像部分,文本沿用了之前的bert形式編碼(sent_A sep sent_B,上圖中只有sent_A),圖像部分分為兩塊,前面是Rol,最后為了不丟失全局信息將整張圖片加了進(jìn)去即[END]部分。這里需要注意的是,對比Bert,segment是三部分即A,B,C分別是句子A,句子B,圖像,sequence對于文本和之前一樣,同時(shí)作者認(rèn)為圖像的Rol部分是沒有順序的,所以編碼一樣即上圖都是7。
(3) 預(yù)訓(xùn)練任務(wù):MLM、MRM:MRC
MRC 需要注意兩點(diǎn)的是第一在mask 某一Rol后,全圖對應(yīng)的部分也要mask,不然會存在偷窺。第二是圖像上做 mask,而不是在輸出的特征圖上做 mask,另外作者認(rèn)為ITM 沒有用,所以沒加。
UNITER

論文鏈接:https://arxiv.org/pdf/1909.11740.pdf
代碼鏈接:https://github.com/ChenRocks/UNITER
(1)特征提?。何谋静捎玫腷ert的tokenizer,圖片這里依然使用的是object-detection+Faster-RCNN。
(2) 特征融合:可以看到這里是single-stream,左半部分是圖像,右邊部分是文本部分,基本上也是類似VL-BERT。
(3) 預(yù)訓(xùn)練任務(wù):MLM、MRM:MRC/ MRFR /MRC-kl、ITM、WRA
3.1 注意最后MRM 這三種不是都使用了,這里作者進(jìn)行了消融實(shí)驗(yàn),作者對各種任務(wù)做了消融實(shí)驗(yàn),包括MRM當(dāng)中的三種變體如下,最后得出的最佳組合是:MLM + ITM + MRC-kl + MRFR + WRA。
3.2 WRA是一個(gè)圖像和文本對齊任務(wù),本質(zhì)是一個(gè)Optimal Transport問題,大家也可以從下圖的實(shí)驗(yàn)結(jié)果看到該任務(wù)的收益即第11個(gè)消融實(shí)驗(yàn),尤其是在VQA和RefCOCO+上面。

Pixel-BERT

論文鏈接:https://arxiv.org/pdf/2004.00849.pdf
(1)特征提?。何谋静捎玫腷ert的tokenizer,圖片這里使用的是Pixel。
(2) 特征融合:可以看到這里是single-stream,值得說的是作者做了一個(gè)Pixel Random Sampling,即隨機(jī)從 feature map中抽取100 pixels ,這么做的好處有兩個(gè):增加了模型的健壯性,緩解了圖像端的序列長度。
(3) 預(yù)訓(xùn)練任務(wù):MLM、ITM


3.1這里需要說一下采用Pixel這種方法的理由是說如果采用如之前的目標(biāo)檢測其實(shí)就缺失了很多信息比如空間關(guān)系,以及重合等等,實(shí)驗(yàn)結(jié)果對比如下。
3.2另外作者對其提出的Pixel Random Sampling的策略也做了相應(yīng)的消融實(shí)驗(yàn):通過4和5的對比可以看到該策略在VQA、retrieval tasks和NLVR2 上的收益分別是0.5, 2.0 和0.4 。
ERNIE-ViL

論文鏈接:https://arxiv.org/pdf/2006.16934.pdf
代碼鏈接:https://github.com/PaddlePaddle/ERNIE/tree/repro/ernie-vil
(1)特征提取:文本采用的bert的tokenizer,圖片這里依然使用的是object-detection。
(2) 特征融合:可以看到這里是two-stream,基本上采用的是類似ViLBERT的結(jié)構(gòu)。
(3) 預(yù)訓(xùn)練任務(wù):MLM、MRFR、ITM、SGP (scene Graph Prediction)
SGP場景圖預(yù)測,這也是ERNIE-ViL的核心創(chuàng)新點(diǎn),上圖的右半部分就是所謂的場景圖,可以看到其實(shí)就是目標(biāo)+屬性+關(guān)系的一個(gè)結(jié)構(gòu)圖。這些詞被稱為細(xì)粒度詞,而a,the等等被看作是普通詞,依據(jù)這個(gè)場景圖,作者設(shè)計(jì)了三個(gè)具體任務(wù)即物體預(yù)測object prediction+屬性預(yù)測Attribute prediction + 關(guān)系預(yù)測 relationship prediction,其實(shí)可以看到object prediction就是MRC,但是是從文本端的角度mask的(之前的實(shí)體MASK是MASK region)。
UNIMO

論文鏈接:https://arxiv.org/pdf/2012.15409.pdf
代碼鏈接:https://github.com/PaddlePaddle/Research/tree/master/NLP/UNIMO
之前都是只做多模態(tài),作者認(rèn)為這局限了數(shù)據(jù)量,因?yàn)樯鲜龇椒ㄖ荒茉诜浅S邢薜亩嗄B(tài)數(shù)據(jù)(圖文pair)上進(jìn)行訓(xùn)練,所以作者設(shè)計(jì)了統(tǒng)一模態(tài)預(yù)訓(xùn)練框架即UNIMO,能夠有效地同時(shí)進(jìn)行單模態(tài)和多模態(tài),帶來的最大好處就是可以利用大量的開放域文本語料和圖片,簡單來說就是增加了訓(xùn)練數(shù)據(jù)集。
(1)特征提取:文本采用的bert,圖片這里依然使用的是object-detection。
(2) 特征融合:可以看到這里是three-stream, 圖文融合的多模態(tài)是上圖左邊的cross-modal single-stream,然后文本和圖片的單模態(tài)分別一個(gè)single-modal transformer。
(3)預(yù)訓(xùn)練任務(wù):MLM、Seq2Seq generation、MRC/MRC-kl、ITM
3.1 MLM/Seq2Seq generation:需要注意這些任務(wù)在cross-modal和single-modal的文本序列中都有,Seq2Seq generation是為了使得模型具備文本生成任務(wù)加的一個(gè)任務(wù)。
3.2 MRC/MRC-kl:需要注意這些任務(wù)在cross-modal和single-modal的region圖像序列中都有。
3.3 CMCL:將最近大火特火的對比學(xué)習(xí)應(yīng)用了進(jìn)來,之前的對比學(xué)習(xí)都是一個(gè)batch 內(nèi)random 抽取得到負(fù)樣本,作者認(rèn)為這些只能讓模型學(xué)到一些粗粒度的圖文對齊,為此這里采用了兩個(gè)重要的數(shù)據(jù)增強(qiáng)技術(shù)文本重寫text rewriting和圖文檢索text/image retrieval,使得模型不但能夠?qū)W習(xí)到一些細(xì)粒度方面的信息,且能夠使的cross-modal利用到大量的single-modal數(shù)據(jù)資源。
(a) text rewriting:具體從三個(gè)層面對文本進(jìn)行改寫即sentence-level, phrase-level和wordlevel。具體細(xì)節(jié)如下:
sentence-level利用的是back-translation回譯方法,這樣得到的是正樣本,此外還用了TF-IDF similarity取檢索出相似的句子,這些檢索的句子很像原來句子,但是不能很準(zhǔn)確的描述圖片,所以可以作為負(fù)樣本,而且是一種hard negative samples。
phrase-level和wordlevel是利用了場景圖(類似前面說的ERNIE_VIL),然后就是隨替換object,attribute,relationship。這些也是負(fù)樣本,而且是一種hard negative samples。
(b) text/image retrieval:這里就是根據(jù)當(dāng)前圖文pair中的圖和文分別去檢索出自己相似的圖和文,然后這些檢索的圖和文其實(shí)相比于原始的的pair是弱相關(guān)性的,然后在進(jìn)行對比學(xué)習(xí)的時(shí)候,這些檢索出來的文本是單獨(dú)過single-modal進(jìn)行編碼,然后和cross-modal做相似性,比如原始的圖文pair是(v,w),v檢索出來的有一個(gè)是v*,那么v*過single-modal得到的圖表征和(v,w)過cross-modal得到的[CLS]的文本特征作為對比學(xué)習(xí)的目標(biāo)。
這里說一下比較重要的結(jié)論:
其熱啟的模型是RoBERTa,那么其首先是多模態(tài)上超過了之前的Ernie-ViL等多模態(tài)預(yù)訓(xùn)練模型,其次是進(jìn)一步驗(yàn)證了在單模態(tài)上面的效果,超越了RoBERTa本身(其他的多模態(tài)預(yù)訓(xùn)練都在單模態(tài)上面表現(xiàn)不好)
CLIP

論文鏈接:https://arxiv.org/pdf/2103.00020.pdf
代碼鏈接:https://github.com/OpenAI/CLIP
解讀:https://www.bilibili.com/video/av291385771/
(1)特征提?。何谋尽D片都采用transformer,其中圖片采用的是patch。
(2) 特征融合:可以看到這里是two-stream。
(3) 預(yù)訓(xùn)練任務(wù):這里采用的是對比學(xué)習(xí)。上圖(1)中I1,I2就是第一、二張圖片表征,T1,T2就是第一、二條文本表征,其中I1、I2和T1、T2都是一一對應(yīng)即T1是I1的描述,所以對比學(xué)習(xí)的目標(biāo)就是使得矩陣對角線的pair距離越來越近,非對角線pair距離越來越遠(yuǎn)。由于矩陣特別大,所以將對比學(xué)習(xí)轉(zhuǎn)化為分類任務(wù),即對于I1來說,其在T1-TN上這N個(gè)類別中應(yīng)該被分到T1,所以最后的loss就是按行(圖像分類)和按列(文本分類)都做一個(gè)分類任務(wù),取平均。
常見的上下游任務(wù)
paper我們就暫時(shí)刷到這里,基本上涵蓋了最常見和出名的paper,如果大家對某一篇特別感興趣的話,可以看原論文了解細(xì)節(jié),下面我們就先總結(jié)一下上述模型涉及到的一些上下游任務(wù),然后再整體對比看看異同。
常見的上下游任務(wù)

(1) IR里面包括圖片檢索文本任務(wù)Image Retrieval (IR) 和文本檢索圖片任務(wù)Text Retrieval (TR)。
(2) GRE和GP是差不多類型的任務(wù)都是根據(jù)一段文本的描述取定位到圖像對應(yīng)的region,使用的fintune的數(shù)據(jù)集不一樣如上。
模型對比:

更詳細(xì)一點(diǎn)的如下,同時(shí)可以看到這里的使用的數(shù)據(jù)集

圖片出自Kaleido-BERT
Task-specific Vision-Language pre-training
除了上述介紹的通用領(lǐng)域預(yù)訓(xùn)練模型之外,還有一些研究是著眼于一些特定領(lǐng)域比如情感識別領(lǐng)域等等,這里我們就介紹一篇阿里的關(guān)于時(shí)尚領(lǐng)域的多模態(tài)預(yù)訓(xùn)練模型。
kaleido-BERT

論文鏈接:https://github.com/mczhuge/Kaleido-BERT
相比通用領(lǐng)域的預(yù)訓(xùn)練模型,在淘寶APP上等時(shí)尚領(lǐng)域面臨的問題有:
(1) 圖像特征表達(dá):Rol 稀疏,Rol噪聲,目標(biāo)檢測出來的非常少。通常一個(gè)圖片就只有一個(gè)目標(biāo)比如襪子。
(2) 確少圖文信息先驗(yàn)理解:Masking 策略缺少模特關(guān)聯(lián)信息(region-token),最好改策略使得模型有意識的甚至是顯示的去學(xué)習(xí)。
(3) 圖像欠擬合:即使有MRFR和MOC等,但是還是不夠像文本端自監(jiān)督任務(wù)。
為此作者提出以下idea:
針對第一個(gè)問題阿里之前的一篇 FashionBERT 采用了分塊。
針對問題一:提出了KPG,先是提取Foreground(不需要學(xué)習(xí)空白位置這種lower level信息,更希望聚焦于語義,這主要是電商領(lǐng)域背景色大部分都是一個(gè)大空白),后面進(jìn)行多尺度(多種粒度,1*1,2*2,3*3,4*4)kaleido圖像塊劃分,作為圖像特征輸入。
針對問題二:提出了AGM,其中先要AAG得到了token-patch 的先驗(yàn)知識,只mask一側(cè)。
針對問題三:提出了AKPM,1*1塊例如旋轉(zhuǎn);2*2塊拼圖(分類);3*3塊這里有三個(gè)任務(wù)是借鑒了MLM,具體為隨機(jī)選取一個(gè)塊,然后有三種mask,即隨機(jī)替換(用另外一個(gè)3*3同樣位置的),置灰,不變;4*4著色恢復(fù)任務(wù)(原始隨機(jī)2個(gè)塊置灰恢復(fù)原來的顏色);5*5:空白恢復(fù)任務(wù)(原始隨機(jī)3個(gè)塊置空白恢復(fù)原來)。
可以看到其實(shí)著色恢復(fù)任務(wù)相當(dāng)于空白恢復(fù)任務(wù)是簡單的,因?yàn)槠溥€有一些問題的基本紋理,這里的一個(gè)邏輯就是讓模型先掌握簡單的,然后在這基礎(chǔ)上再學(xué)會難的,其實(shí)AKPM中從1*1到5*5設(shè)計(jì)的任務(wù)就是一個(gè)由簡單到難的過程。
關(guān)于這些任務(wù)的訓(xùn)練的順序是怎么樣的?是交替進(jìn)行還是遞進(jìn)進(jìn)行還是說一起進(jìn)行的?這里問了作者是一起訓(xùn)練的。
論文做了很多消融實(shí)驗(yàn),最后的實(shí)驗(yàn)結(jié)果是:前景提取和多尺度的設(shè)計(jì)對效果的提升最大,其次設(shè)計(jì)的AGM和AKPM也有一定的效果。
Conclusion
(1) 基本上現(xiàn)在的標(biāo)配:就是single-modal層面的MASK預(yù)測,以及cross-modal層面的對齊學(xué)習(xí)。
(2) single-stream好還是two-stream好,目前沒有一個(gè)絕對的結(jié)論,就目前看使用single-stream更多一些,使用single-stream的好處是特征融合更早更充分,使用two-stream一個(gè)明顯的優(yōu)勢是參數(shù)量更多(意味著可以容納更多的信息),先在前期提取了各種低階特征,進(jìn)而在高階進(jìn)行融合。
(3) 圖像的提取Rol到Pixel到Patch,目前使用Rol方式居多,但是必然缺失了很多信息,最直觀的就是空間,盡管一些模型都顯示的加了位置embedding,但是一些隱式的也有缺失,畢竟目標(biāo)外的甚至是目標(biāo)檢測模型不能檢測的目標(biāo)信息都丟失了,所以從包含的信息的角度考慮后兩種更全。
(4) 粒度越來越細(xì)。語言模態(tài)上:從簡單的MLM到mask 場景圖,視覺模態(tài)上:從單純的mask region 區(qū)域到mask object目標(biāo),kaleido-BERT的設(shè)計(jì)的AKPM任務(wù)等等。對齊任務(wù)上面的比如:kaleido-BERT的設(shè)計(jì)的AGM。這里也是可以挖掘的一個(gè)方向可以更細(xì)粒度,當(dāng)然難點(diǎn)就是要挖掘的粒度下的訓(xùn)練pair的挖掘。對齊先驗(yàn)知識很重要,這塊有更大的挖掘空間。
(5) 數(shù)據(jù)量越來越大。不論是使用對比學(xué)習(xí)還是什么手段,本質(zhì)上就是為了使的模型可以利用更大的數(shù)據(jù)集。誰能利用的數(shù)據(jù)量更大且誰能挖掘更細(xì)粒度的對齊,效果應(yīng)該是越好。
(6) 大一統(tǒng)模態(tài)即一個(gè)模型同時(shí)可以多模態(tài)單模態(tài)可能是一個(gè)方向,因?yàn)槠淅玫臄?shù)據(jù)可以更多,且一個(gè)模型解決可以覆蓋所有任務(wù),應(yīng)用也廣。
如果覺得有用,就請分享到朋友圈吧!
公眾號后臺回復(fù)“transformer”獲取最新Transformer綜述論文下載~

#?CV技術(shù)社群邀請函?#

備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)
即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實(shí)項(xiàng)目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

