從頂會(huì)論文看多模態(tài)預(yù)訓(xùn)練研究進(jìn)展

本文約4000字,建議閱讀5分鐘 本文主要從以下幾個(gè)方面對(duì)近期多模態(tài)預(yù)訓(xùn)練模型的工作進(jìn)行介紹:預(yù)訓(xùn)練模型、多模態(tài)prompt、多模態(tài)預(yù)訓(xùn)練分析、知識(shí)遷移和知識(shí)蒸餾。
本文簡(jiǎn)化了多模態(tài)預(yù)訓(xùn)練模型圖片編碼器,提出一種很簡(jiǎn)單的多模態(tài)模型,在保證效果的前提下大大減小了模型復(fù)雜度和運(yùn)行時(shí)間。


Image Text Matching Masked Language Modeling


Multimodal language modeling: T5和BART各自沿用了其預(yù)訓(xùn)練的語(yǔ)言模型任務(wù),只是在encoder輸入的時(shí)候不止輸入文本,還輸入圖片; Visual question answering: 給定圖片和問(wèn)題,直接生成答案; Image-text matching Visual grounding: 輸入一個(gè)object的描述以及一張圖片,輸出圖中正確object所對(duì)應(yīng)的visual token; Grounded captioning: 與上一個(gè)任務(wù)相反,輸入圖片和一個(gè)object的visual token,輸出對(duì)這個(gè)object的描述。

純文本語(yǔ)料上的預(yù)訓(xùn)練能夠幫助模型提升多模態(tài)任務(wù)上的性能; 圖片和多模態(tài)數(shù)據(jù)上的預(yù)訓(xùn)練能夠幫助模型更好地完成NLU任務(wù)。



不管是單流還是雙流,多模態(tài)的預(yù)訓(xùn)練模型都比預(yù)訓(xùn)練語(yǔ)言模型在NLU任務(wù)上表現(xiàn)更差,單流模型比雙流模型略好; 上述NLU任務(wù)上性能的下降主要是由預(yù)訓(xùn)練任務(wù)造成的,而不是模型結(jié)構(gòu); 論文研究了多模態(tài)預(yù)訓(xùn)練模型的參數(shù)是如何在預(yù)訓(xùn)練語(yǔ)言模型的基礎(chǔ)上變動(dòng)的,并研究了每一個(gè)預(yù)訓(xùn)練模型能解決的任務(wù); 多模態(tài)的任務(wù)最好采用單流的架構(gòu),并精心設(shè)計(jì)預(yù)訓(xùn)練任務(wù)來(lái)保持預(yù)訓(xùn)練語(yǔ)言模型的知識(shí)。

MLM:在image caption上進(jìn)行MLM,相當(dāng)于進(jìn)行了domain adaptive的預(yù)訓(xùn)練; Text Contrastive Learning (TCL): 采用和SimCSE一樣的方式,進(jìn)行對(duì)比學(xué)習(xí)。
Voken Classification: voken[4]采用token層面的text2image檢索來(lái)遷移視覺知識(shí),它假設(shè)每一個(gè)token都有一個(gè)視覺域的voken與其對(duì)應(yīng),訓(xùn)練目標(biāo)就是在所有預(yù)先設(shè)定好的voken中將正確的voken檢索出來(lái); Masked Language Modeling with Visual Clues: 給定圖片作為線索,預(yù)測(cè)mask掉的token,比MLM多了圖片作為輸入,目標(biāo)函數(shù)是一樣的; Cross-Modal Contrastive Learning (CMCL): 和CLIP一樣,是跨模態(tài)的對(duì)比學(xué)習(xí); Cross-Modal Knowledge Distillation (CMKD): 將在MSCOCO數(shù)據(jù)集上進(jìn)行對(duì)比學(xué)習(xí)的多模態(tài)模型作為teacher model,將一個(gè)語(yǔ)言模型作為student,在純文本語(yǔ)料Wiki103上進(jìn)行知識(shí)蒸餾。
Text-Text Distance Minimization (TTDM): 最小化BART編碼器和CLIP文本編碼器得到的text embedding之間的距離; Image-Text Contrastive Learning (ITCL): 在BART編碼的文本和CLIP編碼的圖片表示之間進(jìn)行跨模態(tài)的對(duì)比學(xué)習(xí); Image-Conditioned Text Infilling (ITCL): 上面兩個(gè)目標(biāo)只是對(duì)BART的編碼器進(jìn)行了更新,沒有動(dòng)解碼器。此處在(image, text) pair數(shù)據(jù)集上將CLIP的視覺表示和BART編碼器的文本表示投影到與BART解碼器相同的維度上,然后進(jìn)行conditional text generation,使得BART的編碼器也能理解視覺表示。
參考文獻(xiàn)
[1] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
[2] Language Models are Few-shot Learners
[3] Prefix-Tuning: Optimizing Continuous Prompts for Generation
[4] Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision
[5]?Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
評(píng)論
圖片
表情
