即插即用、無需訓(xùn)練:劍橋大學(xué)、騰訊AI Lab等提出免訓(xùn)練跨模態(tài)文本生成框架

1. 導(dǎo)讀
本文提出了一個(gè)全新的 MAGIC (iMAge-guided text GeneratIon with CLIP)框架。該框架可以使用圖片模態(tài)的信息指導(dǎo)預(yù)訓(xùn)練語言模型完成一系列跨模態(tài)生成任務(wù),例如 image captioning 和 visually grounded story generation。與其他方法不同的是,MAGIC 框架無需多模態(tài)訓(xùn)練數(shù)據(jù),只需利用現(xiàn)成的語言模型(例如?GPT-2)和圖文匹配模型(例如 CLIP)就能夠以 zero-shot 的方式高質(zhì)量地完成多模態(tài)生成任務(wù)。此外,不同于使用梯度更新生成模型?cache 的傳統(tǒng)方法,MAGIC 框架無需梯度更新,因而具備更高效的推理效率。

論文:https://arxiv.org/abs/2205.02655 代碼:https://github.com/yxuansu/MAGIC


是用來校準(zhǔn)生成模型表示空間的 margin?參數(shù),
用來計(jì)算 token 表示之間的余弦相似度。最終,本文將兩個(gè)損失函數(shù)合并,以此來優(yōu)化文本模態(tài)的?GPT-2?語言模型:
和圖片
,第 t 步的 token 選擇公式如下:
表示按照語言模型概率分布選擇的 top-k 個(gè)候選 token。同時(shí),該研究借鑒了 SimCTG 中 contrastive search 的思路,在 token 選擇指標(biāo)中引入了 model confidence 和 degeneration penalty 項(xiàng)來使得模型選擇更合適的 token。上述公式中最重要的一項(xiàng)是將視覺控制信息引入到模型解碼過程中的 magic score:
是 CLIP 的 image encoder 產(chǎn)生的圖片表示,
是 CLIP 的 text encoder 產(chǎn)生的文本表示。
參數(shù)用來調(diào)節(jié)視覺信息的控制力度。當(dāng)其值為 0 時(shí),語言模型的生成過程不再被視覺信息所影響,從而 magic search 退化為傳統(tǒng)的 contrastive search。




文獻(xiàn)來源:機(jī)器之心
版權(quán)聲明:本號(hào)內(nèi)容部分來自互聯(lián)網(wǎng),轉(zhuǎn)載請(qǐng)注明原文鏈接和作者,如有侵權(quán)或出處有誤請(qǐng)和我們聯(lián)系。
評(píng)論
圖片
表情
