地表最強VLP模型!谷歌大腦和CMU華人團隊提出極簡弱監(jiān)督模型,多模態(tài)下達到SOTA

新智元報道
新智元報道
來源:arxiv
編輯:Priscilla 好困
【新智元導(dǎo)讀】谷歌大腦與CMU華人團隊提出全新圖像+文本預(yù)訓(xùn)練模型SimVLM,在最簡單的模型結(jié)構(gòu)與訓(xùn)練方式下也能在6個多模態(tài)基準領(lǐng)域達到SOTA,與現(xiàn)有VLP模型相比泛化能力更強。


只使用了單一的預(yù)訓(xùn)練損失,是當(dāng)前最簡化的VLP模型; 只使用了弱監(jiān)督,極大地降低了對預(yù)訓(xùn)練數(shù)據(jù)的要求; 使生成模型具備了極強的零樣本能力,包含零樣本跨模態(tài)遷移和開放式視覺問答(VQA)。

SimVLM


結(jié)果分析





團隊介紹


參考資料:
https://arxiv.org/pdf/2108.10904.pdf

評論
圖片
表情
