這個預(yù)訓(xùn)練不簡單!BLIP:統(tǒng)一視覺-語言理解和生成任務(wù)
點擊下方卡片,關(guān)注“CVer”公眾號
AI/CV重磅干貨,第一時間送達
這個 BLIP 模型可以「看圖說話」,提取圖像的主要內(nèi)容,不僅如此,它還能回答你提出的關(guān)于圖像的問題。

論文地址:https://arxiv.org/pdf/2201.12086.pdf
代碼地址:https://github.com/salesforce/BLIP
試玩地址:https://huggingface.co/spaces/akhaliq/BLIP






單峰編碼器
基于圖像的文本編碼器
基于圖像的文本解碼器
圖像文本對比損失(image-text contrastive loss, ITC),激活單峰編碼器,旨在通過鼓勵正圖像文本對(而非負對)具有相似的表征來對齊視覺與文本 transformer 的特征空間;
圖像文本匹配損失(image-text matching loss, ITM),激活基于圖像的文本編碼器,旨在學(xué)習(xí)捕獲視覺與語言之間細粒度對齊的圖像文本多模態(tài)表征;
語言建模損失(language modeling loss, LM),激活基于圖像的文本解碼器,旨在給定一張圖像時生成文本描述。










評論
圖片
表情
