點(diǎn)擊上方,選擇星標(biāo) 或置頂 ,每天給你送干貨!
最早接觸多模態(tài)是一個(gè)抖音推薦項(xiàng)目,有一些視頻,標(biāo)題,用戶點(diǎn)贊收藏等信息,給用戶推薦作品,我當(dāng)時(shí)在這個(gè)項(xiàng)目里負(fù)責(zé)用NLP部分上分,雖然最后用wide and deep 整個(gè)團(tuán)隊(duì)效果還可以,但是從a/b test 看文本部分在其中起到的作用為0... ( ) 現(xiàn)在看來還是wide and deep這種方式太粗暴了(對于復(fù)雜信息的融合),本文寫寫多模態(tài)掃盲基礎(chǔ)和最近大家精巧的一些圖像文本融合的模型設(shè)計(jì),主要是在VQA(視覺問答)領(lǐng)域,也有一個(gè)多模態(tài)QA,因?yàn)樵谕扑]領(lǐng)域,你也看到了,即使NLP的貢獻(xiàn)為零,用戶特征足夠,效果也能做到很好了。 表示(Multimodal Representation)的意思,比如shift旋轉(zhuǎn)尺寸不變形,圖像中研究出的一種表示
試聽語音識(shí)別,多媒體內(nèi)容檢索,視頻理解,視頻總結(jié),事件監(jiān)測,情感分析,視頻會(huì)議情感分析,媒體描述,視覺問答等,應(yīng)用其實(shí)很廣,只不過被現(xiàn)在的智能程度大大限制了,whatever, 我覺得視覺也語言的結(jié)合比純NLP,是離智能更近的一步。 VQA(Visual Question Answering) Joint embedding approaches,只是直接從源頭編碼的角度開始融合信息,這也很自然的聯(lián)想到最簡單粗暴的方式就是把文本和圖像的embedding直接拼接(ps:粗暴拼接這種方式很work),Billiner Fusion 最常用了,F(xiàn)usion屆的LR
Attention mechanisms,很多VQA的問題都在attention上做文章,attention本身也是一個(gè)提取信息的動(dòng)作,自從attention is all you need后,大家對attention的應(yīng)用可以說是花式了,本文后面專門介紹CVPR2019的幾篇
Compositional Models,這種方式解決問題的思路是分模塊而治之,各模塊分別處理不同的功能,然后通過模塊的組裝推理得出結(jié)果
比如在[1]中,上圖,問題是What color is his tie?先選擇出 attend 和classify 模塊,并且根據(jù)推理方式組裝模塊,最后得出結(jié)論 4.?Models using external knowledge base 利用外部知識(shí)庫來做VQA和很好理解,QA都喜歡用知識(shí)庫,這種知識(shí)儲(chǔ)備一勞永逸,例如,為了回答“圖上有多少只哺乳動(dòng)物”這樣的問題,模型必須得知道“哺乳動(dòng)物”的定義,而你想從圖像上去學(xué)習(xí)到哺乳動(dòng)物是有難度的,因此把知識(shí)庫接進(jìn)來檢索是種解決方式,例如在[2]
四. 多模態(tài)中CV和NLP融合的幾種方式 1. Bilinear Fusion 雙線性融合 and Joint embedding Bilinear Fusion 雙線性融合是最常見的一種融合方式了,很多論文用這種方式做基礎(chǔ)結(jié)構(gòu),在CVPR2019一遍VQA多模態(tài)推理[3]中,提出的CELL就是基于這個(gè),作者做關(guān)系推理,不僅對問題與圖片區(qū)域的交互關(guān)系建模,也對圖片區(qū)域間的聯(lián)系建模。并且推導(dǎo)過程是逐步逼近的過程。 作者提出的MuRel,Bilinear Fusion 將每個(gè)圖像區(qū)域特征都分別與問題文本特征融合得到多模態(tài)embedding(Joint embedding ),后者對這些embedding進(jìn)行成對的關(guān)系建模。 第一部分 雙線性融合,所謂雙線性簡單來講就是函數(shù)對于兩個(gè)變量都是線性的,參數(shù)(表達(dá)兩種信息關(guān)聯(lián))是個(gè)多為矩陣,作者采用的MUTAN模型里面的Tucker decomposition方法, 將線性關(guān)系的參數(shù)分解大大減小參數(shù)量 第二部分 Pairwise relation學(xué)習(xí)的是經(jīng)過融合后節(jié)點(diǎn)之間的兩兩關(guān)系(主要是圖像的關(guān)系),然后和原始text 信息有效(粗暴)拼接 最后 如下圖放在網(wǎng)絡(luò),進(jìn)行迭代推理。實(shí)驗(yàn)結(jié)果顯示在跟位置推斷類的問題中,這種結(jié)構(gòu)表現(xiàn)比較好。 2. 花式動(dòng)態(tài)attention融合 這篇[4]作者更上篇一樣同時(shí)注意到了模態(tài)內(nèi)和模態(tài)間的關(guān)系,即作者說的intra-modality relation(模態(tài)內(nèi)部關(guān)系)和inter-modality relation(跨模態(tài)關(guān)系),但是作者更機(jī)智(個(gè)人觀點(diǎn))的用了attention來做各種fusion。 作者認(rèn)為intra-modality relation是對inter-modality relation的補(bǔ)充:圖像區(qū)域不應(yīng)該僅獲得來自問題文本的信息,而且需要與其他圖像區(qū)域產(chǎn)生關(guān)聯(lián)。 模型結(jié)構(gòu)是首先各自分別對圖像和文本提取特征,然后通過通過模態(tài)內(nèi)部的attention建模和模態(tài)間的attention建模,這個(gè)模塊堆疊多次,最后拼接后進(jìn)行分類。模態(tài)間的attention是相互的(文本對圖像,圖像對文本),attention就是采用transform中的attention. 進(jìn)行模態(tài)內(nèi)關(guān)系建模的模塊是Dynamic Intra-modality Attention Flow (DyIntraMAF), 文中最大的亮點(diǎn)是進(jìn)行了 條件attention,即圖像之間的attention信心建立不應(yīng)該只根據(jù)圖像,也要根據(jù)不同的具體問題而產(chǎn)生不同的關(guān)聯(lián)。 這種條件attention的condition設(shè)計(jì)有點(diǎn)類似lstm的門機(jī)制,通過加入gating機(jī)制來控制信息,下圖中圖像的self attention 就是經(jīng)過了text的門機(jī)制來過濾信息。最后作者做了很多ablation studies,達(dá)到了SOTA效果。 另外有一篇[5]個(gè)多模態(tài)的QA,這篇文章fusion 挺普通的multimodal fusion 也是普通的 billinear, 但是這個(gè)應(yīng)用場景非常非常實(shí)用,我們通常用語言描述的說不清楚的時(shí)候,會(huì)有一圖勝千言語感覺,而多模態(tài)就是從這個(gè)點(diǎn)出發(fā),發(fā)一張圖,like this, like that... 文中就是用這個(gè)做商業(yè)客服的QA 模型比較常規(guī),encoder端,先CNN提取了圖片特征,然后根據(jù)商品屬性建一個(gè)屬性分類樹,文本常規(guī)處理,最后通過MFB融合 Decoder 時(shí),文本RNNdecode, 但是圖像居然是用求cos相似,就電商那種產(chǎn)品數(shù)據(jù)的量級,除非在業(yè)務(wù)上做很多前置工作,這種計(jì)算量就不現(xiàn)實(shí)
這篇屬于擴(kuò)展NLP的廣度,寫的不深,選的論文和很隨便(因?yàn)槲也缓芰私猓鳛橐粋€(gè)NLPer, 寬度上來說我覺得這也是一個(gè)方向.
作者:三和廠妹
三和,一個(gè)城市邊緣貧瘠人群的棲息地。廠妹,在社會(huì)勞動(dòng)中尋找價(jià)值的初心青年。目前在平安科技AI研究院做算法,主要感興趣方向包括對話系統(tǒng),知識(shí)圖譜,文本搜索,推薦系統(tǒng)。三和什么都沒有,廠妹也無知,所以每一個(gè)任務(wù)都是全新的開始。
知乎ID:三和廠妹
參考 Neural Module Networks
Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources
MUREL: Multimodal Relational Reasoning for Visual Question Answering
Dynamic Fusion with Intra- and Inter- Modality Attention Flow for Visual Question Answering
User Atention-guided Multimodal Dialog Systems
入門還不錯(cuò)的課程
新年 新開始
長按加群,一起玩耍學(xué)習(xí)