復(fù)旦大學(xué):多模態(tài)知識圖譜最新綜述

本文約2500字,建議閱讀5分鐘
本文梳理了一篇knowledge-based方向的文章,結(jié)合了多模態(tài)知識的多模態(tài)知識圖譜。

Title:Multi-Modal Knowledge Graph Construction and Application: A Survey Link:https://arxiv.org/abs/2202.05786v1
知識圖譜到多模態(tài)知識圖譜
對抽象概念的理解。一個符號“dog”應(yīng)該根植于物理世界,將其和真的狗之間建立聯(lián)系對理解這些抽象概念是有效的。作者同時也舉例了“Hand-in-waistcoat”等詞匯。 對特定任務(wù)的幫助。在關(guān)系提取任務(wù)中,額外的圖像會以在視覺上幫助區(qū)分屬性和關(guān)系,如partOf (鍵盤和屏幕是筆記本電腦的一部分),colorOf(香蕉通常是黃色或黃綠色,而無藍(lán)色的)。在文本生成任務(wù)中,可以幫助生成一個信息更豐富的實體級句子(例如特朗普正在發(fā)表演講),而不是一個模糊的概念級描述(例如一個金發(fā)高個子男人正在發(fā)表演講)。
構(gòu)建(Construction)。MMKG的構(gòu)建主要有兩種:一種是從圖像到符號(from images to symbols),即用KG表示符號來標(biāo)注圖像;另一種是從符號到圖像( from symbols to images),即把KG中的符號對應(yīng)到圖像。 應(yīng)用(Application)。MMKG的應(yīng)用也可以大致分為兩類,一類是In-MMKG應(yīng)用,目的是解決MMKG本身的質(zhì)量或集成問題;另一類是 Out-of-MMKG應(yīng)用,作者指的是如果將MMKG應(yīng)用到一般的多模態(tài)任務(wù)中。
多模態(tài)知識圖譜的好處
MMKG提供了足夠的背景知識來豐富實體和概念的表示,特別是對于長尾問題,引入輔助的常識知識可以增強圖像和文本的表示能力。 MMKG能夠理解圖像中不可見的物體。這主要是利用符號知識提供的在視覺上看不見物體的符號信息,或在看不見物體和看不見物體之間建立語義關(guān)系。 MMKG支持多模態(tài)推理。在外部知識資源的幫助下,VQA任務(wù)的推理能力可以得到提升。 MMKG通常提供多模態(tài)數(shù)據(jù)作為附加特性來彌補一些NLP任務(wù)中的信息差距。以實體識別為例,一個圖像可以提供足夠的信息來識別“Rocky”是一只狗的名字還是一個人的名字。
多模態(tài)知識圖譜構(gòu)建


從圖像到符號:標(biāo)注圖像(labeling images)
視覺實體/概念提取的目的是檢測和定位圖像中的目標(biāo)視覺對象,然后用KG中的實體/概念符號標(biāo)記這些對象,目標(biāo)檢測和視覺定位使用較多; 視覺關(guān)系提取的目的是識別圖像中檢測到的視覺實體/概念之間的語義關(guān)系,然后用KG中的關(guān)系對其進(jìn)行標(biāo)記,其中基于規(guī)則、統(tǒng)計或者更細(xì)粒度的方法較多; 事件提取任務(wù)的目的是預(yù)測事件類型。
從符號到圖像:符號定位( symbol grounding)
對于找實體圖像來說,基于百科或搜索是常見的方式 對于概念來說,該概念是否可以被可視化,和如何從大量圖片中選擇有代表性、多樣性的圖片是重要話題; 對于關(guān)系定位來說,圖文匹配或圖匹配會是比較好的選擇。

多模態(tài)知識圖譜應(yīng)用
Multi-modal Entity Recognition and Linking。圖像可以為實體識別提供必要的互補信息。主要通過兩種方式利用MMKG中的圖像知識:1)提供實體應(yīng)該鏈接的目標(biāo)實體;2)學(xué)習(xí)每個多模態(tài)數(shù)據(jù)的分布式表示,然后用它來度量相關(guān)性。 Visual Question Answering。MMKG可以提供關(guān)于問題實體及其在圖像中的關(guān)系的知識,從而帶來更深層次的視覺內(nèi)容理解,同時MMKG中的結(jié)構(gòu)化符號知識都可以為進(jìn)行推理過程和預(yù)測最終答案的一種更明確的方式。 Image-Text Matching。MMKG可以利用多模態(tài)實體之間的關(guān)系來擴展更多的視覺和語義概念。此外MMKG還可以幫助構(gòu)建場景圖,引入視覺概念之間的信息相關(guān)知識,進(jìn)一步增強圖像表示。 Multi-modal Generation Tasks。包括 image tagging, image captioning, visual storytelling都算,MMKG中的概念知識可以極大地提高圖像的表示能力,在解決歧義、看不見的物體、詞匯量等方面都表現(xiàn)強大。 Multi-modal Recommender System。利用外部MMKG來獲得具有豐富語義的item表示,甚至個性化的表示都完全可以,這一點在KG in Recommendation就很有效,擴展到多模態(tài)形式或許能進(jìn)一步增強效果。
多模態(tài)知識圖譜開放問題
復(fù)雜符號知識定位(Grounding Complex Symbolic Knowledge Grounding)。即除了實體、概念和關(guān)系的基礎(chǔ)之外,一些下游應(yīng)用還需要復(fù)雜的符號知識的基礎(chǔ),如KG中的一條路徑、一個子圖等涉及到多重關(guān)系。且在許多情況下,多重關(guān)系的復(fù)合語義是隱式表達(dá)的且可能隨著時間而改變。 質(zhì)量控制(Quality Control)。大規(guī)模的MMKG可能存在錯誤、缺少事實或過時的事實,因此精度、完整性、一致性和新鮮度,圖像質(zhì)量等可能都需要被討論。 效率(Efficiency)。MMKG的構(gòu)造效率問題較大,如NEIL需要大約350K CPU hours來為2273個對象收集400K的可視化實例,而在一個典型的KG中,這個數(shù)量會變成數(shù)十億個實例。而如果繼續(xù)擴展到視頻數(shù)據(jù),這個擴展性問題會繼續(xù)被放大。除了MMKG的構(gòu)建,MMKG的在線應(yīng)用的要求也會更高。
評論
圖片
表情
