<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          論文淺嘗 | 基于多模態(tài)知識(shí)圖的多模態(tài)推理(ACL2024)

          共 2546字,需瀏覽 6分鐘

           ·

          2024-10-16 07:00

          筆記整理:李冰慧,天津大學(xué)碩士,研究方向?yàn)榇笳Z言模型

          論文鏈接:https://aclanthology.org/2024.acl-long.579/

          發(fā)表會(huì)議:ACL2024

          1. 動(dòng)機(jī)

          使用大型語言模型(LLMs)的多模態(tài)推理經(jīng)常會(huì)出現(xiàn)幻覺,并且在LLMs中存在缺乏或過時(shí)的知識(shí)。一些方法試圖通過使用文本知識(shí)圖來緩解這些問題,但它們的單一知識(shí)模態(tài)限制了全面的跨模態(tài)理解。
          本文提出了基于多模態(tài)知識(shí)圖的多模態(tài)推理(MR-MKG)方法,該方法利用多模態(tài)知識(shí)圖(MMKGs)跨模式學(xué)習(xí)豐富的語義知識(shí),顯著提高了LLMs的多模態(tài)推理能力。特別地,利用關(guān)系圖注意網(wǎng)絡(luò)對(duì)MMKGs進(jìn)行編碼,并設(shè)計(jì)了一個(gè)跨模態(tài)對(duì)齊模塊來優(yōu)化圖像-文本對(duì)齊。構(gòu)建了一個(gè)MMKGgrait數(shù)據(jù)集,通過預(yù)訓(xùn)練使llm具備多模態(tài)推理的初步專業(yè)知識(shí)。

          2. 貢獻(xiàn)

          (1)本文是第一個(gè)通過利用MMKGs衍生的知識(shí)來擴(kuò)展LLMs的多模態(tài)推理能力的文章。
          (2)提出了MR-MKG方法,專門設(shè)計(jì)用于從MMKGs中提取有價(jià)值的知識(shí),并將多模態(tài)信息無縫集成到LLMs中。此外,本文還開發(fā)了一個(gè)基于MMKG的數(shù)據(jù)集,用于初始增強(qiáng)多模態(tài)推理。
          (3)本文在兩個(gè)多模態(tài)推理任務(wù)上廣泛地評(píng)估了MR-MKGMR-MKG取得了最先進(jìn)的性能,超過了最近的基線方法。

          3. 方法

          3.1 方法概述

          本文的方法的主要目標(biāo)是有效地利用視覺編碼器的能力和來自MMKGs的多模態(tài)知識(shí)來增強(qiáng)LLMs的多模態(tài)推理能力。下圖描述了一個(gè)可視化的工作流。

          文本、多模態(tài)知識(shí)圖和圖像分別使用語言編碼器、KG編碼器和視覺編碼器進(jìn)行獨(dú)立嵌入。視覺和知識(shí)適配器的設(shè)計(jì)目的是為了將視覺和KG編碼器的嵌入空間與LLM的文本嵌入空間對(duì)齊。跨模態(tài)對(duì)齊模塊專門設(shè)計(jì)用于利用MMKGs中的匹配任務(wù)來改進(jìn)圖像-文本對(duì)齊。

          3.2 MR-MKG架構(gòu)

          MR-MKG由五個(gè)組件組成:語言編碼器、視覺編碼器、KG編碼器、知識(shí)適配器和跨模態(tài)對(duì)齊模塊。
          ·語言編碼器。本文采用了LLaMAT5等現(xiàn)成的LLMs中的嵌入層作為語言編碼器,它在訓(xùn)練和推理階段都保持固定。形式上,文本由語言編碼器處理,形成文本嵌入。
          ·視覺編碼器。對(duì)于輸入圖像,本文使用了一個(gè)預(yù)先訓(xùn)練過的視覺編碼器,,它將圖像轉(zhuǎn)換到視覺特征中。為了保證視覺空間和語言空間的兼容性,使用線性層實(shí)現(xiàn)的視覺適配器將視覺特征轉(zhuǎn)換為視覺語言嵌入,與LLMs的單詞嵌入向量共享相同的維數(shù)。隨后,利用單頭注意網(wǎng)絡(luò),通過以下功能獲得與文本嵌入相關(guān)聯(lián)的最終視覺特征

          ·KG編碼器。給定文本或圖像,MR-MKG首先通過從MMKGs中檢索一個(gè)子圖G來識(shí)別相關(guān)知識(shí),該子圖包含前n個(gè)最相關(guān)的三元組。本文使用關(guān)系圖注意網(wǎng)絡(luò)(RGAT),通過考慮G的復(fù)雜結(jié)構(gòu)來嵌入知識(shí)節(jié)點(diǎn)。具體來說,首先使用CLIP來初始化節(jié)點(diǎn)和關(guān)系嵌入。接下來,使用RGAT網(wǎng)絡(luò)對(duì)G進(jìn)行編碼,生成知識(shí)節(jié)點(diǎn)嵌入。流程如下:

          ·知識(shí)適配器。為了使LLMs能夠理解多模態(tài)知識(shí)節(jié)點(diǎn)嵌入,本文引入了一種知識(shí)適配器,它可以將知識(shí)節(jié)點(diǎn)嵌入轉(zhuǎn)換為LLM可以理解的文本嵌入。這種知識(shí)適配器旨在彌合多模態(tài)知識(shí)和文本之間的內(nèi)在差距,促進(jìn)更無縫的對(duì)齊。
          ·交叉模態(tài)對(duì)齊。該模塊包括從G中隨機(jī)選擇一組圖像實(shí)體,并促使模型將它們與相應(yīng)的文本實(shí)體精確匹配。本文使用三重態(tài)損失進(jìn)行對(duì)齊。當(dāng)一個(gè)圖像實(shí)體的嵌入作為一個(gè)錨點(diǎn)時(shí),它對(duì)應(yīng)的文本實(shí)體的嵌入作為一個(gè)正樣本。同時(shí),其他文本實(shí)體嵌入作為負(fù)樣本。對(duì)齊的目標(biāo)是最小化正樣本與錨定樣本之間的距離,同時(shí)最大化負(fù)樣本與錨定樣本之間的距離。對(duì)準(zhǔn)損失的定義如下

          4. 實(shí)驗(yàn)

          4.1 評(píng)估數(shù)據(jù)集

          ·ScienceQA該數(shù)據(jù)集是一個(gè)大規(guī)模的多模態(tài)科學(xué)問題回答數(shù)據(jù)集,每個(gè)多項(xiàng)選擇題都伴隨著一個(gè)文本或視覺上下文。這個(gè)數(shù)據(jù)集不是純粹的多模態(tài)數(shù)據(jù),只有48.7%的數(shù)據(jù)包含圖像。
          ·MARS是一個(gè)新的數(shù)據(jù)集,設(shè)計(jì)用于評(píng)估多模態(tài)知識(shí)圖MarKG上的多模態(tài)類比推理。

          4.2 多模態(tài)知識(shí)圖

          ·MMKG該數(shù)據(jù)集分別從 FreeBaseDBpediaYAGO中提取。每個(gè)實(shí)體都與來自谷歌的大約36張相應(yīng)的圖像相關(guān)聯(lián)。
          ·MarKG是從EKARBATs中的種子實(shí)體和關(guān)系開發(fā)的多模態(tài)知識(shí)圖譜數(shù)據(jù)集。它旨在支持MARS進(jìn)行多模態(tài)類比推理,與MARS共享相同的實(shí)體和關(guān)系。

          4.3 實(shí)驗(yàn)結(jié)果

          MR-MKG方法在平均精度方面優(yōu)于所有基線方法。表的第二部分顯示了zero-shotfew-shot方法,即使應(yīng)用于GPT這樣流行的LLM,仍然不能達(dá)到人類水平的性能。盡管LLaVASOC類別中表現(xiàn)最好,但MR-MKG在所有其他類別中都超過了LLaVA,平均準(zhǔn)確率提高了+1.86%。

          5. 總結(jié)

          本文解決了通過使用多模態(tài)知識(shí)圖來增強(qiáng)LLMs的多模態(tài)推理能力的挑戰(zhàn)。我們提出的方法被稱為MR-MKG,旨在通過利用MMKGs中包含的豐富知識(shí)(圖像、文本和知識(shí)三聯(lián)體),使LLMs具有先進(jìn)的多模態(tài)推理技能。對(duì)多模態(tài)問題回答和多模態(tài)類比推理任務(wù)的綜合實(shí)驗(yàn)證明了MR-MKG方法的有效性,在這些任務(wù)中實(shí)現(xiàn)了新的最先進(jìn)的結(jié)果



           

          OpenKG


          OpenKG(中文開放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。

          點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。

          瀏覽 174
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  免费看一级黄色大片 | 国产抠逼视频 | 久久午夜福利电影 | 国产乱伦免费视频 | 美国十次亚洲综合嫩91av |