<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【多模態(tài)】詳解:多模態(tài)知識(shí)圖譜種類(lèi)及其應(yīng)用

          共 7395字,需瀏覽 15分鐘

           ·

          2021-03-31 20:30

          點(diǎn)擊上方“程序員大白”,選擇“星標(biāo)”公眾號(hào)

          重磅干貨,第一時(shí)間送達(dá)

          僅作學(xué)術(shù)分享,不代表本公眾號(hào)立場(chǎng),侵權(quán)聯(lián)系刪除
          作者丨漆桂林@知乎
          來(lái)源丨h(huán)ttps://zhuanlan.zhihu.com/p/163278672
          編輯丨極市平臺(tái)

          知識(shí)圖譜技術(shù)已經(jīng)被廣泛用于處理結(jié)構(gòu)化數(shù)據(jù)(采用本體+D2R技術(shù))和文本數(shù)據(jù)(采用文本信息抽取技術(shù)),但是還有一類(lèi)非結(jié)構(gòu)化數(shù)據(jù),即視覺(jué)數(shù)據(jù),則相對(duì)關(guān)注度較低,而且相缺乏有效的技術(shù)手段來(lái)從這些數(shù)據(jù)中提取結(jié)構(gòu)化知識(shí)。最近幾年,雖然有一些多模態(tài)視覺(jué)技術(shù)提出,這些技術(shù)主要還是為了提升圖像分類(lèi)、圖像生成、圖像問(wèn)答的效果,不能很好地支撐多模態(tài)知識(shí)圖譜的構(gòu)建。視覺(jué)數(shù)據(jù)庫(kù)通常是圖像或視頻數(shù)據(jù)的豐富來(lái)源,并提供關(guān)于知識(shí)圖譜中實(shí)體的充分視覺(jué)信息。顯然,如果可以在在更大范圍內(nèi)進(jìn)行鏈接預(yù)測(cè)和實(shí)體對(duì)齊,進(jìn)而進(jìn)行實(shí)體關(guān)系抽取,可以使現(xiàn)有的模型在綜合考慮文本和視覺(jué)特征時(shí)獲得更好的性能,這也是我們研究多模態(tài)知識(shí)圖譜(multi-modal knowledge graph)的意義所在。

          目前,已經(jīng)有很多開(kāi)放知識(shí)圖譜(見(jiàn)https://lod-cloud.net/http://www.openkg.cn/),而且不少企業(yè)也有自己的企業(yè)知識(shí)圖譜。然而,這些知識(shí)圖譜很少有可視化的數(shù)據(jù)資源。圖1所示為多模態(tài)知識(shí)圖譜的發(fā)展過(guò)程。

          圖1.多模態(tài)知識(shí)圖譜的發(fā)展過(guò)程

          多模態(tài)知識(shí)圖譜與傳統(tǒng)知識(shí)圖譜的主要區(qū)別是,傳統(tǒng)知識(shí)圖譜主要集中研究文本和數(shù)據(jù)庫(kù)的實(shí)體和關(guān)系,而多模態(tài)知識(shí)圖譜則在傳統(tǒng)知識(shí)圖譜的基礎(chǔ)上,構(gòu)建了多種模態(tài)(例如視覺(jué)模態(tài))下的實(shí)體,以及多種模態(tài)實(shí)體間的多模態(tài)語(yǔ)義關(guān)系。例如在最新的一個(gè)多模態(tài)百科圖譜Richpedia中(如下圖2所示)[5],首先構(gòu)建了圖像模態(tài)倫敦眼圖像與文本模態(tài)知識(shí)圖譜實(shí)體(DBpedia實(shí)體:London eye)之間的多模態(tài)語(yǔ)義關(guān)系(rpo:imageof),之后還構(gòu)建了圖像模態(tài)實(shí)體倫敦眼與圖像模態(tài)實(shí)體大本鐘之間的多模態(tài)語(yǔ)義關(guān)系(rpo:nextTo)。

          圖2.Richpedia中的多模態(tài)實(shí)體與多模態(tài)語(yǔ)義關(guān)系

          一、多模態(tài)知識(shí)圖譜相關(guān)工作

          隨著人工智能技術(shù)的不斷發(fā)展,知識(shí)圖譜作為人工智能領(lǐng)域的知識(shí)支柱,以其強(qiáng)大的知識(shí)表示和推理能力受到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。近年來(lái),知識(shí)圖譜在語(yǔ)義搜索、問(wèn)答、知識(shí)管理等領(lǐng)域得到了廣泛的應(yīng)用。其中在描述多媒體的可用數(shù)據(jù)集中,現(xiàn)有的工作重點(diǎn)是捕獲多媒體文件的高級(jí)元數(shù)據(jù)(如作者、創(chuàng)建日期、文件大小、清晰度、持續(xù)時(shí)間),而不是多媒體內(nèi)容本身的音頻或視覺(jué)特性。以下會(huì)介紹幾個(gè)重要的開(kāi)源多模態(tài)知識(shí)圖譜:

          1.DBpedia[1]

          DBpedia作為近十年來(lái)語(yǔ)義網(wǎng)研究的中心領(lǐng)域,其豐富的語(yǔ)義信息也將會(huì)成為今后多模態(tài)知識(shí)圖譜的鏈接端點(diǎn),其完整的本體結(jié)構(gòu)對(duì)于構(gòu)建多模態(tài)知識(shí)圖譜提供了很大的便利。DBpedia項(xiàng)目是一個(gè)社區(qū)項(xiàng)目,旨在從維基百科中提取結(jié)構(gòu)化信息,并使其可在網(wǎng)絡(luò)上訪問(wèn)。DBpedia知識(shí)庫(kù)目前描述了超過(guò)260萬(wàn)個(gè)實(shí)體。對(duì)于每個(gè)實(shí)體,DBpedia定義了一個(gè)唯一的全局標(biāo)識(shí)符,可以將其解引用為網(wǎng)絡(luò)上一個(gè)RDF描述的實(shí)體。DBpedia提供了30種人類(lèi)可讀的語(yǔ)言版本,與其他資源形成關(guān)系。在過(guò)去的幾年里,越來(lái)越多的數(shù)據(jù)發(fā)布者開(kāi)始建立數(shù)據(jù)集鏈接到DBpedia資源,使DBpedia成為一個(gè)新的數(shù)據(jù)web互聯(lián)中心。目前,圍繞DBpedia的互聯(lián)網(wǎng)數(shù)據(jù)源網(wǎng)絡(luò)提供了約47億條信息,涵蓋地理信息、人、公司、電影、音樂(lè)、基因、藥物、圖書(shū)、科技出版社等領(lǐng)域。

          2.Wikidata[2]

          Wikidata中也存在大量的多模態(tài)資源,Wikidata是維基媒體基金會(huì)(WMF)聯(lián)合策劃的一個(gè)知識(shí)圖譜,是維基媒體數(shù)據(jù)管理策略的核心項(xiàng)目。充分利用Wikidata的資源,主要挑戰(zhàn)之一是提供可靠并且強(qiáng)大的數(shù)據(jù)共享查詢服務(wù),維基媒體基金會(huì)選擇使用語(yǔ)義技術(shù)。活動(dòng)的SPARQL端點(diǎn)、常規(guī)的RDF轉(zhuǎn)儲(chǔ)和鏈接的數(shù)據(jù)api是目前Wikidata的核心技術(shù),Wikidata的目標(biāo)是通過(guò)創(chuàng)造維基百科全球管理數(shù)據(jù)的新方法來(lái)克服數(shù)據(jù)不一致性。Wikidata的主要成就包括:Wikidata提供了一個(gè)可由所有人共享的免費(fèi)協(xié)作知識(shí)庫(kù);Wikidata已經(jīng)成為維基媒體最活躍的項(xiàng)目之一;越來(lái)越多的網(wǎng)站在瀏覽頁(yè)面時(shí)都從Wikidata獲取內(nèi)容,以增加大數(shù)據(jù)的可見(jiàn)性和實(shí)用性。

          3.IMGpedia[3]

          IMGpedia是一個(gè)大型的鏈接數(shù)據(jù)集,它從Wikimedia Commons數(shù)據(jù)集中的圖像中收集大量的可視化信息。它構(gòu)建并生成了1500萬(wàn)個(gè)視覺(jué)內(nèi)容描述符,圖像之間有4.5億個(gè)視覺(jué)相似關(guān)系,此外,在IMGpedia中單個(gè)圖像與DBpedia之間還有鏈接。IMGpedia旨在從維基百科發(fā)布的圖片中提取相關(guān)的視覺(jué)信息,從Wikimedia中收集所有術(shù)語(yǔ)和所有多模態(tài)數(shù)據(jù)(包括作者、日期、大小等)的圖像,并為每張圖像生成相應(yīng)的圖像描述符。鏈接數(shù)據(jù)很少考慮多模態(tài)數(shù)據(jù),但多模態(tài)數(shù)據(jù)也是語(yǔ)義網(wǎng)絡(luò)的重要組成部分。為了探索鏈接數(shù)據(jù)和多模態(tài)數(shù)據(jù)的結(jié)合,構(gòu)建了IMGpedia,計(jì)算Wikipedia條目中使用的圖像描述符,然后將這些圖像及其描述與百科知識(shí)圖譜鏈接起來(lái)。

          IMGpedia是一個(gè)多模態(tài)知識(shí)圖譜的先例。將語(yǔ)義知識(shí)圖譜與多模態(tài)數(shù)據(jù)相結(jié)合,面對(duì)多種任務(wù)下的挑戰(zhàn)和機(jī)遇。IMGpedia使用四種圖像描述符進(jìn)行基準(zhǔn)測(cè)試,這些描述符的引用和實(shí)現(xiàn)是公開(kāi)的。IMGpedia提供了Wikidata的鏈接。由于DBpedia中的分類(lèi)對(duì)一些可視化語(yǔ)義查詢不方便,所以IMGpedia旨在提供一個(gè)更好的語(yǔ)義查詢平臺(tái)。IMGpedia在多模態(tài)方向上是一個(gè)很好的先例,但也存在一些問(wèn)題,比如關(guān)系類(lèi)型稀疏,關(guān)系數(shù)量少,圖像分類(lèi)不清晰等,也是之后需要集中解決的問(wèn)題。

          4.MMKG[4]

          MMKG主要用于聯(lián)合不同知識(shí)圖譜中的不同實(shí)體和圖像執(zhí)行關(guān)系推理,MMKG是一個(gè)包含所有實(shí)體的數(shù)字特征和(鏈接到)圖像的三個(gè)知識(shí)圖譜的集合,以及對(duì)知識(shí)圖譜之間的實(shí)體對(duì)齊。因此,多關(guān)系鏈接預(yù)測(cè)和實(shí)體匹配社區(qū)可以從該資源中受益。MMKG有潛力促進(jìn)知識(shí)圖譜的新型多模態(tài)學(xué)習(xí)方法的發(fā)展,作者通過(guò)大量的實(shí)驗(yàn)驗(yàn)證了MMKG在同一鏈路預(yù)測(cè)任務(wù)中的有效性。

          MMKG選擇在知識(shí)圖譜補(bǔ)全文獻(xiàn)中廣泛使用的數(shù)據(jù)集FREEBASE-15K (FB15K)作為創(chuàng)建多模態(tài)知識(shí)圖譜的起點(diǎn)。知識(shí)圖譜三元組是基于N-Triples格式的,這是一種用于編碼RDF圖的基于行的純文本格式。MMKG同時(shí)也創(chuàng)建了基于DBpedia和YAGO的版本,稱為DBpedia-15K(DB15K)和YAGO15K,通過(guò)將FB15K中的實(shí)體與其他知識(shí)圖譜中的實(shí)體對(duì)齊。其中對(duì)于基于DBpedia的版本,主要構(gòu)建了sameAs關(guān)系,為了創(chuàng)建DB15K,提取了FB15K和DBpedia實(shí)體之間的對(duì)齊,通過(guò)sameAs關(guān)系鏈接FB15K和DBpedia中的對(duì)齊實(shí)體;構(gòu)建關(guān)系圖譜,來(lái)自FB15K的很大比例的實(shí)體可以與DBpedia中的實(shí)體對(duì)齊。但是,為了使這兩個(gè)知識(shí)圖譜擁有大致相同數(shù)量的實(shí)體,并且擁有不能跨知識(shí)圖譜對(duì)齊的實(shí)體,在DB15K中包括了額外的實(shí)體;構(gòu)建圖像關(guān)系,MMKG從三大搜索引擎中獲取相應(yīng)文本實(shí)體的圖像實(shí)體,生成對(duì)應(yīng)的文本-圖像關(guān)系。但是,它是專(zhuān)門(mén)為文本知識(shí)圖譜的完成而構(gòu)建的,主要針對(duì)小數(shù)據(jù)集(FB15K, DBPEDIA15K, YAGO15K)。MMKG在將圖像分發(fā)給相關(guān)文本實(shí)體時(shí)也沒(méi)有考慮圖像的多樣性。

          二、基于百科多模態(tài)知識(shí)圖譜Richpedia

          雖說(shuō)之前的一些工作如IMGpedia和MMKG融合了多模態(tài)的知識(shí),構(gòu)建了多模態(tài)知識(shí)圖譜,但其中也存在一些問(wèn)題,例如在IMGpedia中關(guān)系類(lèi)型稀疏,關(guān)系數(shù)量少,圖像分類(lèi)不清晰等,在MMKG中圖像并沒(méi)有作為單獨(dú)的圖像實(shí)體存在,而是依賴于相應(yīng)的傳統(tǒng)文本實(shí)體。這些問(wèn)題對(duì)于多模態(tài)任務(wù)的發(fā)展有著較大制約,東南大學(xué)認(rèn)知智能研究所基于解決如上存在的問(wèn)題的動(dòng)機(jī),提出了多模態(tài)知識(shí)圖譜Richpedia[5]。

          Richpedia多模態(tài)知識(shí)圖譜的定義如下:實(shí)體集合E包括文本知識(shí)圖譜實(shí)體EKG和圖像實(shí)體EIM,R表示一系列關(guān)系的集合,其中E和R利用統(tǒng)一資源標(biāo)識(shí)符(IRIs)表示。L是文字的集合(例如:“倫敦”,“750px”),B表示為一系列的空白節(jié)點(diǎn)。Richpedia三元組t表示格式為<subject, predicate, object>,是(E∪B)×R×(E∪L∪B),Richpedia多模態(tài)知識(shí)圖譜是Richpedia三元組的集合。

          在構(gòu)建多模態(tài)知識(shí)圖譜中,總體模型如圖3所示。接下來(lái)我們會(huì)逐步介紹構(gòu)建Richpedia的流程。

          圖3.構(gòu)建Richpedia總體流程

          與一般的文本知識(shí)圖譜不同,Richpedia的出發(fā)點(diǎn)是構(gòu)造一個(gè)多模態(tài)知識(shí)圖譜,其中包含了全面的圖像實(shí)體及其之間的關(guān)系。但是,如圖4所示,文本知識(shí)圖譜實(shí)體的圖像資源有很大一部分是長(zhǎng)尾分布。換句話說(shuō),平均每一個(gè)文本知識(shí)圖譜實(shí)體在Wikipedia中只有很少的視覺(jué)信息。因此,我們考慮借助外部來(lái)源來(lái)填充Richpedia,首先我們基于現(xiàn)有的傳統(tǒng)文本實(shí)體,從維基百科,谷歌,必應(yīng)和雅虎四大圖像搜索引擎中獲取相應(yīng)的圖像實(shí)體,每一個(gè)圖像作為知識(shí)圖譜中的一個(gè)實(shí)體存儲(chǔ)于Richpedia中。Wikidata已經(jīng)為每個(gè)文本知識(shí)圖譜實(shí)體定義了唯一的統(tǒng)一資源標(biāo)識(shí)符,我們將這些統(tǒng)一資源標(biāo)識(shí)符添加到Richpedia作為文本知識(shí)圖譜實(shí)體。在目前的版本中,我們主要收集了30,638個(gè)關(guān)于城市、景點(diǎn)和名人的實(shí)體。對(duì)于圖像實(shí)體,我們可以直觀地從Wikipedia上收集圖像,然后在Richpedia中創(chuàng)建相應(yīng)的統(tǒng)一資源標(biāo)識(shí)符。

          圖4.Wikipedia中的圖像分布比例

          在收集完圖像實(shí)體之后,我們需要對(duì)圖像實(shí)體進(jìn)行預(yù)處理和篩選。因?yàn)槲覀兊臄?shù)據(jù)來(lái)自于開(kāi)放資源,它們會(huì)被搜索引擎基于與查詢字段的相關(guān)性評(píng)分進(jìn)行排名。從多模態(tài)知識(shí)圖譜的角度而言,文本知識(shí)圖譜實(shí)體所包含的圖像實(shí)體不僅要相關(guān)性高而且還要具有多樣性,如圖5所示,對(duì)于中間的圖像實(shí)體,右側(cè)的圖像實(shí)體因?yàn)檩^高的相似性從而被系統(tǒng)過(guò)濾掉,保留左側(cè)相似性較低的圖像實(shí)體。因?yàn)閺乃阉饕嬷蝎@取的圖像實(shí)體難免存在重復(fù)問(wèn)題,接下來(lái)我們通過(guò)一系列的預(yù)處理操作,使得每個(gè)圖像實(shí)體都與相應(yīng)的傳統(tǒng)文本實(shí)體具有較高的相關(guān)度。其中預(yù)處理操作包括去噪操作和多樣性檢測(cè),去噪操作的目的是去除不相關(guān)的圖像實(shí)體,多樣性檢測(cè)的目的是使得圖像實(shí)體具有盡可能高的多樣性。

          圖5.Richpedia中圖像實(shí)體的多樣性

          因?yàn)楹茈y基于不同圖像的像素特征直接檢測(cè)出這些語(yǔ)義關(guān)系,所以我們利用基于規(guī)則的關(guān)系抽取模板,借助Wikipedia圖像描述中的超鏈接信息,生成圖像實(shí)體間的多模態(tài)語(yǔ)義關(guān)系。在圖6中,我們以rpo:contain和rpo:nearBy為例說(shuō)明如何發(fā)現(xiàn)協(xié)和廣場(chǎng),盧克索方尖碑和航運(yùn)噴泉圖像實(shí)體間的語(yǔ)義關(guān)系。如圖6所示,我們?cè)谥形木S基百科中協(xié)和廣場(chǎng)詞條中獲取到包含盧克索方尖碑和航運(yùn)噴泉的圖像實(shí)體,從語(yǔ)義視覺(jué)關(guān)系的角度上看,協(xié)和廣場(chǎng)包括了盧克索方尖碑和航運(yùn)噴泉,盧克索方尖碑就在航運(yùn)噴泉的旁邊。為了發(fā)現(xiàn)這些關(guān)系,我們收集這些圖像的文本描述,并提出三個(gè)有效的規(guī)則來(lái)提取多模態(tài)語(yǔ)義關(guān)系:

          規(guī)則1. 如果在描述中有一個(gè)超鏈接,其指向的對(duì)應(yīng)Wikipedia實(shí)體的概率很高。我們利用Stanford CoreNLP檢測(cè)描述中的關(guān)鍵字。然后,通過(guò)字符串映射算法發(fā)現(xiàn)預(yù)定義關(guān)系。例如,如果我們?cè)趦蓚€(gè)實(shí)體之間的文本描述中得到單詞‘left’,我們將得到‘nearBy’關(guān)系。

          規(guī)則2. 如果描述中有多個(gè)超鏈接,我們基于語(yǔ)法分析器和語(yǔ)法樹(shù)檢測(cè)核心知識(shí)圖譜實(shí)體(即描述的主體)。然后,我們以核心知識(shí)圖譜實(shí)體作為輸入,將這種情況簡(jiǎn)化為規(guī)則1。

          規(guī)則3. 如果在描述中沒(méi)有指向其他詞條的超鏈接,我們使用Stanford CoreNLP來(lái)查找描述中包含的Wikipedia知識(shí)圖譜實(shí)體,并將這種情況簡(jiǎn)化為規(guī)則1和規(guī)則2。因?yàn)橐?guī)則3依賴于NER結(jié)果,準(zhǔn)確率低于相應(yīng)的預(yù)標(biāo)注超鏈接信息,所以它的優(yōu)先級(jí)低于前兩個(gè)規(guī)則。

          圖6.Richpedia中多模態(tài)語(yǔ)義關(guān)系發(fā)現(xiàn)

          三、基于Richpedia的多模態(tài)知識(shí)服務(wù)網(wǎng)站

          Richpedia網(wǎng)站(http://rich.wangmengsd.com/)是為Richpedia多模態(tài)知識(shí)圖譜開(kāi)發(fā)的一個(gè)網(wǎng)站,其提供了對(duì)Richpedia數(shù)據(jù)庫(kù)的介紹,查詢,資源檢索,使用教程以及數(shù)據(jù)下載服務(wù)。其中包括:

          a) Homepage:主要對(duì)Richpedia數(shù)據(jù)庫(kù)進(jìn)行了概述。

          圖7.Homepage界面

          b) Download:提供了image文件和三元組關(guān)系N-Triples文件的下載鏈接。

          圖8.Download界面

          c) SPARQL:實(shí)現(xiàn)了對(duì)Richpedia數(shù)據(jù)庫(kù)中的實(shí)體和視覺(jué)關(guān)系的SPARQL查詢。

          圖9.SPARQL查詢界面

          d) Query:提供了對(duì)地名和人物的直接查詢相關(guān)圖片功能。

          圖10.查詢界面
          圖11.查詢結(jié)果

          e) Tutorial:提供了網(wǎng)站的使用教程。

          首先,我們可以在Richpedia中查詢實(shí)體信息,包括圖像實(shí)體實(shí)體和文本知識(shí)圖譜實(shí)體。第一步是選擇查詢的實(shí)體類(lèi)別,然后選擇要具體查詢的實(shí)體。例如,如果我們要查詢安卡拉城市實(shí)體的文本知識(shí)圖譜實(shí)體和圖像實(shí)體,可以在下拉選擇器中選擇對(duì)應(yīng)的安卡拉城市標(biāo)簽。之后出現(xiàn)的頁(yè)面中上半部分是安卡拉的文本知識(shí)圖譜實(shí)體,下半部分是安卡拉的圖像實(shí)體。

          其次,我們可以通過(guò)Richpedia的在線訪問(wèn)平臺(tái)查詢圖像實(shí)體之間的視覺(jué)語(yǔ)義關(guān)系。選擇查詢文本知識(shí)圖譜實(shí)體后,點(diǎn)擊對(duì)應(yīng)的圖像實(shí)體,可以查看圖像實(shí)體的視覺(jué)語(yǔ)義關(guān)系。例如,當(dāng)我們想查詢一個(gè)與北京動(dòng)物園圖像實(shí)體具有rpo:sameAs關(guān)系的圖像實(shí)體時(shí),我們可以點(diǎn)擊相應(yīng)的北京動(dòng)物園圖像實(shí)體,得到相應(yīng)的結(jié)果。

          圖12.Tutorial界面

          f) Ontology:提供了Ontology的相關(guān)信息。

          圖13.Ontology界面

          g) Resource:提供了對(duì)所有圖片資源的訪問(wèn)地址。

          h) Github鏈接以及頁(yè)面底端:提供了friendly link,聯(lián)系人郵箱,Github主頁(yè)以及分享協(xié)議。

          四、多模態(tài)知識(shí)圖譜應(yīng)用

          多模態(tài)知識(shí)圖譜的應(yīng)用場(chǎng)景十分廣泛,首先一個(gè)完備的多模態(tài)知識(shí)圖譜會(huì)極大地幫助現(xiàn)有自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)等領(lǐng)域的發(fā)展,同時(shí)對(duì)于跨領(lǐng)域的融合研究也會(huì)有極大的幫助,多模態(tài)結(jié)構(gòu)數(shù)據(jù)雖然在底層表征上是異構(gòu)的,但是相同實(shí)體的不同模態(tài)數(shù)據(jù)在高層語(yǔ)義上是統(tǒng)一的,所以多種模態(tài)數(shù)據(jù)的融合有利于推進(jìn)語(yǔ)言表示等模型的發(fā)展,對(duì)于在語(yǔ)義層級(jí)構(gòu)建多種模態(tài)下統(tǒng)一的語(yǔ)言表示模型提出數(shù)據(jù)支持。其次多模態(tài)知識(shí)圖譜技術(shù)可以服務(wù)于各種下游領(lǐng)域,例如多模態(tài)實(shí)體鏈接技術(shù)可以融合多種模態(tài)下的相同實(shí)體,可以廣泛應(yīng)用于新聞閱讀,時(shí)事推薦,明星同款等場(chǎng)景中如圖14,多模態(tài)知識(shí)圖譜補(bǔ)全技術(shù)可以通過(guò)遠(yuǎn)程監(jiān)督補(bǔ)全多模態(tài)知識(shí)圖譜,完善現(xiàn)有的多模態(tài)知識(shí)圖譜,利用動(dòng)態(tài)更新技術(shù)使其更加的完備,多模態(tài)對(duì)話系統(tǒng)的應(yīng)用就更加的廣泛,現(xiàn)階段電商領(lǐng)域中集成圖像和文本的多模態(tài)對(duì)話系統(tǒng)的研究蒸蒸日上,多模態(tài)對(duì)話系統(tǒng)對(duì)于電商推薦,商品問(wèn)答領(lǐng)域的進(jìn)步有著重大的推進(jìn)作用。

          圖14.多模態(tài)知識(shí)圖譜在視覺(jué)實(shí)體鏈接中的應(yīng)用

          多模態(tài)知識(shí)圖譜是一個(gè)新興領(lǐng)域,受益于近些年通訊技術(shù)的發(fā)展,多模態(tài)數(shù)據(jù)越來(lái)越成為人們生活中觸手可及的信息,種種多模態(tài)技術(shù)也成為當(dāng)下研究的熱門(mén)方向。

          參考文獻(xiàn)

          [1] Auer S, Bizer C, Kobilarov G, et al. Dbpedia: A nucleus for a web of open data[M]//The semantic web. Springer, Berlin, Heidelberg, 2007: 722-735.
          [2] Vrande?i? D, Kr?tzsch M. Wikidata: a free collaborative knowledgebase[J]. Communications of the ACM, 2014, 57(10): 78-85.
          [3] Ferrada S, Bustos B, Hogan A. IMGpedia: a linked dataset with content-based analysis of Wikimedia images[C]//International Semantic Web Conference. Springer, Cham, 2017: 84-93.
          [4] Liu Y, Li H, Garcia-Duran A, et al. MMKG: multi-modal knowledge graphs[C]//European Semantic Web Conference. Springer, Cham, 2019: 459-474.
          [5] Wang M, Qi G, Wang H F, et al. Richpedia: A Comprehensive Multi-modal Knowledge Graph[C]//Joint International Semantic Technology Conference. Springer, Cham, 2019: 130-145.


          國(guó)產(chǎn)小眾瀏覽器因屏蔽視頻廣告,被索賠100萬(wàn)(后續(xù))

          年輕人“不講武德”:因看黃片上癮,把網(wǎng)站和786名女主播起訴了

          中國(guó)聯(lián)通官網(wǎng)被發(fā)現(xiàn)含木馬腳本,可向用戶推廣色情APP

          張一鳴:每個(gè)逆襲的年輕人,都具備的底層能力


          關(guān)


          學(xué)西學(xué)學(xué)運(yùn)營(yíng)護(hù)號(hào)樂(lè)質(zhì)結(jié)識(shí)關(guān)[]學(xué)習(xí)進(jìn)


          瀏覽 43
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  色婷婷色丁香五月天 | 人人摸,人人操,人人揉 | 国产免费久久久 | 国产午夜三级片 | 盗摄偷窥系列7777777 |