史上最全《知識(shí)圖譜》2020綜述論文,18位作者, 130頁(yè)pdf

??新智元報(bào)道??
來(lái)源:專知
編輯:元子
【新智元導(dǎo)讀】知識(shí)圖譜是當(dāng)下的研究熱點(diǎn)。最近18位學(xué)者共同撰寫了一篇《知識(shí)圖譜》綜述論文,講述了知識(shí)圖譜的創(chuàng)建、豐富、質(zhì)量評(píng)估、細(xì)化和發(fā)布的方法,有130頁(yè)pdf,547篇參考文獻(xiàn)?!感轮窃逼钢鞴P、編輯、運(yùn)營(yíng)經(jīng)理、客戶經(jīng)理,添加HR微信(Dr-wly)或掃描文末二維碼了解詳情?!?/span>

地址:
https://arxiv.org/abs/2003.02320
在本文中,我們對(duì)知識(shí)圖譜進(jìn)行了全面的介紹,在需要開(kāi)發(fā)多樣化、動(dòng)態(tài)、大規(guī)模數(shù)據(jù)收集的場(chǎng)景中,知識(shí)圖譜最近引起了工業(yè)界和學(xué)術(shù)界的極大關(guān)注。在大致介紹之后,我們對(duì)用于知識(shí)圖譜的各種基于圖的數(shù)據(jù)模型和查詢語(yǔ)言進(jìn)行了歸納和對(duì)比。我們將討論schema, identity, 和 context 在知識(shí)圖譜中的作用。我們解釋如何使用演繹和歸納技術(shù)的組合來(lái)表示和提取知識(shí)。我們總結(jié)了知識(shí)圖譜的創(chuàng)建、豐富、質(zhì)量評(píng)估、細(xì)化和發(fā)布的方法。我們將概述著名的開(kāi)放知識(shí)圖譜和企業(yè)知識(shí)圖譜及其應(yīng)用,以及它們?nèi)绾问褂蒙鲜黾夹g(shù)。最后,我們總結(jié)了未來(lái)高層次的知識(shí)圖譜研究方向。
盡管“知識(shí)圖譜”一詞至少?gòu)?972年就開(kāi)始出現(xiàn)在文獻(xiàn)中了[440],但它的現(xiàn)代形式起源于2012年發(fā)布的谷歌知識(shí)圖譜[459],隨后Airbnb[83]、亞馬遜[280]、eBay[392]、Facebook[365]、IBM[123]、LinkedIn[214]、微軟[457]、優(yōu)步[205]等公司相繼發(fā)布了開(kāi)發(fā)知識(shí)圖譜的公告。事實(shí)證明,學(xué)術(shù)界難以忽視這一概念的日益普及: 越來(lái)越多的科學(xué)文獻(xiàn)發(fā)表關(guān)于知識(shí)圖譜的主題,其中包括書籍(如[400]),以及概述定義(如[136])的論文,新技術(shù)(如[298,399,521]),以及對(duì)知識(shí)圖譜具體方面的調(diào)查(如[375,519])。
所有這些發(fā)展的核心思想是使用圖形來(lái)表示數(shù)據(jù),通常通過(guò)某種方式顯式地表示知識(shí)來(lái)增強(qiáng)這種思想[365]。結(jié)果最常用于涉及大規(guī)模集成、管理和從不同數(shù)據(jù)源提取價(jià)值的應(yīng)用場(chǎng)景[365]。在這種情況下,與關(guān)系模型或NoSQL替代方案相比,使用基于圖的知識(shí)抽象有很多好處。圖為各種領(lǐng)域提供了簡(jiǎn)潔而直觀的抽象,其中邊捕獲了社會(huì)數(shù)據(jù)、生物交互、書目引用和合作作者、交通網(wǎng)絡(luò)等[15]中固有實(shí)體之間的(潛在的循環(huán))關(guān)系。圖允許維護(hù)者推遲模式的定義,允許數(shù)據(jù)(及其范圍)以比關(guān)系設(shè)置中通??赡艿母`活的方式發(fā)展,特別是對(duì)于獲取不完整的知識(shí)[2]。與(其他)NoSQL模型不同,專門的圖形查詢語(yǔ)言不僅支持標(biāo)準(zhǔn)的關(guān)系運(yùn)算符(連接、聯(lián)合、投影等),而且還支持遞歸查找通過(guò)任意長(zhǎng)度路徑[14]連接的實(shí)體的導(dǎo)航運(yùn)算符。標(biāo)準(zhǔn)的知識(shí)表示形式主義——如本體論[66,228,344]和規(guī)則[242,270]——可以用來(lái)定義和推理用于標(biāo)記和描述圖中的節(jié)點(diǎn)和邊的術(shù)語(yǔ)的語(yǔ)義。可伸縮的圖形分析框架[314,478,529]可用于計(jì)算中心性、集群、摘要等,以獲得對(duì)所描述領(lǐng)域的洞察。各種表示形式也被開(kāi)發(fā)出來(lái),支持直接在圖上應(yīng)用機(jī)器學(xué)習(xí)技術(shù)[519,527]。
總之,構(gòu)建和使用知識(shí)圖譜的決策為集成和從不同數(shù)據(jù)源提取價(jià)值提供了一系列技術(shù)。但是,我們還沒(méi)有看到一個(gè)通用的統(tǒng)一總結(jié),它描述了如何使用知識(shí)圖譜,使用了哪些技術(shù),以及它們?nèi)绾闻c現(xiàn)有的數(shù)據(jù)管理主題相關(guān)。
本教程的目標(biāo)是全面介紹知識(shí)圖譜: 描述它們的基本數(shù)據(jù)模型以及如何查詢它們;討論與schema, identity, 和 context相關(guān)的表征;討論演繹和歸納的方式使知識(shí)明確;介紹可用于創(chuàng)建和充實(shí)圖形結(jié)構(gòu)數(shù)據(jù)的各種技術(shù);描述如何識(shí)別知識(shí)圖譜的質(zhì)量以及如何改進(jìn)知識(shí)圖譜;討論發(fā)布知識(shí)圖譜的標(biāo)準(zhǔn)和最佳實(shí)踐;并提供在實(shí)踐中發(fā)現(xiàn)的現(xiàn)有知識(shí)圖譜的概述。我們的目標(biāo)受眾包括對(duì)知識(shí)圖譜不熟悉的研究人員和實(shí)踐者。因此,我們并不假設(shè)讀者對(duì)知識(shí)圖譜有特定的專業(yè)知識(shí)。
知識(shí)圖。“知識(shí)圖譜”的定義仍然存在爭(zhēng)議[36,53,136],其中出現(xiàn)了一些(有時(shí)相互沖突的)定義,從具體的技術(shù)建議到更具包容性的一般性建議;我們?cè)诟戒沘中討論了這些先前的定義。在這里,我們采用了一個(gè)包容性的定義,其中我們將知識(shí)圖譜視為一個(gè)數(shù)據(jù)圖,目的是積累和傳遞真實(shí)世界的知識(shí),其節(jié)點(diǎn)表示感興趣的實(shí)體,其邊緣表示這些實(shí)體之間的關(guān)系。數(shù)據(jù)圖(又稱數(shù)據(jù)圖)符合一個(gè)基于圖的數(shù)據(jù)模型,它可以是一個(gè)有向邊標(biāo)記的圖,一個(gè)屬性圖等(我們?cè)诘诙?jié)中討論具體的替代方案)。這些知識(shí)可以從外部資源中積累,也可以從知識(shí)圖譜本身中提取。知識(shí)可以由簡(jiǎn)單的語(yǔ)句組成,如“圣地亞哥是智利的首都”,也可以由量化的語(yǔ)句組成,如“所有的首都都是城市”。簡(jiǎn)單的語(yǔ)句可以作為數(shù)據(jù)圖的邊來(lái)積累。如果知識(shí)圖譜打算積累量化的語(yǔ)句,那么就需要一種更有表現(xiàn)力的方式來(lái)表示知識(shí)——例如本體或規(guī)則。演繹的方法可以用來(lái)繼承和積累進(jìn)一步的知識(shí)(例如,“圣地亞哥是一個(gè)城市”)?;诤?jiǎn)單或量化語(yǔ)句的額外知識(shí)也可以通過(guò)歸納方法從知識(shí)圖譜中提取和積累。
知識(shí)圖譜通常來(lái)自多個(gè)來(lái)源,因此,在結(jié)構(gòu)和粒度方面可能非常多樣化。解決這種多樣性, 表示模式, 身份, 和上下文常常起著關(guān)鍵的作用,在一個(gè)模式定義了一個(gè)高層結(jié)構(gòu)知識(shí)圖譜,身份表示圖中哪些節(jié)點(diǎn)(或外部源)引用同一個(gè)真實(shí)的實(shí)體,而上下文可能表明一個(gè)特定的設(shè)置一些單位的知識(shí)是真實(shí)的。如前所述,知識(shí)圖譜需要有效的提取、充實(shí)、質(zhì)量評(píng)估和細(xì)化方法才能隨著時(shí)間的推移而增長(zhǎng)和改進(jìn)。
在實(shí)踐中 知識(shí)圖譜的目標(biāo)是作為組織或社區(qū)內(nèi)不斷發(fā)展的共享知識(shí)基礎(chǔ)[365]。在實(shí)踐中,我們區(qū)分了兩種類型的知識(shí)圖譜:開(kāi)放知識(shí)圖譜和企業(yè)知識(shí)圖譜。開(kāi)放知識(shí)圖譜在網(wǎng)上發(fā)布,使其內(nèi)容對(duì)公眾有好處。最突出的例子——DBpedia[291]、Freebase[51]、Wikidata[515]、YAGO[232]等——涵蓋了許多領(lǐng)域,它們要么是從Wikipedia[232,291]中提取出來(lái)的,要么是由志愿者社區(qū)[51,515]建立的。開(kāi)放知識(shí)圖譜也在特定領(lǐng)域內(nèi)發(fā)表過(guò),如媒體[406]、政府[222,450]、地理[472]、旅游[11,263,308,540]、生命科學(xué)[79]等。企業(yè)知識(shí)圖譜通常是公司內(nèi)部的,并應(yīng)用于商業(yè)用例[365]。使用企業(yè)知識(shí)圖譜的著名行業(yè)包括網(wǎng)絡(luò)搜索(如Bing[457]、谷歌[459])、商業(yè)(如Airbnb[83]、亞馬遜[127、280]、eBay[392]、Uber[205])、社交網(wǎng)絡(luò)(如Facebook[365]、LinkedIn[214])、金融(如埃森哲[368]、意大利銀行[32][326]、彭博[326]、Capital One[65]、富國(guó)銀行[355])等。應(yīng)用包括搜索[457,459],推薦[83,205,214,365],個(gè)人代理[392],廣告[214],商業(yè)分析[214],風(fēng)險(xiǎn)評(píng)估[107,495],自動(dòng)化[223],以及更多。我們將在第10節(jié)中提供更多關(guān)于在實(shí)踐中使用知識(shí)圖譜的細(xì)節(jié)。
第2節(jié)概述了圖形數(shù)據(jù)模型和可用于查詢它們的語(yǔ)言。
第3節(jié)描述了知識(shí)圖譜中模式、標(biāo)識(shí)和上下文的表示形式。
第四節(jié)介紹了演繹式的形式主義,通過(guò)這種形式主義,知識(shí)可以被描述和推導(dǎo)出來(lái)。
第5節(jié)描述了可以提取額外知識(shí)的歸納技術(shù)。
第6節(jié)討論了如何從外部資源中創(chuàng)建和豐富知識(shí)圖譜。
第7節(jié)列舉了可用于評(píng)估知識(shí)圖譜的質(zhì)量維度。
第8節(jié)討論知識(shí)圖譜細(xì)化的各種技術(shù)。
第9節(jié)討論發(fā)布知識(shí)圖譜的原則和協(xié)議。
第10節(jié)介紹了一些著名的知識(shí)圖譜及其應(yīng)用。
第11節(jié)總結(jié)了知識(shí)圖譜的研究概況和未來(lái)的研究方向。
附錄A提供了知識(shí)圖譜的歷史背景和以前的定義。
附錄B列舉了將從論文正文中引用的正式定義。



本文授權(quán)轉(zhuǎn)載自公眾號(hào):專知

