什么是知識圖譜?有哪些典型應用?終于有人講明白了
導讀:本文將詳細闡述知識圖譜的基本概念,包括知識圖譜的背景、定義以及典型應用。

01 知識圖譜背景
在給出知識圖譜的定義之前,我們先分開討論一下什么是知識,什么是圖譜。
1. 什么是知識
首先看一下什么是知識。有讀者可能會提出這樣的問題,在大數(shù)據(jù)時代,人類擁有海量的數(shù)據(jù),這是不是代表人類可以隨時隨地利用無窮無盡的知識呢?答案是否定的。
知識是人類在實踐中認識客觀世界(包括人類自身)的成果,它包括事實、信息、描述以及在教育和實踐中獲得的技能。知識是人類從各個途徑中獲得的經(jīng)過提升、總結與凝煉的系統(tǒng)的認識。
因此,可以這樣理解,知識是人類對信息進行處理之后的認識和理解,是對數(shù)據(jù)和信息的凝煉、總結后的成果。
讓我們來看一下Rowley在2007年提出的DIKW體系[1],如圖1-3所示,從數(shù)據(jù)、信息、知識到智慧,是一個不斷凝煉的過程。

▲圖1-3 DIKW體系
舉一個簡單的例子,226.1厘米,229厘米,都是客觀存在的孤立的數(shù)據(jù)。此時,數(shù)據(jù)不具有任何意義,僅表達一個客觀事實。而“姚明臂展226.1厘米”“姚明身高229厘米”是事實型的陳述,屬于信息的范疇。
知識,則是對信息層面的抽象和歸納,把姚明的身高、臂展,及其他屬性整合起來,就得到了對于姚明的一個認知,也可以進一步了解到姚明的身高是比普通人高的。對于最后的智慧層面,Zeleny提到的智慧是指知道為什么(Know-Why)[2],感興趣的讀者可以自行了解,本文暫不對此進行深入探討。
2. 什么是圖譜
那么什么是圖譜?圖譜的英文是Graph,直譯過來就是“圖”的意思。在圖論(數(shù)學的一個研究分支)中,圖表示一些事物(Object)與另一些事物之間相互連接的結構。
一張圖通常由一些結點(Vertice或Node)和連接這些結點的邊(Edge)組成?!皥D”這一名詞是由詹姆斯·約瑟夫·西爾維斯特在1878年首次提出的[3]。圖1-4是一個非常簡單的圖,它由6個結點和7條邊組成。

▲圖1-4 由6個結點和7條邊組成的圖示例
從字面上看,知識圖譜就是用圖的形式將知識表示出來。圖中的結點代表語義實體或概念,邊代表結點間的各種語義關系。
我們再將姚明的一些基本信息,用計算機所能理解的語言表示出來,構建一個簡單的知識圖譜。比如,<姚明,國籍,中國>表示姚明的國籍是中國,其中“姚明”和“中國”是兩個結點,而結點間的關系是“國籍”。
這是一種常用的基于符號的知識表示方式——資源描述框架(Resource Description Framework,RDF),它把知識表示為一個包含主語(Subject)、謂語(Predicate)和賓語(Object)的三元組<S,P,O>。
02 知識圖譜的定義
上一節(jié)對知識圖譜給出了一個具象的描述,即它是由結點和邊組成的語義網(wǎng)絡。那么該如何準確定義知識圖譜呢?這里我們可以先回顧一下其概念的演化歷程。
知識圖譜概念的演化歷程如圖1-5所示。

▲圖1-5 知識圖譜概念的演化歷程
語義網(wǎng)絡由劍橋語言研究所的Richard H. Richens提出,前文中已經(jīng)簡單介紹了語義網(wǎng)絡的含義。它是一種基于圖的數(shù)據(jù)結構,是一種知識表示的手段,可以很方便地將自然語言轉(zhuǎn)化為圖來表示和存儲,并應用在自然語言處理問題上,例如機器翻譯、問答等。
到了20世紀80年代,研究人員將哲學概念本體(Ontology)引入計算機領域,作為“概念和關系的形式化描述”, 后來,Ontology也被用于為知識圖譜定義知識體系(Schema)。
而真正對知識圖譜產(chǎn)生深遠影響的是Web的誕生。Tim Berners-Lee在1989年發(fā)表的“Information Management: A Proposal”[4]中提出了Web的愿景, Web應該是一個以“鏈接”為中心的信息系統(tǒng)(Linked Information System),以圖的方式相互關聯(lián)。
Tim認為“以鏈接為中心“和“基于圖的方式”,相比基于樹的固定層次化組織方式更加有用,從而促成了萬維網(wǎng)的誕生。我們可以這樣理解,在Web中,每一個網(wǎng)頁就是一個結點,網(wǎng)頁中的超鏈接就是邊。但其局限性是顯而易見的,比如,超鏈接只能說明兩個網(wǎng)頁是相互關聯(lián)的,而無法表達更多信息。
1994年,在第一屆國際萬維網(wǎng)大會上,Tim又指出,人們搜索的并不是頁面,而是數(shù)據(jù)或事物本身,由于機器無法有效地從網(wǎng)頁中識別語義信息,因此僅僅建立Web頁面之間的鏈接是不夠的,還應該構建對象、概念、事物或數(shù)據(jù)之間的鏈接。
隨后在1998年,Tim正式提出語義網(wǎng)(Semantic Web)的概念。語義網(wǎng)是一種數(shù)據(jù)互連的語義網(wǎng)絡,它仍然基于圖和鏈接的組織方式,但圖中的結點不再是網(wǎng)頁,而是實體。
通過為全球信息網(wǎng)上的文檔添加“元數(shù)據(jù)”(Meta Data),讓計算機能夠輕松理解網(wǎng)頁中的語義信息,從而使整個互聯(lián)網(wǎng)成為一個通用的信息交換媒介。我們可以將語義網(wǎng)理解為知識的互聯(lián)網(wǎng)(Web of Knowledge)或者事物的互聯(lián)網(wǎng)(Web of Thing)。
2006年,Tim又提出了鏈接數(shù)據(jù)(Linked Data)的概念,進一步強調(diào)了數(shù)據(jù)之間的鏈接,而不僅僅是文本的數(shù)據(jù)化。后文還會介紹鏈接開放數(shù)據(jù)(Linked Open Data,LOD)項目,它也是為了實現(xiàn)Tim有關鏈接數(shù)據(jù)作為語義網(wǎng)的一種實現(xiàn)的設想。
隨后在2012年,Google基于語義網(wǎng)中的一些理念進行了商業(yè)化實現(xiàn),其提出的知識圖譜概念也沿用至今。
可以看到,知識圖譜的概念是和Web、自然語言處理(NLP)、知識表示(KR)、數(shù)據(jù)庫(DB)、人工智能(AI)等密切相關的。所以我們可以從以下幾個角度去了解知識圖譜。
從Web的角度來看,像建立文本之間的超鏈接一樣,構建知識圖譜需要建立數(shù)據(jù)之間的語義鏈接,并支持語義搜索,這樣就改變了以前的信息檢索方式,可以以更適合人類理解的語言來進行檢索,并以圖形化的形式呈現(xiàn)。
從NLP的角度來看,構建知識圖譜需要了解如何從非結構化的文本中抽取語義和結構化數(shù)據(jù)。
從KR的角度來看,構建知識圖譜需要了解如何利用計算機符號來表示和處理知識。
從AI的角度來看,構建知識圖譜需要了解如何利用知識庫來輔助理解人類語言,包括機器翻譯問題的解決。
從DB的角度來看,構建知識圖譜需要了解使用何種方式來存儲知識。
由此看來,知識圖譜技術是一個系統(tǒng)工程,需要綜合利用各方面技術。國內(nèi)的一些知名學者也給出了關于知識圖譜的定義。這里簡單列舉了幾個。
電子科技大學的劉嶠教授給出的定義是:
知識圖譜,是結構化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關系,其基本組成單位是“實體–關系–實體”三元組,以及實體及其相關屬性–值對,實體之間通過關系相互聯(lián)結,構成網(wǎng)狀的知識結構[5]。
清華大學的李涓子教授給出的定義是:
知識圖譜以結構化的方式描述客觀世界中概念、實體及其關系,將互聯(lián)網(wǎng)的信息表示成更接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力[6]。
浙江大學的陳華鈞教授對知識圖譜的理解是:
知識圖譜旨在建模、識別、發(fā)現(xiàn)和推斷事物、概念之間的復雜關系,是事物關系的可計算模型,已經(jīng)被廣泛應用于搜索引擎、智能問答、語言理解、視覺場景理解、決策分析等領域。
東南大學的漆桂林教授給出的定義是:
知識圖譜本質(zhì)上是一種叫作語義網(wǎng)絡的知識庫,即一個具有有向圖結構的知識庫,其中圖的結點代表實體或者概念,而圖的邊代表實體/概念之間的各種語義關系[7]。
當前,無論是學術界還是工業(yè)界,對知識圖譜還沒有一個唯一的定義,本文的重點也不在于給出理論上的精確定義,而是嘗試從工程的角度,講解如何構建有效的知識圖譜。有一些常見概念,這里列舉如下。
實體:對應一個語義本體,例如“姚明”“中國”等。
屬性:描述一類實體的特性(例如“身高”:姚明的身高是229厘米)。
關系:對應語義本體之間的關系,將實體連接起來(例如“國籍”:姚明的國籍是中國)。
有些學者也將屬性定義為關系,屬于屬性關系的一種。但本文將屬性和關系作為兩種不同的概念區(qū)別對待。
03 知識圖譜的典型應用
我們在前文中已經(jīng)接觸到了知識圖譜對搜索引擎的成功應用。知識圖譜為搜索提供了豐富的結構化結果,體現(xiàn)了信息和知識的關聯(lián),可以通過搜索直接得到答案。
除了通用搜索引擎之外,在一些特定領域中,知識圖譜也發(fā)揮著重要作用,例如同花順公司的問財系統(tǒng)、文因互聯(lián)的文因企業(yè)搜索等。
1. 醫(yī)療領域
在醫(yī)療領域,為了降低發(fā)現(xiàn)新藥的難度,Open Phacts聯(lián)盟構建了一個發(fā)現(xiàn)平臺,通過整合來自各種數(shù)據(jù)源的藥理學數(shù)據(jù),構建知識圖譜,來支持藥理學研究和藥物發(fā)現(xiàn)。
IBM Waston通過構建醫(yī)療信息系統(tǒng),以及一整套的問答和搜索框架,以腫瘤診斷為核心,成功應用于包括慢病、醫(yī)療影像、體外檢測在內(nèi)的九大醫(yī)療領域。
其第一步商業(yè)化運作是打造了一個腫瘤解決方案(Waston for Oncology),通過輸入紀念斯隆·凱特琳癌癥中心的數(shù)千份病例、1500萬頁醫(yī)學文獻,可以為不同的腫瘤病人提供個性化治療方案,連同醫(yī)學證據(jù)一起推薦給醫(yī)生。
2. 金融投資領域
在投資研究領域,成立于2010年的AlphaSense公司打造了一款新的金融知識引擎。
與傳統(tǒng)的金融信息數(shù)據(jù)平臺不同,這款知識引擎并不僅僅局限在金融數(shù)據(jù)的整合和信息平臺的范圍,而是通過構建知識圖譜,加上自然語言處理和語義搜索引擎,讓用戶可以更方便地獲取各種素材并加工再使用。
另外一款非常具有代表性的金融知識引擎是Kensho。它通過從各種數(shù)據(jù)源搜集信息,構建金融知識圖譜,并關注事件和事件之間的依賴,以及對結果的關聯(lián)和推理,從而可為用戶提供自動化語義分析、根據(jù)特定行情判斷走勢等功能。
3. 政府管理和安全領域
在政府管理和安全領域,一個具有代表性的案例是Palantir,因通過大規(guī)模知識圖譜協(xié)助抓住了本·拉登而聲名大噪。
其核心技術是整理、分析不同來源的結構化和非結構化數(shù)據(jù),為相關人員提供決策支持。例如在軍事情報分析系統(tǒng)中,將多源異構信息進行整合,如電子表格、電話、文檔、傳感器數(shù)據(jù)、動態(tài)視頻等,可以對人員、裝備、事件進行全方位實時的監(jiān)控分析,使調(diào)度人員第一時間掌握戰(zhàn)場態(tài)勢,并做出預判。
除了協(xié)助抓住本·拉登,Palantir的另外一項赫赫有名的成就是協(xié)助追回了前納斯達克主席麥道夫金融欺詐案的數(shù)十億美金。
4. 電商領域
在電商領域,阿里巴巴生態(tài)積聚了海量的商品和交易數(shù)據(jù),它以商品、產(chǎn)品、品牌和條碼為核心,構建了百億級別的商品知識圖譜,可以廣泛應用于搜索、導購、平臺治理、智能問答等業(yè)務,同時保持每天千萬級別的惡意攻擊攔截量,極大提升了消費者的購物體驗。
5. 聊天機器人領域
在聊天機器人領域,具有問答功能的產(chǎn)品,例如Siri、微軟小冰、公子小白、琥珀·虛顏、天貓精靈、小米音箱,背后均有大規(guī)模知識圖譜的支持。
例如在琥珀·虛顏中,除了有通用百科知識圖譜——“七律”的支持,還有子領域,例如動漫知識圖譜、美食知識圖譜、星座知識圖譜的支持。圖1-13給出了公子小白在多類別知識圖譜融合后的一個問答對話示例。

▲圖1-13 公子小白對話示例
參考文獻
[1] Rowley, Jennifer. The Wisdom Hierarchy: Representations of the Dikw Hierarchy[J]. Journal of Information and Communication Science, 2007, 33 (2): 163-180.
[2] Zeleny, Milan. Management Support Systems: Towards Integrated Knowledge Management[J]. Human Systems Management, 1987, 7 (1): 59-70.
[3] J. J. Sylvester. On an Application of the New Atomic Theory to the Graphical Representation of the Invariants and Covariants of Binary Quantics[J]. American Journal of Mathematics, Pure and Applied, 1878, 1 (1) : 64-90.
[4] Berners-Lee, Timothy J.?Information management: A proposal[J]. No. CERN-DD-89-001-OC. 1989.
[5] 劉嶠, 等.知識圖譜構建技術綜述[J]. 計算機研究與發(fā)展, 2016, 53 (3):582-600.
[6] 李涓子, 侯磊. 知識圖譜研究綜述[J]. 山西大學學報 (自然科學版), 2017 (2017 年 03): 454-459.
[7] 漆桂林, 高桓, 吳天星. 知識圖譜研究進展[J]. 情報工程, 2017, 3(1): 4-25.


