盤點(diǎn)4個(gè)典型的知識(shí)圖譜項(xiàng)目
導(dǎo)讀:本文將列舉幾個(gè)典型的知識(shí)圖譜項(xiàng)目。
圖1-6給出了具有代表性的知識(shí)圖譜項(xiàng)目的發(fā)展歷史。

▲圖1-6 知識(shí)圖譜發(fā)展歷史
從20世紀(jì)80年代開始的CYC項(xiàng)目,到Google 2012年提出的知識(shí)圖譜,再到現(xiàn)在不同語種、不同領(lǐng)域的知識(shí)圖譜項(xiàng)目大量涌現(xiàn),知識(shí)圖譜已經(jīng)被深入研究并廣泛應(yīng)用于各個(gè)行業(yè)。
例如,WordNet是典型的詞典知識(shí)庫(kù),BabelNet也是類似于WordNet的多語言詞典知識(shí)庫(kù),YAGO集成了Wikipedia、WordNet、GeoNames三個(gè)源的數(shù)據(jù),NELL則持續(xù)不斷從互聯(lián)網(wǎng)上自動(dòng)抽取三元組知識(shí)。
由于這些項(xiàng)目的相關(guān)資料較為豐富,本文僅挑選若干具有代表性的知識(shí)圖譜項(xiàng)目加以介紹。
01 CYC
https://cyc.com/
CYC項(xiàng)目開始于1984年,最初目標(biāo)是建立人類最大的常識(shí)知識(shí)庫(kù),將上百萬條知識(shí)編碼成機(jī)器可用的形式。根據(jù)維基百科數(shù)據(jù),CYC包含320萬條人類定義的斷言,涉及30萬個(gè)概念和15000個(gè)謂詞。
1986年,Douglas Lenat推斷要構(gòu)建這樣龐大的知識(shí)庫(kù)需設(shè)計(jì)25萬條規(guī)則,同時(shí)需要350個(gè)人年才能完成。這個(gè)看似瘋狂的計(jì)劃之所以能夠推進(jìn),和當(dāng)時(shí)的歷史背景是不可分開的。
在CYC中,大部分工作是以知識(shí)工程為基礎(chǔ),且大部分事實(shí)都是通過手動(dòng)添加到知識(shí)庫(kù)上的。CYC主要由兩部分構(gòu)成,第一部分是作為數(shù)據(jù)載體的多語境知識(shí)庫(kù),第二部分是系統(tǒng)本身的推理引擎。
比如,通過“每棵樹都是植物”和“植物最終都會(huì)死亡”的知識(shí),推理引擎可以推斷出“樹會(huì)死亡”的結(jié)論。1994年圖靈獎(jiǎng)獲得者愛德華·費(fèi)根鮑姆曾稱:“CYC是世界上最大的知識(shí)庫(kù),也是技術(shù)論的最佳代表?!?/span>
02 ConceptNet
https://www.conceptnet.io/
ConceptNet是一個(gè)利用眾包構(gòu)建的常識(shí)知識(shí)圖譜,起源于麻省理工大學(xué)媒體實(shí)驗(yàn)室的Open Mind Common Sense(OMCS)項(xiàng)目,它免費(fèi)開放并且具有多語言版本。其英文版本自1999年發(fā)布以來,由15000個(gè)貢獻(xiàn)者積累了超過100多萬個(gè)事實(shí)。
ConceptNet的一大特點(diǎn)是它的知識(shí)描述是非形式化的,更加貼近自然語言的描述。圖1-7給出了ConceptNet的一個(gè)組織架構(gòu)。這里列舉了一些更為具體的描述,例如:“企鵝是一種鳥”“企鵝出現(xiàn)在動(dòng)物園”“企鵝想要有足夠的食物”等。

▲圖1-7 ConceptNet的組織架構(gòu)示例
03 DBpedia
https://www.dbpedia.org/
DBpedia是指數(shù)據(jù)庫(kù)版本的Wikipedia,是從Wikipedia中的信息框抽取出的鏈接數(shù)據(jù)庫(kù)。英文版本的DBpedia包含600萬實(shí)體,其中510萬個(gè)實(shí)體可以鏈接到本體上。并且,DBpedia還和Freebase、OpenCYC、Bio2RDF等多個(gè)數(shù)據(jù)集建立了數(shù)據(jù)鏈接。
截至目前,DBpedia是鏈接開放數(shù)據(jù)(LOD)中最大的具有代表性的開放鏈接數(shù)據(jù)庫(kù)之一。
04 LOD
https://lod-cloud.net/
上文提到,LOD的初衷是實(shí)現(xiàn)Tim有關(guān)鏈接數(shù)據(jù)作為語義網(wǎng)的一種實(shí)現(xiàn)的設(shè)想。
其遵循四個(gè)原則:
使用URI進(jìn)行標(biāo)識(shí);
使用HTTP URI,以便用戶可以像訪問網(wǎng)頁一樣查看事物的描述;
使用RDF和SPARQL標(biāo)準(zhǔn);
為事物添加與其他事物的URI鏈接,建立數(shù)據(jù)關(guān)聯(lián)。
截至2020年7月,LOD有1260個(gè)知識(shí)圖譜,包含16187個(gè)鏈接。圖1-8給出了LOD統(tǒng)計(jì)的知識(shí)圖譜的示意圖,它按照不同的顏色將知識(shí)圖譜分為9個(gè)大類,其中社交媒體、政府、出版和生命科學(xué)四個(gè)領(lǐng)域的數(shù)據(jù)占比之和超過 90%。

▲圖1-8 LOD知識(shí)圖譜概覽
(歡迎大家加入數(shù)據(jù)工匠知識(shí)星球獲取更多資訊。)

掃描二維碼關(guān)注我們

我們的使命:發(fā)展數(shù)據(jù)治理行業(yè)、普及數(shù)據(jù)治理知識(shí)、改變企業(yè)數(shù)據(jù)管理現(xiàn)狀、提高企業(yè)數(shù)據(jù)質(zhì)量、推動(dòng)企業(yè)走進(jìn)大數(shù)據(jù)時(shí)代。
我們的愿景:打造數(shù)據(jù)治理專家、數(shù)據(jù)治理平臺(tái)、數(shù)據(jù)治理生態(tài)圈。
我們的價(jià)值觀:凝聚行業(yè)力量、打造數(shù)據(jù)治理全鏈條平臺(tái)、改變數(shù)據(jù)治理生態(tài)圈。

了解更多精彩內(nèi)容
長(zhǎng)按,識(shí)別二維碼,關(guān)注我們吧!
數(shù)據(jù)工匠俱樂部
微信號(hào):zgsjgjjlb
專注數(shù)據(jù)治理,推動(dòng)大數(shù)據(jù)發(fā)展。
