知識(shí)圖譜的5G追溯

【引子】“治學(xué)先治史”,了解研究領(lǐng)域的歷史背景和對(duì)于了解未來可能的途徑至關(guān)重要,關(guān)于知識(shí)圖譜也不例外。周末勞逸結(jié)合,本文編譯自Claudio Gutierrez和Juan f. Sequeda在ACM上的一篇論文(https://cacm.acm.org/magazines/2021/3/250711-knowledge-graphs/fulltext),將知識(shí)圖譜的發(fā)展劃分為5個(gè)時(shí)期,也就是相當(dāng)于知識(shí)圖譜的5G,可以一覽知識(shí)圖譜的歷史全貌。
知識(shí)圖譜的概念來源于不同研究領(lǐng)域的科學(xué)進(jìn)步,如語義網(wǎng)、數(shù)據(jù)庫(kù)、知識(shí)表示、自然語言處理、機(jī)器學(xué)習(xí)等等。這些不同學(xué)科的思想和技術(shù)的整合對(duì)于從業(yè)者是一個(gè)挑戰(zhàn),我們需要知道當(dāng)前的進(jìn)步是如何從早期的技術(shù)發(fā)展而來的,并且如何植根于早期的技術(shù)。
知識(shí)圖譜概念所包含的基本要素可以追溯到以圖來表示知識(shí)的核心思想。例如, 公元前350年左右的視覺形式推理; 盧爾和他的知識(shí)樹; 林奈的自然世界分類; 以及19世紀(jì)和20世紀(jì)的科學(xué)家們西爾維斯特、查爾斯 · 皮爾斯和戈特洛布 · 弗雷格在形式和圖解推理方面的著作。這些思想還涉及數(shù)學(xué)、哲學(xué)、語言學(xué)、圖書館科學(xué)和心理學(xué)等幾個(gè)學(xué)科。
我們基于計(jì)算機(jī)科學(xué)學(xué)科的知識(shí)、數(shù)據(jù)、以及它們的彼此結(jié)合,遵循一個(gè)時(shí)間線,雖然有模糊的界限,但仍可以將相關(guān)的思想、技術(shù)和系統(tǒng)分為五個(gè)階段:
1G——前期
2G——基礎(chǔ)階段
3G——知識(shí)時(shí)代
4G——網(wǎng)絡(luò)時(shí)代
5G——大數(shù)據(jù)時(shí)代。

知識(shí)圖譜的1G——數(shù)字時(shí)代的來臨
計(jì)算機(jī)的出現(xiàn)和普及標(biāo)志著數(shù)字計(jì)算的誕生,第一種編程語言(LISP、 FORTRAN、 COBOL 和 ALGOL 是最具代表性的)催生了大規(guī)模數(shù)據(jù)處理,并催生了一個(gè)新的科學(xué)技術(shù)領(lǐng)域,即計(jì)算機(jī)科學(xué)。以下是這個(gè)時(shí)代的五個(gè)相關(guān)線索:
自動(dòng)化推理
繼1956年紐威爾、肖和西蒙的第一個(gè)處理復(fù)雜信息的程序“邏輯理論家”之后,他們?cè)?958年開發(fā)了“通用解題程序”,“這個(gè)項(xiàng)目是作者們研究工作的一部分,目的是了解人類智力、適應(yīng)能力和創(chuàng)造力所依賴的信息處理過程?!?編制計(jì)算機(jī)程序,解決需要智能和適應(yīng)性的問題,并發(fā)現(xiàn)這些程序的哪些種類可以匹配人類解決問題的能力。推理自動(dòng)化方面的其他幾個(gè)發(fā)展,例如羅賓遜的解析原理,也延續(xù)了這一觀點(diǎn),以及格林和拉斐爾通過開發(fā)問答系統(tǒng)在數(shù)據(jù)庫(kù)中確定證明和演繹之間的聯(lián)系。在實(shí)踐層面上,“推理”特性有多種實(shí)現(xiàn)方式。例如,約瑟夫·維森鮑姆的 ELIZA 程序,只要編程正確,就可以用英語進(jìn)行任何話題的對(duì)話。
空間搜索
研究人員認(rèn)識(shí)到在空間中搜索的過程代表了一種“智力”或“推理”的形式,對(duì)空間有所了解將使搜索變得容易。排序就是一個(gè)簡(jiǎn)單的例子。直到20世紀(jì)70年代,25% 的計(jì)算時(shí)間都被用來對(duì)數(shù)據(jù)進(jìn)行排序,以便進(jìn)行任何過程的搜索。甚至在計(jì)算機(jī)出現(xiàn)之前,從事數(shù)據(jù)處理工作的人們就對(duì)搜索這個(gè)概念非常熟悉。然而,在多樣化和復(fù)雜的空間中搜索的想法是截然不同的,比如在游戲中產(chǎn)生的搜索空間(例如,國(guó)際象棋、跳棋和圍棋),Dijkstra 著名的尋找最短路徑的算法就是是在1956年提出的。
從非結(jié)構(gòu)化數(shù)據(jù)中檢索信息
一旦具備了計(jì)算能力,就可以從傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)之外的數(shù)據(jù)源獲取數(shù)據(jù)。這些想法可以追溯到 v. Bush 的報(bào)告“ As We May Think”,但是在20世紀(jì)50年代得到了發(fā)展。一個(gè)里程碑是 Bertram Raphael 的《 SIR: 語義信息檢索計(jì)算機(jī)程序》(1964)。這個(gè)系統(tǒng)展示了所謂的“理解”語義信息的能力。它使用單詞關(guān)聯(lián)和屬性列表來表示通常在會(huì)話語句中傳達(dá)的關(guān)系信息,以一個(gè)格式匹配程序從英語句子中提取語義內(nèi)容。
管理數(shù)據(jù)的語言和系統(tǒng)
早期的數(shù)據(jù)管理系統(tǒng)是 Charles Bachman 在1963年設(shè)計(jì)的集成數(shù)據(jù)存儲(chǔ)(IDS)。雖然效率得以提高,但代價(jià)是后來所謂的“數(shù)據(jù)獨(dú)立性”。IDS 成為 CODASYL 標(biāo)準(zhǔn)的基礎(chǔ),該標(biāo)準(zhǔn)后來被稱為數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)。此外,專用語言來處理數(shù)據(jù)的想法導(dǎo)致了 COBOL (1959)的產(chǎn)生,它是面向數(shù)據(jù)處理的編程語言的一個(gè)早期例子。
知識(shí)的圖形表示
語義網(wǎng)絡(luò)是在1956年由植物學(xué)家和計(jì)算語言學(xué)家 Richard h. Richens 引入的,作為自然語言機(jī)器翻譯領(lǐng)域的一種工具。這個(gè)概念是由幾個(gè)人獨(dú)立提出來的。Ross Quillian 1963年的論文“表示概念信息的符號(hào): 語義學(xué)和機(jī)械英語解釋的應(yīng)用”旨在允許信息在計(jì)算機(jī)中存儲(chǔ)和處理,遵循人類記憶的模型。他在1967年的博士論文《詞語概念: 一些基本語義能力的理論與模擬》中進(jìn)一步發(fā)展了尋找“記憶的設(shè)計(jì)原則,使其成為人類語言行為背后的知識(shí)基礎(chǔ)”的想法。
在這些實(shí)現(xiàn)中,以下幾點(diǎn)最為引人注目: 對(duì)自動(dòng)推理的重要性和可能性的認(rèn)識(shí); 處理大型搜索空間的問題; 理解自然語言和其他人類知識(shí)表示的需要; 語義網(wǎng)(和一般的圖形表示)作為抽象層的潛力; 以及系統(tǒng)和高級(jí)語言管理數(shù)據(jù)的相關(guān)性。關(guān)于局限性,其中最突出的是: 硬件的有限能力(物理和技術(shù)) ; 硬件的可用性和高成本; 圖表示和順序執(zhí)行之間的差距; 人類語言的邏輯和計(jì)算機(jī)系統(tǒng)處理數(shù)據(jù)之間的差距。

知識(shí)圖譜的2G——數(shù)據(jù)和知識(shí)的基礎(chǔ)階段
20世紀(jì)70年代,計(jì)算機(jī)在工業(yè)中得到了更廣泛的應(yīng)用。這些年是蘋果和微軟等公司成立的年代。像 Wordstar 和 VisiCalc 這樣的數(shù)據(jù)處理系統(tǒng)誕生了,它們是個(gè)人文字處理器和電子表格的前身。不斷增長(zhǎng)的存儲(chǔ)和處理能力,以及人類的專業(yè)知識(shí),推動(dòng)了改進(jìn)大公司數(shù)據(jù)管理方式的需求。
2G時(shí)期的數(shù)據(jù)
數(shù)據(jù)處理需求的增長(zhǎng)帶來了以獨(dú)立概念表達(dá)的勞動(dòng)分工。程序員和應(yīng)用程序現(xiàn)在可以“忘記”為了訪問數(shù)據(jù)而如何對(duì)數(shù)據(jù)進(jìn)行物理結(jié)構(gòu)化。這個(gè)想法是 Edgar Codd 的論文“大型共享數(shù)據(jù)的數(shù)據(jù)關(guān)系模型”的核心,該論文描述了將關(guān)系作為一個(gè)數(shù)學(xué)模型來提供表示的獨(dú)立性, 稱之為“數(shù)據(jù)獨(dú)立性”。這種理論和設(shè)計(jì)思想促進(jìn)了數(shù)據(jù)庫(kù)管理系統(tǒng)和建模工具的發(fā)展。
在建模層面,Peter Chen 在他的論文《 ER模型: 走向數(shù)據(jù)的統(tǒng)一視圖》 ,主張建立基于實(shí)體和它們之間關(guān)系的數(shù)據(jù)模型。ER 模型以表的形式將現(xiàn)實(shí)世界的語義信息/數(shù)據(jù)結(jié)合起來。這是一個(gè)早期的嘗試,即關(guān)系數(shù)據(jù)模型。
在系統(tǒng)層面,軟件應(yīng)用程序被開發(fā)和實(shí)施,以管理基于關(guān)系模型的數(shù)據(jù),即關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)。這一時(shí)期的兩個(gè)關(guān)鍵系統(tǒng)是 IBM 的 System R,在《 System r: 數(shù)據(jù)庫(kù)管理的關(guān)系方法》(1976年)一文中有所描述,以及加州大學(xué)伯克利分校的 INGRES,在《 INGRES 的設(shè)計(jì)和實(shí)現(xiàn)》(1976年)一文中有所描述。這些系統(tǒng)是Codd 所描述的關(guān)系模型查詢系統(tǒng)的“愿景”,包括關(guān)系查詢語言,如 SEQUEL 和 QUEL,這最終導(dǎo)致 SQL,當(dāng)前最成功的聲明性查詢語言。
2G時(shí)期的知識(shí)
雖然數(shù)據(jù)流側(cè)重于數(shù)據(jù)的結(jié)構(gòu)和建立最佳管理系統(tǒng),但知識(shí)則側(cè)重于數(shù)據(jù)的意義。這方面的一個(gè)早期發(fā)展是 S.C. Shapiro 的工作,他提出了一種網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu),用于組織和檢索語義信息。這些想法在語義網(wǎng)絡(luò)和處理系統(tǒng)(SNePS)中得到了實(shí)現(xiàn),該系統(tǒng)可以被認(rèn)為是最早的獨(dú)立 KRR 系統(tǒng)之一。
20世紀(jì)70年代中期,出現(xiàn)了一些對(duì)語義網(wǎng)絡(luò)、結(jié)構(gòu)的批評(píng),主要集中在它們薄弱的邏輯基礎(chǔ)上。這種批評(píng)的一個(gè)代表是威廉伍茲1975年的論文“一個(gè)鏈接里有什么: 語義網(wǎng)絡(luò)的基礎(chǔ)?!?/p>
研究人員致力于使用形式語義學(xué)來擴(kuò)展語義網(wǎng)絡(luò)??蚣芨拍钍窃缙谔峁┍镜刂R(shí)和詳細(xì)知識(shí)的結(jié)構(gòu)和可擴(kuò)展性的方法。這是由 Marvin Minsky 在他1974年的文章“代表知識(shí)的框架”中提出的,被定義為由節(jié)點(diǎn)和關(guān)系組成的網(wǎng)絡(luò)。1976年,John Sowa 在他的論文“數(shù)據(jù)庫(kù)接口的概念圖”中介紹了概念圖。概念圖可以作為一個(gè)中間語言,將自然語言查詢和斷言映射到關(guān)系數(shù)據(jù)庫(kù),表現(xiàn)為概念和關(guān)系類型的有序邏輯。在他1977年的論文《為邏輯辯護(hù)》中,Patrick Hayes 認(rèn)識(shí)到可以用一階邏輯來形式化。這項(xiàng)工作后來影響了 Brachman 和 Levesque,使他們確定了一個(gè)易于處理的一階邏輯子集,這也成為描述邏輯學(xué)的一個(gè)發(fā)展。
2G時(shí)期數(shù)據(jù)與知識(shí)的整合
在20世紀(jì)70年代,數(shù)據(jù)和知識(shí)開始經(jīng)歷一種整合。Robert Kowalski 在《作為編程語言的謂詞邏輯》一書中介紹了邏輯作為知識(shí)的聲明性和過程性表示的使用,這個(gè)領(lǐng)域現(xiàn)在被稱為邏輯編程。這些想法是由阿蘭?科爾梅勞爾(Alain Colmerauer)在 PROLOG 實(shí)現(xiàn)的。
早期的系統(tǒng)能夠基于知識(shí)推理,被稱為知識(shí)推理系統(tǒng),解決復(fù)雜的問題是專家系統(tǒng)。這些系統(tǒng)將領(lǐng)域知識(shí)編碼為 if-then 規(guī)則。戴維斯、 B · 布坎南和 E · 肖特利夫是最早開發(fā)出成功的專家系統(tǒng) MYCIN 的貢獻(xiàn)者之一,MYCIN 成為選擇抗生素治療菌血癥的經(jīng)典范例。這個(gè)領(lǐng)域被稱為知識(shí)獲取。
1977年在法國(guó)圖盧茲舉辦的“邏輯與數(shù)據(jù)庫(kù)”研討會(huì)被認(rèn)為是一個(gè)里程碑式的事件,該研討會(huì)由赫爾夫 · 加萊爾、杰克 · 明克和瑪麗 · 尼古拉斯共同組織。一些重要的概念,如 Ray Reiter 的封閉世界假設(shè)和 Keith Clark 的否定為失敗假設(shè)都是在這次研討會(huì)上提出的,這些可以被認(rèn)為是數(shù)據(jù)邏輯方法的誕生。許多研究人員認(rèn)為這是使邏輯和數(shù)據(jù)庫(kù)之間的聯(lián)系正式化的事件,并作為一個(gè)獨(dú)立的領(lǐng)域。
這一時(shí)期的實(shí)現(xiàn)包括: 對(duì)表征獨(dú)立性的需求和潛力,如關(guān)系模型的案例所示; 實(shí)用和成功的關(guān)系模型語義網(wǎng)絡(luò)的實(shí)現(xiàn); 認(rèn)識(shí)到語義網(wǎng)絡(luò)需要使用形式邏輯工具的框架; 以及意識(shí)到通過網(wǎng)絡(luò)結(jié)合邏輯和數(shù)據(jù)的潛力。這些限制包括: 在數(shù)據(jù)方面,傳統(tǒng)數(shù)據(jù)結(jié)構(gòu)不能靈活地表示新的數(shù)據(jù)類型(這導(dǎo)致了面向?qū)ο蠛蛨D形數(shù)據(jù)結(jié)構(gòu)) ; 在知識(shí)方面,知識(shí)的邏輯形式化薄弱(這是描述邏輯學(xué)興起的動(dòng)力)。

知識(shí)圖譜的3G——知識(shí)時(shí)代
20世紀(jì)80年代,隨著個(gè)人電腦的蓬勃發(fā)展,計(jì)算機(jī)開始走進(jìn)家庭。在數(shù)據(jù)管理領(lǐng)域,關(guān)系型數(shù)據(jù)庫(kù)發(fā)展迅速(Oracle、 Sybase、 IBM 等)。面向?qū)ο蟪橄笫亲鳛橐环N新的表示形式發(fā)展起來。互聯(lián)網(wǎng)改變了人們交流和交換信息的方式。
不斷增長(zhǎng)的計(jì)算能力推動(dòng)了計(jì)算領(lǐng)域的發(fā)展。反過來,這些數(shù)據(jù)生成了需要管理的復(fù)雜數(shù)據(jù)。此外,關(guān)系革命假定了表示獨(dú)立性的需要,導(dǎo)致了軟件程序與數(shù)據(jù)的分離。這促使人們想方設(shè)法將面向?qū)ο蟪绦蛟O(shè)計(jì)語言和數(shù)據(jù)庫(kù)結(jié)合起來,導(dǎo)致了面向?qū)ο髷?shù)據(jù)庫(kù)(OODB)的發(fā)展。這成為了未來數(shù)據(jù)中心的特征,如對(duì)象、標(biāo)識(shí)符、關(guān)系、繼承、等式等,來研究如何處理復(fù)雜數(shù)據(jù)。許多來自學(xué)術(shù)界和工業(yè)界的系統(tǒng)在這個(gè)時(shí)期蓬勃發(fā)展,例如 Encore-Observer (布朗大學(xué)) ,EXODUS (威斯康星大學(xué)麥迪遜分校) ,IRIS (惠普) ,ODE (貝爾實(shí)驗(yàn)室) ,和 Zeitgeist (德州儀器) ,產(chǎn)生了一些商業(yè)產(chǎn)品。
圖作為面向?qū)ο蟮臄?shù)據(jù)、圖形和可視化界面、超文本等的表示開始被研究。早期的例子是 Harel 的 Higraphs,以可視化的結(jié)構(gòu)來形式化關(guān)系,在 UML 中被廣泛使用。阿爾貝托 · 門德爾松和他的學(xué)生使用遞歸開發(fā)了早期的圖查詢語言。
3G時(shí)代的知識(shí)
20世紀(jì)80年代的一項(xiàng)重要成就是理解了邏輯語言的表達(dá)能力和推理任務(wù)的計(jì)算復(fù)雜性之間的平衡。Brachman 和 Levesque 的論文“基于框架的描述語言中包容的可處理性”是首先強(qiáng)調(diào)這個(gè)問題的論文之一。增加邏輯語言的表達(dá)能力,計(jì)算的復(fù)雜性增加。這導(dǎo)致了沿著表達(dá)性連續(xù)體的研究取舍,產(chǎn)生了一個(gè)新的邏輯家族,稱為描述邏輯。最突出的系統(tǒng)有 KL-ONE、 LOOM 和 CLASSIC 等。除了描述邏輯之外,當(dāng)時(shí)還在發(fā)展另一種形式: f-Logic 深受對(duì)象和框架的影響,使它能夠在同一種陳述語言中推理模式和對(duì)象結(jié)構(gòu)。
這些早期的邏輯系統(tǒng)表明,邏輯推理可以在易于處理的軟件中實(shí)現(xiàn)。它們成為了后來 OWL 的基礎(chǔ),即語義網(wǎng)的本體語言。
此外,非單調(diào)推理技術(shù)也得到了發(fā)展,例如,引入了大量形式化的非單調(diào)推理,包括界限,默認(rèn)邏輯,自認(rèn)知邏輯和條件邏輯。
3G時(shí)期數(shù)據(jù)與知識(shí)的融合
1980年代的一個(gè)相關(guān)發(fā)展是日本的第五代計(jì)劃。
鑒于日本在汽車和電子行業(yè)的成功,他們希望在軟件領(lǐng)域也取得成功。目標(biāo)是創(chuàng)造人工智能硬件和軟件,將邏輯和數(shù)據(jù)結(jié)合起來,并能像人類一樣進(jìn)行對(duì)話、翻譯語言、解釋圖片和推理。日本人采用邏輯編程作為邏輯和數(shù)據(jù)結(jié)合的基礎(chǔ)。
日本的這個(gè)項(xiàng)目引發(fā)了世界范圍內(nèi)的熱潮,導(dǎo)致了諸如美國(guó)的微電子學(xué)和計(jì)算機(jī)技術(shù)聯(lián)盟、慕尼黑的歐洲計(jì)算機(jī)研究中心和英國(guó)的 Alvey 項(xiàng)目等競(jìng)爭(zhēng)項(xiàng)目的產(chǎn)生,這些項(xiàng)目在整個(gè)20世紀(jì)80年代和90年代都是硬件和軟件的重要研究中心。例如,出自 MCC 的 Cyc 項(xiàng)目,其目標(biāo)是創(chuàng)建世界上最大的常識(shí)知識(shí)庫(kù),用于執(zhí)行類人推理。
專家系統(tǒng)在20世紀(jì)80年代激增,成為人工智能大肆宣傳的中心。我們可以看到產(chǎn)生式規(guī)則系統(tǒng)的發(fā)展,例如Rete 算法和 Treat 算法,它們可以有效地實(shí)現(xiàn)基于規(guī)則的系統(tǒng)。專家系統(tǒng)開始顯示出了業(yè)務(wù)價(jià)值(例如,Xcon、 ACE),風(fēng)險(xiǎn)投資家們開始投資人工智能公司,比如 intelicorp、 ILOG、 Neuron Data 和 Haley Systems 等。
在學(xué)術(shù)方面,邏輯和數(shù)據(jù)相結(jié)合的初始方法是在關(guān)系型數(shù)據(jù)庫(kù)的基礎(chǔ)上分層邏輯編程。考慮到邏輯程序指定功能而不指定算法,優(yōu)化扮演了關(guān)鍵角色,并且被認(rèn)為比關(guān)系查詢最優(yōu)化問題要困難得多。這就產(chǎn)生了演繹數(shù)據(jù)庫(kù)系統(tǒng),它用遞歸規(guī)則對(duì)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行自然擴(kuò)展。數(shù)據(jù)標(biāo)記語言是 Prolog 關(guān)系數(shù)據(jù)的子集,成為了演繹數(shù)據(jù)庫(kù)的查詢語言。最早的演繹數(shù)據(jù)庫(kù)系統(tǒng)之一是 LDL 系統(tǒng),在 Tsur 和 Zaniolo 的論文“ LDL: a Logic-Based Data-Language”中提出。
本世紀(jì)末,第一個(gè)以“知識(shí)圖譜”為術(shù)語的系統(tǒng)研究應(yīng)運(yùn)而生。這是 R.R. 巴克的博士論文,“知識(shí)圖譜: 科學(xué)知識(shí)的表示和結(jié)構(gòu)?!边@些想法后來(1991年)發(fā)表在 P. James (一個(gè)代表許多研究人員的名字)撰寫的一份報(bào)告中,題為“知識(shí)圖譜”。直到下個(gè)世紀(jì)的第二個(gè)十年,這一術(shù)語才得到廣泛的普及。
這一時(shí)期最重要的實(shí)現(xiàn)是邏輯和數(shù)據(jù)之間的集成必須是緊耦合的,也就是說,僅僅在數(shù)據(jù)庫(kù)之上的專家系統(tǒng)是不夠的; 以及邏輯語言的表達(dá)能力和推理任務(wù)的計(jì)算復(fù)雜性之間的相關(guān)性。值得強(qiáng)調(diào)的兩個(gè)主要限制是: 否定是一個(gè)難題,目前仍然沒有得到很好的理解; 大規(guī)模的推理是一個(gè)無法克服的問題,特別是硬件還沒有為這項(xiàng)任務(wù)做好準(zhǔn)備。這就是所謂的知識(shí)獲取瓶頸。

知識(shí)圖譜的4G——網(wǎng)絡(luò)時(shí)代
20世紀(jì)90年代見證了兩種改變世界的現(xiàn)象。首先,Web的出現(xiàn),全球信息基礎(chǔ)設(shè)施徹底改變了傳統(tǒng)的數(shù)據(jù)、信息和知識(shí)實(shí)踐。通用的信息空間使任何人都可以發(fā)貼和閱讀,從文本和圖像開始,以分布式的方式,完全改變了知識(shí)和數(shù)據(jù)管理的哲學(xué)和實(shí)踐。第二,我們社會(huì)幾乎開始了所有方面的數(shù)字化。一切都開始從紙張轉(zhuǎn)向電子化。這些現(xiàn)象為我們今天所知的大數(shù)據(jù)鋪平了道路。研究和工業(yè)都轉(zhuǎn)移到了這些新的發(fā)展領(lǐng)域。
4G時(shí)期的數(shù)據(jù)
數(shù)據(jù)庫(kù)行業(yè)的重點(diǎn)是開發(fā)和調(diào)優(yōu) RDBMS,以滿足通過 Web 應(yīng)用尤其是電子商務(wù)所提出的需求。這導(dǎo)致產(chǎn)生了大量需要集成和分析的數(shù)據(jù)。研究和實(shí)踐都建立在這一勢(shì)頭之上,集中在網(wǎng)絡(luò)數(shù)據(jù)、數(shù)據(jù)集成、數(shù)據(jù)倉(cāng)庫(kù)/OLAP 和數(shù)據(jù)挖掘等領(lǐng)域。
數(shù)據(jù)社區(qū)轉(zhuǎn)向了網(wǎng)絡(luò),發(fā)展對(duì)網(wǎng)上數(shù)據(jù)和計(jì)算的理解,例如 Mendelzon 和 Milo的論文“Web的形式模型”和 Abiteboul 和 Vianu 的論文”Web的查詢和計(jì)算”。實(shí)現(xiàn)這些目標(biāo)的一個(gè)關(guān)鍵結(jié)果是半結(jié)構(gòu)化的數(shù)據(jù)模型,例如對(duì)象交換模型(OEM)、 XML 模型(XML)和資源描述框架(RDF)等。
在此期間,為了做出業(yè)務(wù)決策,組織需要集成多個(gè)、分布式和異構(gòu)的數(shù)據(jù)源。產(chǎn)業(yè)界和學(xué)術(shù)界聯(lián)手開發(fā)了諸如斯坦福/IBM 的 TSIMMIS 和 Lore、南加州大學(xué)的 SIMS、 MCC 的 InfoSleuth 等許多項(xiàng)目。這些系統(tǒng)引入了中介器和包裝器的概念,也將本體引入到數(shù)據(jù)集成的組合中。
在這種情況下,由于生成和集成了大量的數(shù)據(jù),因此需要驅(qū)動(dòng)業(yè)務(wù)決策報(bào)告。這促進(jìn)了數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的發(fā)展,數(shù)據(jù)以星型模式和雪花模式建模。這些系統(tǒng)可以支持對(duì)多維數(shù)據(jù)(即聯(lián)機(jī)分析處理OLAP)的分析。大部分的研究集中在提出啟發(fā)式算法來實(shí)現(xiàn)數(shù)據(jù)的立體查詢優(yōu)化。業(yè)務(wù)需求推動(dòng)了數(shù)據(jù)挖掘技術(shù)的發(fā)展,以發(fā)現(xiàn)數(shù)據(jù)中的模式。
4G時(shí)期的知識(shí)
人們認(rèn)識(shí)到,知識(shí)獲取是實(shí)現(xiàn)基于知識(shí)的專家系統(tǒng)的瓶頸。知識(shí)獲取研討會(huì)(KAW 在加拿大和 EKAW 在歐洲)是研究人員討論知識(shí)獲取瓶頸問題的一系列活動(dòng)。這個(gè)主題演變并發(fā)展成為知識(shí)工程和本體工程科學(xué)領(lǐng)域。
網(wǎng)絡(luò)是一種知識(shí)的實(shí)現(xiàn),而不僅僅是數(shù)據(jù),也應(yīng)該被共享和重用。由于需要將管理元數(shù)據(jù)提升為正式的語義描述,從而引起了對(duì)分類法和本體論進(jìn)行描述和推理的語言的傳播。本體論的概念被格魯伯定義為“概念化的共享和形式規(guī)范”。
第一批論證本體論相關(guān)性的科學(xué)家包括 N. Guarino,M. Uschold和 M. Grunninger。研究的重點(diǎn)是設(shè)計(jì)和維護(hù)本體論的方法論,例如 Methanology,知識(shí)獲取和文檔結(jié)構(gòu)(KADS)方法論,CommonKADS,以及專門的方法,例如 Ontology clean。第一批本體工程工具的出現(xiàn)(例如,Ontolingua、 WebODE 和 Protege)來可以幫助用戶編碼知識(shí)。
4G時(shí)期數(shù)據(jù)與知識(shí)的融合
數(shù)據(jù)庫(kù)管理系統(tǒng)中的數(shù)據(jù)和知識(shí)的結(jié)合體現(xiàn)在演繹數(shù)據(jù)庫(kù)中。關(guān)于演繹數(shù)據(jù)庫(kù)(1990-1999)和知識(shí)表示與數(shù)據(jù)庫(kù)(1994-2003)的專門講習(xí)班是該領(lǐng)域活動(dòng)的中心。
推動(dòng)研究的一個(gè)重要挑戰(zhàn)是如何在網(wǎng)絡(luò)范圍內(nèi)處理形式推理。事實(shí)上,將網(wǎng)絡(luò)視為一個(gè)數(shù)據(jù)和知識(shí)的通用空間,促使人們需要開發(fā)語言來描述、查詢和推理這個(gè)浩瀚的宇宙。語義網(wǎng)項(xiàng)目致力于將網(wǎng)絡(luò)上的知識(shí)和數(shù)據(jù)結(jié)合起來。下面的發(fā)展影響和構(gòu)建了語義網(wǎng)項(xiàng)目: 簡(jiǎn)單的 HTML 本體擴(kuò)展(SHOE) ,存儲(chǔ)中介,OIL(本體語言)存儲(chǔ)和 DARPA代理標(biāo)記語言存儲(chǔ)(DAML) ,知識(shí)查詢與操作語言存儲(chǔ)(KQML) ,以及歐盟資助的專題網(wǎng)絡(luò)存儲(chǔ)(Ontology-based information exchange for knowledge management and e-commerce)等。其目標(biāo)是將諸如知識(shí)表示、本體論、邏輯、數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)信息檢索等技術(shù)融合在一起。這些發(fā)展產(chǎn)生了一個(gè)新的研究和實(shí)踐領(lǐng)域,圍繞著網(wǎng)絡(luò)及其可能性。
這一時(shí)期的主要認(rèn)識(shí)是,網(wǎng)絡(luò)正在迅速開始改變傳統(tǒng)上構(gòu)想的數(shù)據(jù)、信息和知識(shí)世界的方式; 新類型的數(shù)據(jù)正在激增,尤其是像圖像、視頻和語音這樣的媒體數(shù)據(jù); 最后,人們意識(shí)到數(shù)據(jù)必須被連接起來才能獲得價(jià)值。在這些限制中值得一提的是,計(jì)算能力不足以處理由網(wǎng)絡(luò)產(chǎn)生的新的數(shù)據(jù)級(jí)別; 純邏輯技術(shù)具有復(fù)雜性的邊界,使得它們的可擴(kuò)展性在某些增長(zhǎng)領(lǐng)域(如搜索和模式匹配)非常困難,有時(shí)是不可行的。

知識(shí)圖譜的5G——大規(guī)模的數(shù)據(jù)和知識(shí)
2000年代見證了電子商務(wù)和在線社交網(wǎng)絡(luò)(Facebook、 Twitter 等)的爆炸式增長(zhǎng)。硬件和新系統(tǒng)的進(jìn)步使得在更大規(guī)模上生成、存儲(chǔ)、處理、管理和分析數(shù)據(jù)成為可能。我們進(jìn)入了大數(shù)據(jù)革命。在這個(gè)時(shí)代,隨著人工智能引入深度學(xué)習(xí),我們看到了統(tǒng)計(jì)學(xué)方法的興起。
5G時(shí)期的數(shù)據(jù)
谷歌和亞馬遜這樣的網(wǎng)絡(luò)公司推動(dòng)了數(shù)據(jù)管理。谷歌引入了一個(gè)基礎(chǔ)設(shè)施,可以使用 MapReduce 處理大量數(shù)據(jù)。隨著 CouchDB、 Google Bigtable 和 Amazon Dynamo 等系統(tǒng)的出現(xiàn),分布式的數(shù)據(jù)存儲(chǔ)得到了蓬勃發(fā)展。這導(dǎo)致了“ NoSQL”數(shù)據(jù)庫(kù)的出現(xiàn),使得列、文檔、鍵值和圖形數(shù)據(jù)模型的數(shù)據(jù)庫(kù)管理系統(tǒng)得到了重新推廣。處理文本,聲音,圖像和視頻,再次激發(fā)了語音和圖像識(shí)別的發(fā)展以及NLP 的進(jìn)步,例如 Flickr 這樣的圖像社交網(wǎng)絡(luò)。
數(shù)據(jù)管理繼續(xù)研究數(shù)據(jù)集成問題,如模式匹配、實(shí)體鏈接和 XML 處理。數(shù)據(jù)庫(kù)理論的研究人員轉(zhuǎn)向數(shù)據(jù)集成和數(shù)據(jù)交換。
5G時(shí)期的知識(shí)
描述邏輯的研究團(tuán)體繼續(xù)研究利弊權(quán)衡,并為知識(shí)表示定義新的邏輯概況。推理算法是在軟件系統(tǒng)中實(shí)現(xiàn)的(例如,F(xiàn)ACT,Hermit,Pellet),這些結(jié)果被具體化為歐洲 OIL(本體語言)和 DARPA代理標(biāo)記語言。這兩種努力結(jié)合在一起,產(chǎn)生了 DAML+ OIL,這是一個(gè)基于描述邏輯的本體層,基于 RDF 和形式語義學(xué)語言構(gòu)建。這影響了2004年網(wǎng)絡(luò)本體語言語義網(wǎng)的標(biāo)準(zhǔn)化,這是語義網(wǎng)的基礎(chǔ)。
大數(shù)據(jù)通過機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)將統(tǒng)計(jì)應(yīng)用推向了知識(shí)。統(tǒng)計(jì)技術(shù)提高了從已知事實(shí)推導(dǎo)出新事實(shí)的應(yīng)用。2012年使用 GPU的深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分類的研究發(fā)出了信號(hào),從而開啟了人工智能的一個(gè)新階段: 深度學(xué)習(xí)。
20世紀(jì)60年代,直接通過神經(jīng)網(wǎng)絡(luò)建立知識(shí)模型的最初嘗試在實(shí)踐中發(fā)揮了作用。有大量訓(xùn)練數(shù)據(jù)和強(qiáng)大硬件可用,這些技術(shù)和系統(tǒng)將在很多領(lǐng)域勝過人類。
5G時(shí)期數(shù)據(jù)與知識(shí)的融合
數(shù)據(jù)和知識(shí)之間的聯(lián)系是在這一時(shí)期沿著兩條線發(fā)展起來的,即邏輯和統(tǒng)計(jì)。
在邏輯線上,建立了語義 Web 項(xiàng)目,該項(xiàng)目基于先前的結(jié)果,如圖數(shù)據(jù)模型、描述邏輯和知識(shí)工程。
蒂姆?伯納斯-李(Tim Berners-Lee)、吉姆?亨德勒(Jim Hendler)和奧拉?拉西拉(Ora Lassila)合著的論文《語義網(wǎng)》(The Semantic Web)引發(fā)了業(yè)界和學(xué)術(shù)界的興奮。支撐語義網(wǎng)的技術(shù)正在學(xué)術(shù)界和工業(yè)界通過 W3C 萬維網(wǎng)聯(lián)盟標(biāo)準(zhǔn)化努力同步開發(fā)。這些導(dǎo)致了資源描述框架(RDF)、網(wǎng)絡(luò)本體語言模型(OWL)和 SPARQL 模型等等。
2006年,Tim Berners-Lee 創(chuàng)造了“關(guān)聯(lián)數(shù)據(jù)”這個(gè)術(shù)語,設(shè)計(jì)了一套突出網(wǎng)絡(luò)數(shù)據(jù)網(wǎng)絡(luò)結(jié)構(gòu)的最佳實(shí)踐,以增強(qiáng)知識(shí)。
這導(dǎo)致了關(guān)聯(lián)開放數(shù)據(jù)(LOD)項(xiàng)目和大型的基于 RDF 圖的知識(shí)庫(kù),如 DBPedia 和 Freebase,最終導(dǎo)致了 Wikidata。LOD 項(xiàng)目演示了如何在 Web 規(guī)模上集成數(shù)據(jù)。2011年,主要的搜索引擎發(fā)布了schema. org,一個(gè)輕量級(jí)的本體,作為一種改進(jìn)網(wǎng)頁(yè)語義標(biāo)注的方法。這些努力是建立在語義網(wǎng)研究社區(qū)的成果之上的。
在統(tǒng)計(jì)方面,21世紀(jì)初,大規(guī)模數(shù)據(jù)處理的統(tǒng)計(jì)技術(shù),如語音識(shí)別、自然語言處理和圖像處理,取得了進(jìn)展和成功。這促使 Halevy,Norvig 和 Pereira 談到“數(shù)據(jù)不合理的有效性”。大數(shù)據(jù)的世界中,這可能是促使人們尋求新形式的數(shù)據(jù)和知識(shí)存儲(chǔ)、管理和整合的動(dòng)力之一,也是知識(shí)圖譜概念出現(xiàn)的動(dòng)力之一。此外,自1990年代以來,研究人員一直在努力解決統(tǒng)計(jì)現(xiàn)象,同時(shí)采用邏輯和傳統(tǒng)數(shù)據(jù)庫(kù)(如統(tǒng)計(jì)關(guān)系學(xué)習(xí))的技術(shù)。最后,需要強(qiáng)調(diào)的是在這些影響下出現(xiàn)的一個(gè)處理數(shù)據(jù)和知識(shí)的新領(lǐng)域: 數(shù)據(jù)科學(xué)。
在這一時(shí)期的實(shí)現(xiàn)中,人們學(xué)會(huì)了以一種更大的方式思考數(shù)據(jù)和知識(shí),也就是網(wǎng)絡(luò)規(guī)模; 由于新的硬件和機(jī)器學(xué)習(xí)技術(shù),數(shù)據(jù)世界進(jìn)入了神經(jīng)網(wǎng)絡(luò)時(shí)代。使這一領(lǐng)域難以取得進(jìn)展的一個(gè)主要限制因素是,盡管人們認(rèn)識(shí)到有必要將邏輯技術(shù)和統(tǒng)計(jì)技術(shù)結(jié)合起來,但對(duì)于如何將這些方法結(jié)合起來卻知之甚少。另一個(gè)重要的限制是,統(tǒng)計(jì)方法,特別是在神經(jīng)網(wǎng)絡(luò),仍然無法透明地解釋結(jié)果。

何去何從
知識(shí)圖譜從1G到5G,一個(gè)值得注意的現(xiàn)象是數(shù)據(jù)和知識(shí)在規(guī)模和多樣性方面不斷增長(zhǎng)。與此同時(shí),各種各樣的思想、理論和技術(shù)正在發(fā)展以應(yīng)對(duì)這一問題。有時(shí)他們?nèi)〉昧顺晒?,有時(shí)卻以失敗告終,這取決于物理和社會(huì)約束,而這些約束的參數(shù)大多數(shù)時(shí)候遠(yuǎn)遠(yuǎn)超出了研究者的控制范圍。
絕對(duì)的成功或失敗并不存在,每個(gè)想法、理論或技術(shù)都需要適當(dāng)?shù)沫h(huán)境來充分發(fā)揮其潛力。知識(shí)圖譜的概念就是這樣的。2012年,谷歌發(fā)布了一款名為 Google 知識(shí)圖譜的產(chǎn)品。由于克服了技術(shù)上的限制,舊的思想在全世界得到普及,并被大公司采用。與此同時(shí),其他類型的“圖”服務(wù)也得到了開發(fā),類似的想法也被其他巨頭如微軟、 Facebook、亞馬遜和 Ebay 所采納。后來,無數(shù)公司和組織開始使用知識(shí)圖譜關(guān)鍵詞來指代數(shù)據(jù)的集成,由此產(chǎn)生了實(shí)體和關(guān)系的圖。學(xué)術(shù)界開始采用這個(gè)關(guān)鍵詞來松散地指定那些將數(shù)據(jù)與某些圖結(jié)構(gòu)結(jié)合起來的系統(tǒng),語義網(wǎng)的再生,以及關(guān)聯(lián)數(shù)據(jù)。事實(shí)上,今天知識(shí)圖譜的概念可以被認(rèn)為,不是一個(gè)精確的概念或系統(tǒng),而是一個(gè)不斷發(fā)展的項(xiàng)目和愿景。
正在進(jìn)行的知識(shí)圖譜領(lǐng)域在這個(gè)意義上代表了圍繞圖或網(wǎng)絡(luò)這一舊概念的數(shù)據(jù)和知識(shí)技術(shù)的集合。各種公司和學(xué)術(shù)界正在開發(fā),圖查詢語言,如 SPARQL 和 SPARQL 1.1,新的工業(yè)語言,如 Cypher,GSQL,和 PGQL,研究語言,如 G-CORE,和即將到來的 ISO 標(biāo)準(zhǔn) GQL。另一方面,大量的知識(shí)技術(shù)解決了圖模型: 在邏輯方面,物化和實(shí)現(xiàn)了舊的想法,如語義網(wǎng)絡(luò)和框架,或者更近一些,語義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)項(xiàng)目; 在統(tǒng)計(jì)方面,通過知識(shí)圖譜的嵌入,從大規(guī)模數(shù)據(jù)中提取、學(xué)習(xí)和編碼知識(shí)的技術(shù)。
預(yù)測(cè)未來并不容易,特別是數(shù)據(jù)和知識(shí)、統(tǒng)計(jì)學(xué)和邏輯學(xué)之間相互作用的結(jié)果。如今,我們看到了統(tǒng)計(jì)方法和邏輯方法的融合,前者在公眾眼中暫時(shí)蓋過了后者。正是出于這個(gè)原因,我們應(yīng)該注意歷史,”恢復(fù)”數(shù)據(jù)和知識(shí)領(lǐng)域成就的長(zhǎng)期意義。盡管過去的一些想法和發(fā)展在當(dāng)時(shí)可能并不成功,或者不為人所知(甚至根本不為人所知) ,但它們肯定包含著富有成效的想法,可以啟發(fā)和指導(dǎo)未來的研究。
數(shù)據(jù)傳統(tǒng)上被認(rèn)為是一種商品,而且是一種物質(zhì)商品---- 一種與格式、比特、物質(zhì)聯(lián)系在一起的東西,沒有語義本身。傳統(tǒng)上,知識(shí)被認(rèn)為是聚合式的“非物質(zhì)”對(duì)象,只存在于人們的思想和語言中。自20世紀(jì)下半葉以來,計(jì)算機(jī)技術(shù)將數(shù)據(jù)和知識(shí)的命運(yùn)聯(lián)系在了一起。
【關(guān)聯(lián)閱讀】
