OpenKG地址:http://openkg.cn/tool/gbuilder
網(wǎng)站地址:http://gbuilder.gstore.cn
知識圖譜能夠讓機(jī)器去理解和認(rèn)知世界中的事物和現(xiàn)象,并解釋現(xiàn)象出現(xiàn)的原因,推理出隱藏在數(shù)據(jù)之間深層的、隱含的關(guān)系,使得知識圖譜技術(shù)從最初谷歌用來提升搜索引擎的結(jié)果來增強(qiáng)用戶體驗,到現(xiàn)在已經(jīng)被金融、公安、能源、教育、醫(yī)療等領(lǐng)域眾多行業(yè)進(jìn)行大量運用。

知識圖譜作為大數(shù)據(jù)和人工智能時代的關(guān)鍵技術(shù)已經(jīng)讓越來越多的人意識到它的重要性和價值。知識圖譜的應(yīng)用現(xiàn)在處于“百花齊放”的狀態(tài)。
知識圖譜全生命周期分為構(gòu)建、存儲管理、應(yīng)用三個階段。

知識圖譜的應(yīng)用已經(jīng)受到業(yè)內(nèi)廣泛關(guān)注,知識圖譜的存儲管理也有眾多解決方案。例如我們前期研發(fā)的開源知識圖譜圖數(shù)據(jù)庫系統(tǒng)gStore(http://www.gstore.cn/pcsite/index.html#/)就是知識圖譜存儲的工具。gStore在OpenKG上也有介紹 (http://www.openkg.cn/tool/gstore )
然而知識圖譜構(gòu)建卻鮮有統(tǒng)一化的平臺工具,但是這是知識圖譜生命周期的技術(shù)難點之一。

這是由于知識圖譜構(gòu)建是一項需要花費大量的人力和時間,卻不直接體現(xiàn)價值的工作,但知識圖譜構(gòu)建卻是最基礎(chǔ)、最關(guān)鍵的工作,是解決“巧婦難為無米之炊”窘境的核心手段。

北京大學(xué)王選計算機(jī)研究所和大數(shù)據(jù)分析與應(yīng)用技術(shù)國家工程實驗室(北京大學(xué))鄒磊教授團(tuán)隊通過兩年時間,打造了知識圖譜自動化構(gòu)建平臺gBuilder。gBuilder基于機(jī)器學(xué)習(xí)、自然語言處理、圖數(shù)據(jù)庫等技術(shù)可以實現(xiàn)對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的知識抽取,并轉(zhuǎn)化為知識圖譜三元組。

Schema設(shè)計
無論是結(jié)構(gòu)化項目還是非結(jié)構(gòu)化項目,均需首先設(shè)計知識圖譜Schema。知識圖譜Schema一方面可以描述知識圖譜中的實體類型、實體屬性和關(guān)系等信息,另一方面也是知識圖譜查詢和分析的重要參考,相當(dāng)于關(guān)系型數(shù)據(jù)庫的表結(jié)構(gòu)。同現(xiàn)有的Schema設(shè)計方法不一樣的是,gBuilder的Schema設(shè)計模塊是一個輕量級的Web平臺,以圖的方式來表述知識圖譜Schema,用戶可以通過拖拽的方式在畫布上設(shè)計類、類屬性和關(guān)系。

結(jié)構(gòu)化數(shù)據(jù)抽取對于結(jié)構(gòu)化項目而言,其知識抽取流程設(shè)計就是將結(jié)構(gòu)化表及字段,與Schema中的實體類型、屬性、關(guān)系等進(jìn)行映射,并形成映射文件。

gBuilder自動化構(gòu)建平臺結(jié)構(gòu)化數(shù)據(jù)抽取基于D2RQ平臺,讓用戶顯式地、可視化地處理結(jié)構(gòu)化數(shù)據(jù)抽取的所有步驟,擺脫復(fù)雜的映射語言,易于使用。當(dāng)前gBuilder能從MySQL、Oracle、SQL Server、PostgreSQL、達(dá)夢等關(guān)系型數(shù)據(jù)庫中將數(shù)據(jù)100%準(zhǔn)確的映射為RDF三元組數(shù)據(jù)。

非結(jié)構(gòu)化數(shù)據(jù)抽取對于非結(jié)構(gòu)化數(shù)據(jù)抽取而言是當(dāng)前知識圖譜圖譜構(gòu)建的重難點,例如給下圖一段文字,如何將里面的實體以及實體之間的關(guān)系準(zhǔn)確抽取出來是一個關(guān)鍵問題。當(dāng)前業(yè)內(nèi)對于非結(jié)構(gòu)數(shù)據(jù)的自動抽取產(chǎn)品還是較為欠缺。

對于非結(jié)構(gòu)化項目而言,需要通過加載數(shù)據(jù)集、設(shè)計構(gòu)建流程、開始構(gòu)建、構(gòu)建結(jié)束步驟。在構(gòu)建流程中gBuilder通過可視化拖拽的方式來自定義構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)知識圖譜構(gòu)建流程。同時gBuilder提供了大量的可選模型,它們有著不同的特性,以及在不同的數(shù)據(jù)上預(yù)訓(xùn)練,用戶可以根據(jù)需求,挑選出最合適的模型作為構(gòu)建模型,也可以使用自己的數(shù)據(jù)訓(xùn)練模型進(jìn)行圖譜構(gòu)建。構(gòu)建過程中可以隨時使用系統(tǒng)自帶的流程檢查功能和測試功能來測試流程的正確性與構(gòu)造效果。完成構(gòu)建后,可以查看構(gòu)建的結(jié)果,從非結(jié)構(gòu)化數(shù)據(jù)集中抽取出了構(gòu)建知識圖譜所需要的三元組。

具體抽取流程示例如下,用戶首先根據(jù)實際業(yè)務(wù)場景需要通過拖拽算子的方式構(gòu)建數(shù)據(jù)抽取流程,然后輸入非結(jié)構(gòu)化數(shù)據(jù),最后抽取出RDF三元組數(shù)據(jù)。例如輸入“小明是小王的爸爸”測試數(shù)據(jù),通過流程的一步步運行,最終抽取出“<小明> <父親> <小王> ”三元組數(shù)據(jù)。

在gBuilder平臺的非結(jié)構(gòu)化數(shù)據(jù)抽取詳細(xì)操作如下面動圖所示:

最后通過gBuilder抽取的RDF三元組數(shù)據(jù)同gBuilder團(tuán)隊研發(fā)的gStore圖數(shù)據(jù)庫系統(tǒng)無縫銜接,再加上該團(tuán)隊研發(fā)的面向知識圖譜自然語言問答引擎gAnswer,形成了覆蓋知識圖譜構(gòu)建、知識圖譜存儲管理和知識圖譜應(yīng)用的完整生命周期的知識圖譜一體化解決方案。

gBuilder整體采用微服務(wù)架構(gòu),主要模塊包括可視化Flowline工具庫,數(shù)據(jù)管理模塊,項目管理模塊、模型庫和任務(wù)中心;其中模型庫與任務(wù)中心等高負(fù)載組件采用多云融合方案,為用戶提供彈性、實時和可擴(kuò)展的知識圖譜構(gòu)建服務(wù)。

gBuilder具有可視化、易于使用、高擴(kuò)展、高延伸、靈活性以及支持多種語言(英語、中文)的特性,有力的支撐知識圖譜的構(gòu)建,打破“巧婦難為無米之炊”的窘境。后續(xù)gBuilder也將支持更多數(shù)據(jù)模型的知識圖譜構(gòu)建以豐富知識圖譜構(gòu)建生態(tài)和實際業(yè)務(wù)需要。也期待更多同行者加入我們一起打造和完善圖譜生態(tài)。