<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          詳解構(gòu)建知識圖譜的3個關(guān)鍵點

          共 4133字,需瀏覽 9分鐘

           ·

          2021-12-24 02:43


          導(dǎo)讀:知識圖譜是個很熱的話題,是學(xué)術(shù)界研究的熱點,也是工業(yè)界主推的重點。


          作者:木羊同學(xué)
          來源:華章計算機(ID:hzbook_jsj)




          我自己接觸到的就不下十個項目,都自稱使用了知識圖譜技術(shù)。不過,到底什么是知識圖譜,卻發(fā)現(xiàn)各家的理解差異很大——有人大唱贊歌,說知識圖譜能夠提煉經(jīng)驗、智慧;也有人大潑冷水,說知識圖譜的“知識庫”,實際就是數(shù)據(jù)庫,頂多再加個數(shù)據(jù)可視化。

          最近系統(tǒng)地讀了一遍《從零構(gòu)建知識圖譜》這本書,感覺挺有收獲。我們知道,技術(shù)最終要發(fā)揮作用,首先就得落地,不但要看紙面宣傳,還要看能拿在手里,最終能夠成為解決問題的工具。這本書所強調(diào)的正好就是實踐,讀完總算是對知識圖譜有了一個更客觀的理解。

          下面就從三個大家最感興趣的問題,分享一下我對知識圖譜的理解。


          01?什么是知識圖譜

          “知識圖譜”名字起得不太容易理解,光從字面看,我們能得到兩個信息:第一是這是一項有關(guān)“知識”的技術(shù),第二是這項技術(shù)主要采用的是圖結(jié)構(gòu)。圖結(jié)構(gòu)好理解,是一種常見的數(shù)據(jù)結(jié)構(gòu),但什么是“知識”?為什么要用圖結(jié)構(gòu)來表示?這些不清不楚的表述,容易妨礙我們理解知識圖譜。

          太抽象的術(shù)語不好理解,我們不妨對知識圖譜建立一個感性認識。《從零構(gòu)建知識圖譜》開篇舉了例子,我覺得特形象,這里直接引用:

          NBA愛好者阿楠想知道姚明的臂展,在十多年前,阿楠直接搜“姚明的臂展”這幾個字是無法直接得到結(jié)果的,他會找到一堆要么命中了“姚明”、要么命中了“臂展”的雜七雜八的頁面,然后經(jīng)過一番翻找,才可能在某張頁面里面找到需要的結(jié)果,而這個結(jié)果可能還不是最終想要的結(jié)果,而類似是“姚明的臂展是7英尺5英寸”,計量單位和我們熟知的不一致,還要再做一次換算,才能最終得到“姚明的臂展是226厘米”這個最終答案。

          但現(xiàn)在做同樣的事就簡單多了,阿楠在搜“姚明的臂展”,直接就能得到“姚明的臂展是226厘米”這個結(jié)果。這就是Google提出的“讓搜索通往答案本身”,背后所使用的技術(shù)正是本文的主角知識圖譜。

          知識圖譜最容易讓人望文生義的就是這個“知識”。什么是知識呢?“姚明的臂展是226厘米”是一條知識,“小米公司的董事長是雷軍”也是一條知識。用術(shù)語來說,就是關(guān)于某個實體的屬性或者關(guān)系信息。

          那什么是知識圖譜呢?《從零構(gòu)建知識圖譜》從不同角度進行了解釋,其中電子科技大學(xué)劉嶠教授的定義最直白,引用如下:

          知識圖譜,是結(jié)構(gòu)化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關(guān)系,其基本組成單位是“實體-關(guān)系-實體”三元組,以及實體及其相關(guān)屬性-值對。實體之間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識結(jié)構(gòu)。

          陳教授的這段定義不妨分兩個部分理解。首先是知識,陳教授給出的定義是“實體-關(guān)系-實體”三元組。什么是實體呢?上面提到的姚明、雷軍和小米公司都是實體。實體和實體之間可能存在某種關(guān)系,譬如說雷軍和小米公司這兩個實體之間就存在“就任董事長”的關(guān)系。

          姚明和雷軍這兩個實體之間也存在關(guān)系。我查了一下公開資料,兩位私下是不是朋友不得而知,但是都曾在2012年入選CCTV經(jīng)濟年度人物。不過這條知識是我純手工查出來的,如果構(gòu)建了相關(guān)領(lǐng)域的知識圖譜,那只要簡單點選一下,應(yīng)該就能查到兩位之間更多的關(guān)聯(lián)關(guān)系。

          實體之間的關(guān)系是一種知識,還有一種知識是實體的屬性-值對。這條結(jié)合前面的例子就很好理解了,姚明是實體,他的臂展是這個實體下面的一項屬性,屬性值就是226厘米。

          第二部分就是圖譜。知識至少包含一項實體,實體和實體之間可以通過關(guān)系相聯(lián)結(jié)。用什么數(shù)據(jù)結(jié)構(gòu)存儲比較好呢?圖結(jié)構(gòu)最合適。這就是定義所說的“實體和實體之間通過關(guān)系相聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識結(jié)構(gòu)”,這就是知識圖譜。



          02?構(gòu)建知識圖譜的主要流程

          知道了什么是知識圖譜,有什么用,那大家第二關(guān)心的問題自然就是怎么構(gòu)建知識圖譜。

          這是知識圖譜技術(shù)的核心部分,也是《從零構(gòu)建知識圖譜》這本書的主要內(nèi)容,涉及到機器學(xué)習(xí)、自然語言處理、邏輯推理、圖論等等理論知識,還有數(shù)據(jù)庫以及各種工具的使用,內(nèi)容多而且雜,篇幅有限不可能都講清楚,不過,這里可以梳理出一條構(gòu)建知識圖譜主要脈絡(luò)。以下是我個人的一點理解。

          構(gòu)建知識圖譜,有三個關(guān)鍵點,分別是知識源、知識抽取知識推理

          1.?知識源

          首先是知識源。知識圖譜說到底只是一項技術(shù),本身不生產(chǎn)知識,只是知識的搬運工。那從哪里搬運呢?首先就得有知識源。

          自然界沒有一個專門就叫“知識源”的東西,但自然界到處都是知識源,譬如說我們想查姚明的信息,都會習(xí)慣去查百科,百科就是一種知識源。當然,除了百科,其它的知識源還有很多,譬如說各種產(chǎn)品的官網(wǎng),又譬如說新聞網(wǎng)站,前面那條“雷軍和姚明共同入選2012年CCTV經(jīng)濟年度人物”,就是在新聞網(wǎng)站上查到的。

          知識源可以說的不多,或者說太多,你需要構(gòu)建什么知識圖譜,首先就是要找到對應(yīng)的知識源。

          2.?知識抽取

          找到知識源以后,接著要做的就是知識抽取知識是以一定格式存放在知識源上的,比如說一篇文章,或者一份表格。要抽取知識,就要解析對特定的格式做解析,總的來說有三類:結(jié)構(gòu)化數(shù)據(jù)的抽取、非結(jié)構(gòu)化數(shù)據(jù)的抽取和半結(jié)構(gòu)化數(shù)據(jù)的抽取。

          結(jié)構(gòu)化數(shù)據(jù)的抽取的難度最低,譬如說用電子表格或者數(shù)據(jù)庫存儲的數(shù)據(jù)。這些數(shù)據(jù)預(yù)先已經(jīng)做了整理,具備一定的格式,做數(shù)據(jù)抽取只需要將對應(yīng)的內(nèi)容抽取出來就可以了。

          非結(jié)構(gòu)化數(shù)據(jù)的抽取難度最大,但是大量的數(shù)據(jù)都屬于非結(jié)構(gòu)化數(shù)據(jù),譬如說一篇文章,一份講話等等。做非結(jié)構(gòu)化數(shù)據(jù)的抽取,首先需要使用自然語言處理領(lǐng)域的信息抽取技術(shù),通過實體抽取、關(guān)系抽取和事件抽取等三項任務(wù),將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成為結(jié)構(gòu)化數(shù)據(jù),然后才能接著完成后面的任務(wù)。

          最后是半結(jié)構(gòu)化數(shù)據(jù)的抽取。先說一點,我看的比較多的分法,是將數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),《從零構(gòu)建知識圖譜》這本書專門又多分了一類半結(jié)構(gòu)化數(shù)據(jù),仔細讀了一遍,我的理解是半結(jié)構(gòu)化數(shù)據(jù)其實就是“帶有結(jié)構(gòu)化數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù)”。

          聽起來拗口,其實很簡單,譬如說一篇帶表格的文章。表格是結(jié)構(gòu)化數(shù)據(jù),文章是半結(jié)構(gòu)化數(shù)據(jù),帶表格的文章就是這里的半結(jié)構(gòu)化數(shù)據(jù)。

          書里給出了的方法,用是包裝器抽取來半結(jié)構(gòu)化數(shù)據(jù)。實踐上其實很簡單,既然是帶有結(jié)構(gòu)化數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù),那就用抽取結(jié)構(gòu)化數(shù)據(jù)的方法來對付其中的結(jié)構(gòu)化數(shù)據(jù),剩下的作為半結(jié)構(gòu)化數(shù)據(jù)來抽取不就可以了。

          3.?知識推理

          最后是知識推理。推理本身就有點玄乎,知識推理又用到了同樣有點玄乎的圖論,所以一般將知識圖譜的文章,在知識推理這塊就不太容易講清楚。

          其實舉個例子大家就知道什么是知識推理了。前面說“姚明的臂展是226厘米”,這就經(jīng)過知識推理,用到了兩條知識。第一條知識是“姚明的臂展是7英尺5英寸”,第二條知識是“7英尺5英寸約等于226厘米”,那么雖然我們在知識抽取階段沒法直接得到姚明的臂展到底是多少厘米,但通過對這兩條知識的推理,也能得到“姚明的臂展是226厘米”。

          用術(shù)語來說,已知由A可得到B,由B可得到C,可知由A可得到C。這就是推理。



          03?深度學(xué)習(xí)+知識圖譜

          最后聊一下一個一不小心就頂流的話題,深度學(xué)習(xí)+知識圖譜。深度學(xué)習(xí)是個大IP,知識圖譜也是個大IP,所以理所當然,深度學(xué)習(xí)+知識圖譜是個超級大IP,想在頂會上刷知識圖譜,靠的就是從這個超級大IP上面的蹭熱度。

          怎么蹭呢?首先一點,深度學(xué)習(xí)+知識圖譜不是另起爐灶,事還都是那幾件事,問題也還都是那一些問題,那有什么不同呢?不同的是用深度學(xué)習(xí)的方法來解決。

          前面說構(gòu)建知識圖譜有一個重要環(huán)節(jié),叫知識抽取,具體來說,就是從知識源中抽取實體和關(guān)系。結(jié)構(gòu)化數(shù)據(jù)好說,非結(jié)構(gòu)化數(shù)據(jù)難辦,洋洋灑灑的一篇文章,怎么才能抽取其中的實體和關(guān)系呢?

          有兩種方法。傳統(tǒng)的方法是寫規(guī)則,通過規(guī)則命中來進行抽取。每一條規(guī)則都需要人工手寫,所以可想而知,這種方法費時費力,而且費力還不討好,容易掛一漏萬。現(xiàn)在深度學(xué)習(xí)起來了,抽取工作也可以通過深度學(xué)習(xí)模型來完成。

          這塊《從零構(gòu)建知識圖譜》沒太展開,這里多啰嗦幾句。Tranformer模型是近年深度學(xué)習(xí)領(lǐng)域的頂流,可以說在自然語言處理(NLP)方面的頂會,寫滿的全是Tranformer的名字。這兩年又搞出了新動靜,準備向計算機視覺(CV)進軍,搶一搶CNN模型的飯碗。

          Tranformer完全可以用來做命名實體識別(NER)任務(wù),使用簡單而且效果奇好。用Tranformer是最前沿(Sota)的方法,比《從零構(gòu)建知識圖譜》提到的方法要更新,大家可以通過Spacy或者HunggingFace的Pipeline試試。

          關(guān)于作者:莫凡,網(wǎng)名木羊同學(xué)。娛樂向機器學(xué)習(xí)解說選手,《機器學(xué)習(xí)算法的數(shù)學(xué)解析與Python實現(xiàn)》作者,前沿技術(shù)發(fā)展觀潮者,擅長高冷技術(shù)的“白菜化”解說,微信公眾號“睡前機器學(xué)習(xí)”,個人知乎號“木羊”。


          延伸閱讀??

          從零構(gòu)建知識圖譜:技術(shù)、方法與案例

          推薦語:這是一本能讓讀者快速從零開始構(gòu)建工業(yè)級知識圖譜的著作。本書不僅詳細講解了知識圖譜的技術(shù)原理和構(gòu)建工具,而且還循序漸進地講解了知識圖譜的構(gòu)建方法、步驟和行業(yè)應(yīng)用。配有大量實戰(zhàn)案例,并且開放了源代碼,確保讀者能學(xué)會并落地。作者是知識圖譜和自然語言處理領(lǐng)域的專家,本書得到了OpenKG聯(lián)合創(chuàng)始人王昊奮、清華大學(xué)教授李涓子等學(xué)界和業(yè)界知識圖譜扛旗人的一致好評和推薦。

          干貨直達??



          更多精彩??

          在公眾號對話框輸入以下關(guān)鍵詞
          查看更多優(yōu)質(zhì)內(nèi)容!

          讀書?|?書單?|?干貨?|?講明白?|?神操作?|?手把手
          大數(shù)據(jù)?|?云計算?|?數(shù)據(jù)庫?|?Python?|?爬蟲?|?可視化
          AI?|?人工智能?|?機器學(xué)習(xí)?|?深度學(xué)習(xí)?|?NLP
          5G?|?中臺?|?用戶畫像?|?數(shù)學(xué)?|?算法?|?數(shù)字孿生

          據(jù)統(tǒng)計,99%的大咖都關(guān)注了這個公眾號
          ??
          瀏覽 26
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  免费无码又爽又黄又刺激网站 | 操逼片国产 | 九九在线观看视频 | 国产做受 高潮豆麻 | 国产无码免费高清 |