<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          什么是知識圖譜?有哪些典型應(yīng)用?終于有人講明白了

          共 5077字,需瀏覽 11分鐘

           ·

          2021-08-24 11:29

          導讀:本文將詳細闡述知識圖譜的基本概念,包括知識圖譜的背景、定義以及典型應(yīng)用。


          01 知識圖譜背景


          在給出知識圖譜的定義之前,我們先分開討論一下什么是知識,什么是圖譜。


          1. 什么是知識


          首先看一下什么是知識。有讀者可能會提出這樣的問題,在大數(shù)據(jù)時代,人類擁有海量的數(shù)據(jù),這是不是代表人類可以隨時隨地利用無窮無盡的知識呢?答案是否定的。


          知識是人類在實踐中認識客觀世界(包括人類自身)的成果,它包括事實、信息、描述以及在教育和實踐中獲得的技能。知識是人類從各個途徑中獲得的經(jīng)過提升、總結(jié)與凝煉的系統(tǒng)的認識。


          因此,可以這樣理解,知識是人類對信息進行處理之后的認識和理解,是對數(shù)據(jù)和信息的凝煉、總結(jié)后的成果。


          讓我們來看一下Rowley在2007年提出的DIKW體系[1],如圖1-3所示,從數(shù)據(jù)、信息、知識到智慧,是一個不斷凝煉的過程。


          ▲圖1-3 DIKW體系


          舉一個簡單的例子,226.1厘米,229厘米,都是客觀存在的孤立的數(shù)據(jù)。此時,數(shù)據(jù)不具有任何意義,僅表達一個客觀事實。而“姚明臂展226.1厘米”“姚明身高229厘米”是事實型的陳述,屬于信息的范疇。


          知識,則是對信息層面的抽象和歸納,把姚明的身高、臂展,及其他屬性整合起來,就得到了對于姚明的一個認知,也可以進一步了解到姚明的身高是比普通人高的。對于最后的智慧層面,Zeleny提到的智慧是指知道為什么(Know-Why)[2],感興趣的讀者可以自行了解,本文暫不對此進行深入探討。 


          2. 什么是圖譜


          那么什么是圖譜?圖譜的英文是Graph,直譯過來就是“圖”的意思。在圖論(數(shù)學的一個研究分支)中,圖表示一些事物(Object)與另一些事物之間相互連接的結(jié)構(gòu)。


          一張圖通常由一些結(jié)點(Vertice或Node)和連接這些結(jié)點的(Edge)組成?!皥D”這一名詞是由詹姆斯·約瑟夫·西爾維斯特在1878年首次提出的[3]。圖1-4是一個非常簡單的圖,它由6個結(jié)點和7條邊組成。


          ▲圖1-4 由6個結(jié)點和7條邊組成的圖示例


          從字面上看,知識圖譜就是用圖的形式將知識表示出來。圖中的結(jié)點代表語義實體或概念,邊代表結(jié)點間的各種語義關(guān)系。


          我們再將姚明的一些基本信息,用計算機所能理解的語言表示出來,構(gòu)建一個簡單的知識圖譜。比如,<姚明,國籍,中國>表示姚明的國籍是中國,其中“姚明”和“中國”是兩個結(jié)點,而結(jié)點間的關(guān)系是“國籍”。


          這是一種常用的基于符號的知識表示方式——資源描述框架(Resource Description Framework,RDF),它把知識表示為一個包含主語(Subject)、謂語(Predicate)和賓語(Object)的三元組<S,P,O>。



          02 知識圖譜的定義


          上一節(jié)對知識圖譜給出了一個具象的描述,即它是由結(jié)點和邊組成的語義網(wǎng)絡(luò)。那么該如何準確定義知識圖譜呢?這里我們可以先回顧一下其概念的演化歷程。


          知識圖譜概念的演化歷程如圖1-5所示。


          ▲圖1-5 知識圖譜概念的演化歷程


          語義網(wǎng)絡(luò)由劍橋語言研究所的Richard H. Richens提出,前文中已經(jīng)簡單介紹了語義網(wǎng)絡(luò)的含義。它是一種基于圖的數(shù)據(jù)結(jié)構(gòu),是一種知識表示的手段,可以很方便地將自然語言轉(zhuǎn)化為圖來表示和存儲,并應(yīng)用在自然語言處理問題上,例如機器翻譯、問答等。


          到了20世紀80年代,研究人員將哲學概念本體(Ontology)引入計算機領(lǐng)域,作為“概念和關(guān)系的形式化描述”, 后來,Ontology也被用于為知識圖譜定義知識體系(Schema)。


          而真正對知識圖譜產(chǎn)生深遠影響的是Web的誕生。Tim Berners-Lee在1989年發(fā)表的“Information Management: A Proposal”[4]中提出了Web的愿景, Web應(yīng)該是一個以“鏈接”為中心的信息系統(tǒng)(Linked Information System),以圖的方式相互關(guān)聯(lián)。


          Tim認為“以鏈接為中心“和“基于圖的方式”,相比基于樹的固定層次化組織方式更加有用,從而促成了萬維網(wǎng)的誕生。我們可以這樣理解,在Web中,每一個網(wǎng)頁就是一個結(jié)點,網(wǎng)頁中的超鏈接就是邊。但其局限性是顯而易見的,比如,超鏈接只能說明兩個網(wǎng)頁是相互關(guān)聯(lián)的,而無法表達更多信息。


          1994年,在第一屆國際萬維網(wǎng)大會上,Tim又指出,人們搜索的并不是頁面,而是數(shù)據(jù)或事物本身,由于機器無法有效地從網(wǎng)頁中識別語義信息,因此僅僅建立Web頁面之間的鏈接是不夠的,還應(yīng)該構(gòu)建對象、概念、事物或數(shù)據(jù)之間的鏈接。


          隨后在1998年,Tim正式提出語義網(wǎng)(Semantic Web)的概念。語義網(wǎng)是一種數(shù)據(jù)互連的語義網(wǎng)絡(luò),它仍然基于圖和鏈接的組織方式,但圖中的結(jié)點不再是網(wǎng)頁,而是實體。


          通過為全球信息網(wǎng)上的文檔添加“元數(shù)據(jù)”(Meta Data),讓計算機能夠輕松理解網(wǎng)頁中的語義信息,從而使整個互聯(lián)網(wǎng)成為一個通用的信息交換媒介。我們可以將語義網(wǎng)理解為知識的互聯(lián)網(wǎng)(Web of Knowledge)或者事物的互聯(lián)網(wǎng)(Web of Thing)。


          2006年,Tim又提出了鏈接數(shù)據(jù)(Linked Data)的概念,進一步強調(diào)了數(shù)據(jù)之間的鏈接,而不僅僅是文本的數(shù)據(jù)化。后文還會介紹鏈接開放數(shù)據(jù)(Linked Open Data,LOD)項目,它也是為了實現(xiàn)Tim有關(guān)鏈接數(shù)據(jù)作為語義網(wǎng)的一種實現(xiàn)的設(shè)想。


          隨后在2012年,Google基于語義網(wǎng)中的一些理念進行了商業(yè)化實現(xiàn),其提出的知識圖譜概念也沿用至今。


          可以看到,知識圖譜的概念是和Web、自然語言處理(NLP)、知識表示(KR)、數(shù)據(jù)庫(DB)、人工智能(AI)等密切相關(guān)的。所以我們可以從以下幾個角度去了解知識圖譜。 


          • 從Web的角度來看,像建立文本之間的超鏈接一樣,構(gòu)建知識圖譜需要建立數(shù)據(jù)之間的語義鏈接,并支持語義搜索,這樣就改變了以前的信息檢索方式,可以以更適合人類理解的語言來進行檢索,并以圖形化的形式呈現(xiàn)。

          • 從NLP的角度來看,構(gòu)建知識圖譜需要了解如何從非結(jié)構(gòu)化的文本中抽取語義和結(jié)構(gòu)化數(shù)據(jù)。

          • 從KR的角度來看,構(gòu)建知識圖譜需要了解如何利用計算機符號來表示和處理知識。

          • 從AI的角度來看,構(gòu)建知識圖譜需要了解如何利用知識庫來輔助理解人類語言,包括機器翻譯問題的解決。

          • 從DB的角度來看,構(gòu)建知識圖譜需要了解使用何種方式來存儲知識。


          由此看來,知識圖譜技術(shù)是一個系統(tǒng)工程,需要綜合利用各方面技術(shù)。國內(nèi)的一些知名學者也給出了關(guān)于知識圖譜的定義。這里簡單列舉了幾個。


          電子科技大學的劉嶠教授給出的定義是:


          知識圖譜,是結(jié)構(gòu)化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關(guān)系,其基本組成單位是“實體–關(guān)系–實體”三元組,以及實體及其相關(guān)屬性–值對,實體之間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識結(jié)構(gòu)[5]。


          清華大學的李涓子教授給出的定義是:


          知識圖譜以結(jié)構(gòu)化的方式描述客觀世界中概念、實體及其關(guān)系,將互聯(lián)網(wǎng)的信息表示成更接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力[6]


          浙江大學的陳華鈞教授對知識圖譜的理解是:


          知識圖譜旨在建模、識別、發(fā)現(xiàn)和推斷事物、概念之間的復雜關(guān)系,是事物關(guān)系的可計算模型,已經(jīng)被廣泛應(yīng)用于搜索引擎、智能問答、語言理解、視覺場景理解、決策分析等領(lǐng)域。


          東南大學的漆桂林教授給出的定義是:


          知識圖譜本質(zhì)上是一種叫作語義網(wǎng)絡(luò)的知識庫,即一個具有有向圖結(jié)構(gòu)的知識庫,其中圖的結(jié)點代表實體或者概念,而圖的邊代表實體/概念之間的各種語義關(guān)系[7]。


          當前,無論是學術(shù)界還是工業(yè)界,對知識圖譜還沒有一個唯一的定義,本文的重點也不在于給出理論上的精確定義,而是嘗試從工程的角度,講解如何構(gòu)建有效的知識圖譜。有一些常見概念,這里列舉如下。


          • 實體:對應(yīng)一個語義本體,例如“姚明”“中國”等。

          • 屬性:描述一類實體的特性(例如“身高”:姚明的身高是229厘米)。

          • 關(guān)系:對應(yīng)語義本體之間的關(guān)系,將實體連接起來(例如“國籍”:姚明的國籍是中國)。


          有些學者也將屬性定義為關(guān)系,屬于屬性關(guān)系的一種。但本文將屬性和關(guān)系作為兩種不同的概念區(qū)別對待。



          03 知識圖譜的典型應(yīng)用


          我們在前文中已經(jīng)接觸到了知識圖譜對搜索引擎的成功應(yīng)用。知識圖譜為搜索提供了豐富的結(jié)構(gòu)化結(jié)果,體現(xiàn)了信息和知識的關(guān)聯(lián),可以通過搜索直接得到答案。


          除了通用搜索引擎之外,在一些特定領(lǐng)域中,知識圖譜也發(fā)揮著重要作用,例如同花順公司的問財系統(tǒng)、文因互聯(lián)的文因企業(yè)搜索等。


          1. 醫(yī)療領(lǐng)域


          在醫(yī)療領(lǐng)域,為了降低發(fā)現(xiàn)新藥的難度,Open Phacts聯(lián)盟構(gòu)建了一個發(fā)現(xiàn)平臺,通過整合來自各種數(shù)據(jù)源的藥理學數(shù)據(jù),構(gòu)建知識圖譜,來支持藥理學研究和藥物發(fā)現(xiàn)。


          IBM Waston通過構(gòu)建醫(yī)療信息系統(tǒng),以及一整套的問答和搜索框架,以腫瘤診斷為核心,成功應(yīng)用于包括慢病、醫(yī)療影像、體外檢測在內(nèi)的九大醫(yī)療領(lǐng)域。


          其第一步商業(yè)化運作是打造了一個腫瘤解決方案(Waston for Oncology),通過輸入紀念斯隆·凱特琳癌癥中心的數(shù)千份病例、1500萬頁醫(yī)學文獻,可以為不同的腫瘤病人提供個性化治療方案,連同醫(yī)學證據(jù)一起推薦給醫(yī)生。


          2. 金融投資領(lǐng)域


          在投資研究領(lǐng)域,成立于2010年的AlphaSense公司打造了一款新的金融知識引擎。


          與傳統(tǒng)的金融信息數(shù)據(jù)平臺不同,這款知識引擎并不僅僅局限在金融數(shù)據(jù)的整合和信息平臺的范圍,而是通過構(gòu)建知識圖譜,加上自然語言處理和語義搜索引擎,讓用戶可以更方便地獲取各種素材并加工再使用。


          另外一款非常具有代表性的金融知識引擎是Kensho。它通過從各種數(shù)據(jù)源搜集信息,構(gòu)建金融知識圖譜,并關(guān)注事件和事件之間的依賴,以及對結(jié)果的關(guān)聯(lián)和推理,從而可為用戶提供自動化語義分析、根據(jù)特定行情判斷走勢等功能。


          3. 政府管理和安全領(lǐng)域


          在政府管理和安全領(lǐng)域,一個具有代表性的案例是Palantir,因通過大規(guī)模知識圖譜協(xié)助抓住了本·拉登而聲名大噪。


          其核心技術(shù)是整理、分析不同來源的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),為相關(guān)人員提供決策支持。例如在軍事情報分析系統(tǒng)中,將多源異構(gòu)信息進行整合,如電子表格、電話、文檔、傳感器數(shù)據(jù)、動態(tài)視頻等,可以對人員、裝備、事件進行全方位實時的監(jiān)控分析,使調(diào)度人員第一時間掌握戰(zhàn)場態(tài)勢,并做出預(yù)判。


          除了協(xié)助抓住本·拉登,Palantir的另外一項赫赫有名的成就是協(xié)助追回了前納斯達克主席麥道夫金融欺詐案的數(shù)十億美金。


          4. 電商領(lǐng)域


          在電商領(lǐng)域,阿里巴巴生態(tài)積聚了海量的商品和交易數(shù)據(jù),它以商品、產(chǎn)品、品牌和條碼為核心,構(gòu)建了百億級別的商品知識圖譜,可以廣泛應(yīng)用于搜索、導購、平臺治理、智能問答等業(yè)務(wù),同時保持每天千萬級別的惡意攻擊攔截量,極大提升了消費者的購物體驗。


          5. 聊天機器人領(lǐng)域


          在聊天機器人領(lǐng)域,具有問答功能的產(chǎn)品,例如Siri、微軟小冰、公子小白、琥珀·虛顏、天貓精靈、小米音箱,背后均有大規(guī)模知識圖譜的支持。


          例如在琥珀·虛顏中,除了有通用百科知識圖譜——“七律”的支持,還有子領(lǐng)域,例如動漫知識圖譜、美食知識圖譜、星座知識圖譜的支持。圖1-13給出了公子小白在多類別知識圖譜融合后的一個問答對話示例。


          ▲圖1-13 公子小白對話示例


          (歡迎大家加入數(shù)據(jù)工匠知識星球獲取更多資訊。)

          聯(lián)系我們

          掃描二維碼關(guān)注我們

          微信:SZH9543
          郵箱:[email protected]
          QQ:2286075659

          熱門文章


          前同事被裁員,股票清零!


          華為對咨詢顧問的價值定位


          企業(yè)多數(shù)據(jù)中心演進:從“兩地三中心”到“分布式多活”


          數(shù)據(jù)產(chǎn)品經(jīng)理基礎(chǔ)技能:數(shù)據(jù)需求說明文檔怎么寫?


          以“數(shù)”點石成金,用“脈”聚金成塔


          究竟究竟哪家企業(yè)的數(shù)字化轉(zhuǎn)型成功了?這篇文章終于說明白了!

          我們的使命:發(fā)展數(shù)據(jù)治理行業(yè)、普及數(shù)據(jù)治理知識、改變企業(yè)數(shù)據(jù)管理現(xiàn)狀、提高企業(yè)數(shù)據(jù)質(zhì)量、推動企業(yè)走進大數(shù)據(jù)時代。

          我們的愿景:打造數(shù)據(jù)治理專家、數(shù)據(jù)治理平臺、數(shù)據(jù)治理生態(tài)圈。

          我們的價值觀:凝聚行業(yè)力量、打造數(shù)據(jù)治理全鏈條平臺、改變數(shù)據(jù)治理生態(tài)圈。

          了解更多精彩內(nèi)容


          長按,識別二維碼,關(guān)注我們吧!

          數(shù)據(jù)工匠俱樂部

          微信號:zgsjgjjlb

          專注數(shù)據(jù)治理,推動大數(shù)據(jù)發(fā)展。

          瀏覽 91
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  黑人大吊操\逼 | 成人免费在线视频网站 | 青青草乱伦视频 | 色哟哟精品一区二区 | 高清视频无码免费 |