如何用谷歌技術(shù)分析川普家族關(guān)系?
本文為知識圖譜領(lǐng)域相關(guān)文章,共計3個部分:
知識圖譜的起源 知識圖譜的現(xiàn)狀 知識圖譜的應(yīng)用場景
1 知識圖譜的起源
我最早了解到知識圖譜的起源就是Google,知識圖譜是2012年加入Google搜索,2012年5月16日正式發(fā)布,但什么時候開始有了知識圖譜的構(gòu)思和開始研發(fā)的并沒有對外公布,也沒有去追究這件事情,因為沒啥意義。
那么在Google,知識圖譜解決了什么問題呢?
我們都知道Google是一個搜索公司,那么在Google,知識圖譜是Google的一個知識庫,其使用語義檢索[1]從多種來源收集信息,以提高Google搜索的質(zhì)量。
那么知識圖譜怎么就提高了搜索的質(zhì)量呢?
我們經(jīng)常使用搜索引擎的方式就是關(guān)鍵字搜索。當使用一個句子進行搜索的時候,搜索引擎還是會把這個句子進行詞的切割然后再進行搜索。
使用關(guān)鍵字搜索的時候就面臨了一個問題:每當搜索完結(jié)果時,我們總是需要跳轉(zhuǎn)到其他頁面,瀏覽信息后再進行數(shù)據(jù)的匯總。
那么知識圖譜就解決了分散的信息結(jié)構(gòu)化的問題,使得我們搜索后可以一目了然的看到我們想要的關(guān)鍵信息。
注意:即使在今天,也不是所有的信息都能夠很好的結(jié)構(gòu)化,目前在人物關(guān)系的處理上是比較優(yōu)秀的。比如我們搜索了:特朗普
在搜索引擎的左側(cè)展示了特朗普相關(guān)的新聞,而在搜索引擎的右側(cè)就幫助我們匯聚了來自于不同網(wǎng)站的信息,信息中展示了特朗普家庭關(guān)系、個人屬性。
這就解釋了知識圖譜在搜索引擎中的部分應(yīng)用場景,這個場景就解決了信息的匯聚問題,我們不用再跳轉(zhuǎn)到其他頁面上去瀏覽信息并且進行數(shù)據(jù)匯總的工作了。
2 知識圖譜的現(xiàn)狀
目前國內(nèi)工業(yè)界的知識圖譜的應(yīng)用普及并不是非常的廣泛,大部分的圈外人士[2]對于知識圖譜的理解也僅僅認為它是人工智能的一個應(yīng)用方向。
目前應(yīng)用的比較深入的公司還是那些大廠,比如百度、阿里、騰訊等比較知名的互聯(lián)網(wǎng)公司都有專門從事知識圖譜項目開發(fā)的部門,甚至就叫知識圖譜部。
但很多的中小規(guī)模公司還不知道如何落地。甚至于很多公司的應(yīng)用步驟僅僅是
梳理業(yè)務(wù) 構(gòu)建圖關(guān)系 選用圖數(shù)據(jù)庫(一般是Neo4j) 自動生成Cypher 返回查詢結(jié)果
這樣非常粗糙的使用方法(甚至于部分大公司都在這樣用,這里就不點名了,你知道有就好,我把這個字弄的小一點)。
目前知識圖譜工程師的從業(yè)者并不多,但市場需求卻很大。但企業(yè)有時也把握不好知識圖譜工程師所應(yīng)該具備的技術(shù),這一點從招聘要求上就可以看出來。總之目前現(xiàn)狀是我們都知道這個東西有用,大家都想用,但不知道咋用。
網(wǎng)上大量的文章去講解知識圖譜的實現(xiàn)步驟基本上就三步:
知識抽取:講一下結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)中如何獲取知識 數(shù)據(jù)融合:講一下不同數(shù)據(jù)源獲取的知識進行融合構(gòu)建數(shù)據(jù)之間的關(guān)聯(lián) 知識應(yīng)用:講點知識譜圖相關(guān)的算法,比如路徑查找、中心度、社區(qū)發(fā)現(xiàn)等
你會發(fā)現(xiàn),你讀了這些文章,意思也都明白,但是還是不知道怎么用。讀了這篇文章后,其實也還是不知道怎么用,因為這涉及到工程及算法的綜合落地,不是三言兩語可以講清楚的。我會講一節(jié)公開課,免費的,跟你以聊天的方式聊聊落地的話題。
3 知識圖譜的應(yīng)用場景
知識圖譜的應(yīng)用場景很多,除了上邊我們提到過的搜索場景外,我們再來看一看有哪些應(yīng)用場景。
3.1 互聯(lián)網(wǎng)金融
有同學之前來過貪心學院[3]上過知識圖譜的公開課,可能了解過這是一個我最擅長的場景,因為這個場景中,我和我的團隊是國內(nèi)落地非常早的一個場景。
在互聯(lián)網(wǎng)金融場景中,知識圖譜可被應(yīng)用于實時風控和風控策略優(yōu)化等多個業(yè)務(wù)環(huán)節(jié),全面覆蓋了貸前、貸中和貸后。
上邊提到過的社區(qū)發(fā)現(xiàn)算法可應(yīng)用于發(fā)現(xiàn)團伙欺詐,做過金融的同學都知道,對于一個金融機構(gòu)最大的欺詐風險恰恰來源于團伙欺詐,而個體風險更多來源于逾期風險
3.2 電商
國內(nèi)的電商公司以阿里巴巴為代表,京東、拼多多等也有很重的市場份額,但技術(shù)方面以阿里巴巴為首,誰贊成誰反對?
如果你反對,那么也反對無效。阿里搜索推薦部正在使用電商知識圖譜AliCoCo[4]為廣大用戶提供著更加便捷和人性化的商品服務(wù),在文章中詳細的講解了AliCoCo的四個部分:
電商概念層(E-commerce Concepts) 原子概念層(Primitive Concepts) 分類體系(Taxonomy) 商品層 (Items)
如果你正在做知識圖譜的項目可以去閱讀了解一下,如果還沒有做,但想做暫時不建議閱讀,畢竟是一篇文章,不是體系化的知識,可以起到啟發(fā)的作用,但起不到系統(tǒng)學習的作用。3.3 在線教育
疫情,使得在線教育的發(fā)展進入了快速崛起期,別的公司不了解,但貪心學院正在落地知識圖譜技術(shù)在在線教育場景的應(yīng)用,正在為打造科技類在線教育公司而努力。
貪心學院打造教育知識圖譜,構(gòu)建了底層原子性的知識網(wǎng)絡(luò),為用戶提供個性化的教育場景。
3.4 公安
我在網(wǎng)上找了一張圖片,下圖這樣的
相信你看到這張圖片一下就能反應(yīng)出來我們經(jīng)常在電影中看到的警察破案時,在墻上釘上了各種人物的照片,用筆畫了他們之間的關(guān)系,這樣能夠幫助他們梳理出更清晰的破案線索,分析作案動機。
其實并不是只有電影中這樣做,在真實的公安系統(tǒng)中,也存在知識圖譜技術(shù)的應(yīng)用,這個場景里主要也是構(gòu)建了人與人之間的關(guān)系,其目的就是剛剛說過的為破案提供線索、梳理關(guān)系、分析動機,進而還原真相。
3.5 互聯(lián)網(wǎng)公司
比如天眼查、企查查等公司,使用知識圖譜技術(shù)構(gòu)建了公司、人物、股權(quán)等實體之間的關(guān)系,為個人和企業(yè)提供了一個深入了解各企業(yè)狀況的一個渠道。

除了以上場景其實知識圖譜還在下邊的場景中默默的發(fā)揮著作用:
醫(yī)療領(lǐng)域 法律領(lǐng)域 證券領(lǐng)域 ......
不知道你是不是正在從事上邊的任一行業(yè)中,以上內(nèi)容為知識圖譜的泛泛而談,我會準備一次公開課,目的是想跟大家探討一下知識圖譜在各公司的應(yīng)用場景,推進知識圖譜在各行業(yè)中的落地,把我的經(jīng)驗和大家的經(jīng)驗一起交流。
如果你是后端開發(fā)工程師,建議你過來聽一聽,因為這會打開你的視角,為你后續(xù)的職業(yè)發(fā)展提供一條嶄新的道路。
如果你是知識圖譜算法工程師,建議你過來聽一聽,因為通過本次公開課你會明白你應(yīng)該跟知識圖譜的算法在整個項目和工程中的位置,能夠讓你縱覽全局。
如果你是大數(shù)據(jù)工程師,建議你過來聽一聽,很多AI方向的應(yīng)用離不開大數(shù)據(jù)的支持,大數(shù)據(jù)跟知識圖譜之間到底有哪些關(guān)系,除此之外你還會了解更多大數(shù)據(jù)的應(yīng)用都有哪些方向,它不僅僅是數(shù)據(jù)倉庫的建設(shè)和數(shù)據(jù)平臺的搭建。
以上3個崗位是跟知識圖譜比較近的崗位,在工業(yè)落地時工作交集比較多的,如果其他崗位的同學,想要了解到底什么是知識圖譜也可以過來交流一下。我會以我曾經(jīng)是如何落地知識圖譜項目的全流程來講解我是如何應(yīng)用知識圖譜的。
掃描下方二維碼,一起來交流吧。
???
參考資料
語義檢索: https://zh.wikipedia.org/wiki/%E8%AF%AD%E4%B9%89%E6%A3%80%E7%B4%A2
[2]圈外人士: 還未從事知識圖譜工程師的技術(shù)人員
[3]貪心學院: https://www.greedyai.com
[4]AliCoCo: https://developer.aliyun.com/article/754652
