萬字長文:近年來學(xué)界、業(yè)界視角下的“事理圖譜”發(fā)展總結(jié)與思考
一、引言
大部分技術(shù)都會經(jīng)歷從提出,到驗證,再到修正,再到落地的這樣一個過程。事理圖譜這個概念從國內(nèi)學(xué)者自2017年提出到現(xiàn)在,已經(jīng)經(jīng)歷了近4年的時間,那么在這四年的時間里,事理圖譜目前處于一個什么樣的狀態(tài)。學(xué)界通常會抽離和建模一些確定的問題,業(yè)界則更傾向于從解決實際業(yè)務(wù)問題出發(fā)來復(fù)制、檢驗技術(shù)。作為參與國內(nèi)事理圖譜技術(shù)落地探索的一個參與者,對于事理圖譜的工作開展了不少,并且也不斷地在反思事理圖譜在整個發(fā)展過程中的一些現(xiàn)實問題。
我在事理圖譜中的工作中,有幾篇代表性工作可以作為參考,列舉其中的十篇,以增加對事理圖譜的整個發(fā)展變化以及具體問題的認知,如下:
1、《我們的實踐:事理圖譜,下一代知識圖譜》,地址:https://blog.csdn.net/lhy2014/article/details/85247268。這篇文章是2018年寫的,關(guān)于事理圖譜的第一篇文章,初步地介紹了關(guān)于事理圖譜的一些想法和認識。
2、《知識表示發(fā)展史:從一階謂詞邏輯到知識圖譜再到事理圖譜》,地址:https://blog.csdn.net/lhy2014/article/details/86470565。這篇文章中,將事理圖譜定義為一種規(guī)則類的知識表示方法,并展示了利用事理圖譜進行事件監(jiān)測預(yù)警的應(yīng)用平臺雛形。
3、《我們的實踐: 400萬全行業(yè)動態(tài)事理圖譜Demo》,地址:https://blog.csdn.net/lhy2014/article/details/86516706,全行業(yè)金融事理圖譜的可視化雛形系統(tǒng),第一次展示了事理圖譜的具像化形式。
4、《事件抽取與事理圖譜的N個問題》,地址:https://blog.csdn.net/lhy2014/article/details/89115787,開始思考事理圖譜中的若干個問題。
5、《事理圖譜概念辨析及其與風(fēng)險標簽分類結(jié)合的應(yīng)用探討》,地址:https://blog.csdn.net/lhy2014/article/details/90522846,對事理圖譜概念進行辨析,并思考事理圖譜的概念界定以及應(yīng)用問題。
6、《50萬抽象知識圖譜項目(實體抽象、性狀抽象與動作抽象)》,地址:https://blog.csdn.net/lhy2014/article/details/98483003,對外發(fā)布抽象知識圖譜項目,提出利用外部知識庫進行事件抽象的方法以及抽象資源。
7、《事理圖譜:一種純學(xué)術(shù)需求、無法落地、漏洞百出的新技術(shù)或新概念?》,地址:https://blog.csdn.net/lhy2014/article/details/102093751,一年后,開始審視事理圖譜這個概念或技術(shù)本身存在的問題,全面反思。
8、《淺談事理圖譜認知:系統(tǒng)體系+領(lǐng)域收斂+人機協(xié)同+輔助范式》,地址:https://blog.csdn.net/lhy2014/article/details/102526880,由于事理圖譜構(gòu)建過程中存在質(zhì)量問題,開始思考事理圖譜的領(lǐng)域性、人機協(xié)同性以及輔助范式。
9、《全行業(yè)事理圖譜V3.0正式發(fā)布:基于實證的由因求果、由果溯因,因果路徑發(fā)現(xiàn)》,地址:https://blog.csdn.net/lhy2014/article/details/103058140,全行業(yè)事理圖譜3.0發(fā)布,對事理圖譜形態(tài)展示進一步細化,由因求果、由果溯因,因果路徑發(fā)現(xiàn)的目的明確。
10、《實時事理邏輯知識庫(事理圖譜)終身學(xué)習(xí)項目-EventKGNELL(學(xué)跡)》,地址:https://blog.csdn.net/lhy2014/article/details/104942972,將終身學(xué)習(xí)引入至事理圖譜建設(shè),搭建起實時的事理圖譜知識庫學(xué)習(xí)框架,并將實證搜索引入事理圖譜應(yīng)用形態(tài),以緩解事理圖譜自身質(zhì)量的可靠性。
從發(fā)文的脈絡(luò)中,我們可以發(fā)現(xiàn),整個事理圖譜的研究與落地歷程經(jīng)歷了從提出到反思,再到妥協(xié)的這樣一個過程,當然,目前國內(nèi)還有很多研究人員、單位、公司也在著手在進行事理圖譜相關(guān)的研究工作。為了得到更為全局的信息,本文從學(xué)界與業(yè)界兩個角度出發(fā),對其進行簡易的分析。
二、CNKI視角(學(xué)界)下的國內(nèi)事理圖譜研究
1、CNKI視角下的國內(nèi)事理圖譜研究定量分析
中國知網(wǎng)(CNKI)是收錄國內(nèi)文獻期刊較為權(quán)威的一個數(shù)據(jù)庫,可以通過檢索相關(guān)主題詞的方式,從該平臺中得到有關(guān)該主題的研究情況。筆者以“事理圖譜”作為主題詞進行檢索,得到了以下分析結(jié)果。

圖1-CNKI中“事理圖譜”為主題詞的發(fā)文記錄
上圖展示了事理圖譜者以主題在這幾年的研究情況,從中我們可以看到,在記錄的有效樣(共27篇,其中碩士論文10篇,期刊論文17篇)中,國內(nèi)的事理圖譜研究開始自2018年,并且在2020年大規(guī)模上升(達到15篇),2021年過半發(fā)文數(shù)量也達到5篇,這一定程度上說明了“事理圖譜”的熱度。
2、CNKI視角下的國內(nèi)事理圖譜研究定性分析
分析一個熱點的發(fā)展,通常可以從定性和定量兩個角度進行分析。通過對事理圖譜研究相關(guān)的文獻主題進行統(tǒng)計分析,我們可以得到這些文獻在這方面研究中的主題分布。下圖從論文名稱、論文時間、論文類型以及論文關(guān)鍵詞四個方面對研究的文獻進行了列舉。

圖2-CNKI中事理圖譜論文研究的分布
通過對如上事理圖譜文獻的行文結(jié)構(gòu)進行分析后,我們可以看到,當前的事理圖譜主要集中在特定領(lǐng)域事件抽取、因果關(guān)系抽取、事件表示學(xué)習(xí)、事理圖譜構(gòu)建以及事理圖譜的可視化與分析研究等幾個方面,具體涉及事理圖譜、事件同指消解、事件抽取、事件關(guān)系識別、事理知識庫的構(gòu)建及應(yīng)用、因果關(guān)系抽取、事件表示學(xué)習(xí)。其中:
1)特定領(lǐng)域事件抽取。涉及融合義原的特定領(lǐng)域事件抽取、事件散三元組。在抽取方式上,包括融合字向量的DMCNN事件抽取、基于BERT+BiLSTM的事件抽取。
2)因果關(guān)系抽取。涉及基于模式匹配的顯式因果關(guān)系抽取,包括:關(guān)聯(lián)詞知識庫、因果關(guān)系模式及限制條件、關(guān)系模式匹配優(yōu)先級排序、因果句法模式、因規(guī)則模板。基于依存語法分析的事件抽取方法;基于監(jiān)督學(xué)習(xí)的隱式因果關(guān)系抽取,包括基于自注意力機制雙向LSTM方法、基于預(yù)訓(xùn)練模型的有監(jiān)督事件因果關(guān)系抽取、基于自訓(xùn)練的半監(jiān)督事件因果關(guān)系抽取、基于Attention_BiLSTM的隱式關(guān)系抽取、基于BERT+Bi-LSTM+Attention+CRF抽取模型
3)事件表示學(xué)習(xí)。涉及事件的詞向量表示,包括基于TF-IDF的事件詞向量表示、基于word2vec的事件詞向量表示、基于張量神經(jīng)網(wǎng)絡(luò)的事件表示學(xué)習(xí)、常識信息增強的事件表示學(xué)習(xí),包括融合實體關(guān)系信息的事件表示學(xué)習(xí)、融合意圖信息的事件表示學(xué)習(xí)、融合情感信息的事件表示學(xué)習(xí)、融合實體關(guān)系、意圖、情感的事件表示聯(lián)合學(xué)習(xí)。
4)事理圖譜構(gòu)建。包括事件同指消解、圖的修剪、邊轉(zhuǎn)移概率的計算、事件因果強度研究(包括基于統(tǒng)計的因果關(guān)系強度計算、基于預(yù)訓(xùn)練模型的因果關(guān)系強度計算)等研究內(nèi)容。
5)事理圖譜的可視化與分析。涉及基于Neo4j圖數(shù)據(jù)庫的可視化研究、基于pyecharts的可視化、事件本體及施事者、受事者識別、事件時間流關(guān)系識別、子事件識別、事件關(guān)聯(lián)度計算。
三、工業(yè)界視角下的國內(nèi)事理圖譜研究
從2017年,“事理圖譜”這一概念提出以來到目前,已經(jīng)經(jīng)歷了從概念普及、到demo研制,再到領(lǐng)域應(yīng)用探索三個重要階段(與諸多技術(shù)類似)。在這個概念的發(fā)展過程中自然是螺旋式地暴露出一些現(xiàn)實的問題,但也不可否認地取得了一定的進展。
1、事理圖譜取得的進展
國內(nèi)事理圖譜的研究與應(yīng)用在近年來已經(jīng)有了一定的發(fā)展,主要體現(xiàn)在事理圖譜基本輪廓的確定與傳播、領(lǐng)域事理圖譜雛形Demo的研制與應(yīng)用探索、事理圖譜在領(lǐng)域的復(fù)制與延伸三個方面。
1)事理圖譜基本輪廓的確立與傳播。坦白的說,事理圖譜目前并沒有一個十分確定、統(tǒng)一的內(nèi)涵界定,國內(nèi)不同的團隊,從不同的角度對其進行了探索,并取得了相應(yīng)的進展。這里說兩個典型代表。一是以最早的哈工大團隊為代表的學(xué)界,圍繞著利用事理圖譜服務(wù)于腳本預(yù)測、故事結(jié)尾生成等常識推理、常識庫構(gòu)建,從學(xué)術(shù)上界定了事理圖譜的概念,并在CCKS會議、首屆事理圖譜會議、CCCF會刊上對其技術(shù)內(nèi)涵進行了明確,并在國外會議上發(fā)表了利用事理圖譜結(jié)構(gòu)進行腳本預(yù)測等若干論文。另一個是以中科院軟件所(數(shù)據(jù)地平線)團隊為代表的業(yè)界(跨界),從以大規(guī)模非結(jié)構(gòu)化文本中挖掘邏輯推理規(guī)則模式,以服務(wù)于金融投研推理等應(yīng)用落地的角度出發(fā),系統(tǒng)探索了金融事理圖譜的若干關(guān)鍵性問題(形式化表示方式、事理圖譜中事件轉(zhuǎn)移的有效性、事理圖譜自身層級性、事理圖譜的落地性)、基于事理圖譜的實時事件風(fēng)險監(jiān)控與推理,事理圖譜與實體知識圖譜進行實體鏈接推理等工作,形成了若干的開源技術(shù)系列文章(包括金融和情報領(lǐng)域)、CCKS論文、專利文獻。國內(nèi)的這兩個主要團隊,根據(jù)自身目的的不同,完成了相應(yīng)的探索,并積累形成了若干的文章,并在一定程度上,對事理圖譜基本輪廓的傳播奠定了基礎(chǔ)。相比較而言,前者更多的考慮利用事理圖譜的思想來設(shè)計更好的推理模型(在事理圖譜中事件的形式化表示、精細化構(gòu)建等理論問題不太側(cè)重),以完成常識推理、事件演繹等前沿課題研究(如對大規(guī)模英文文本,利用依存句法等抽取形成樸素的事件三元組,并為此建立事理圖譜網(wǎng)絡(luò)圖,配合GNN等深度學(xué)習(xí)算法完成建模)。后者則更注重特定領(lǐng)域事理圖譜的形式化構(gòu)建問題和利用事理圖譜進行領(lǐng)域落地的問題,與前者在知識范圍內(nèi)形成了一種互為補充之勢,也正是這樣一種補充(一揚一抑,人間清醒)。
2)事理圖譜雛形Demo的研制與應(yīng)用探索。實踐是檢驗真理的唯一標準,一方面,具體的數(shù)據(jù)或者形態(tài)這種具像化的實物,才能真正意義上地讓人對“事理圖譜”這一抽象概念有個基礎(chǔ)的認知。另一方面,通過針對具體的文本進行事理圖譜構(gòu)建才能具體地發(fā)現(xiàn)該技術(shù)在實踐和落地過程中所暴露出的技術(shù)脆弱性、理想性以及風(fēng)險性。同樣的,目前關(guān)于領(lǐng)域事理圖譜雛形的Demo,國內(nèi)可見的主要包括有哈工大的金融領(lǐng)域事理圖譜Demo(https://elg.8wss.cn),數(shù)據(jù)地平線的全行業(yè)事理圖譜Demo(https://eg.datahorizon.cn)、
實時抽象事理學(xué)習(xí)與分析系統(tǒng)(學(xué)跡:https://xueji.datahorizon.cn)、
實時實例事理分析引擎系統(tǒng)(數(shù)地搜搜:https://soso.datahorizon.cn)等,與哈工大的金融領(lǐng)域事理圖譜Demo相比,數(shù)據(jù)地平線的規(guī)模更大、形式也更為多樣。例如,不止地局限于因果關(guān)系,還涉及事件的描述邏輯等關(guān)聯(lián)邏輯,并從抽象事理和實例事理兩個方面分別進行了探索。另外,開啟了將事理圖譜與產(chǎn)業(yè)鏈實體圖譜相融合進行領(lǐng)域標的物路徑預(yù)測的推理實例應(yīng)用、將事理圖譜應(yīng)用于風(fēng)險監(jiān)控預(yù)測,對接實時新聞資訊流進行事理圖譜數(shù)據(jù)的可更新等多種技術(shù)應(yīng)用形態(tài),總的來說,在落地實踐探索上更為深刻。當然,國內(nèi)也有一些其他單位發(fā)布的自研的雛形系統(tǒng),這里不展開論述。
3)事理圖譜在領(lǐng)域的復(fù)制與延伸
在前者進行事理圖譜概念的確立與探索、事理圖譜雛形與應(yīng)用探索初具引導(dǎo),事理圖譜在各個領(lǐng)域如“知識圖譜”一樣,在諸多領(lǐng)域進行了快速的復(fù)制與傳播。很明顯的,首先,在學(xué)術(shù)科研領(lǐng)域,我們可以以文首中CNKI所呈現(xiàn)出來的情況來看,事理圖譜在航空故障領(lǐng)域、金融領(lǐng)域、食品領(lǐng)域、情報領(lǐng)域、輿情領(lǐng)域中都有推廣,雖然在具體復(fù)制的過程中存在著快速試水的嫌疑**(利用事理圖譜構(gòu)建的通用模式,對不同領(lǐng)域的數(shù)據(jù)進行配置或者個別在具體的具體細節(jié)上有若干差異優(yōu)化)**后,構(gòu)建起領(lǐng)域性的事理圖譜,并在此基礎(chǔ)上完成分析,但這確實也在一定程度上顯示了事理圖譜與領(lǐng)域數(shù)據(jù)結(jié)合的可能性,這個是在構(gòu)建側(cè)的。在構(gòu)建側(cè)上,通過與朋友的討論過程中發(fā)現(xiàn),已經(jīng)出現(xiàn)了利用事理圖譜來做深度學(xué)習(xí)模型的可解釋分析、基于事理圖譜來做領(lǐng)域事件推理驗證等研究課題的延伸。其次,在工業(yè)界,事理圖譜也在一些領(lǐng)域業(yè)務(wù)中有應(yīng)用探索(撇開可能存在PR的大背景),例如阿里淘寶客服中使用事理圖譜的思想,將客戶會話的過程進行事件化,將事件之間的狀態(tài)轉(zhuǎn)移形式化為事理圖譜的形態(tài),以提升客服應(yīng)答效率;百度搜索中將事理圖譜應(yīng)用于百度事件脈絡(luò),將新聞中的事件進行提取、關(guān)聯(lián)與跟蹤,以提升事件演化追蹤的效率;丹渥智能將事理圖譜與構(gòu)建好的產(chǎn)業(yè)鏈圖譜進行關(guān)聯(lián),對事件的傳導(dǎo)進行建模,應(yīng)用于金融領(lǐng)域事件監(jiān)測;法律領(lǐng)域?qū)⑹吕韴D譜應(yīng)用于案件推理與問答,如交通肇事案件判定中的要素狀態(tài)轉(zhuǎn)移;數(shù)據(jù)地平線將事理圖譜應(yīng)用于金融、情報、公安等領(lǐng)域,實現(xiàn)融合消息面與技術(shù)面的事件風(fēng)險監(jiān)測與標的物推理預(yù)測、領(lǐng)域事理邏輯的沉淀與管理,領(lǐng)域事件的聚合與演化追蹤。這些復(fù)制和延伸的工作一方面積累了事理圖譜的落地經(jīng)驗,也為反饋事理圖譜技術(shù)難點積累了一線的檢測語料。
2、事理圖譜存在的不足
1)事理圖譜技術(shù)本身的體系依舊不清晰
坦白的說,因為事理圖譜到目前為止,還是一個很為初級的概念,因此在整個技術(shù)體系或者生態(tài)上還是依舊處于十分雛形的狀態(tài)。實際上,雖然有的研究團隊對事理圖譜進行了界定,但大家對事理圖譜的理解還是不一致,對事理圖譜到底是一個什么樣的存在實際上還并未有大成共識,例如事理圖譜相較于知識圖譜是個什么的定位,事理圖譜中的事件是怎樣的?與事件圖譜有什么區(qū)別?與事件知識圖譜有什么區(qū)別?事理圖譜與事件本體之間的關(guān)系是怎樣的,事理圖譜是一種事件模式本體還是事件實例?事理圖譜中所存儲的知識是否具有一般性,等等。這些問題到目前為止,還未得到一個好的解答(當然,這個與知識圖譜類似,需要一個過程),一個為人所共同接受的事理圖譜技術(shù)體系也需要逐步建立,這個體系中應(yīng)該要包括事理圖譜包括事件的界定、事件關(guān)系的抽取、事件融合、事件要素提取、事件抽象、事件演化概率計算等多個技術(shù)核心點。
2)事理圖譜中的事件界定“不明朗”
按照現(xiàn)有的事理圖譜構(gòu)建方法,事理圖譜中至少包括事件以及事件關(guān)系這兩種元素,而事件就是首當其沖的一個重要問題,因為一個典型的事理圖譜抽取方法,是先識別出事件,然后再識別出兩個事件之間的事件關(guān)系,是個流水線的工作。這個工作本質(zhì)上與知識圖譜三元組的抽取在任務(wù)上是等同的,但與實體識別不一樣,一個實體,其邊界(span)是較為清晰的,而事件則很難定義出明確的邊界,因此當前常規(guī)的做法是以限定的事件觸發(fā)詞為錨點進行定位,然后以該事件觸發(fā)詞所關(guān)聯(lián)的主語、謂語或者賓語作為依存依賴,形成事件三元組或者該事件觸發(fā)詞所在的短句或者長句作為事件進行事件表示,這實際上是一種退而求其次的做法,這可能也是ACE那種用框架來進行事件表示方法考慮的一個點(這樣好建模)。因此抽取的對象是明確的,才會有后續(xù)模型的不斷升級與更新,
關(guān)于事理圖譜中的事件表示方案,我之前寫過的早期文章中有介紹,并指出了各種事件表示的優(yōu)缺點。文章認為,事件的表示可以用核心動詞(這個在目前的學(xué)術(shù)界評測集semeval,cec中采用),一個短語(符合主謂賓、主謂、動賓結(jié)構(gòu)),一個自然的語句(自然的語句能夠最大程度地保留這個事件的信息,如包括程度、時間、時態(tài)等信息,并且在行文上通順、流暢)。這幾種方式都會有對應(yīng)的優(yōu)缺點,但直觀感覺,用一個核心動詞才作為一個事件的形式化表示明顯是不夠的,為了補充,就必須要用到與該動詞適配的一些事件要素(如我們常見的ACE中的槽),會變成一個事件抽取的工作。作為短語的事件表示方法,則需要對識別出的句子進行抽象化,即將其中的主謂賓成分進行提取,移除一些虛詞成分,因此通過借用停用詞表或者停用詞詞性表的方式、基于依存句法分析來做【很顯然這種方式是有誤差的,當前在中文上最好的精度LAC不到80%】。使用自然語句的方式。好不在于保留的信息很多,但對于語句形式很復(fù)雜、語句很長,無效成分很多的情況是又會顯得過于冗余,并且在下游進行融合等工作帶來麻煩。
3)事理圖譜中事件關(guān)系側(cè)重“軟柿子”
一個理想型事理圖譜包括的關(guān)系是十分豐富的。如因果關(guān)系(智利地震,棕櫚油供應(yīng)收緊),時序關(guān)系(進入餐廳,入座餐桌),組成關(guān)系(參加婚禮,給新人隨禮),上下位關(guān)系(貨幣貶值,人民幣貶值)等。但,正如我們看的,目前公開可見的大部分文章,包括工業(yè)界,學(xué)界【期刊、學(xué)位論文】,都只集中在因果關(guān)系、上下位關(guān)系兩種關(guān)系**(前者更甚)**上去做,并且在事件事件關(guān)系的量化上,依舊避免不了過分依賴于曝光量等統(tǒng)計信息,原因是很顯而易見的。
其一,因果關(guān)系,因為因果關(guān)系本身是很好來明確的,通過一些顯性的觸發(fā)詞,就可以從形式(感觀)上覺得這個東西大概率是在描述因果,因此,因為有了顯式觸發(fā)詞的標識,所以這種主觀性的邊界是相對確定的,所以在構(gòu)造規(guī)模化可用于訓(xùn)練的標注數(shù)據(jù)在落實上成為可能。另外,也正是因為有語言形式上的特性,現(xiàn)有的一些語言知識庫就可以派上用場,而這種形式下可以采用的方式就比較靈活,比如,可以使用枚舉大量的因果模板,諸如A導(dǎo)致B,因為A所以B,來確定邊界,或者用依存的方式進行提取。規(guī)模化的標注數(shù)據(jù),使得現(xiàn)有的深度學(xué)習(xí)模型建模方法也成為可能(轉(zhuǎn)換成典型的抽取任務(wù)。也可以轉(zhuǎn)換成序列標注的方式,同時識別原因的span、觸發(fā)詞,結(jié)果的span來提取)。而相比較而言,順承方式則沒有那么好做,相應(yīng)的,目前我們所能看到的順承關(guān)系建模,大多都轉(zhuǎn)換為新聞事件的時序演化關(guān)系來說,以新聞標題或者事件標題的抽象來作為事件,然后根據(jù)新聞事件的事件發(fā)布關(guān)系來定義出事件之間的順承演化。
其二,上下位關(guān)系。與因果關(guān)系相比,上下位關(guān)系與因果關(guān)系不同,這種關(guān)系的顯式程度不高,而挖掘出這種上下位關(guān)系對于事件的垂直層級(抽象)體系上來說,是個很好的方法。當前,就我目前能夠看到的,事件上下位的挖掘方式包括基于模式的挖掘以及基于外部知識庫的上下位生成兩種方式,前者是一個抽取操作,可以通過枚舉大量類似Hearst模式,如“A是B的一種、A是一種B”,來抽取形成<A,上位,B>這種結(jié)果,不過這種方式有個很大的問題,就是A和B中對事件的界限是很難搞定的,通過這種方式挖掘出來的A和B大部分都是實體(因為從語言的表達上來說,“范冰冰偷稅漏稅”是一種“明星偷稅漏稅”事件類似的說法會相對較少),**這也再次提及了事理圖譜中關(guān)于事件的邊界問題。**后者這種基于外部知識庫的抽象方法,在效果上很大受限于外部知識庫的規(guī)模和質(zhì)量,例如,當前可用的外部抽象類知識庫,包括我之前開源構(gòu)建的上下位抽象知識庫(https://github.com/liuhuanyong/AbstractKnowledgeGraph)。哈工大bigcilin、百度的解語組件,這種上下位抽象,實際上是一個模板化的工作,模板化的工作實際上是另一個技術(shù)問題,對于出現(xiàn)的詞,通過替換成某個特定詞在知識庫中的上位詞,既可以得到結(jié)果。但這種生成的效果不易控制,如一個詞本身是歧義詞(對應(yīng)于多個上位詞)時,整個抽象的過程就會大打折扣。當然,這種折扣是有方法來解決的,那就是引入上位鏈接的方式,將一個待抽象詞,通過鏈接模型,鏈接至一個最佳的上位詞,關(guān)于這一點,百度的解語框架(https://www.paddlepaddle.org.cn/textToKnowledge)中就對此進行了實踐,有興趣的朋友可以看看。
2)事理圖譜中數(shù)據(jù)與Demo很“初級”
上文說到,事理圖譜目前已經(jīng)出現(xiàn)了一些原型系統(tǒng),這些系統(tǒng)更多的還是屬于探索性質(zhì)的Demo或者半成熟狀態(tài),所以我們也可以很自然地感受到“事理圖譜”作為一個新鮮的事物在具體技術(shù)概念與實踐落地表現(xiàn)中所呈現(xiàn)出的“斷崖式”落差(我之前寫過一篇反思事理圖譜的文章《事理圖譜:一種純學(xué)術(shù)需求、無法落地、漏洞百出的新技術(shù)或新概念?》https://blog.csdn.net/lhy2014/article/details/102093751)。從DEMO中所呈現(xiàn)的出來的效果,我們可以看到事理圖譜在對因果關(guān)系的界定、事件的界定、因果事件的抽取準確性、事理圖譜的建模、事件的領(lǐng)域性等多方面(尤其體現(xiàn)在構(gòu)建側(cè))都存在諸多問題。而且,我們應(yīng)該清晰的認識到,事理圖譜系統(tǒng)能夠成功落地,至少要解決兩個問題,一個是事理圖譜的構(gòu)建,另一個是基于事理圖譜的應(yīng)用,前者是后者執(zhí)行的必要前提(這個與知識圖譜是一樣的),目前事理圖譜在構(gòu)建側(cè)如何無法取得在對事理圖譜自身質(zhì)量性能的提升,以及事理圖譜在領(lǐng)域組織上的體系化(schema),那么就會長期處于Demo或者預(yù)言課題這種狀態(tài)上。當然,事理圖譜自身的質(zhì)量的問題,有一些行業(yè)的解決方案,例如,利用人工轉(zhuǎn)換的方式,將事理圖譜的概念注入到具體業(yè)務(wù)場景當中,即將業(yè)務(wù)的動作或者狀態(tài)進行事件化,將業(yè)務(wù)之間的流程進行事理化,建模成明確的事理關(guān)系,并在進行業(yè)務(wù)事件檢索、事件轉(zhuǎn)移、事件推理上充分發(fā)揮事理圖譜作為規(guī)則或者時序狀態(tài)上所呈現(xiàn)出的表示方法的優(yōu)勢。此外,在承認事理圖譜結(jié)構(gòu)化數(shù)據(jù)的質(zhì)量精度不夠的情況,與具體的行業(yè)業(yè)務(wù)場景進行結(jié)合,摸著石頭過河,通過引入人工、調(diào)整業(yè)務(wù)交互方式,探索事理圖譜作為規(guī)則傳導(dǎo),路徑建模中的規(guī)律,可以進一步拓寬事理圖譜應(yīng)用的更多可能性。
四、國內(nèi)事理圖譜研究與應(yīng)用的展望
實際上,在知識圖譜技術(shù)落地還并不明朗的情況下,開展事理圖譜技術(shù)的研究并且落地是不合時宜的,因為從技術(shù)本身來講,其存在著太多的不確定性,而這種不確定性如果得不到妥善的合理的控制或者調(diào)和就會成為風(fēng)險。但正如我們在前文中所梳理的事理圖譜的一些情況,事理圖譜取得了一定的進展,且存在一些不足。學(xué)界、業(yè)界根據(jù)自己不同的目標進行了相應(yīng)的探索,但其出發(fā)點都是為了讓這個技術(shù)能夠盡可能接近完美地解決一些具體的問題。不過,我們需要清晰的認識到,一個技術(shù)能夠解決問題的前提是,它具備解決這類問題的技術(shù)特性。
我們可以看到的是,知識圖譜的價值在于其規(guī)范化的schema模式, 這種模式給出了一個建模具體業(yè)務(wù)數(shù)據(jù)的本體框架,是一種知識的建模方式,能夠?qū)⒍嘣吹牟煌问剑ńY(jié)構(gòu)化的、非結(jié)構(gòu)化的)文本通過不同的處理方式,加工映射成為一個標準的統(tǒng)一的知識形式,從而實現(xiàn)對知識的標準化、精細化管理與關(guān)聯(lián)分析,這是知識圖譜的技術(shù)特性,因此,很多行業(yè)在逐步推動知識圖譜在關(guān)聯(lián)分析、知識治理、知識搜索的應(yīng)用。而對于事理圖譜而言,我們同樣需要認識到事理圖譜作為一個有別于知識圖譜,所展現(xiàn)出來的不同的技術(shù)特性,這是這個概念不被證偽或者賴以成立的必要條件。通過查閱相關(guān)的問題先資料,我們可以初步地淺層地認為,事理圖譜最大的技術(shù)特性,也同樣體現(xiàn)在其建模思想,即從事件側(cè)對知識的建模思想,即建模schema模式,這也是一種方法論。即 將具體業(yè)務(wù)中的動作、狀態(tài)、行為進行事件化,將在時間序列中的狀態(tài)關(guān)聯(lián)、行為關(guān)聯(lián)、動作關(guān)聯(lián)、動作之間的層級體系進行轉(zhuǎn)移刻畫。
因此,上述的事理圖譜這種特性使得我們可以充分利用事件之間的轉(zhuǎn)移信息進行事件的演化推理分析,可以根據(jù)事件之間的層級體系進行事件的聚合和情報分析。因此,這種技術(shù)特性,也就標志著,我們必須將事理圖譜作為一個本體(而不是一個類似于圖神經(jīng)網(wǎng)絡(luò)的模型) 來看待,這個本體能夠刻畫一個典型業(yè)務(wù)場景或者領(lǐng)域中的事件類型、事件屬性以及事件之間的關(guān)聯(lián),后面的技術(shù)算法開發(fā)以及業(yè)務(wù)應(yīng)用,則變成在這個領(lǐng)域事件本體的基礎(chǔ)上進行實例的抽取、實例的填充,來產(chǎn)生價值。因此,這又回到了剛才涉及到的一些關(guān)鍵的問題,領(lǐng)域事件的界定問題、領(lǐng)域事件體系的構(gòu)建問題(這些都是無法回避的,而不是簡單地進行行業(yè)適配、復(fù)制的研究),從事件演化模式的角度講,從非結(jié)構(gòu)化文本中無監(jiān)督地挖掘出大量的因果事件對或者時序事件對,這個或許在完成輿情演化分析這類應(yīng)用上還有用武之地,但要作為一種新型的領(lǐng)域性的知識來輔助于各行各業(yè)的建模,進一步地在這些事件對的基礎(chǔ)上打上體系化、健全體系、領(lǐng)域性的標簽,將是事理圖譜技術(shù)發(fā)展需要考慮的問題。
寫到這里,抬頭看墻上的鐘表,已經(jīng)到了凌晨1點33分,已碼萬字長文。上述觀點僅僅是個這幾年工作的一些思考,不具備代表性,歡迎批評。當然,近年來學(xué)界、業(yè)界視角下的事理圖譜發(fā)展,需要多方面的人一同去做,也需要明確其技術(shù)特性、尊重技術(shù)的客觀規(guī)律,直面其中的一些關(guān)鍵問題,“人間清醒”。
關(guān)于作者
劉煥勇,liuhuanyong,現(xiàn)任360人工智能研究院算法專家,前中科院軟件所工程師,主要研究方向為知識圖譜、事件圖譜在實際業(yè)務(wù)中的落地應(yīng)用。
得語言者得天下,得語言資源者,分得天下,得語言邏輯者,爭得天下。
1、個人主頁:https://liuhuanyong.github.io。
2、個人博客:https://blog.csdn.net/lhy2014/。
歡迎對自然語言處理、知識圖譜、事件圖譜理論技術(shù)、技術(shù)實踐等落地應(yīng)用的朋友一同交流。
