<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【關(guān)于 事件抽取】那些你不知道的事

          共 22958字,需瀏覽 46分鐘

           ·

          2021-03-15 07:19

          作者:芙蕖

          面筋地址:https://github.com/km1994/NLP-Interview-Notes

          個人筆記:https://github.com/km1994/nlp_paper_study

          一、原理篇

          1.1 什么是事件?

          事件在不同領(lǐng)域中有著不同的含義, 對于事件目前還沒有統(tǒng)一的定義。在 IE ( Information Extraction) 中, 事件是指在某個特定的時間片段和地域范圍內(nèi)發(fā)生的, 由一個或多個角色參與, 由一個或多個動作組成的一件事情, 一般是句子級的。在 TDT ( Topic Detection Tracking) 中, 事件是指關(guān)于某一主題的一組相關(guān)描述, 這個主題可以是由分類或聚類形成的。

          1.2 什么是事件抽取?

          事件抽取技術(shù)是從非結(jié)構(gòu)化的信息中抽取出用戶感興趣的事件, 并以結(jié)構(gòu)化的形式呈現(xiàn)給用戶。

          1、Closed-domain

          事件抽取使用預(yù)定義的事件模式從文本中發(fā)現(xiàn)和提取所需的特定類型的事件。事件模式包含多個事件類型及其相應(yīng)的事件結(jié)構(gòu)。D.Ahn首先提出將ACE事件抽取任務(wù)分成四個子任務(wù):觸發(fā)詞檢測、事件/觸發(fā)詞類型識別、事件論元檢測和參數(shù)角色識別。我們使用ACE術(shù)語來介紹如下事件結(jié)構(gòu):
          • 「事件提及」:描述事件的短語或句子,包括觸發(fā)詞和幾個參數(shù)。

          • 「事件觸發(fā)詞」:最清楚地表達(dá)事件發(fā)生的主要詞,一般指動詞或名詞。

          • 「事件論元」:一個實(shí)體,時間表達(dá)式,作為參與者的值和在事件中具有特定角色的屬性。

          • 「論元角色」:論元與它所參與的事件之間的關(guān)系

          2、Open domain

          在沒有預(yù)定義的事件模式的情況下,開放域事件抽取的目的是從文本中檢測事件,在大多數(shù)情況下,還可以通過提取的事件關(guān)鍵詞聚類相似的事件。事件關(guān)鍵詞指的是那些主要描述事件的詞/短語,有時關(guān)鍵詞還進(jìn)一步分為觸發(fā)器和參數(shù)。
          • 「故事分割」:從新聞中檢測故事的邊界。

          • 「第一個故事檢測」:檢測新聞流中討論新話題的故事。

          • 「話題檢測」:根據(jù)討論的主題將故事分組。

          • 「話題追蹤」:檢測討論先前已知話題的故事。

          • 「故事鏈檢測」:決定兩個故事是否討論同一個主題。

          前兩個任務(wù)主要關(guān)注事件檢測;其余三個任務(wù)用于事件集群。雖然這五項(xiàng)任務(wù)之間的關(guān)系很明顯,但每一項(xiàng)任務(wù)都需要一個不同的評價過程,并鼓勵采用不同的方法來解決特定問題。

          事件抽取涉及自然語言處理、機(jī)器學(xué)習(xí)、模式匹配等多個學(xué)科,對于相關(guān)學(xué)科理論的完善和發(fā)展起到積極的推進(jìn)作用。同時,在情報研究工作中事件抽取技術(shù)能幫助情報人員從海量信息中快速提取相關(guān)事件, 提高了情報研究工作的時效性, 并為開展定量情報分析提供技術(shù)支撐。事件抽取在情報研究領(lǐng)域具有廣闊的應(yīng)用前景。

          1.3 ACE測評中事件抽取涉及的幾個基本術(shù)語及任務(wù)是什么?

          1、實(shí)體(Entity)。屬于某個語義類別的對象或?qū)ο蠹稀F渲邪?人(PER)、地理政治區(qū)域名( GPE)、組織機(jī)構(gòu)(ORG)、地名(LOC)、武器(WEA)、建筑設(shè)施(FAC)和交通工具( VEH)。

          2、事件觸發(fā)詞(Event Trigger)。表示事件發(fā)生的核心詞,多為動詞或名詞。

          3、事件論元(Event Argument)。事件的參與者,主要由實(shí)體、值、時間組成。值是一種非實(shí)體的事件參與者,例如工作崗位( Job-Title)。和實(shí)體一樣,ACE05也標(biāo)記出了句子中出現(xiàn)的值和時間。下文中,即將實(shí)體、值、時間統(tǒng)稱為實(shí)體。

          4、論元角色(Argument Role)。事件論元在事件中充當(dāng)?shù)慕巧?。共?5類角色,例如,攻擊者( Attacker)、受害者( Victim)等。

          其中,我常用的ACE 2005定義了8種事件類型和33種子類型。其中,大多數(shù)事件抽取均采用33種事件類型。事件識別是基于詞的34類( 33類事件類型+None)多元分類任務(wù),角色分類是基于詞對的36類(35類角色類型+None)多元分類任務(wù)。這里,參考文獻(xiàn)

          1.4 事件抽取怎么發(fā)展的?

          從事件抽取的發(fā)展歷史來看,事件抽取的研究幾乎與信息抽取的研究同時開始 。20世紀(jì)七、八十年代 ,耶魯大學(xué)就針對新聞報道如地震 、工人罷工等領(lǐng)域或場景 ,開展有關(guān)故事理解的研究, 并根據(jù)故事腳本理論建立信息抽取系統(tǒng),就是針對事件抽取的研究 ,開創(chuàng)了事件抽取研究的先河 。但是真正推進(jìn)事件抽取研究進(jìn)一步發(fā)展的動力主要是相關(guān)的評測會議的推動。

          消息理解會議(MessageUnderstandingConference, MUC)對事件抽取這一研究方向的確立和發(fā)展起到了巨大的推動作用。MUC定義的抽取任務(wù)的各種規(guī)范以及確立的評價體系已經(jīng)成為事件抽取研究事實(shí)上的標(biāo)準(zhǔn),同時也為事件抽取技術(shù)的研究奠定了堅實(shí)的基礎(chǔ)。MUC是由美國國防高級研究計劃委員會(Defense Advanced Research Projects Agency, DARPA)資助 ,從 1987年開始到 1998年 , 會議共舉行了 7屆 ,具體的歷次會議信息如表 1所示 。當(dāng)前, 由 MUC 定義的概念、模型和技術(shù)規(guī)范對整個信息抽取領(lǐng)域起著主導(dǎo)作用, 其主要的評測項(xiàng)目是從新聞報道中提取特定的信息, 填入某種數(shù)據(jù)庫中, 事件抽取 ( Scenario Template, ST) 始終是這一會議的評測項(xiàng)目之一。MUC 會議的很多研究都是探索性的, 對信息抽取領(lǐng)域起到了巨大的推動作用, 并為事件抽取的研究打下了堅實(shí)的基礎(chǔ)。每一屆 MUC 都針對一個特定領(lǐng)域和場景,并且提供預(yù)先定義好的模板 ( Template) 進(jìn)行填充, 填充之后的模板形成了對文本核心事件的整體描述。

          在強(qiáng)烈的應(yīng)用需求下 ,來自美國國家標(biāo)準(zhǔn)技術(shù)研究所 (NIST)組織的 ACE評測會議應(yīng)運(yùn)而生, 這項(xiàng)評測真正推動了事件抽取研究的發(fā)展 。從 1999年開始醞釀, 2000年正式開始啟動 。研究的主要內(nèi)容是自動抽取新聞?wù)Z料中出現(xiàn)的實(shí)體 、關(guān)系 、事件等內(nèi)容, 即對新聞?wù)Z料中實(shí)體 、關(guān)系、事件的識別與描述。

          與 MUC相比, ACE評測不針對某個具體的領(lǐng)域或場景, 采用基于漏報 (標(biāo)準(zhǔn)答案中有而系統(tǒng)輸出中沒有)和誤報 (標(biāo)準(zhǔn)答案中沒有而系統(tǒng)輸出中有 )為基礎(chǔ)的一套評價體系 , 還對系統(tǒng)跨文檔處理 (CrossDocumentProcessing)能力進(jìn)行評測。這一新的評測會議把事件抽取技術(shù)研究引向新的高度 。具體的歷次會議信息如表 2所示 。ACE 會議作為 MUC 會議的延伸, 是事件抽取領(lǐng)域最具影響力的評測會議, 該會議從 2000 年到 2007 年共舉辦了 7 屆。目前大多數(shù)研究都是圍繞 ACE 的評測任務(wù)開展,它把事件抽取的研究推向一個新的高度。會議研究的主要內(nèi)容是自動抽取新聞?wù)Z料中出現(xiàn)的實(shí)體、關(guān)系、事件等內(nèi)容。ACE 定義的事件屬于元事件的范疇, 包括事件類別和事件元素的識別。與 MUC 相比, ACE 評測不針對某個具體的領(lǐng)域或場景, 也不提供預(yù)先定義好的模板, 而是強(qiáng)調(diào)對文本基本意義或基本概念的刻畫, 因此所定義的任務(wù)顯得更為細(xì)致和深入。用戶指定要檢測的事件的類別, 系統(tǒng)給出檢測文本中這些事件的出現(xiàn), 但最后的輸出并未形成對核心事件的整體描述, 并且 ACE 同 MUC 一樣都是篇章級 ( Document Level) 的事件抽取, 不涉及跨文檔抽取。


          自 2009年 , ACE成為文本分析會議(TextAnalysisConference, TAC)中的一個任務(wù) 。TAC主要由 3個評測任務(wù)組成 ,主要目的是促進(jìn)自然語言處理技術(shù)發(fā)展和相關(guān)的應(yīng)用 。

          總而言之,從 20世紀(jì)七 、八十年代開始,事件抽取一直發(fā)展到今天 ,已經(jīng)走過了幾十年的研究歷程 ,其所取得的進(jìn)步與上述評測會議的推動密不可分 ,但從評測會議公布的結(jié)果來看, 抽取的精度離實(shí)用還相差甚遠(yuǎn), 在領(lǐng)域擴(kuò)展性和移植性方面的表現(xiàn)還不能令人滿意, 注定今后事件抽取技術(shù)的研究還有很長的路要走。

          1.5 事件抽取存在什么問題?

          1)對實(shí)體、關(guān)系識別、語法分析等相關(guān)技術(shù)的底層技術(shù)研究不夠成熟,導(dǎo)致級聯(lián)錯誤。事件抽取是在實(shí)體和關(guān)系識別的基礎(chǔ)上發(fā)展起來的。它在某種程度上取決于實(shí)體、關(guān)系識別和文本預(yù)處理的效果,但是這些基礎(chǔ)技術(shù)仍然不夠成熟。并且,目前缺乏對子任務(wù)輸出結(jié)果的評估及矯正技術(shù)。

          2)事件抽取系統(tǒng)的現(xiàn)場可伸縮性和便攜性并不理想。例如,有關(guān)中文事件抽取的相關(guān)研究主要集中在生物醫(yī)學(xué)、微博、新聞、緊急情況等方面。其他領(lǐng)域和開放領(lǐng)域的研究很少。關(guān)于領(lǐng)域和跨語言事件抽取技術(shù)的研究很少。

          3)缺乏大規(guī)模成熟的語料和標(biāo)注語料,需要進(jìn)一步完善。手動標(biāo)注語料庫既費(fèi)時又費(fèi)力,而且缺少語料庫限制了事件抽取技術(shù)研究的發(fā)展。因此,大型語料庫的自動構(gòu)建技術(shù)方法需要進(jìn)一步研究。

          4)如何設(shè)計神經(jīng)網(wǎng)絡(luò)模型以實(shí)現(xiàn)多任務(wù)聯(lián)合是一大難點(diǎn)。

          二、基本任務(wù)篇

          2.1 觸發(fā)詞檢測

          2.1.1 什么是觸發(fā)詞檢測?

          表示事件發(fā)生的核心詞,多為動詞或名詞

          2.1.2 觸發(fā)詞檢測有哪些方法?

          現(xiàn)有的檢測事件句的方法主要是基于觸發(fā)詞的方法。Grisman、趙妍妍等都是采用這種方法來發(fā)現(xiàn)文本中的事件句。在這類方法中,將每個詞作為一個實(shí)例來訓(xùn)練并判斷是否為觸發(fā)詞的機(jī)器學(xué)習(xí)模型,但引入了大量的反例,導(dǎo)致正反例嚴(yán)重不平衡。為了解決了上述問題,哈爾濱工業(yè)大學(xué)的譚紅葉提出了一種基于局部特征選擇和正負(fù)特征相結(jié)合的事件檢測與分類方法,取得了不錯的識別效果。廈門大學(xué)的許紅磊等人也提出了一種新的事件類別自動識別算法,很好地克服了傳統(tǒng)基于觸發(fā)詞方法所帶來的正反例失衡和數(shù)據(jù)稀疏問題。

          2.2 類型識別

          2.2.1 什么是類型識別?

          ACE2005 定義了8種事件類型和33種子類型。其中,大多數(shù)事件抽取均采用33 種事件類型。事件識別是基于詞的34 類(33類事件類型+None) 多元分類任務(wù),角色分類是基于詞對的36 類(35類角色類型+None) 多元分類任務(wù)。

          事件類別識別是指從文本中檢測出事件句,并依據(jù)一定的特征判斷其所歸屬的類別。不難看出,事件類別識別是典型的分類問題,其重點(diǎn)在于事件句的檢測和事件句的分類。

          2.2.2 類型識別有哪些方法?

          在已有的研究中 ,事件句分類主要采用最大熵模型 (MaximumEntropyModel, MEM)和支持向量機(jī)(SupportVectorMachine, SVM)。趙妍妍和許紅磊等人分別使用上述兩種分類器基于二元分類策略實(shí)現(xiàn)了候選事件句的類別識別,但二元分類的最大缺陷就是無法處理一個事件句屬于多個事件類別的情況 ,多元分類應(yīng)該是更合理的選擇 。事件句分類的難點(diǎn)主要是如何選擇合適的描述事件句的特征提高分類精度 。趙妍妍等人選取詞法 、上下文和詞典信息等語言學(xué)特征對候選事件進(jìn)行描述 ,在 ACE2005中文語料上取得F-值為 61.2%的效果 。付劍鋒等人在此基礎(chǔ)上引入依存分析發(fā)掘觸發(fā)詞與其它詞之間的句法關(guān)系 ,并以此為特征在 SVM分類器上對事件句進(jìn)行分類 F-值提高到 69.3%

          可見,事件類別的識別率還有很大的提升空間,選擇更加合適的分類器以及事件特征進(jìn)一步提高識別效果仍有待于下一步研究與探討。

          2.3 角色識別

          2.3.1 什么是角色識別?

          事件角色識別是事件抽取中又一核心任務(wù) 。該任務(wù)主要從眾多命名實(shí)體(Entity)、時間表達(dá)式 (Time Expression)和屬性值 (Value)中識別出真正的事件元素 ,并給予其準(zhǔn)確的角色標(biāo)注。事件句中通常包含大量的 Entity、TimeExpression和 Value等事件信息, 要想從中篩選出真正的事件元素, 首先要把所有信息識別并標(biāo)注出來,而這也正是 MUC會議的主要研究內(nèi)容 。在事件元素識別中 ,假定在文本預(yù)處理階段已完成事件信息的識別與標(biāo)注 。

          事件的參與者,主要由實(shí)體、值、時間組成。值是一種非實(shí)體的事件參與者,例如工作崗位。

          2.3.2 角色識別有哪些方法?

          事件角色識別與語義角色標(biāo)注 (SemanticRoleLabeling, SRL)任務(wù)有一定的相似性。所謂語義角色標(biāo)注是根據(jù)一個句子中的動詞(謂詞)與相關(guān)的各類短語等句子成分之間的語義關(guān)系而賦予這些句子成分的語義角色信息 ,如施事、受事 、工具或附加語等。于江德等探索了基于條件隨機(jī)場 (Conditional Random Fields, CRFs)的方法對任職事件和會見事件的事件元素進(jìn)行角色標(biāo)注 ,取得了不錯標(biāo)注效果,也從側(cè)面揭示了事件元素與語義角色之間存在著一定的對應(yīng)關(guān)系 。吳剛等利用這種對應(yīng)關(guān)系實(shí)現(xiàn)了事件角色的識別,然而該方法依賴的底層模塊較多,如 :分詞、句法分析、SRL等 ,如果底層處理模塊不夠成熟, 將會導(dǎo)致級聯(lián)錯誤過多 ,影響事件元素識別效果 。趙妍妍等是將事件元素識別看作分類問題 ,使用最大熵模型 ,選取詞法、類別、上下文和句法結(jié)構(gòu)等 4類特征多角度地描述候選元素 ,采用二元分類和多元分類兩種策略實(shí)現(xiàn)了事件元素的自動識別 。

          2.4 論元檢測

          2.4.1 什么是論元檢測?

          事件論元在事件中充當(dāng)?shù)慕巧?。共?5類角色,例如,攻擊者 、受害者等。

          2.4.2 論元檢測有哪些方法?

          三、常見方法篇

          3.1 模式匹配方法怎么用在事件抽取中?

          早期的事件抽取方法主要是基于規(guī)則的方法,后來發(fā)展成為基于模式匹配的方法。這些方法本質(zhì)上是相同的,也就是說,它們需要構(gòu)建規(guī)則或模式?;谀J狡ヅ涞氖录槿》椒ㄊ侵笇⒁槿〉氖录Z句與相應(yīng)的模式進(jìn)行匹配的方法,其基本原理如圖2所示。

          基于模式匹配事件抽取主要分為有監(jiān)督的模式匹配方法和弱監(jiān)督的模式匹配方法兩大類。

          有監(jiān)督的模式匹配方法依賴于人工標(biāo)注語料進(jìn)行事件模式學(xué)習(xí)。Ellen等1993年通過建立觸發(fā)詞詞典和13種事件匹配模式進(jìn)行事件識別與抽取,事件匹配模式主要利用事件元素初始描述和事件元素上下文語義的進(jìn)行構(gòu)建,并開發(fā)了AutoSlog模式匹配事件抽取系統(tǒng),在MUC語料上取得優(yōu)異的性能。Kim等1995年引入WordNet語義詞典,利用語義框架和短語結(jié)構(gòu)進(jìn)行事件抽取,并開發(fā)了PALKA模式匹配事件抽取系統(tǒng)。

          弱監(jiān)督的模式匹配方法只需對語料進(jìn)行預(yù)分類或制定種子模式的少量人工標(biāo)注工作,然后自動進(jìn)行事件模式學(xué)習(xí)。Ellen等1995年在AutoSlog基礎(chǔ)上開發(fā)出AutoSlog-ST系統(tǒng),不需要對語料中的所有事件元素進(jìn)行標(biāo)注,只需標(biāo)注事件類型,然后利用預(yù)分類語料自動學(xué)習(xí)事件模式。姜吉發(fā)2005年提出一種領(lǐng)域通用事件模式匹配方法IEPAM,將事件抽取模式分為語義模式、觸發(fā)模式、抽取模式,在MUC-7語料的飛行事故事件抽取中獲得優(yōu)異結(jié)果。

          北京科技大學(xué)的Meiying Jia用模式匹配法研究軍事演習(xí)信息的抽取。它在抽取的不同階段使用分層自動分類方法、基于子模式的引導(dǎo)方法和基于語料庫的標(biāo)注。其模式匹配方法側(cè)重于模式獲取和匹配算法,如圖3所示。

          以上研究表明,模式匹配方法的核心是事件抽取模式的構(gòu)建。Jifa Jiang研究了模式的自動獲取,并提出了一種基于領(lǐng)域無關(guān)的概念知識庫的事件抽取模型學(xué)習(xí)方法。只要定義了IE任務(wù),他構(gòu)建的系統(tǒng)就可以從原始語料庫自動學(xué)習(xí)IE模式,而無需提供子模式和語料庫的預(yù)處理,從而大大提高了效率。另一名學(xué)者M(jìn)ing Luo基于有限狀態(tài)機(jī)構(gòu)建了層次化的詞匯語義規(guī)則模型,用于自動抽取各種財務(wù)事件信息,具有較高的準(zhǔn)確性。Liao et al.在構(gòu)造事件抽取模式時使用謂詞論元模式,并通過相似性擴(kuò)展原始模式。

          基于模式匹配的方法較好地應(yīng)用于特定領(lǐng)域,但該方法的可移植性和靈活性較差。當(dāng)它是跨域的時,它需要重建模型。模式匹配事件抽取方法在領(lǐng)域事件抽取任務(wù)中性能優(yōu)異,但模板的制作需要耗費(fèi)大量人力和時間,且模板局限于領(lǐng)域背景,很難在通用領(lǐng)域事件抽取任務(wù)中應(yīng)用。使用機(jī)器學(xué)習(xí)和其他方法可以加快模式的獲取,但是會帶來不同模式之間的沖突。

          3.2 統(tǒng)計機(jī)器學(xué)習(xí)方法怎么用在事件抽取中?

          通過機(jī)器學(xué)習(xí)抽取事件本質(zhì)上是將事件抽取視為分類問題。主要任務(wù)是選擇合適的特征并構(gòu)造合適的分類器。與模式匹配方法相比,機(jī)器學(xué)習(xí)方法可應(yīng)用于不同領(lǐng)域,具有較高的可移植性和靈活性,并已被廣泛使用。

          分類器通常是基于統(tǒng)計模型構(gòu)建的。事件抽取中的主要統(tǒng)計模型主要包括最大熵模型、隱馬爾可夫模型、條件隨機(jī)場模型和支持向量機(jī)模型。

          例如,2002年,Chieu et al.在事件元素的識別中首次應(yīng)用最大熵模型,并抽取了演講公告和人員管理事件。另一位學(xué)者H. Llorens在語義角色注釋中引入了條件隨機(jī)字段模型(CRF),并將其應(yīng)用于TimeML事件抽取中,以提高系統(tǒng)的性能。國內(nèi)Jiangde Yu et al.提出了中文文本,基于隱馬爾可夫模型(HMM)的事件抽取方法。當(dāng)抽取每種類型的事件元素時,此方法將構(gòu)造一個獨(dú)立的隱馬爾可夫模型。

          為了提高事件抽取的效果,有時會結(jié)合使用多種機(jī)器學(xué)習(xí)算法。2006年,David Ahn集成了MegaM和Timbl機(jī)器學(xué)習(xí)方法來識別事件類別和事件元素。事件類型識別存在向后依賴事件元素識別的問題。2012年,Bolei Hu et al.解決這個問題很好。他們將事件抽取視為序列標(biāo)注,并構(gòu)建了改進(jìn)的條件隨機(jī)域聯(lián)合標(biāo)注模型。主要思想是在圖模型中同時標(biāo)注事件類型和事件元素。改進(jìn)的CRF模型如圖4所示。

          許多機(jī)器學(xué)習(xí)方法都是基于觸發(fā)詞進(jìn)行事件識別的。基于觸發(fā)詞的方法在訓(xùn)練中引入了大量的負(fù)例,導(dǎo)致正例與負(fù)例之間失衡。為了解決這個問題,哈爾濱工業(yè)大學(xué)的Yanyan Zhao通過結(jié)合觸發(fā)詞擴(kuò)展和二進(jìn)制分類來識別事件類別。另外,Honglei Xu提出了一種基于事件實(shí)例的事件類型識別方法。該方法通過使用句子代替詞作為識別示例,克服了正負(fù)大小寫不平衡和數(shù)據(jù)稀疏的問題。

          當(dāng)前在事件抽取研究中的主導(dǎo)作用是基于機(jī)器學(xué)習(xí)的方法,但是該方法需要大規(guī)模的標(biāo)注訓(xùn)練語料庫。如果訓(xùn)練語料不足或類別單一,將嚴(yán)重影響事件的抽取效果,語料庫的建設(shè)成為一項(xiàng)重要任務(wù)。但是,語料庫的建設(shè)需要大量的人力和時間。為了減輕這個問題,學(xué)者們進(jìn)一步探索了深度學(xué)習(xí)的方法。

          3.3 深度學(xué)習(xí)方法怎么用在事件抽取中?

          深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究領(lǐng)域中的一個新方向。與淺層神經(jīng)網(wǎng)絡(luò)相比,深層神經(jīng)網(wǎng)絡(luò)(DNN)具有更好的特征學(xué)習(xí)能力,其抽象數(shù)學(xué)的無監(jiān)督逐層預(yù)訓(xùn)練??梢愿行У乇碚髟紨?shù)據(jù)基本特征的特征。Yajun Zhang et al.建立了基于深度學(xué)習(xí)的事件識別模型,并利用BP神經(jīng)網(wǎng)絡(luò)對事件進(jìn)行識別,通過深度信念網(wǎng)絡(luò)抽取詞的深度語義信息。同時,文獻(xiàn)還提出了一種混合式監(jiān)督深度信念網(wǎng)絡(luò),將監(jiān)督和非監(jiān)督學(xué)習(xí)方法相結(jié)合,可以提高識別效果,控制訓(xùn)練時間。

          傳統(tǒng)的基于特征的事件抽取方法需要大量的特征設(shè)計工作,并且需要復(fù)雜的自然語言處理工具,這會消耗大量的人力和時間,并且會產(chǎn)生數(shù)據(jù)稀疏的問題。在這方面,Kai Wang提出了一種基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的事件抽取方法,該方法可以自動學(xué)習(xí)句子中的特征,而無需進(jìn)行大量的人工特征設(shè)計工作,并克服了復(fù)雜的特征工程。

          遞歸神經(jīng)網(wǎng)絡(luò)(RNN)廣泛用于自然語言處理領(lǐng)域。它主要用于解決序列問題,對事件抽取有很好的效果。這是因?yàn)檫f歸神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)由三層組成,即輸入層x、隱藏層h和輸出層y,其中隱藏層h表示遞歸神經(jīng)的內(nèi)部狀態(tài)網(wǎng)絡(luò),如圖5所示。

          在時間t,隱藏層的輸入h(t)由當(dāng)前時間的輸入x(t)和上一次隱藏層的輸出h(t-1)組成,而h(t-1 )包含前一瞬間的輸入信息和上一隱藏層中的信息。這樣,通過添加前一時刻輸入的隱藏層,添加了序列的歷史信息,從而可以利用距離更長的信息。

          另外,為避免復(fù)雜的特征工程,相關(guān)學(xué)者構(gòu)建了聯(lián)合學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,并提出了基于聯(lián)合模型的神經(jīng)網(wǎng)絡(luò)事件抽取方法。例如,Nguyen et al.提出了一種基于RNN模型的聯(lián)合學(xué)習(xí),用于事件類型識別和事件元素識別。北京郵電大學(xué)的Zhengkuan Zhang 設(shè)計了一種新的事件抽取框架,結(jié)合了window-winding卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò),形成了一種連通學(xué)習(xí)方法,可以同時抽取事件觸發(fā)詞和事件元素,不僅避免了復(fù)雜的特征工程,而且還解決了錯誤傳播的問題。

          深度學(xué)習(xí)方法克服了淺層機(jī)器學(xué)習(xí)的局限性,可以學(xué)習(xí)更多抽象的數(shù)學(xué)特征,并使數(shù)據(jù)具有更好的特征表達(dá),從而實(shí)現(xiàn)文本事件的有效抽取。與淺層機(jī)器學(xué)習(xí)相比,深度學(xué)習(xí)框架可以有效地指數(shù)捕獲數(shù)據(jù)特征,已應(yīng)用于事件抽取領(lǐng)域。

          四、數(shù)據(jù)集及評價指標(biāo)篇

          4.1 事件抽取中常見的英文數(shù)據(jù)集有哪些?

          • ACE2005 English Corpus

          ACE 2005多語種訓(xùn)練語料庫包含了用于2005年自動內(nèi)容抽取(ACE)技術(shù)評價的完整的英語、阿拉伯語和漢語訓(xùn)練數(shù)據(jù)集。語料庫由語言數(shù)據(jù)聯(lián)盟(LDC)為實(shí)體、關(guān)系和事件注釋的各種類型的數(shù)據(jù)組成,該聯(lián)盟得到了ACE計劃的支持和LDC的額外幫助。下載地址為:https://catalog.ldc.upenn.edu/LDC2006T06

          • Rich ERE

          Rich ERE擴(kuò)展了實(shí)體、關(guān)系和事件本體,并擴(kuò)展了什么是taggable的概念。Rich ERE還引入了事件跳躍的概念,以解決普遍存在的事件共引用的挑戰(zhàn),特別是關(guān)于在文檔內(nèi)和文檔之間的事件提及和事件參數(shù)粒度變化,從而為創(chuàng)建(分層的或嵌套的)跨文檔的事件表示鋪平了道路。下載地址為:https://www.aclweb.org/old_anthology/W/W15/W15-0812.pdf

          • TAC 2015

          TAC KBP事件跟蹤的目標(biāo)是提取關(guān)于事件的信息,以便這些信息適合作為知識庫的輸入。軌跡包括用于檢測和鏈接事件的事件塊任務(wù),以及用于提取屬于同一事件的事件參數(shù)和鏈接參數(shù)的事件參數(shù)(EA)任務(wù)。2015年TAC KBP賽事軌跡分為5個子任務(wù)。下載地址為:https://tac.nist.gov//2015/KBP/Event/index.html

          • KBP 2017

          TAC知識庫填充(KBP)的目標(biāo)是開發(fā)和評估從非結(jié)構(gòu)化文本中填充知識庫的技術(shù)。KBP包括為KBP開發(fā)特定組件和功能的組件跟蹤,以及稱為“冷啟動”的端到端KB構(gòu)建任務(wù),該任務(wù)通過在技術(shù)成熟時集成選定的組件從頭開始構(gòu)建KB。與在冷啟動KB任務(wù)中執(zhí)行的功能相比,組件跟蹤中所需的功能可以“更多”,也可以“更少”。組件軌道比冷啟動“更多”,因?yàn)槊總€軌道可能探索未立即集成到冷啟動任務(wù)中的試點(diǎn)任務(wù); 他們是“少”,將組件集成到一個KB需要額外協(xié)調(diào)與和解各個組件之間的不匹配,這樣KB符合知識庫模式(例如,知識庫不能斷言一個實(shí)體是一個事件的“地方”如果它還斷言,實(shí)體是一個“人”)。下載地址為:https://tac.nist.gov/2017/KBP/

          • Twitter datasets【CrisisLexT26 datasets】

          CrisisLexT26來自26次危機(jī)的推文,貼有豐富的信息,信息類型和來源,2014年11月

          此集合包括在2012年和2013年的26次大型危機(jī)事件中收集的推文,每個危機(jī)中大約有1,000條推文被標(biāo)記為信息性(即“信息性”或“非信息性”),信息類型和來源。

          • Genia Event Extraction dataset\Genia dataset

            GENIA語料庫是為GENIA項(xiàng)目編寫并標(biāo)注的最初的生物醫(yī)學(xué)文獻(xiàn)集合。這個語料庫是為了發(fā)展和評估分子生物學(xué)信息檢索及文本挖掘系統(tǒng)而創(chuàng)建的。

            這個語料庫包含1999條Medline的摘要,這些摘要是由PubMed按照human、blood cells以及transcription factors三個醫(yī)學(xué)主題詞(medical subject heading terms )為搜索條件搜索到的。這個語料庫已經(jīng)被按照不同級別的語言信息、語義信息進(jìn)行標(biāo)注。

            包含36種實(shí)體種類(醫(yī)學(xué)數(shù)據(jù)集), 我們把所有的DNA子類別都合并為DNA種類。同樣的設(shè)置也適用于RNA、蛋白質(zhì)、細(xì)胞系和細(xì)胞類類別。最終只保留5種類別。最初始的GENIA語料庫標(biāo)注類別以及對應(yīng)的資料如下:? Part-of-Speech annotation ? Constituency (phrase structure) syntactic annotation ? Term annotation ? Event annotation ? Relation annotation ? Coreference annotation ? 詞性標(biāo)注 ? 句法標(biāo)注 ? 術(shù)語標(biāo)注 ? 事件標(biāo)注 ? 關(guān)系表述 ? 共指標(biāo)注

          其他的還有,Spainish ERE Corpus, Wikipedia article, BioNLP Cancer Genetics (CG) Shared Task 2013 等等

          4.2 事件抽取中常見的中文數(shù)據(jù)集有哪些?

          • ACE2005 Chinese Corpus

          ACE 2005多語種訓(xùn)練語料庫包含了用于2005年自動內(nèi)容抽取(ACE)技術(shù)評價的完整的英語、阿拉伯語和漢語訓(xùn)練數(shù)據(jù)集。語料庫由語言數(shù)據(jù)聯(lián)盟(LDC)為實(shí)體、關(guān)系和事件注釋的各種類型的數(shù)據(jù)組成,該聯(lián)盟得到了ACE計劃的支持和LDC的額外幫助。下載地址為:https://catalog.ldc.upenn.edu/LDC2006T06

          • CEC 中文突發(fā)事件語料庫

          事件本體是以“事件”為認(rèn)知單元,研究事件的組成以及事件之間的關(guān)系,并對事件進(jìn)行歸納和概括,形成事件類,進(jìn)而構(gòu)建事件本體模型。研究本體,必然要先構(gòu)建語料庫,所以在互聯(lián)網(wǎng)上選取了突發(fā)事件語料來進(jìn)行語料的事件標(biāo)注,突發(fā)事件的分類體系,包括三個層次:一級4個大類(自然災(zāi)害類N、事故災(zāi)難類A、公共衛(wèi)生事件P、社會安全事件S),二級33個子類,三級94個小類。我們標(biāo)注的語料庫稱為CEC(Chinese Emergency Corpus),主要包括五類:地震、火災(zāi)、交通事故、恐怖襲擊、食物中毒。合計332篇,下載地址為:https://github.com/shijiebei2009/CEC-Corpus

          中文突發(fā)事件語料庫是由上海大學(xué)(語義智能實(shí)驗(yàn)室)所構(gòu)建。根據(jù)國務(wù)院頒布的《國家突發(fā)公共事件總體應(yīng)急預(yù)案》的分類體系,從互聯(lián)網(wǎng)上收集了5類(地震、火災(zāi)、交通事故、恐怖襲擊和食物中毒)突發(fā)事件的新聞報道作為生語料,然后再對生語料進(jìn)行文本預(yù)處理、文本分析、事件標(biāo)注以及一致性檢查等處理,最后將標(biāo)注結(jié)果保存到語料庫中,CEC合計332篇。

          • CEEC 中文環(huán)境突發(fā)事件語料庫

          中文環(huán)境突發(fā)事件語料庫是由上海大學(xué)(語義智能實(shí)驗(yàn)室)所構(gòu)建。根據(jù)國務(wù)院頒布的《國家突發(fā)公共事件總體應(yīng)急預(yù)案》的分類體系,從互聯(lián)網(wǎng)上收集了6類環(huán)境污染類突發(fā)事件的新聞報道作為生語料,然后再對生語料進(jìn)行文本預(yù)處理、文本分析、事件標(biāo)注以及一致性檢查等處理,最后將標(biāo)注結(jié)果保存到語料庫中,CEEC合計100篇。下載地址為:https://github.com/shijiebei2009/CEEC-Corpus

          CEEC 采用了 XML 語言作為標(biāo)注格式,其中包含了六個最重要的數(shù)據(jù)結(jié)構(gòu)(標(biāo)記):Event、Denoter、Time、Location、Participant 和 Object。Event用于描述事件;Denoter、Time、Location、Participant 和Object用于描述事件的指示詞和要素。此外,我們還為每一個標(biāo)記定義了與之相關(guān)的屬性。與ACE和TimeBank語料庫相比,CEEC語料庫的規(guī)模雖然偏小,但是對事件和事件要素的標(biāo)注卻最為全面。

          4.3 事件抽取的評價指標(biāo)是什么?怎么計算的?

          事件抽取主要采用準(zhǔn)確率(Precision,P)、 召回率(Recall,R) 和 F1 值(F1-Measure,F1) 3 項(xiàng)作為基本評價指標(biāo)。其中,準(zhǔn)確率是指系統(tǒng)中抽取出的正確個數(shù)占抽取出總數(shù)的比例,用來衡量抽取準(zhǔn)確程度;召回率是指系統(tǒng)中正確抽取的個數(shù)占所有正確總數(shù)的比例,用來衡量抽取全面程度;F1 值是準(zhǔn)確率和召回率的加權(quán)平均值,作為系統(tǒng)性能的總體評價。事件抽取所采用的這三個評價指標(biāo)的具體公式如下:

          其中,TP (True Positive)是正確抽取的預(yù)測為正例的數(shù)目,F(xiàn)P (False Positive)是被錯誤抽取的預(yù)測為正例的數(shù)目,F(xiàn)N (False Negative)則是被錯誤抽取的預(yù)測為負(fù)例的數(shù)目。事件抽取模型的性能通常通過 F1 值來綜合判斷, F1 值越大,模型性能越好。

          遠(yuǎn)程監(jiān)督興起后,模型所需要處理的數(shù)據(jù)規(guī)模量級增加,在考察系統(tǒng)性能時,也將運(yùn)行時間和內(nèi)存占用作為評價指標(biāo)的一部分進(jìn)行考量。

          F1平均值法一般多用于單一事件抽取任務(wù)中,如: 突發(fā)事件、門戶網(wǎng)站、金融資訊的事件抽取。對于話題追蹤任務(wù)而言,相對于正確率,人們對系統(tǒng)作出的錯誤判斷往往更為敏感,這些錯誤包括:本應(yīng)為是的判斷為否 (丟失) ,本應(yīng)為否的判斷為是 (誤報) ,因此常采用錯誤識別代價作為效果評價方法。另外,事件抽取的各種算法在實(shí)際應(yīng)用中,除考慮其識別結(jié)果的正確率外,還應(yīng)該考慮算法的復(fù)雜程度及其可實(shí)現(xiàn)性。一些抽取效果好的算法往往是以犧牲時間為代價的。一些算法可能由于硬件要求太高,或訓(xùn)練時間太長而不具備可行性。

          五、對比篇

          5.1 事件抽取和命名實(shí)體識別(即實(shí)體抽?。┯惺裁串愅??

          命名實(shí)體識別

          實(shí)體抽?。阂簿褪敲麑?shí)體識別,包括實(shí)體的檢測(find)和分類(classify)

          1)主要任務(wù):

          要識別出文本中出現(xiàn)的專有名稱和有意義的數(shù)量短語并加以歸類。

          2)主要研究內(nèi)容:

          就整個的命名實(shí)體識別的研究結(jié)果而言,時間表達(dá)式和數(shù)字表達(dá)式的識別相對簡單,其規(guī)則的設(shè)計、數(shù)據(jù)的統(tǒng)計訓(xùn)練等也比較容易。而對于實(shí)體中的組織名、人名、地名,因?yàn)槠渚哂虚_放性和發(fā)展性的特點(diǎn),而且構(gòu)成規(guī)律有很大的隨意性,所以其識別就可能會有較多的錯選或漏選?,F(xiàn)在大多數(shù)的命名實(shí)體識別的研究都集中于對這三種實(shí)體的識別技術(shù)的研究。

          3)發(fā)展歷程:

          基于規(guī)則的方法->基于統(tǒng)計的方法->混合方法

          4)漢語命名實(shí)體識別中的特殊難點(diǎn):

          • 分詞:邊界模糊不僅存在于非實(shí)體詞之間,也出現(xiàn)于實(shí)體詞和非實(shí)體詞之間。

          • 漢語命名實(shí)體的生成規(guī)律以及結(jié)構(gòu)更加復(fù)雜,尤其是縮略語的表示形式具有多樣性,很難提取構(gòu)成規(guī)則,因此不可能用一種識別模型應(yīng)用于所有的命名實(shí)體。

          • 與西方語言比較,漢語缺少在命名實(shí)體識別中起重要作用的詞形變換特征。

          • 漢語中除比較特殊的字詞外,命名實(shí)體也可包含普通字詞。

          • 能用于漢語命名實(shí)體識別的開放型語料還很少,因此一方面需要開發(fā)大型命名實(shí)體標(biāo)注語料庫,另一方面研究不依賴大型命名實(shí)體標(biāo)注文本庫的算法也具有重要意義。

          5)命名實(shí)體識別的結(jié)果:

          • 正確(correct) :系統(tǒng)識別結(jié)果和標(biāo)準(zhǔn)結(jié)果相同。

          • 丟失(missing):系統(tǒng)未識別而標(biāo)準(zhǔn)結(jié)果中有。

          • 虛假(spurious):系統(tǒng)識別但標(biāo)準(zhǔn)結(jié)果中沒有。

          6)主要的兩個評價指標(biāo):

          查全率:正確/(正確+丟失)

          查準(zhǔn)率:正確/(正確+虛假)

          有時為了綜合評價系統(tǒng)的性能,通常還計算查全率和查準(zhǔn)率的加權(quán)幾何平均值即F指數(shù)。

          7)方法:

          • 基于規(guī)則:

            • 如:NTU系統(tǒng)、FACILE系統(tǒng)、OKI系統(tǒng)。

            • 缺點(diǎn):缺乏魯棒性和可移植性,對于每個新領(lǐng)域的文本都需要更新規(guī)則來保持最優(yōu)性能,而這需要大量的專門知識和人力,代價往往非常大。

          • 基于統(tǒng)計:

            • 如:n元模型、隱馬爾科夫模型(HMM)、最大熵模型(ME)、決策樹、基于轉(zhuǎn)換的學(xué)習(xí)方法、推進(jìn)方法、表決感知器方法、條件馬爾科夫模型等。評價性能最好的是HMM。而ME因其自身的特點(diǎn)仍是當(dāng)前主要的研究方向。

            • 缺點(diǎn):性能較基于規(guī)則的方法而言偏低,因?yàn)榛诮y(tǒng)計的方法獲取的概率知識總趕不上人類專家的專業(yè)知識的可靠性,而且有些知識獲取必需專家的經(jīng)驗(yàn)。

          • 混合方法:

            借助規(guī)則知識及早剪枝,再用統(tǒng)計模型是比較好的方法。

          5.2 事件抽取和關(guān)系抽取有什么異同?

          關(guān)系抽取

          定義:自動識別實(shí)體之間具有的某種語義關(guān)系。根據(jù)參與實(shí)體的多少可以分為二元關(guān)系抽?。▋蓚€實(shí)體)和多元關(guān)系抽取(三個及以上實(shí)體)。

          通過關(guān)注兩個實(shí)體間的語義關(guān)系,可以得到(arg1, relation, arg2)三元組,其中arg1和arg2表示兩個實(shí)體,relation表示實(shí)體間的語義關(guān)系。(比如通過Hanlp分析工具可以得到句子中各詞之間的語義關(guān)系)

          1)抽取數(shù)據(jù)源分類:

          面向結(jié)構(gòu)化文本的關(guān)系抽?。喊ū砀裎臋n、XML文檔、數(shù)據(jù)庫數(shù)據(jù)等

          面向非結(jié)構(gòu)化文本的關(guān)系抽取:純文本

          面向半結(jié)構(gòu)化文本的關(guān)系抽?。航橛诮Y(jié)構(gòu)化和非結(jié)構(gòu)化之間

          2)抽取范圍分類:

          句子級關(guān)系抽?。簭囊粋€句子中判別兩個實(shí)體間是何種語義關(guān)系
          語料(篇章)級關(guān)系抽取:不限定兩個目標(biāo)實(shí)體所出現(xiàn)的上下文

          3)抽取領(lǐng)域分類:

          限定域關(guān)系抽?。涸谝粋€或者多個限定的領(lǐng)域內(nèi)對實(shí)體間的語義關(guān)系進(jìn)行抽取,限定關(guān)系的類別,可看成是一個文本分類任務(wù)
          開放域關(guān)系抽?。翰幌薅P(guān)系的類別

          事件抽?。合喈?dāng)于一種多元關(guān)系的抽取

          4)限定域關(guān)系抽取方法:

          基于模板的關(guān)系抽取方法:通過人工編輯或者學(xué)習(xí)得到的模板對文本中的實(shí)體關(guān)系進(jìn)行抽取和判別,受限于模板的質(zhì)量和覆蓋度,可擴(kuò)張性不強(qiáng)。(自己做的法院文書屬于基于模板的抽?。?br>
          基于機(jī)器學(xué)習(xí)的關(guān)系抽取方法:將關(guān)系抽取看成是一個分類問題

          其中,基于機(jī)器學(xué)習(xí)的關(guān)系抽取方法又可分為 有監(jiān)督 和 弱監(jiān)督。

          5)有監(jiān)督的關(guān)系抽取方法:

          基于特征工程的方法:需要顯示地將關(guān)系實(shí)例轉(zhuǎn)換成分類器可以接受的特征向量

          基于核函數(shù)的方法:直接以結(jié)構(gòu)樹為處理對象,在計算關(guān)系之間距離的時候不再使用特征向量的內(nèi)積而是用核函數(shù)

          基于神經(jīng)網(wǎng)絡(luò)的方法:直接從輸入的文本中自動學(xué)習(xí)有效的特征表示,端到端

          6)弱監(jiān)督的關(guān)系抽取方法:不需要人工標(biāo)注大量數(shù)據(jù)。

          距離監(jiān)督:用開放知識圖譜自動標(biāo)注訓(xùn)練樣本,不需要人工逐一標(biāo)注,屬弱監(jiān)督關(guān)系抽取的一種。

          7)開放域關(guān)系抽取方法:

          不需要預(yù)先定義關(guān)系類別,使用實(shí)體對上下文中的一些詞語來描述實(shí)體之間的關(guān)系。

          事件抽取

          定義:從描述事件信息的文本中抽取出用戶感興趣的事件并以結(jié)構(gòu)化的形式呈現(xiàn)出來。

          步驟:首先識別出事件及其類型,其次要識別出事件所涉及的元素(一般是實(shí)體),最后需要確定每個元素在事件中所扮演的角色。

          1)事件抽取相關(guān)概念:

          事件指稱:對一個客觀發(fā)生的具體事件進(jìn)行的自然語言形式的描述,通常是一個句子或句群
          事件觸發(fā)詞:指一個事件指稱中最能代表事件發(fā)生的詞,是決定事件類別的重要特征,一般是動詞或名詞
          事件元素:事件中的參與者,主要由實(shí)體、時間和屬性值組成
          元素角色:事件元素在相應(yīng)的事件中扮演什么角色
          事件類別:事件元素和觸發(fā)詞決定了事件的類別(類別又定義了若干子類別)

          2)限定域事件抽?。涸谶M(jìn)行抽取之前,預(yù)先定義好目標(biāo)事件的類型及每種類型的具體結(jié)構(gòu)(包含哪些具體的事件元素),通常會給出一定數(shù)量的標(biāo)注數(shù)據(jù)。

          限定域事件抽取方法:

          • 基于模式匹配的方法:對某種類型事件的識別和抽取是在一些模式的指導(dǎo)下進(jìn)行的(步驟:模式獲取、模式匹配)

            • 有監(jiān)督的事件模式匹配:模式的獲取完全基于人工標(biāo)注的語料

            • 弱監(jiān)督的事件模式匹配:不需要對語料進(jìn)行完全標(biāo)注,只需要人工對語料進(jìn)行一定的預(yù)分類或者制定少量種子模式

          • 基于機(jī)器學(xué)習(xí)的方法

            • 有監(jiān)督事件抽取方法:將事件抽取建模成一個多分類問題

              • 基于Bootstrapping的事件抽?。豪蒙俨糠秩斯?biāo)注的數(shù)據(jù)自動生成大規(guī)模標(biāo)注數(shù)據(jù)(高置信度抽取結(jié)果會作為訓(xùn)練樣本,然后再訓(xùn)練,不斷迭代)

              • 基于Distant Supervison的事件抽?。和耆詣由墒录?biāo)注樣本,利用結(jié)構(gòu)化的事件知識庫直接在非結(jié)構(gòu)化文本中回標(biāo)訓(xùn)練樣本

            • 弱監(jiān)督事件抽取方法:不需要人工大量標(biāo)注樣本,但需要給出具有規(guī)范語義標(biāo)簽(事件類別、角色名稱等)的標(biāo)注訓(xùn)練數(shù)據(jù)

              • 基于特征工程的方法:需要顯示地將事件實(shí)例轉(zhuǎn)換成分類器可以接受的特征向量,研究重點(diǎn)在于怎樣提取具有區(qū)分性的特征

              • 基于神經(jīng)網(wǎng)絡(luò)的方法:自動從文本中獲取特征進(jìn)而完成事件抽取,避免使用傳統(tǒng)自然語言處理工具帶來的誤差累積問題

          3)開放域事件抽?。涸谶M(jìn)行事件識別之前,可能的事件類型以及事件的結(jié)構(gòu)都是未知的,因此該任務(wù)通常沒有標(biāo)注數(shù)據(jù),主要基于無監(jiān)督的方法和分布假設(shè)理論。

          分布假設(shè)理論:如果候選事件觸發(fā)詞或者候選事件元素具有相似的語境,那么這些候選事件觸發(fā)詞傾向于觸發(fā)相同類型的事件,相應(yīng)的候選事件元素傾向于扮演相同的事件元素。

          開放域事件抽取方法:

          • 基于內(nèi)容特征的事件抽取方法

          • 基于異常檢測的事件抽取方法

          事件關(guān)系抽取,以事件為基本語義單元,實(shí)現(xiàn)事件邏輯關(guān)系的深層檢測和抽取,包括:

          • 事件共指關(guān)系抽取

          • 事件因果關(guān)系抽取

          • 子事件關(guān)系抽取

          • 事件時序關(guān)系抽取

          5.3 什么是事理圖譜?有哪些事件關(guān)系類型?事理圖譜怎么構(gòu)建?主要技術(shù)領(lǐng)域及當(dāng)前發(fā)展熱點(diǎn)是什么?

          事理圖譜(Event Logic Graph,縮寫ELG)是一個事理邏輯知識庫,描述了事件之間的演化規(guī)律和模式。結(jié)構(gòu)上,事理圖譜是一個有向有環(huán)圖,其中節(jié)點(diǎn)代表事件,有向邊代表事件之間的順承、因果、條件和上下位等事理邏輯關(guān)系。

          理論上,事理圖譜中的事件是具有一定抽象程度的泛化事件。表示為抽象、語義完備的謂詞短語或句子,也可以表示為可變長度的、結(jié)構(gòu)化的(主體、事件詞、客體)多元組,其中必然包含一個事件詞,標(biāo)志事件的發(fā)生,例如:“跑步”,而事件的主體和客體都可以在不同的應(yīng)用場景下被省略,例如:“(元首,出訪)”可以省略事件的客體,“(購買,機(jī)票)”可以省略事件的主體。一般情況下,事件以及事件的抽象程度與該事件發(fā)生的場景緊密關(guān)聯(lián)在一起,脫離了具體的場景,一個單獨(dú)的事件可能變得過度抽象而難以理解。

          例如,雖然脫離了具體的場景,但“吃火鍋”, “看電影”, “去機(jī)場”,“地震” 仍是合理的事件表達(dá);但“做事情”,“吃”等事件由于過度抽象,屬于不合理或不完整的事件表達(dá)。事件詞可以是動詞或名詞,但是絕大多數(shù)事件都是動詞觸發(fā)的。其中,按動詞的內(nèi)容意義進(jìn)行劃分,可將事件分為動作類事件、狀態(tài)類事件、關(guān)系類事件與能愿類事件四個大類。

          1)事理圖譜中的事件關(guān)系類型

          我們認(rèn)為,現(xiàn)實(shí)世界中有四種事理邏輯關(guān)系特別重要,也是我們提出的事理圖譜中主要關(guān)注的事理邏輯關(guān)系,包括事件之間的順承關(guān)系、因果關(guān)系、條件關(guān)系和上下位關(guān)系。
          • 順承關(guān)系是指兩個事件在時間上相繼發(fā)生的偏序關(guān)系。我們借鑒TimeML時序關(guān)系類別中的before和after偏序關(guān)系,在事理圖譜中的順承關(guān)系包括兩種情況:一種情況是順承的前序事件a結(jié)束后,后序事件b緊接著發(fā)生;另一種情況是前序事件a結(jié)束后,隔一段時間后序事件b才會發(fā)生,具體如圖1所示。兩個前后順承的事件之間存在一個介于0到1之間的轉(zhuǎn)移概率,表示從一個事件按時序順承關(guān)系演化到下一事件的置信度。

          圖1 兩種順承關(guān)系示例

          • 因果關(guān)系是指兩個事件之間,前一事件(原因)的發(fā)生導(dǎo)致后一事件(結(jié)果)的發(fā)生。在事理圖譜中,因果關(guān)系滿足原因事件在前,結(jié)果事件在后的時間上的偏序關(guān)系,因此在一定意義上,可以認(rèn)為因果關(guān)系是順承關(guān)系的子集。因果事件對之間存在一個介于0到1之間的因果強(qiáng)度值,表示該因果關(guān)系成立的置信度。

          • 條件關(guān)系是指前一個事件是后一個事件發(fā)生的條件。條件關(guān)系屬于思想中命題的某種邏輯關(guān)系,因果關(guān)系屬于對客觀事實(shí)的某種認(rèn)識,我們認(rèn)為“原因≠理由”,“原因”指的是事件之間的因果關(guān)系,是關(guān)于事實(shí)的,“理由”是前提與結(jié)論或論據(jù)與論點(diǎn)的內(nèi)在聯(lián)系,是關(guān)于邏輯的。舉例來說,“如果買票的人多,那么電影好看”這一條件是成立的,而“因?yàn)橘I票的人多,所以電影好看”這一因果是不成立的。

          • 上下位關(guān)系:事件之間的上下位關(guān)系有兩種:名詞性上下位關(guān)系和動詞性上下位關(guān)系。例如,事件“食品價格上漲”與“蔬菜價格上漲”構(gòu)成名詞性上下位關(guān)系;事件“殺害”與“刺殺”互為動詞性上下位關(guān)系。需要注意的是,上下位關(guān)系一般是沒有疑義的確定知識,因此可認(rèn)為該類關(guān)系的置信度為常數(shù)1或0,即表示該知識是正確的或者是錯誤的。

          2)事理圖譜中的事件屬性

          事理圖譜除了關(guān)注事件之間的事理邏輯關(guān)系外,還關(guān)注事件自身的屬性。事件屬性用來描述事件發(fā)生的程度、持續(xù)時間等。在進(jìn)行推理時,事件屬性會起到非常重要的作用,例如,從金融文本中可以抽取到“貨幣超發(fā)”會導(dǎo)致“匯率貶值”,“匯率貶值”又會導(dǎo)致“貨幣緊縮”,而實(shí)際上“貨幣持續(xù)超發(fā)”才會導(dǎo)致“匯率貶值”,而“匯率大幅貶值”才會導(dǎo)致“貨幣緊縮”,這里面“持續(xù)”和“大幅”作為事件的屬性,可以影響到事件未來的走勢情況。此外,“股票下跌/上漲”的百分比也是事件重要的屬性,股票上漲0.1%和上漲10%對未來事件的影響是有非常明顯的區(qū)別的。

          3)事理圖譜與知識圖譜的關(guān)系

          “知識圖譜”這一術(shù)語有兩層含義。如果認(rèn)為“知識圖譜”表示廣義上的知識庫,是一種用以存儲知識的本體的話,那么“事理圖譜”可以認(rèn)為是一種存儲事理邏輯關(guān)系的“知識圖譜”;如果認(rèn)為“知識圖譜”特指狹義上現(xiàn)階段谷歌、百度所構(gòu)建的以實(shí)體為中心、用于提升用戶搜索體驗(yàn)的知識庫,以及Freebase、 YAGO、 DBpedia、ConceptNet和微軟的Concept Graph等產(chǎn)品的話,那么“事理圖譜”便是與“知識圖譜”相并列的一種新型常識知識庫。



          事理圖譜與傳統(tǒng)知識圖譜有本質(zhì)上的不同。如表1所示,事理圖譜以事件為核心研究對象,有向邊表示事理邏輯關(guān)系,即順承、因果、條件和上下位;邊上標(biāo)注有概率信息說明事理圖譜是一種事件間相繼發(fā)生可能性的刻畫,不是確定性關(guān)系。而知識圖譜以實(shí)體為核心研究對象,實(shí)體屬性以及實(shí)體間關(guān)系種類往往成千上萬。知識圖譜以客觀真實(shí)性為目標(biāo),某一條屬性或關(guān)系要么成立,要么不成立。

          4)事理圖譜的構(gòu)建

          • 基本技術(shù)原理

          事理圖譜課題主要研究從大規(guī)模無結(jié)構(gòu)化(或者結(jié)構(gòu)化、半結(jié)構(gòu)化)文本數(shù)據(jù)中自動獲取事理邏輯知識,并將這些知識組織成有向有環(huán)圖結(jié)構(gòu),用以描述事件之間的演化規(guī)律和模式。這樣的知識庫我們稱之為“事理圖譜”。

          事理圖譜項(xiàng)目包含“構(gòu)建”、“推理”和“應(yīng)用”三個關(guān)鍵技術(shù)點(diǎn):

          (1) 事理圖譜的構(gòu)建

          事理圖譜的構(gòu)建主要用到以下具體的自然語言處理技術(shù):事件定義、開放域或限定域事件抽取,事理關(guān)系抽?。ò录槼?、因果、上下位關(guān)系抽取等),事理關(guān)系置信強(qiáng)度計算,事件相似度計算,事件抽象與泛化等。

          (2) 事理圖譜的推理

          事理圖譜的推理可以用于事件及關(guān)系的補(bǔ)全,主要涉及到的技術(shù)有:結(jié)構(gòu)化事件表示學(xué)習(xí),短語級、句子級事件表示學(xué)習(xí),事理圖譜圖結(jié)構(gòu)上的圖神經(jīng)網(wǎng)絡(luò)技術(shù)等。

          (3) 事理圖譜的應(yīng)用

          事理圖譜的應(yīng)用是指將構(gòu)建好的事理圖譜用于下游任務(wù),例如消費(fèi)意圖識別和商品推薦、對話系統(tǒng)回復(fù)生成、股市漲跌預(yù)測、未來事件預(yù)測等,幫助提升具體任務(wù)的效果。此階段用到的技術(shù)主要有:事理圖譜的存儲與查詢(事件的搜索與匹配),事件表示學(xué)習(xí),事理圖譜表示學(xué)習(xí)等。

          5)主要技術(shù)領(lǐng)域及當(dāng)前發(fā)展熱點(diǎn)

          與事理圖譜項(xiàng)目密切相關(guān)的技術(shù)領(lǐng)域主要包含以下幾個方面:
          • 常識知識庫資源構(gòu)建

          傳統(tǒng)的常識知識庫資源構(gòu)建主要圍繞實(shí)體及其關(guān)系展開。2012年谷歌成功將大規(guī)模知識圖譜商業(yè)化,顯著改善了搜索結(jié)果的呈現(xiàn)方式,并提升了搜索引擎的用戶體驗(yàn)。之后以實(shí)體為中心的知識圖譜獲得了長足的發(fā)展以及廣泛的應(yīng)用。時至今日,知識圖譜仍然是學(xué)術(shù)界的一個發(fā)展熱點(diǎn)。知識圖譜上的知識表示學(xué)習(xí)、實(shí)體鏈接、實(shí)體消歧、知識圖譜補(bǔ)全等等研究方向仍然是當(dāng)下研究的熱點(diǎn)問題。

          然而,已有研究者注意到事件常識的重要性,部分最新的研究工作開始研究以事件為中心的常識知識庫構(gòu)建。
          • 統(tǒng)計腳本學(xué)習(xí)

          給出多個事件組成的上文,統(tǒng)計腳本學(xué)習(xí)研究下一個可能發(fā)生的事件是什么,可以認(rèn)為是建模事件預(yù)測的能力。

          傳統(tǒng)方法多在無監(jiān)督抽取的結(jié)構(gòu)化事件鏈條上進(jìn)行模型的搭建,這條技術(shù)路線仍然在發(fā)展當(dāng)中,不斷有新的模型涌現(xiàn);最近,學(xué)者們提出故事結(jié)尾預(yù)測的評估方式,是對傳統(tǒng)評估方法的進(jìn)一步完善。
          • 事件順承關(guān)系抽取

          由于語料標(biāo)注的限制,事件時序關(guān)系抽取研究進(jìn)展相當(dāng)緩慢。雖然曾經(jīng)連續(xù)舉辦多個技術(shù)評測,推動了該技術(shù)的發(fā)展,但是進(jìn)步仍然十分有限。最近,時序關(guān)系抽取重新引起了學(xué)者的研究興趣,有許多相關(guān)研究發(fā)表。從預(yù)料的構(gòu)建,識別方法的改進(jìn)等多個方面繼續(xù)推動該研究走向使用階段。目前,已有開放域的時序關(guān)系抽取系統(tǒng)發(fā)布。
          • 事件因果關(guān)系抽取

          文本中的因果關(guān)系抽取一直是一個難點(diǎn)。雖然學(xué)者們提出了許多方法,但是仍以因果模板匹配的方法抽取精確度最好。模板匹配的缺點(diǎn)在于召回率難以保證,許多有價值的因果關(guān)系無法召回。目前,高效準(zhǔn)確的因果關(guān)系抽取方法仍然是一個難點(diǎn)及研究熱點(diǎn)。
          • 知識表示學(xué)習(xí)與網(wǎng)絡(luò)表示學(xué)習(xí)

          知識表示學(xué)習(xí)是指將知識圖譜中的實(shí)體及關(guān)系映射到低維稠密向量,進(jìn)而可以更加方便地用于后續(xù)任務(wù)當(dāng)中。網(wǎng)絡(luò)表示學(xué)習(xí)的研究對象不僅僅包含知識圖譜這種網(wǎng)絡(luò),而是更廣義上的網(wǎng)絡(luò)。這兩個研究方向都是當(dāng)下研究的熱點(diǎn)問題,屬于事理圖譜應(yīng)用階段的實(shí)用技術(shù)。

          六、應(yīng)用篇

          事件抽取在網(wǎng)絡(luò)輿情監(jiān)控、突發(fā)事件告警﹑情報收集領(lǐng)域有著重要應(yīng)用。網(wǎng)絡(luò)輿情變化通常是由某些熱點(diǎn)社會事件引發(fā)的,事件抽取技術(shù)可以在第一時間發(fā)現(xiàn)這些熱點(diǎn)事件,從而為預(yù)測網(wǎng)絡(luò)輿情變化提供幫助?;ヂ?lián)網(wǎng)傳播消息的速度很快,如果能夠及時地從互聯(lián)網(wǎng)中挖掘突發(fā)事件,將為政府部門做好應(yīng)對贏得時間。在情報收集領(lǐng)域,事件抽取技術(shù)可以幫助情報分析人員從大量的低價值情報數(shù)據(jù)中自動獲取事件信息,大大減小情報人員的工作量,在數(shù)據(jù)量急劇膨脹的今天,自動化的事件抽取技術(shù)顯得尤為重要。

          新聞推薦:根據(jù)用戶感興趣的話題推送相關(guān)事件的周邊報道可以提高個性化新聞系統(tǒng)的表現(xiàn)

          醫(yī)療:從語料庫中提取類似蛋白質(zhì)分子行為的生物學(xué)事件

          金融:實(shí)時監(jiān)測突發(fā)經(jīng)濟(jì)新聞,如公司的兼并和收購、股票交易、分紅等,幫助決策者迅速應(yīng)對市場變化

          • 關(guān)于短句子事件短語抽取的論文:



          • 用 event embedding 做股票預(yù)測:

          • 爬蟲:該爬蟲爬取了 36 kr(科技資訊網(wǎng)站) 的新聞快訊,以 json 的格式儲存,適合用來做信息提取的測試樣本或自動摘要的語料。

          相關(guān)地址:https://github.com/HughWen/wen_spiders

          • 中文 NER 識別:作者希望大家可以貢獻(xiàn)自己的力量一起維護(hù)一個開源的中文 NER 項(xiàng)目。

          相關(guān)地址:https://github.com/zjy-ucas/ChineseNER

          七、拓展篇

          7.1 事件抽取論文綜述

          元事件抽取研究綜述, 2019[https://doi.org/10.11896/j.issn.1002-137X.2019.08.002] 事件抽取是信息抽取領(lǐng)域的一個重要研究方向,在情報收集、知識提取、文檔摘要、知識問答等領(lǐng)域有著廣泛應(yīng)用。寫了一篇對當(dāng)前事件抽取領(lǐng)域研究得較多的元事件抽取任務(wù)的綜述。

          首先,簡要介紹了元事件和元事件抽取的基本概念,以及元事件抽取的主要實(shí)現(xiàn)方法。然后,重點(diǎn)闡述了元事件抽取的主要任務(wù),詳細(xì)介紹了元事件檢測過程,并對其他相關(guān)任務(wù)進(jìn)行了概述。最后,總結(jié)了元事件抽取面臨的問題,在此基礎(chǔ)上展望了元事件抽取的發(fā)展趨勢。

          An Overview of Event Extraction from Text, 2019[http://ceur-ws.org/Vol-779/derive2011_submission_1.pdf] 文本挖掘的一個常見應(yīng)用是事件抽取,它包括推導(dǎo)出與事件相關(guān)的特定知識,這些知識重新映射到文本中。事件抽取可處理各種類型的文本,如(在線)新聞消息、博客和手稿。本文獻(xiàn)回顧了用于各種事件抽取目的的文本挖掘技術(shù)。它提供了關(guān)于如何根據(jù)用戶、可用內(nèi)容和使用場景選擇特定事件抽取技術(shù)的一般指南。

          A Survey of Event Extraction from Text, 2019[https://doi.org/10.1109/ACCESS.2019.2956831] 事件抽取的任務(wù)定義、數(shù)據(jù)源和性能評估,還為其解決方案方法提供了分類。在每個解決方案組中,提供了最具代表性的方法的詳細(xì)分析,特別是它們的起源、基礎(chǔ)、優(yōu)勢和弱點(diǎn)。最后,對未來的研究方向進(jìn)行了展望。

          A Survey of Textual Event Extraction from Social Networks, 2017[http://ceur-ws.org/Vol-1988/LPKM2017_paper_15.pdf] 過去的十年中,在社交網(wǎng)絡(luò)上挖掘文本內(nèi)容以抽取相關(guān)數(shù)據(jù)和有用的知識已成為無所不在的任務(wù)。文本挖掘的一種常見應(yīng)用是事件抽取,它被認(rèn)為是一個復(fù)雜的任務(wù),分為不同難度的多個子任務(wù)。

          在本文中,對現(xiàn)有的主要文本挖掘技術(shù)進(jìn)行了概述,這些技術(shù)可用于許多不同的事件抽取目標(biāo)。首先,介紹基于統(tǒng)計模型將數(shù)據(jù)轉(zhuǎn)換為知識的主要數(shù)據(jù)驅(qū)動方法。其次,介紹了基于專家知識的知識驅(qū)動方法,通常通過基于模式的方法來抽取知識。然后,介紹結(jié)合了數(shù)據(jù)驅(qū)動和知識驅(qū)動方法的主要現(xiàn)有混合方法。最后,比較社交網(wǎng)絡(luò)事件抽取研究,概括了每種提出的方法的主要特征。

          A Survey of event extraction methods from text for decision support systems, 2016[https://doi.org/10.1016/j.dss.2016.02.006] 事件抽取是一種可以追溯到20世紀(jì)80年代的專門的信息抽取流程,由于大數(shù)據(jù)的出現(xiàn)以及文本挖掘和自然語言處理等相關(guān)領(lǐng)域的發(fā)展,事件抽取技術(shù)得到了極大的普及。然而,到目前為止,對這一特殊領(lǐng)域的概述仍然是難以捉摸的。

          因此,總結(jié)了文本數(shù)據(jù)的事件抽取技術(shù),劃分成數(shù)據(jù)驅(qū)動、知識驅(qū)動和混合方法三類,并對這些方法進(jìn)行了定性評價。此外,還討論了從文本語料庫中抽取事件的常見決策支持應(yīng)用。最后,對事件抽取系統(tǒng)的評價進(jìn)行了闡述,并指出了當(dāng)前的研究問題。

          7.2 事件抽取常見問題

          ① 事件抽取的定義/概念是什么?哪些比賽/會議給出了定義?

          A: 時間,地點(diǎn),人物,故事情節(jié)。
          A: ACE 05 中對事件進(jìn)行了明確的定義。
          A: 屬性信息(Attribute),包括:類型(Type)、子類(Subtype)、模態(tài)(Modality)、傾向性(Polairty)、普遍性(Genericity)和時態(tài)(Tense)。

          Q:不同任務(wù)對事件的定義不同吧,能具體解釋下這些字段嗎?

          A: 屬性是實(shí)體、數(shù)值和時間的集合。
          A: 我認(rèn)為關(guān)系抽取一般來說是針對兩個實(shí)體的,而事件抽取的話,不同事件類型會對應(yīng)不同的元素元素(事件要素)。
          A: 一般來說是的,需要提前定義好事件的類型以及每種類型包含的屬性。
          A: ACE05 中給出了類似的 schema,此處給出 ace05 對事件抽取的定義:

          Q:能簡單介紹一些事件抽取的應(yīng)用背景嗎?

          A: 比如一個事件里的被殺人數(shù)就是個數(shù)值,我記得最開始是用于反恐情報收集的。
          A: 之前看過有人寫事件是一種特殊的關(guān)系,不知道是否正確。
          A: 新聞撰寫機(jī)器人,比如百度知識圖譜團(tuán)隊(duì)研發(fā)的寫稿機(jī)器人,基于事件圖譜自動生成一些大事件文章。

          Q:事件是要分類型的吧?

          A: 看描述好像也有實(shí)體那種感覺。
          A: 事件類型要先定義出來。
          A: 有些研究是針對微博,將事件分為 4 元組:命名實(shí)體, 事件短句,日期,事件類型。
          A: 覺得定義事件跟抽取語義是一樣的,此處放上一張分類ace05事件抽取分類圖:

          Q:事件抽取針對的是一段話還是一篇文章呢?

          A: 針對一句話是 sentence-level 的,還有 document-level,cross-sentence level,cross-document level 的等等。

          ② 有哪些常用的評測數(shù)據(jù)集和評測標(biāo)準(zhǔn)?

          A: ACE2005

          ③ 國內(nèi)外有哪些研究團(tuán)隊(duì)和學(xué)者,它們主要研究的目標(biāo)是什么?

          A: 國內(nèi)好像蘇州大學(xué)周國棟團(tuán)隊(duì),哈工大劉挺,秦兵團(tuán)隊(duì)。
          A: 國外有韓家煒,繼桓團(tuán)隊(duì)。
          A: 國內(nèi)企業(yè)有百度知識圖譜團(tuán)隊(duì)。
          A: 國內(nèi)外相關(guān)研究團(tuán)隊(duì)發(fā)表的論文:

          ④ 事件抽取有哪些應(yīng)用場景和實(shí)際的產(chǎn)品?

          A: 股票,金融,QA,新聞趨勢跟蹤,輿情,事件型投資,并購。
          A: 反恐,反詐騙,政策性投資。
          A: 生物醫(yī)學(xué)有類似藥物不良反應(yīng)的事件抽取。
          A: 通過對新聞熱點(diǎn)事件的抽取,也許可以用來預(yù)測 IT 基礎(chǔ)設(shè)施的故障,這個案例 NTT 做過,通過大量新聞事件的分析抽取預(yù)測了大規(guī)模網(wǎng)絡(luò)故障。

          Q: 為什么通過新聞可以預(yù)測網(wǎng)絡(luò)故障呢?

          A: 如果突然有個突發(fā)事件,網(wǎng)絡(luò)上也許會引發(fā)大規(guī)模的群體關(guān)注,相關(guān)網(wǎng)絡(luò)的服務(wù)器也許突然大規(guī)模負(fù)載上升。
          A: 百度的知識圖譜團(tuán)隊(duì)在事件圖譜這塊開展了不少前沿性的工作,并已經(jīng)落地在了一些產(chǎn)品上;他們的目標(biāo)是打造一個覆蓋面最全時效性最快分析最全面精準(zhǔn)的中文事件圖譜。目前的產(chǎn)品形態(tài)比如事件脈絡(luò),明星事件追蹤,明星歷史熱點(diǎn)等產(chǎn)品。

          ⑤ 事件抽取的一般過程,有標(biāo)注數(shù)據(jù)開展研究,如何擴(kuò)展,沒有數(shù)據(jù)怎么做?

          A: 種子迭代,規(guī)則,模板。機(jī)器學(xué)習(xí)也可以用,比如論元的檢測,就是構(gòu)建一些特征,然后分類。
          A: 這個還是要做垂直領(lǐng)域,從規(guī)則和模板開始。
          A: 一些門戶網(wǎng)站倒是可以通過訪問量(檢測波峰)的方法來看是不是發(fā)生了事件。

          Q: 事件抽取一般有什么方法呢?

          A: 帶監(jiān)督的深度卷積網(wǎng)絡(luò)肯定是一個。
          A: CNN 用的比較多。
          A: 估計從規(guī)則到機(jī)器學(xué)習(xí)都有,看具體的場景和數(shù)據(jù)。
          A: 經(jīng)典方法就是:規(guī)則+模板,前沿方法:強(qiáng)化+模版(深度卷積)。
          A: 基于模板的抽取方法、半監(jiān)督學(xué)習(xí)的模板抽取方法、經(jīng)典機(jī)器學(xué)習(xí)方法、latent model 等等。

          ⑥ 深度學(xué)習(xí)在事件抽取上有哪些應(yīng)用,與傳統(tǒng)方法比有什么優(yōu)勢/劣勢?

          A: 性能好,不用人工構(gòu)造特征。
          A: 觸發(fā)詞的識別和分類,CNN 模型要好。

          ⑦ 事件抽取與其他信息抽取任務(wù)(關(guān)系抽取、NER 等)有什么聯(lián)系,難點(diǎn)在哪?

          A: 得先 NER。
          A: 時間是不是直接抽取就好了,其它屬性該怎么辦呢?
          A: 配模板的嘛,時間也是模板的一部分。

          Q: 觸發(fā)詞一般是預(yù)定義好的,還是需要做檢測任務(wù)?

          A: 一般是定義好的,也有檢測觸發(fā)詞的任務(wù)。

          ⑧ 事件之間的關(guān)系如何表示,如何做事件之間的關(guān)系抽取,目前有哪些研究?

          A: 我個人看法:事件也許應(yīng)該是在時間軸上,有明確開始和結(jié)束的一段實(shí)體與實(shí)體產(chǎn)生關(guān)系的“運(yùn)動”。
          A: 外國一般都是只做二元關(guān)系或者時序上的關(guān)系。
          A: 研究“事件”必須給他來個操作性定義。
          A: Semeval 2015 task4 是有定義的,但是產(chǎn)出產(chǎn)出太少。

          ⑨ 有哪些值得閱讀的論文?有哪些開源了代碼的工作?

          A: 基于符號特征的方法:

          A: 基于表示學(xué)習(xí)的方法:

          ⑩ 最新的前沿進(jìn)展有哪些?

          A: 我覺得事件之間的關(guān)系或網(wǎng)絡(luò)會是將來的熱點(diǎn)。
          A: 事件抽取必然會和監(jiān)控視頻結(jié)合。
          A: 和關(guān)系抽取在一起應(yīng)用。檢測事件的關(guān)系,輿情監(jiān)測。其實(shí)對話系統(tǒng)也能用。
          A: 適合社交媒體,通過分析過往當(dāng)事人發(fā)布的微信及 Facebook,可以做性格分析工作介紹、相親配對。
          A: 延伸過去也可以做推薦系統(tǒng),顧客銷售行為預(yù)測。

          參考資料

          1.秦彥霞, 張民, 鄭德權(quán). 神經(jīng)網(wǎng)絡(luò)事件抽取技術(shù)綜述[J]. 智能計算機(jī)與應(yīng)用, 2018, 008(003):1-5,10.

          2.許旭陽,韓永峰,宋文政.事件抽取技術(shù)的回顧與展望[J].信息工程大學(xué)學(xué)報,2011,12(01):113-118.

          3.https://github.com/xiaoqian19940510/Event-Extraction

          4.https://blog.csdn.net/weixin_42691585/article/details/106025951

          5.項(xiàng)威, 王邦. 中文事件抽取研究綜述[J]. 計算機(jī)技術(shù)與發(fā)展, 2020, 030(002):1-6.

          6.https://www.sohu.com/a/156430929_500659

          7.https://www.cnblogs.com/cyandn/p/10915394.html

          8.https://blog.csdn.net/feng_zhiyu/article/details/80246690

          9.https://baijiahao.baidu.com/s?id=1639726139800018430&wfr=spider&for=pc


          瀏覽 510
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  人体模特小妮流水 | 国产日韩欧美亚洲 | 秋霞一级视频 | 天天操天天舔天天干 | 久草福利在线观看 |