<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【NLP】一文了解命名實(shí)體識(shí)別

          共 10274字,需瀏覽 21分鐘

           ·

          2020-09-07 13:43

          導(dǎo)讀:從1991年開(kāi)始,命名實(shí)體識(shí)別逐漸開(kāi)始走進(jìn)人們的視野,在各評(píng)測(cè)會(huì)議的推動(dòng)下,命名實(shí)體識(shí)別技術(shù)得到了極大地發(fā)展,從最初的基于規(guī)則和字典的方法,到現(xiàn)在熱門(mén)的注意力機(jī)制、圖神經(jīng)網(wǎng)絡(luò)等方法,命名實(shí)體識(shí)別已經(jīng)在各開(kāi)放數(shù)據(jù)集上取得了很高的準(zhǔn)確率,但從自然語(yǔ)言處理實(shí)際應(yīng)用的角度來(lái)看,命名實(shí)體識(shí)別技術(shù)依舊面臨著很大的挑戰(zhàn)。


          什么是命名實(shí)體

          ????1991年Rau等學(xué)者首次提出了命名實(shí)體識(shí)別任務(wù),但命名實(shí)體(named entity,NE)作為一個(gè)明確的概念和研究對(duì)象,是在1995年11月的第六屆MUC會(huì)議(MUC-6,the Sixth Message Understanding Conferences)上被提出的。當(dāng)時(shí)的MUC-6和后來(lái)的MUC-7并未對(duì)什么是命名實(shí)體進(jìn)行深入的討論和定義,只是說(shuō)明了需要標(biāo)注的實(shí)體是“實(shí)體的唯一標(biāo)識(shí)符(unique identifiers of entities)”,規(guī)定了NER評(píng)測(cè)需要識(shí)別的三大類(命名實(shí)體、時(shí)間表達(dá)式、數(shù)量表達(dá)式)、七小類實(shí)體,其中命名實(shí)體分為:人名、機(jī)構(gòu)名和地名 。MUC 之后的ACE將命名實(shí)體中的機(jī)構(gòu)名和地名進(jìn)行了細(xì)分,增加了地理-政治實(shí)體和設(shè)施兩種實(shí)體,之后又增加了交通工具和武器。CoNLL-2002、CoNLL-2003 會(huì)議上將命名實(shí)體定義為包含名稱的短語(yǔ),包括人名、地名、機(jī)構(gòu)名、時(shí)間和數(shù)量,基本沿用了 MUC 的定義和分類,但實(shí)際的任務(wù)主要是識(shí)別人名、地名、機(jī)構(gòu)名和其他命名實(shí)體 。SIGHAN Bakeoff-2006、Bakeoff-2007 評(píng)測(cè)也大多采用了這種分類。

          ????除了主流的 NER 評(píng)測(cè)會(huì)議之外,也有學(xué)者專門(mén)就命名實(shí)體的含義和類型進(jìn)行討論,Petasis等認(rèn)為命名實(shí)體就是專有名詞(proper noun,PN),作為某人或某事的名稱。Alfonseca 等從構(gòu)建本體的角度,提出命名實(shí)體就是能用來(lái)解決特定問(wèn)題的我們感興趣的對(duì)象(objects)。Sekine 等認(rèn)為通用的 7 小類命名實(shí)體并不能滿足自動(dòng)問(wèn)答和信息檢索應(yīng)用的需求,提出了包含 150 種實(shí)體類別的擴(kuò)展命名實(shí)體層級(jí)(extended named entity hierarchy),并在后來(lái)將類別種數(shù)增加到200個(gè)。

          ??? Borrega等從語(yǔ)言學(xué)角度對(duì)命名實(shí)體進(jìn)行了詳細(xì)的定義,規(guī)定只有名詞和名詞短語(yǔ)可以作為命名實(shí)體,同時(shí)命名實(shí)體必須是唯一且沒(méi)有歧義的。比較特別的是,該研究將命名實(shí)體分為強(qiáng)命名實(shí)體(strong named entities,SNE)和弱命名實(shí)體(weak named entities,WNE),其中 SNE 對(duì)應(yīng)詞匯,而WNE對(duì)應(yīng)短語(yǔ),SNE 和 WNE 又可以細(xì)分為若干個(gè)小類。雖然該研究將每種類別都進(jìn)行了詳細(xì)的定義和闡釋,但可能由于過(guò)于復(fù)雜而不利于計(jì)算機(jī)自動(dòng)識(shí)別,因此該研究并未得到太多關(guān)注。

          ??? Nadeau等指出,“命名實(shí)體”中的“命名(named)”表示:只關(guān)心那些表示所指對(duì)象(referent)的嚴(yán)格指示詞(rigid designators)。嚴(yán)格指示詞的概念源于Kripke的觀點(diǎn),“對(duì)于一個(gè)對(duì)象 x,如果在所有存在 x 的世界中,指示詞 d 都表示 x,而不表示別的對(duì)象,那么 x 的指示詞 d 是嚴(yán)格的”。

          ??? Marrero等總結(jié)了前人對(duì)命名實(shí)體的定義,并將之歸納為語(yǔ)法類別、嚴(yán)格指示、唯一標(biāo)識(shí)和應(yīng)用目的四種類別。作者先假設(shè)每種類別都能作為定義命名實(shí)體的標(biāo)準(zhǔn),再通過(guò)分析和舉例等方式否定其作為標(biāo)準(zhǔn)的可行性。最后得出的結(jié)論是,應(yīng)用方面的需求目的,是定義命名實(shí)體唯一可行的標(biāo)準(zhǔn)。

          ????命名實(shí)體是命名實(shí)體識(shí)別的研究主體,而命名實(shí)體識(shí)別通常認(rèn)為是從原始文本中識(shí)別有意義的實(shí)體或?qū)嶓w指代項(xiàng)的過(guò)程,即在文本中標(biāo)識(shí)命名實(shí)體并劃分到相應(yīng)的實(shí)體類型中,通常實(shí)體類型包括人名、地名、組織機(jī)構(gòu)名、日期等。舉例說(shuō)明,“當(dāng)?shù)貢r(shí)間 14 日下午,敘利亞一架軍用直升機(jī)在阿勒坡西部鄉(xiāng)村被一枚惡意飛彈擊中?!边@句話中包含的實(shí)體有:日期實(shí)體“14 日下午”、組織機(jī)構(gòu)實(shí)體“敘利亞”、地名實(shí)體“阿勒坡西部鄉(xiāng)村”、裝備實(shí)體“軍用直升機(jī)”和“飛彈”,如圖1所示。

          圖1


          命名實(shí)體識(shí)別的特點(diǎn)、難點(diǎn)、熱點(diǎn)

          1

          特點(diǎn)?

          ????評(píng)判一個(gè)命名實(shí)體是否被正確識(shí)別包括兩個(gè)方面:實(shí)體的邊界是否正確;實(shí)體的類型是否標(biāo)注正確。

          ????對(duì)比中文和英文本身的語(yǔ)言特點(diǎn),英語(yǔ)中的命名實(shí)體具有比較明顯的形態(tài)標(biāo)志,如人名、地名等實(shí)體中的每個(gè)詞的第一個(gè)字母要大寫(xiě)等,而且,英文句子中的每個(gè)詞都是通過(guò)空格自然分開(kāi),所以英文的實(shí)體邊界識(shí)別相對(duì)中文來(lái)說(shuō)比較容易,故而其任務(wù)的重點(diǎn)是確定實(shí)體的類型。相比于英文,中文里的漢字排列緊密,中文的句子由多個(gè)字符組成且單詞之間沒(méi)有空格,這一自身獨(dú)特的語(yǔ)言特征增大了命名實(shí)體識(shí)別的難度。

          2

          難點(diǎn)?

          ????(1)領(lǐng)域命名實(shí)體識(shí)別局限性。目前命令實(shí)體識(shí)別只是在有限的領(lǐng)域和有限的實(shí)體類型中取得了較好的成績(jī),如針對(duì)新聞?wù)Z料中的人名、地名、組織機(jī)構(gòu)名的識(shí)別。但這些技術(shù)無(wú)法很好地遷移到其他特定領(lǐng)域中,如軍事、醫(yī)療、生物、小語(yǔ)種語(yǔ)言等。一方面,由于不同領(lǐng)域的數(shù)據(jù)往往具有領(lǐng)域獨(dú)特特征,如醫(yī)療領(lǐng)域中實(shí)體包括疾病、癥狀、藥品等,而新聞?lì)I(lǐng)域的模型并不適合;另一方面,由于領(lǐng)域資源匱乏造成標(biāo)注數(shù)據(jù)集缺失,導(dǎo)致模型訓(xùn)練很難直接開(kāi)展。

          ????(2)命名實(shí)體表述多樣性和歧義性。自然語(yǔ)言的多樣性和歧義性給自然語(yǔ)言理解帶來(lái)了很大挑戰(zhàn),在不同的文化、領(lǐng)域、背景下,命名實(shí)體的外延有差異,是命名實(shí)體識(shí)別技術(shù)需要解決的根本問(wèn)題。獲取大量文本數(shù)據(jù)后,由于知識(shí)表示粒度不同、置信度相異、缺乏規(guī)范性約束等問(wèn)題,出現(xiàn)命名實(shí)體表述多樣、指代不明確等現(xiàn)象。

          ????(3)命名實(shí)體的復(fù)雜性和開(kāi)放性。傳統(tǒng)的實(shí)體類型只關(guān)注一小部分類型,例如“人名”“地名”“組織機(jī)構(gòu)名”,而命名實(shí)體的復(fù)雜性體現(xiàn)在實(shí)際數(shù)據(jù)中實(shí)體的類型復(fù)雜多樣,需要識(shí)別細(xì)粒度的實(shí)體類型,將命名實(shí)體分配到更具體的實(shí)體類型中。目前業(yè)界還沒(méi)有形成可遵循的嚴(yán)格的命名規(guī)范。命名實(shí)體的開(kāi)放性是指命名實(shí)體內(nèi)容和類型并非永久不變,會(huì)隨著時(shí)間變化發(fā)生各種演變,甚至最終失效。命名實(shí)體的開(kāi)放性和復(fù)雜性給實(shí)體分析帶來(lái)了巨大的挑戰(zhàn),也是亟待解決的核心關(guān)鍵問(wèn)題。

          3

          熱點(diǎn)?

          ????通 過(guò) 調(diào) 研 近 三 年 來(lái) ACL,AAAI,EMNLP,COLING,NAACL 等自然語(yǔ)言處理頂級(jí)會(huì)議中命名實(shí)體識(shí)別相關(guān)的論文,總結(jié)并選擇了若干具有代表性的研究熱點(diǎn)進(jìn)行展開(kāi)介紹,分別是匱乏資源命名實(shí)體識(shí)別、細(xì)粒度命名實(shí)體識(shí)別、嵌套命名實(shí)體識(shí)別、命名實(shí)體鏈接。

          ????(1)?匱乏資源命名實(shí)體識(shí)別

          ????命名實(shí)體識(shí)別通常需要大規(guī)模的標(biāo)注數(shù)據(jù)集,例如標(biāo)記句子中的每個(gè)單詞,這樣才能很好地訓(xùn)練模型。然而這種方法很難應(yīng)用到標(biāo)注數(shù)據(jù)少的領(lǐng)域,如生物、醫(yī)學(xué)等領(lǐng)域。這是因?yàn)橘Y源不足的情況下,模型無(wú)法充分學(xué)習(xí)隱藏的特征表示,傳統(tǒng)的監(jiān)督學(xué)習(xí)方法的性能會(huì)大大降低。

          ????近來(lái),越來(lái)越多的方法被提出用于解決低資源命名實(shí)體識(shí)別。一些學(xué)者采用遷移學(xué)習(xí)的方法,橋接富足資源和匱乏資源,命名實(shí)體識(shí)別的遷移學(xué)習(xí)方法可以分為兩種:基于并行語(yǔ)料庫(kù)的遷移學(xué)習(xí)和基于共享表示的遷移學(xué)習(xí)。利用并行語(yǔ)料庫(kù)在高資源和低資源語(yǔ)言之間映射信息,Chen 和 Feng 等提出同時(shí)識(shí)別和鏈接雙語(yǔ)命名實(shí)體。Ni 和 Mayhew 等創(chuàng)建了一個(gè)跨語(yǔ)言的命名實(shí)體識(shí)別系統(tǒng),該系統(tǒng)通過(guò)將帶注釋的富足資源數(shù)據(jù)轉(zhuǎn)換到匱乏資源上,很好地解決了匱乏資源問(wèn)題。Zhou等采用雙對(duì)抗網(wǎng)絡(luò)探索高資源和低資源之間有效的特征融合,將對(duì)抗判別器和對(duì)抗訓(xùn)練集成在一個(gè)統(tǒng)一的框架中進(jìn)行,實(shí)現(xiàn)了端到端的訓(xùn)練。

          ????還有學(xué)者采用正樣本-未標(biāo)注樣本學(xué)習(xí)方法(Positive-Unlabeled,PU),僅使用未標(biāo)注數(shù)據(jù)和部分不完善的命名實(shí)體字典來(lái)實(shí)現(xiàn)命名實(shí)體識(shí)別任務(wù)。Yang 等學(xué)者采用 AdaSampling 方法,它最初將所有未標(biāo)記的實(shí)例視為負(fù)實(shí)例,不斷地迭代訓(xùn)練模型,最終將所有未標(biāo)注的實(shí)例劃分到相應(yīng)的正負(fù)實(shí)例集中。Peng 等學(xué)者實(shí)現(xiàn)了 PU 學(xué)習(xí)方法在命名實(shí)體識(shí)別中的應(yīng)用,僅使用未標(biāo)記的數(shù)據(jù)集和不完備的命名實(shí)體字典來(lái)執(zhí)行命名實(shí)體識(shí)別任務(wù),該方法無(wú)偏且一致地估算任務(wù)損失,并大大減少對(duì)字典大小的要求。

          ????因此,針對(duì)資源匱乏領(lǐng)域標(biāo)注數(shù)據(jù)的缺乏問(wèn)題,基于遷移學(xué)習(xí)、對(duì)抗學(xué)習(xí)、遠(yuǎn)監(jiān)督學(xué)習(xí)等方法被充分利用,解決資源匱乏領(lǐng)域的命名實(shí)體識(shí)別難題,降低人工標(biāo)注工作量,也是最近研究的重點(diǎn)。

          ????(2)細(xì)粒度命名實(shí)體識(shí)別

          ????為了智能地理解文本并提取大量信息,更精確地確定非結(jié)構(gòu)化文本中提到的實(shí)體類型很有意義。通常這些實(shí)體類型在知識(shí)庫(kù)的類型層次結(jié)構(gòu)中可以形成類型路徑 ,例如,牛頓可以按照如下類型的路徑歸類:物理學(xué)家 /科學(xué)家/人。知識(shí)庫(kù)中的類型通常為層次結(jié)構(gòu)的組織形式,即類型層次。

          ????大多數(shù)命名實(shí)體識(shí)別研究都集中在有限的實(shí)體類型上,MUC-7只考慮了 3 類:人名、地名和組織機(jī)構(gòu)名,CoNLL-03增加了其他類,ACE引入了地緣 政治、武器、車輛和設(shè)施 4 類 實(shí) 體,Ontonotes類型增加到 18 類,BBN有 29 種實(shí)體類型。Ling 和 Daniel 定義了一個(gè)細(xì)粒度的112 個(gè)標(biāo)簽集。

          ?????學(xué)者們?cè)谠擃I(lǐng)域已經(jīng)進(jìn)行了許多研究,通常學(xué)習(xí)每個(gè)實(shí)體的分布式表示,并應(yīng)用多標(biāo)簽分類模型進(jìn)行類型推斷。Neelakantan 和 Chang利用各種信息構(gòu)造實(shí)體的特征表示,如實(shí)體的文字描述、屬性和類型,之后,學(xué)習(xí)預(yù)測(cè)函數(shù)來(lái)推斷實(shí)體是否為某類型的實(shí)例。Yaghoobzadeh 等重點(diǎn)關(guān)注實(shí)體的名稱和文本中的實(shí)體指代項(xiàng),并為實(shí)體和類型對(duì)設(shè)計(jì)了兩個(gè)評(píng)分模型。這些工作淡化了實(shí)體之間的內(nèi)部關(guān)系,并單獨(dú)為每個(gè)實(shí)體分配類型。Jin 等以實(shí)體之間的內(nèi)部關(guān)系為結(jié)構(gòu)信息,構(gòu)造實(shí)體圖,進(jìn)一步提出了一種網(wǎng)絡(luò)嵌入框架學(xué)習(xí)實(shí)體之間的相關(guān)性。最近的研究表明以卷積方式同時(shí)包含節(jié)點(diǎn)特征和圖結(jié)構(gòu)信息,將實(shí)體特征豐富到圖結(jié)構(gòu)將獲益頗多。此外,還有學(xué)者考慮到由于大多數(shù)知識(shí)庫(kù)都不完整,缺乏實(shí)體類型信息,例如在 DBpedia 數(shù)據(jù)庫(kù)中 36.53%的實(shí)體沒(méi)有類型信息。因此對(duì)于每個(gè)未標(biāo)記的實(shí)體,Jin 等充分利用其文本描述、類型和屬性來(lái)預(yù)測(cè)缺失的類型,將推斷實(shí)體的細(xì)粒度類型問(wèn)題轉(zhuǎn)化成基于圖的半監(jiān)督分類問(wèn)題,提出了使用分層多圖卷積網(wǎng)絡(luò)構(gòu)造 3 種連通性矩陣,以捕獲實(shí)體之間不同類型的語(yǔ)義相關(guān)性。

          ????此外,實(shí)現(xiàn)知識(shí)庫(kù)中命名實(shí)體的細(xì)粒度劃分也是完善知識(shí)庫(kù)的重要任務(wù)之一。細(xì)粒度命名實(shí)體識(shí)別現(xiàn)有方法大多是通過(guò)利用實(shí)體的固有特征(文本描述、屬性和類型)或在文本中實(shí)體指代項(xiàng)來(lái)進(jìn)行類型推斷,最近有學(xué)者研究將知識(shí)庫(kù)中的實(shí)體轉(zhuǎn)換為實(shí)體圖,并應(yīng)用到基于圖神經(jīng)網(wǎng)絡(luò)的算法模型中。

          ????(3)嵌套命名實(shí)體識(shí)別

          ????通常要處理的命名實(shí)體是非嵌套實(shí)體,但是在實(shí)際應(yīng)用中,嵌套實(shí)體非常多。大多數(shù)命名實(shí)體識(shí)別會(huì)忽略嵌套實(shí)體,無(wú)法在深層次文本理解中捕獲更細(xì)粒度的語(yǔ)義信息。如圖2 所示,在“3 月 3 日,中國(guó)駐愛(ài)爾蘭使館提醒旅愛(ài)中國(guó)公民重視防控,穩(wěn)妥合理加強(qiáng)防范?!本渥又刑岬降闹袊?guó)駐愛(ài)爾蘭使館是一個(gè)嵌套實(shí)體,中國(guó)和愛(ài)爾蘭均為地名,而中國(guó)駐愛(ài)爾蘭使館為組織機(jī)構(gòu)名。普通的命名實(shí)體識(shí)別任務(wù)只會(huì)識(shí)別出其中的地名“中國(guó)”和“愛(ài)爾蘭”,而忽略了整體的組織機(jī)構(gòu)名。

          圖2

          ????學(xué)者們提出了多種用于嵌套命名實(shí)體識(shí)別的方法。Finkel 和 Manning基于 CRF 構(gòu)建解析器,將每個(gè)命名實(shí)體作為解析樹(shù)中的組成部分。Ju 等動(dòng)態(tài)堆疊多個(gè)扁平命名實(shí)體識(shí)別層,并基于內(nèi)部命名實(shí)體識(shí)別提取外部實(shí)體。如果較短的實(shí)體被錯(cuò)誤地識(shí)別,這類方法可能會(huì)遭受錯(cuò)誤傳播問(wèn)題的困擾。嵌套命名實(shí)體識(shí)別的另一系列方法是基于超圖的方法。Lu和Roth 首次引入了超圖,允許將邊緣連接到不同類型的節(jié)點(diǎn)以表示嵌套實(shí)體。Muis 和Lu使用多圖表示法,并引入分隔符的概念用于嵌套實(shí)體檢測(cè)。但是這樣需要依靠手工提取的特征來(lái)識(shí)別嵌套實(shí)體,同時(shí)遭受結(jié)構(gòu)歧義問(wèn)題的困擾。Wang 和 Lu提出了一種使用神經(jīng)網(wǎng)絡(luò)獲取分布式特征表示的神經(jīng)分段超圖模型。Katiyar 和Cardie提出了一種基于超圖的計(jì)算公式,并以貪婪學(xué)習(xí)的方式使用 LSTM 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)嵌套結(jié)構(gòu)。這些方法都存在超圖的虛假結(jié)構(gòu)問(wèn)題,因?yàn)樗鼈兠杜e了代表實(shí)體的節(jié)點(diǎn)、類型和邊界的組合。Xia等提出了 MGNER 架構(gòu),不僅可以識(shí)別句子中非重疊的命名實(shí)體,也可以識(shí)別嵌套實(shí)體,此外不同于傳統(tǒng)的序列標(biāo)注任務(wù),它將命名實(shí)體識(shí)別任務(wù)分成兩部分開(kāi)展,首先識(shí)別實(shí)體,然后進(jìn)行實(shí)體分類。

          ????嵌套實(shí)體識(shí)別充分利用內(nèi)部和外部實(shí)體的嵌套信息,從底層文本中捕獲更細(xì)粒度的語(yǔ)義,實(shí)現(xiàn)更深層次的文本理解,研究意義重大。

          ????(4)命名實(shí)體鏈接

          ????命名實(shí)體鏈接主要目標(biāo)是進(jìn)行實(shí)體消歧,從實(shí)體指代項(xiàng)對(duì)應(yīng)的多個(gè)候選實(shí)體中選擇意思最相近的一個(gè)實(shí)體。這些候選實(shí)體可能選自通用知識(shí)庫(kù),例如維基百科、百度百科,也可能來(lái)自領(lǐng)域知識(shí)庫(kù),例如軍事知識(shí)庫(kù)、裝備知識(shí)庫(kù)。圖3給出了一個(gè)實(shí)體鏈接的示例。短文本“美海軍陸戰(zhàn)隊(duì) F/A-18C戰(zhàn)斗機(jī)安裝了生產(chǎn)型 AN/APG-83 雷達(dá)”,其中實(shí)體指代項(xiàng)是“生產(chǎn)型 AN/APG-83 雷達(dá)”,該實(shí)體指代項(xiàng)在知識(shí)庫(kù)中可能存在多種表示和含義,而在此處短文本,其正確的含義為“AN/APG-83 可擴(kuò)展敏捷波束雷達(dá)”。

          圖3

          ????實(shí)體鏈接的關(guān)鍵在于獲取語(yǔ)句中更多的語(yǔ)義,通常使用兩種方法。一種是通過(guò)外部語(yǔ)料庫(kù)獲取更多的輔助信息,另一種是對(duì)本地信息的深入了解以獲取更多與實(shí)體指代項(xiàng)相關(guān)的信息。Tan 等提出了一種候選實(shí)體選擇方法,使用整個(gè)包含實(shí)體指代項(xiàng)的句子而不是單獨(dú)的實(shí)體指代項(xiàng)來(lái)搜索知識(shí)庫(kù),以獲得候選實(shí)體集,通過(guò)句子檢索可以獲取更多的語(yǔ)義信息,并獲得更準(zhǔn)確的結(jié)果。Lin 等尋找更多線索來(lái)選擇候選實(shí)體,這些線索被視為種子實(shí)體指代項(xiàng),用作實(shí)體指代項(xiàng)與候選實(shí)體的橋梁。Dai 等使用社交平臺(tái) Yelp 的特征信息,包括用戶名、用戶評(píng)論和網(wǎng)站評(píng)論,豐富了實(shí)體指代項(xiàng)相關(guān)的輔助信息,實(shí)現(xiàn)了實(shí)體指代項(xiàng)的歧義消除。因此,與實(shí)體指代項(xiàng)相關(guān)的輔助信息將通過(guò)實(shí)體指代項(xiàng)和候選實(shí)體的鏈接實(shí)現(xiàn)更精確的歧義消除。

          ????另一些學(xué)者使用深度學(xué)習(xí)研究文本語(yǔ)義。Francis-Landau 等使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本的表示形式,然后獲得候選實(shí)體向量和文本向量的余弦相似度得分。Ganea 和 Hofmann專注于文檔級(jí)別的歧義消除,使用神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制來(lái)深度表示實(shí)體指代項(xiàng)和候選實(shí)體之間的關(guān)系。Mueller和 Durrett將句子左右分開(kāi),然后分別使用門(mén)控循環(huán)單元和注意力機(jī)制,獲得關(guān)于實(shí)體指代項(xiàng)和候選實(shí)體的分?jǐn)?shù)。Ouyang 等提出一種基于深度序列匹配網(wǎng)絡(luò)的實(shí)體鏈接算法,綜合考慮實(shí)體之間的內(nèi)容相似度和結(jié)構(gòu)相似性,從而幫助機(jī)器理解底層數(shù)據(jù)。目前,在實(shí)體鏈接中使用深度學(xué)習(xí)方法是一個(gè)熱門(mén)的研究課題。


          命名實(shí)體識(shí)別的研究方法

          ????命名實(shí)體識(shí)別從早期基于詞典和規(guī)則的方法,到傳統(tǒng)機(jī)器學(xué)習(xí)的方法,后來(lái)采用基于深度學(xué)習(xí)的方法,一直到當(dāng)下熱門(mén)的注意力機(jī)制、圖神經(jīng)網(wǎng)絡(luò)等研究方法,命名實(shí)體識(shí)別技術(shù)路線隨著時(shí)間在不斷發(fā)展,技術(shù)發(fā)展趨勢(shì)如圖4所示。

          圖4

          1

          基于規(guī)則和字典的方法

          ????基于規(guī)則和字典的方法是最初代的命名實(shí)體識(shí)別使用的方法,這些方法多采用由語(yǔ)言學(xué)家通過(guò)人工方式,依據(jù)數(shù)據(jù)集特征構(gòu)建的特定規(guī)則模板或者特殊詞典。規(guī)則包括關(guān)鍵詞、位置詞、方位詞、中心詞、指示詞、統(tǒng)計(jì)信息、標(biāo)點(diǎn)符號(hào)等。詞典是由特征詞構(gòu)成的詞典和外部詞典共同組成,外部詞典指已有的常識(shí)詞典。制定好規(guī)則和詞典后,通常使用匹配的方式對(duì)文本進(jìn)行處理以實(shí)現(xiàn)命名實(shí)體識(shí)別。

          ????Rau等學(xué)者首次提出將人工編寫(xiě)的規(guī)則與啟發(fā)式想法相結(jié)合的方法,實(shí)現(xiàn)了從文本中自動(dòng)抽取公司名稱類型的命名實(shí)體。這種基于規(guī)則的方法局限性非常明顯,不僅需要消耗巨大的人力勞動(dòng),且不容易在其他實(shí)體類型或數(shù)據(jù)集擴(kuò)展,無(wú)法適應(yīng)數(shù)據(jù)的變化情況。

          2

          基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法

          ????在基于機(jī)器學(xué)習(xí)的方法中,命名實(shí)體識(shí)別被當(dāng)作是序列標(biāo)注問(wèn)題。與分類問(wèn)題相比,序列標(biāo)注問(wèn)題中當(dāng)前的預(yù)測(cè)標(biāo)簽不僅與當(dāng)前的輸入特征相關(guān),還與之前的預(yù)測(cè)標(biāo)簽相關(guān),即預(yù)測(cè)標(biāo)簽序列之間是有強(qiáng)相互依賴關(guān)系的。采用的傳統(tǒng)機(jī)器學(xué)習(xí)方法主要包括:隱馬爾可夫模型(Hidden Markov Model,HMM)、最大熵(Maximum Entropy,ME)、最大熵馬爾可夫模型( Maximum Entropy Markov Model,MEMM)、支持向量機(jī)(Support Vector Machine,SVM)、條件隨機(jī)場(chǎng) ( Conditional Random Fields,CRF)? 等。

          ????在這 5 種學(xué)習(xí)方法中,ME 結(jié)構(gòu)緊湊,具有較好的通用性,其主要缺點(diǎn)是訓(xùn)練時(shí)間復(fù)雜性非常高,甚至導(dǎo)致訓(xùn)練代價(jià)難以承受,另外由于需要明確的歸一化計(jì)算,導(dǎo)致開(kāi)銷比較大。HMM 對(duì)轉(zhuǎn)移概率和表現(xiàn)概率直接建模,統(tǒng)計(jì)共現(xiàn)概率。ME 和 SVM 在正確率上要 HMM 高一些,但是 HMM 在訓(xùn)練和識(shí)別時(shí)的速度要快一些。MEMM 對(duì)轉(zhuǎn)移概率和表現(xiàn)概率建立聯(lián)合概率,統(tǒng)計(jì)條件概率,但由于只在局部做歸一化容易陷入局部最優(yōu)。CRF 模型統(tǒng)計(jì)全局概率,在歸一化時(shí)考慮數(shù)據(jù)在全局的分布,而不是僅僅在局部進(jìn)行歸一化,因此解決了 MEMM 中標(biāo)記偏置的問(wèn)題。在傳統(tǒng)機(jī)器學(xué)習(xí)中,CRF 被看作是命名實(shí)體識(shí)別的主流模型,優(yōu)點(diǎn)在于在對(duì)一個(gè)位置進(jìn)行標(biāo)注的過(guò)程中 CRF 可以利用內(nèi)部及上下文特征信息。

          ????還有學(xué)者通過(guò)調(diào)整方法的精確率和召回率對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)進(jìn)行改進(jìn)。Culotta 和 McCallum計(jì)算從 CRF 模型提取的短語(yǔ)的置信度得分,將這些得分用于對(duì)實(shí)體識(shí)別進(jìn)行排序和過(guò)濾。Carpenter 從HMM 計(jì)算短語(yǔ)級(jí)別的條件概率,并嘗試通過(guò)降低這些概率的閾值來(lái)增加對(duì)命名實(shí)體識(shí)別的召回率。對(duì)給定訓(xùn)練好的 CRF 模型,Minkov 等學(xué)者通過(guò)微調(diào)特征的權(quán)重來(lái)判斷是否是命名實(shí)體,更改權(quán)重可能會(huì)獎(jiǎng)勵(lì)或懲罰 CRF 解碼過(guò)程中的實(shí)體識(shí)別。

          3

          基于深度學(xué)習(xí)的方法

          ????隨著深度學(xué)習(xí)的不斷發(fā)展,命名實(shí)體識(shí)別的研究重點(diǎn)已轉(zhuǎn)向深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN),該技術(shù)幾乎不需要特征工程和領(lǐng)域知識(shí) 。Collobert 等學(xué)者首次提出基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別方法,該方法中每個(gè)單詞具有固定大小的窗口,但未能考慮長(zhǎng)距離單詞之間的有效信息。為了克服這一限制,Chiu 和 Nichols提出了一種雙向 LSTM-CNNs 架構(gòu),該架構(gòu)可自動(dòng)檢測(cè)單詞和字符級(jí)別的特征。Ma 和 Hovy進(jìn)一步將其擴(kuò)展到 BiLSTM-CNNs-CRF 體系結(jié)構(gòu),其中添加了 CRF 模塊以優(yōu)化輸出標(biāo)簽序列。Liu 等提出了一種稱為 LM-LSTM-CRF 的任務(wù)感知型神經(jīng)語(yǔ)言模型,將字符感知型神經(jīng)語(yǔ)言模型合并到一個(gè)多任務(wù)框架下,以提取字符級(jí)向量化表示。這些端到端模型具備從數(shù)據(jù)中自動(dòng)學(xué)習(xí)的功能,可以很好地識(shí)別新實(shí)體。

          ????部分學(xué)者將輔助信息和深度學(xué)習(xí)方法混合使用進(jìn)行命名實(shí)體識(shí)別。Liu 等在混合半馬爾可夫條件隨機(jī)場(chǎng)(Hybrid Semi-Markov Conditional Random Fields,HSCRFs) 的體系結(jié)構(gòu)的基礎(chǔ)上加入了Gazetteers 地名詞典,利用實(shí)體在地名詞典的匹配結(jié)果作為命名實(shí)體識(shí)別的特征之一。一些研究嘗試在標(biāo)簽級(jí)別跨數(shù)據(jù)集共享信息,Greenberg等提出了一個(gè)單一的 CRF 模型,使用異構(gòu)標(biāo)簽集進(jìn)行命名實(shí)體識(shí)別,此方法對(duì)平衡標(biāo)簽分布的領(lǐng)域數(shù)據(jù)集有實(shí)用性。Augenstein 等使用標(biāo)簽向量化表示在任務(wù)之間進(jìn)一步播信息。Beryozkin 等建議使用給定的標(biāo)簽層次結(jié)構(gòu)共同學(xué)習(xí)一個(gè)在所有標(biāo)簽集中共享其標(biāo)簽層的神經(jīng)網(wǎng)絡(luò),取得了非常優(yōu)異的性能。

          ????近年來(lái),在基于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)上加入注意力機(jī)制、圖神經(jīng)網(wǎng)絡(luò)、遷移學(xué)習(xí)、遠(yuǎn)監(jiān)督學(xué)習(xí)等熱門(mén)研究技術(shù)也是目前的主流研究方向。


          公開(kāi)的數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

          1

          公開(kāi)的數(shù)據(jù)集?

          ????常用的命名實(shí)體識(shí)別數(shù)據(jù)集有 CoNLL 2003,CoNLL 2002,ACE 2004,ACE 2005 等。數(shù)據(jù)集的具體介紹如下:

          ????① CoNLL 2003 數(shù)據(jù)集包括1393 篇英語(yǔ)新聞文章和 909 篇德語(yǔ)新聞文章,英語(yǔ)語(yǔ)料庫(kù)是免費(fèi)的,德國(guó)語(yǔ)料庫(kù)需要收費(fèi)。英語(yǔ)語(yǔ)料取自路透社收集的共享任務(wù)數(shù)據(jù)集。數(shù)據(jù)集中標(biāo)注了 4 種實(shí)體類型:PER,LOC,ORG,MISC。

          ?????② CoNLL 2002 數(shù)據(jù)集是從西班牙 EFE 新聞機(jī)構(gòu)收集的西班牙共享任務(wù)數(shù)據(jù)集。數(shù)據(jù)集標(biāo)注了 4 種實(shí)體類型:PER,LOC,ORG,MISC。

          ????③ ACE 2004 多語(yǔ)種訓(xùn)練語(yǔ)料庫(kù)版權(quán)屬于語(yǔ)言數(shù)據(jù)聯(lián)盟(Linguistic Data Consortium,LDC),ACE2004多語(yǔ)言培訓(xùn)語(yǔ)料庫(kù)包含用于2004年自動(dòng)內(nèi)容提取(ACE)技術(shù)評(píng)估的全套英語(yǔ)、阿拉伯語(yǔ)和中文培訓(xùn)數(shù)據(jù)。語(yǔ)言集由為實(shí)體和關(guān)系標(biāo)注的各種類型的數(shù)據(jù)組成。

          ????④ ACE2005多語(yǔ)種訓(xùn)練語(yǔ)料庫(kù)版權(quán)屬于LDC,包含完整的英語(yǔ)、阿拉伯語(yǔ)和漢語(yǔ)訓(xùn)練數(shù)據(jù),數(shù)據(jù)來(lái)源包括:微博、廣播新聞、新聞組、廣播對(duì)話等,可以用來(lái)做實(shí)體、關(guān)系、事件抽取等任務(wù)。

          ????⑤ OntoNotes5.0數(shù)據(jù)集版權(quán)屬于LDC,由1745K英語(yǔ)、900K中文和300 K阿拉伯語(yǔ)文本數(shù)據(jù)組成,OntoNotes5.0的數(shù)據(jù)來(lái)源也多種多樣,來(lái)自電話對(duì)話、新聞通訊社、廣播新聞、廣播對(duì)話和博客等。實(shí)體被標(biāo)注為PERSON,ORGANIZATION,LOCATION 等18個(gè)類型。

          ????⑥ MUC 7 數(shù)據(jù)集是發(fā)布的可以用于命名實(shí)體識(shí)別任務(wù),版權(quán)屬于LDC,下載需要支付一定費(fèi)用。數(shù)據(jù)取自北美新聞文本語(yǔ)料庫(kù)的新聞標(biāo)題,其中包含190K訓(xùn)練集、64K測(cè)試集。

          ????⑦ Twitter 數(shù)據(jù)集是由 Zhang 等提供,數(shù)據(jù)收集于 Twitter,訓(xùn)練集包含了 4 000 推特文章,3 257 條推特用戶測(cè)試。該數(shù)據(jù)集不僅包含文本信息還包含了圖片信息。

          ????大部分?jǐn)?shù)據(jù)集的發(fā)布官方都直接給出了訓(xùn)練集、驗(yàn)證集和測(cè)試集的劃分。同時(shí)不同的數(shù)據(jù)集可能采用不同的標(biāo)注方法,最常見(jiàn)的標(biāo)注方法有 IOB,BIOES,Markup,IO,BMEWO 等,下面詳細(xì)介紹幾種常用的標(biāo)注方法(如圖5所示):

          ????(1)IOB 標(biāo)注法,是 CoNLL 2003 采用的標(biāo)注法,I 表示內(nèi)部,O 表示外部,B 表示開(kāi)始。如若語(yǔ)料中某個(gè)詞標(biāo)注 B/I-XXX,B/I 表示這個(gè)詞屬于命名實(shí)體的開(kāi)始或內(nèi)部,即該詞是命名實(shí)體的一部分,XXX表示命名實(shí)體的類型。當(dāng)詞標(biāo)注 O 則表示屬于命名實(shí)體的外部,即它不是一個(gè)命名實(shí)體。

          ????(2)BIOES 標(biāo)注法,是在 IOB 方法上的擴(kuò)展,具有更完備的標(biāo)注規(guī)則。其中 B 表示這個(gè)詞處于一個(gè)命名實(shí)體的開(kāi)始,I 表示內(nèi)部,O 表示外部,E 表示這個(gè)詞處于一個(gè)實(shí)體的結(jié)束,S 表示這個(gè)詞是單獨(dú)形成一個(gè)命名實(shí)體。BIOES 是目前最通用的命名實(shí)體標(biāo)注方法。

          圖5

          2

          評(píng)價(jià)指標(biāo)

          ????對(duì)命名實(shí)體識(shí)別系統(tǒng)的發(fā)展來(lái)說(shuō),對(duì)系統(tǒng)的全面評(píng)估是必不可少的,許多系統(tǒng)被要求根據(jù)它們標(biāo)注文本的能力來(lái)對(duì)系統(tǒng)進(jìn)行排序。目前,通常采用的評(píng)估指標(biāo)主要有查準(zhǔn)率(Precision,亦稱準(zhǔn)確率)、查全率(Recall,亦稱召回率)和 F1值,它們的定義如下:

          表1

          ? ?查準(zhǔn)率P和查全率R分別定義為

          ????查準(zhǔn)率和查全率是一對(duì)矛盾的度量,一般來(lái)說(shuō),查準(zhǔn)率高時(shí),查全率往往偏低;而查全率高時(shí),查準(zhǔn)率往往偏低。通常只有在一些簡(jiǎn)單的任務(wù)中,才可能使查全率和查準(zhǔn)率都很高。為了綜合考慮查全率和查準(zhǔn)率,引入它們的調(diào)和平均F1值,F(xiàn)1值的定義如下:


          注:本文旨在學(xué)習(xí)和分享,如內(nèi)容上有不到之處,歡迎后臺(tái)批評(píng)指正。

          參考文獻(xiàn):

          [1]陳曙東,歐陽(yáng)小葉.命名實(shí)體識(shí)別技術(shù)綜述[J].無(wú)線電通信技術(shù),2020,46(03):251-260.

          [2]劉瀏,王東波.命名實(shí)體識(shí)別研究綜述[J].情報(bào)學(xué)報(bào),2018,37(03):329-340.

          [3]孫鎮(zhèn),王惠臨.命名實(shí)體識(shí)別研究進(jìn)展綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2010(06):42-47.

          [4]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:30-32.




          往期精彩回顧





          獲取一折本站知識(shí)星球優(yōu)惠券,復(fù)制鏈接直接打開(kāi):

          https://t.zsxq.com/662nyZF

          本站qq群1003271085。

          加入微信群請(qǐng)掃碼進(jìn)群(如果是博士或者準(zhǔn)備讀博士請(qǐng)說(shuō)明):

          瀏覽 86
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  家庭乱伦五月天 | 国产乱码精品1区2区3区 | 精品热99 | 日本天堂一区在线 | 国产无遮挡又黄又爽在线观看 |