<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          從頭來看關(guān)系抽取-遠(yuǎn)程監(jiān)督來襲

          共 8289字,需瀏覽 17分鐘

           ·

          2021-09-05 12:15


          從早期到現(xiàn)在來看關(guān)系抽取任務(wù)的話,基本的做法包括基于規(guī)則匹配、監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)以及遠(yuǎn)程監(jiān)督學(xué)習(xí)等方法,上篇文章《從頭來看關(guān)系抽取》已經(jīng)介紹了監(jiān)督學(xué)習(xí)早期的一些開山之作,而今天的主人公是遠(yuǎn)程監(jiān)督來做關(guān)系抽取,那么為什么要引入遠(yuǎn)程監(jiān)督的方法,什么是遠(yuǎn)程監(jiān)督的方法,基于遠(yuǎn)程監(jiān)督的關(guān)系抽取的方法從古至今是怎么演變發(fā)展的,帶著這些疑問,我們簡單了解一下。

          為什么要引入遠(yuǎn)程監(jiān)督方法?

          監(jiān)督學(xué)習(xí)

          監(jiān)督學(xué)習(xí)是利用標(biāo)注好的訓(xùn)練數(shù)據(jù),傳統(tǒng)的機(jī)器學(xué)習(xí)模型或者是深度學(xué)習(xí)算法構(gòu)建網(wǎng)絡(luò)模型,老生常談的問題,這種方法的問題在于雖然能夠利用標(biāo)注質(zhì)量高的數(shù)據(jù)獲取很好的效果,但是獲取高質(zhì)量的標(biāo)注數(shù)據(jù)需要花費(fèi)昂貴的人力、物力,因此引出很多其他的學(xué)習(xí)方式,比如半監(jiān)督、無監(jiān)督、遠(yuǎn)程監(jiān)督、遷移學(xué)習(xí)等等。

          半監(jiān)督學(xué)習(xí)

          半監(jiān)督學(xué)習(xí)是解決獲取大量高質(zhì)量標(biāo)注數(shù)據(jù)難問題的一種解決方式,利用少部分高質(zhì)量標(biāo)注數(shù)據(jù),通過相關(guān)算法學(xué)習(xí),常用的是Bootstrapping learning 以及遠(yuǎn)程監(jiān)督方法。對于關(guān)系抽取任務(wù)來說,Bootstrapping 算法的輸入少量實(shí)體關(guān)系數(shù)據(jù)作為種子,找到更多有某種關(guān)系的相關(guān)數(shù)據(jù)。但是我們可以想到一個問題就是利用少量的種子數(shù)據(jù)在大規(guī)模數(shù)據(jù)中搜尋出來的結(jié)果,是否是我們真正想要的,會不會存歧義的數(shù)據(jù),畢竟利用一點(diǎn)種子就想達(dá)到我們的目標(biāo),肯定是存在某些問題的,這也是 Bootstraping 算法的語義漂移問題。

          遠(yuǎn)程監(jiān)督學(xué)習(xí)

          遠(yuǎn)程監(jiān)督學(xué)習(xí)很早之前就被提出來了,但是應(yīng)用在關(guān)系抽取任務(wù)上面應(yīng)該是2009年的一篇論文,作為遠(yuǎn)程監(jiān)督學(xué)習(xí)在關(guān)系抽取的開山之作,下面會介紹這個工作。簡單來說,遠(yuǎn)程監(jiān)督關(guān)系抽取是通過將大規(guī)模非結(jié)構(gòu)化文本中的語料與知識庫對齊,這樣便可以獲取大量訓(xùn)練數(shù)據(jù)供模型訓(xùn)練。遠(yuǎn)程監(jiān)督關(guān)系抽取的工作可以分為兩階段,其中后期以及目前的發(fā)展都集中在神經(jīng)網(wǎng)絡(luò)提取特征信息結(jié)合多實(shí)例學(xué)習(xí)思想。

          開山燎原-2009-ACL

          • 論文題目:Distant supervision for relation extraction without labeled data
          • 論文地址:https://www.aclweb.org/anthology/P09-1113.pdf
          • 這篇文章應(yīng)該是最早的將遠(yuǎn)程監(jiān)督學(xué)習(xí)用于關(guān)系抽取,是一篇開山之作。

          文中提出了一個強(qiáng)有力的假設(shè):如果兩個實(shí)體在已知知識庫中存在,并且兩者有相對應(yīng)的某種關(guān)系,那么當(dāng)這兩個實(shí)體在其他非結(jié)構(gòu)化文本中存在的時候也能夠表達(dá)這種關(guān)系?;谶@種強(qiáng)有力的假設(shè),遠(yuǎn)程監(jiān)督算法可以利用已有的知識庫,給外部非結(jié)構(gòu)化文本中的句子標(biāo)注某種關(guān)系標(biāo)簽,相當(dāng)于自動語料標(biāo)注,能夠獲取大量的標(biāo)注數(shù)據(jù)供模型訓(xùn)練。

          訓(xùn)練階段

          文中所采用的知識庫為Freebase,非結(jié)構(gòu)化文本采用的是維基百科等數(shù)據(jù)。既然是要判定句子中的實(shí)體是否在知識庫中存在,那么必然要識別出對應(yīng)的實(shí)體,識別實(shí)體部分文中依賴NER標(biāo)注工具。如果句子中的兩個實(shí)體存在于知識庫中且具有某種關(guān)系,便從句子中抽取出特征(很多特征),并把具有這種關(guān)系的多個句子中特征拼接作為這個關(guān)系的某一特征向量,從不同的句子中抽取出的特征拼接,會讓后面的分類器獲取更多的信息。

          特征

          訓(xùn)練的分類器需要很多的特征,2009年的時候還在大量的構(gòu)造特征工程,因此構(gòu)造的也正也幾乎完全是詞典或者語法特征,主要包括以下:

          Lexical features

          1、The sequence of words between the two entities
          2、The part-of-speech tags of these words
          3、A flag indicating which entity came first in the sentence
          4、A window of k words to the left of Entity 1 and their part-of-speech tags
          5、A window of k words to the right of Entity 2 and their part-of-speech tags

          另外還有關(guān)系依存句法樹以及實(shí)體類別特征等。

          測試階段

          在測試階段中,將再次使用NER工具識別實(shí)體,句子中一起出現(xiàn)的每一對實(shí)體都被認(rèn)為是一個潛在的關(guān)系實(shí)例,當(dāng)這些實(shí)體同時出現(xiàn)便從句子中提取特征添加到該實(shí)體對的特征向量中。例如在測試集中10個句子中出現(xiàn)了一對實(shí)體,每個句子提取3個特征,那么這個實(shí)體對將有30個相關(guān)特征,對測試語料庫中每個句子的每個實(shí)體對進(jìn)行特征提取,分類器根據(jù)實(shí)體對出現(xiàn)的所有特征為每個實(shí)體對預(yù)測關(guān)系。

          問題

          1、文中提出的假設(shè)太過強(qiáng)橫,必然會出現(xiàn)大量的badcase,比如句子中出現(xiàn)的兩個實(shí)體刻畫的并非實(shí)體庫中對應(yīng)的關(guān)系描述,這樣會引入噪音臟數(shù)據(jù),影響最終的結(jié)果。例如,創(chuàng)始人(喬布斯,蘋果)和ceo(喬布斯,蘋果)都是正確的。

          2、文中依賴于NER工具、以及構(gòu)造詞典語法句法等特征,也會存在錯誤傳播問題。

          多實(shí)例學(xué)習(xí)-2011-ACL

          • 論文題目:Knowledge-Based Weak Supervision for Information Extraction of Overlapping Relations
          • 論文地址:https://www.aclweb.org/anthology/P11-1055.pdf

          本文針對上篇文章中的強(qiáng)假設(shè)導(dǎo)致的badcase,采用多實(shí)例學(xué)習(xí)的思想,減少遠(yuǎn)程監(jiān)督噪音數(shù)據(jù)的影響。提出新的模型MULTIR,引入多實(shí)例學(xué)習(xí)的概率圖形模型,從而解決重疊關(guān)系抽取問題,重疊關(guān)系問題指的是同一對實(shí)體之間的存在多種不同類型的關(guān)系,同時結(jié)合句子級別和文檔級別的特征進(jìn)行關(guān)系抽取,MULTIR在計算推理上面具有很高的效率。

          多實(shí)例學(xué)習(xí)可以被描述為:假設(shè)訓(xùn)練數(shù)據(jù)集中的每個數(shù)據(jù)是一個包(Bag),每個包都是一個示例(instance)的集合,每個包都有一個訓(xùn)練標(biāo)記,而包中的示例是沒有標(biāo)記的;如果包中至少存在一個正標(biāo)記的示例,則包被賦予正標(biāo)記;而對于一個有負(fù)標(biāo)記的包,其中所有的示例均為負(fù)標(biāo)記。(這里說包中的示例沒有標(biāo)記,而后面又說包中至少存在一個正標(biāo)記的示例時包為正標(biāo)記包,是相對訓(xùn)練而言的,也就是說訓(xùn)練的時候是沒有給示例標(biāo)記的,只是給了包的標(biāo)記,但是示例的標(biāo)記是確實(shí)存在的,存在正負(fù)示例來判斷正負(fù)類別)。通過定義可以看出,與監(jiān)督學(xué)習(xí)相比,多示例學(xué)習(xí)數(shù)據(jù)集中的樣本示例的標(biāo)記是未知的,而監(jiān)督學(xué)習(xí)的訓(xùn)練樣本集中,每個示例都有一個一已知的標(biāo)記;與非監(jiān)督學(xué)習(xí)相比,多示例學(xué)習(xí)僅僅只有包的標(biāo)記是已知的,而非監(jiān)督學(xué)習(xí)樣本所有示例均沒有標(biāo)記。但是多示例學(xué)習(xí)有個特點(diǎn)就是它廣泛存在真實(shí)的世界中,潛在的應(yīng)用前景非常大。from http://blog.csdn.net/tkingreturn/article/details/39959931

          經(jīng)典-2015-EMNLP

          • 論文題目:Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks
          • 論文地址:https://www.aclweb.org/anthology/D15-1203.pdf

          上面的幾篇文章已經(jīng)提出了遠(yuǎn)程監(jiān)督學(xué)習(xí)在關(guān)系抽取的開山之作,以及后面會通過多實(shí)例學(xué)習(xí)(Multi Instance Learning, MIL)來減少其中的噪音數(shù)據(jù),這篇文章也是在前人的基礎(chǔ)之上去做的工作,主要有兩部分,其中之一是提出piece-wise卷積神經(jīng)網(wǎng)絡(luò)自動抽取句子中的特征信息,從而替換之前設(shè)計的特征工程;另外和之前一樣,采用多實(shí)例學(xué)習(xí)思想來減緩錯誤的badcase數(shù)據(jù),既這篇文章將多實(shí)例學(xué)習(xí)整合到卷積神經(jīng)網(wǎng)絡(luò)中來完成關(guān)系抽取任務(wù)。

          Piecewise-CNN

          Vector representation

          上圖是PCNN針對bags中的一個句子編碼的情況,主要分為幾部分,其中向量表示部分也和之前我們介紹過的幾篇一樣,采用的預(yù)訓(xùn)練的word embedding以及句子中詞和兩個實(shí)體之間的相對距離向量,下圖中再對這個解釋一下,圖中 son 對兩個實(shí)體的相對距離分為是-2和3,到時候會把這些均轉(zhuǎn)換為向量表示,采用隨機(jī)初始化的方式。

          Convolution

          卷積部分從圖中便可以看出采用的是多卷積核操作,文中的Zero Padding值為1 , 卷積核的長為向量矩陣的長,寬為3,從上到下,單向滑動。

          Piecewise max pooling

          這部分也是之前介紹過的一篇論文中的類似做法,根據(jù)實(shí)體的位置將句子分為左中右三部分,對左中右三部分分別max-pooling,最后將所有的結(jié)果拼接,過softmax層,圖中的一個細(xì)節(jié)就是分段pooling的時候并沒有丟失兩個實(shí)體,而是將兩個實(shí)體劃分在在左中兩段中,這是一個細(xì)節(jié),圖中也很明顯給畫出來了。

          MIL-PCNN

          上面的PCNN網(wǎng)絡(luò)結(jié)構(gòu)展示的是多實(shí)例學(xué)習(xí)中一個bag(包)中的一個instance(句子)的情況,而多實(shí)例學(xué)習(xí)的輸入到網(wǎng)絡(luò)中的是一個包,里面包含了很多句子。假設(shè)我們存在 個bags {},每個bag包含個句子 。多實(shí)例學(xué)習(xí)的目的是預(yù)測看不見的袋子的標(biāo)簽。在本文中,bag中的所有實(shí)例都是獨(dú)立考慮的,并且bag中的instance是沒有l(wèi)abel的,只有bag中才有l(wèi)abel,因此只需要關(guān)注bag的label即可。

          模型圖中經(jīng)過softmax得到的是bag中的一個instance的關(guān)系類別概率,而非bag的,因此重新定義了基于bag的損失函數(shù),文中采取的措施是At-Least-One的假設(shè),每個bag中至少有一個標(biāo)注正確的instance,這樣就可以找到bag中置信度得分最高的instance,代表當(dāng)前bag的結(jié)果。定義如下的目標(biāo)函數(shù)

          2016-ACL

          • 論文題目:Neural Relation Extraction with Selective Attention over Instances
          • 論文地址:https://www.aclweb.org/anthology/P16-1200.pdf

          這篇文章是在上一篇文章PCNN的基礎(chǔ)之上進(jìn)行的改進(jìn),主要是因?yàn)镻CNN在多實(shí)例學(xué)習(xí)部分采用的是選取bag中置信度最高的instance(句子)作為bag的標(biāo)簽,這樣的做法可能會丟失太多的信息,因?yàn)橐粋€bag中正負(fù)樣本的數(shù)量是不定的,可能存在多個正樣本或者多個負(fù)樣本。這篇文章為了充分利用bag中的所有instance信息,利用注意力機(jī)制充分利用instance信息,減弱噪音的影響。模型的整體結(jié)構(gòu)如下圖。

          模型的整體結(jié)構(gòu)也是分為兩大部分

          Sentence Encoder:句子編碼部分采用的方式和上文的PCNN一樣,包括輸入部分的詞向量和位置向量,卷積神經(jīng)網(wǎng)絡(luò),以及分段max-pooling,這部分的方式?jīng)]有區(qū)別,這部分的模型結(jié)構(gòu)如下圖所示。

          Selective Attention over Instances:這部分是文章的重點(diǎn),改進(jìn)的地方主要是在這里,利用注意力機(jī)制對bag中的instance進(jìn)行加權(quán),得到bag的最終向量表示,,其中 是權(quán)重,文中具體的有兩種計算權(quán)重的方式。

          Average: 將bag中所有instance的重要程度都等同看待,即,這會放大instance的噪音影響,文中將其作為對比實(shí)驗(yàn)的一個baseline。

          Selective Attention: 這部分attention的目的是加強(qiáng)正樣本的instance、弱化負(fù)樣本instance的噪音影響。具體的計算公式見下面,其中 代表的是句子句子和關(guān)系  的相關(guān)程度, 為attention的對角矩陣,這樣就可以得到加權(quán)后的bag向量表示 。

          2016-COLING

          • 論文題目:Relation Extraction with Multi-instance Multi-label Convolutional Neural Networks
          • 論文地址:https://www.aclweb.org/anthology/C16-1139.pdf

          這篇文章也是在PCNN的基礎(chǔ)之上進(jìn)行的改進(jìn),主要有兩方面,其一也是和上文一樣認(rèn)為PCNN的at-least-once假設(shè)太過強(qiáng)硬,應(yīng)該充分利用bag中的所有instance信息,另外是評估了數(shù)據(jù)集中存在18.3%的重疊關(guān)系數(shù)據(jù),因此之前的單標(biāo)簽是不合理的,所以這篇文章針對這兩部分進(jìn)行了改進(jìn),模型的整體結(jié)構(gòu)如下圖。

          Sentence-level Feature Extraction:這部分和之前的PCNN一樣,Embedding (word + position) -> CNN -> 分段最大池化獲取每一個instance的句子表示。

          Cross-sentence Max-pooling:這篇文章融合bag中所有instance信息的方法和上文不一樣,不是采用的注意力機(jī)制,而是采用了非常簡單直觀或者說粗暴的方式,將bag中每個instance的句子信息取每一維度的最大值,獲取bag的向量表示,就如圖中中間部分所示。

          Multi-label Relation Modeling:之前的方式都是采用softmax多標(biāo)簽分類的方式,而這篇文章為了解決重疊關(guān)系問題,將不在采用softmax,而是對每一個 relation 做 sigmoid ,然后根據(jù)閾值來判定該instance是否應(yīng)該包含這個 relation 。

          2017-AAAI

          • 論文題目:Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions
          • 論文地址:https://www.aaai.org/ocs/index.php/AAAI/AAAI17/paper/download/14491/14078

          這篇文章的關(guān)鍵點(diǎn)主要也是兩部分,其一也是考慮了at-least-once的假設(shè)太多強(qiáng)硬,需要采用注意力機(jī)制考慮bag中更多的instance信息,另外一個是之前的方法都過多關(guān)注實(shí)體本身,而忽略了實(shí)體背后的文本描述信息,因此,這篇文章的將實(shí)體鏈接到實(shí)體描述文本上面獲取很多的信息表達(dá),文章的主要結(jié)構(gòu)如下。

          主要包括三部分

          (a) PCNNs Module:這部分還是和之前一樣,完全延續(xù)了 PCNN 的模型結(jié)構(gòu),采用word + position -> CNN -> Piecewise Max-pooling獲取文中的 bag 中的句子信息表達(dá)。

          (b) Sentence-level Attention Module:這部分類似之前的 Selective Attention ,也是計算 bag 中每個 instance 與 relation 的相關(guān)性,這里關(guān)系的向量采用的是 兩個實(shí)體信息來表達(dá),然后計算相關(guān)的權(quán)重(如下),最后通過加權(quán)的方式獲取 bag 的向量表達(dá),然后過線性層和softmax層做多分類,沒有考慮重疊關(guān)系。

          Entity Descriptions:這部分是將實(shí)體的文本描述信息編碼,采用的是簡單的CNN + max-pooling 獲取實(shí)體描述文本的向量表達(dá),文中提出,為了盡可能使實(shí)體的向量表達(dá)與實(shí)體描述文本的向量表達(dá)在語義空間中接近,直接定義了一個距離公式計算loss, ,然后和上面判別關(guān)系的loss結(jié)合, ,兩個損失函數(shù)聯(lián)合訓(xùn)練。

          2018-EMNLP

          • 論文題目:Hierarchical Relation Extraction with Coarse-to-Fine Grained Attention
          • 論文地址:https://www.aclweb.org/anthology/D18-1247.pdf

          這篇文章主要考慮到之前的關(guān)系抽取方法中,沒有考慮到關(guān)系之間是存在語義依賴關(guān)系的,而且,知識庫的關(guān)系中很多都是帶有層級結(jié)構(gòu)的,另外,之前的方法沒有對關(guān)系的長尾分布問題進(jìn)行仔細(xì)的考量,易導(dǎo)致關(guān)系數(shù)量多的則準(zhǔn)確率更高,關(guān)系數(shù)量極少的準(zhǔn)確率堪憂,針對上面的問題,這篇文章提出了在多實(shí)例學(xué)習(xí)中采用注意力機(jī)制的思想,提出層次化注意力機(jī)制來做具有層級的關(guān)系抽取問題,而且對于長尾分布的關(guān)系抽取也有很明顯的改善。

          2018-EMNLP

          • 論文題目:RESIDE: Improving Distantly-Supervised Neural Relation Extraction using Side Information
          • 論文地址:https://www.aclweb.org/anthology/D18-1157.pdf

          這篇文章主題思想還是遠(yuǎn)程監(jiān)督的思想,考慮到知識庫中除了實(shí)體關(guān)系之外,還有很多其他的信息可以加以利用,因此在模型中考慮了這部分特征信息,比如關(guān)系的別名信息以及實(shí)體的類別信息。另外,之前看到的很多文章都是采用了CNN的網(wǎng)絡(luò)結(jié)構(gòu),但是本文不同,摒棄了之前的CNN網(wǎng)絡(luò)結(jié)構(gòu),而是采用Bi-GRU以及GCN的文本編碼方式,考慮到采用GCN的編碼方式還是考量了Bi-GRU對文本的長距離信息依賴。文章的模型結(jié)構(gòu)如下。

          總結(jié)

          以上是幾篇遠(yuǎn)程監(jiān)督關(guān)系抽取的論文,從09年的開山之作,到前兩年的一些工作,文中的工作雖然沒有覆蓋全部,但是基本的方法已有大概的脈絡(luò)梳理,總體來說,輸入表示部分基本都是詞向量與位置編碼結(jié)合,獲取句子語義部分采用CNN,Piecewise max-pool池化較多,當(dāng)然也有采用GRU/GCN等,另外大多數(shù)工作基本都是多實(shí)例學(xué)習(xí) + 注意力機(jī)制的改進(jìn)與創(chuàng)新,其他的一些涉及到重疊關(guān)系、長尾分布等相關(guān)處理。除了前幾年的一些工作之外,最近也有遠(yuǎn)程監(jiān)督關(guān)系抽取的一些工作。

          參考資料

          1. Distant supervision for relation extraction without labeled data
          2. Knowledge-Based Weak Supervision for Information Extraction of Overlapping Relations
          3. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks
          4. Neural Relation Extraction with Selective Attention over Instances
          5. Relation Extraction with Multi-instance Multi-label Convolutional Neural Networks
          6. Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions
          7. Hierarchical Relation Extraction with Coarse-to-Fine Grained Attention
          8. RESIDE: Improving Distantly-Supervised Neural Relation Extraction using Side Information


          瀏覽 62
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  成人久久久久 | 影音先锋成人电影在线观看 | 国产色情性黄 片Av网站 | 水蜜桃獊传媒视频 | 国产有码在线 |