<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          當(dāng)卷積網(wǎng)絡(luò)遇上事件檢測 (經(jīng)典論文解讀)

          共 2101字,需瀏覽 5分鐘

           ·

          2021-03-24 10:04

          0 前情提要

          上一篇文章從初號機暴走的角度介紹了何為事件抽取,以及一個簡單的事件抽取模型,后續(xù)本專欄將會解讀以往論文,持續(xù)深入分析事件抽取任務(wù),有疑問的伙伴可以后臺留言哦。

          今天介紹的是第一個把卷積網(wǎng)絡(luò)(CNN)用于事件檢測的工作。

          論文標(biāo)題:

          Event Detection and Domain Adaptation with Convolutional Neural Networks

          論文鏈接:

          https://www.aclweb.org/anthology/P15-2060.pdf

          1 克服痛點

          一篇論文之所以存在價值,是因為能夠解決以往研究工作無法解決的痛點。

          在這個工作之前,事件檢測采用的是傳統(tǒng)特征工程方法,會帶來以下的問題:1)越充分的特征所需的特征工程越復(fù)雜,付出的成本也就越多;2)構(gòu)造特征的步驟會帶來錯誤傳遞問題

          卷積網(wǎng)絡(luò)可以自動抽取文本特征,不需要復(fù)雜的特征工程,自然不存在上述的問題。

          2 任務(wù)定義

          事件檢測任務(wù)可以說是事件抽取任務(wù)的簡化版本,只需要檢測出文本中是否存在特定類型的事件,例如:

          “A police officer was killed in New Jersey today“

          句子中,“killed“是”死亡“事件的觸發(fā)詞,該句子存在”死亡“事件。

          既然是檢測一個句子是否存在、以及存在何種事件類型,那么事件檢測任務(wù)可以看作文本多分類任務(wù),僅僅需要對句子進(jìn)行語義編碼,然后對其進(jìn)行事件類型分類即可。

          2015年,Nguyen和Grishman將CNN引進(jìn)事件檢測任務(wù),實現(xiàn)了從傳統(tǒng)特征工程方法到深度學(xué)習(xí)方法的跨越。

          3 模型細(xì)節(jié)

          模型如上圖所示,句子中每個字符的向量在預(yù)訓(xùn)練詞向量(300d)的基礎(chǔ)上額外拼接了位置編碼向量(50d)BIO實體類型編碼向量(50d)。作者通過實驗證明,額外拼接這兩種向量可以帶來性能提升。接下來是CNN的卷積和池化操作,最后輸入全連接層進(jìn)行事件類型分類。

          在輸入數(shù)據(jù)處理層面,對每個輸入文本設(shè)置一個固定的長度31,截斷超出的部分以及填充缺失的部分,每個輸入文本對應(yīng)一個事件類型的分類標(biāo)簽。

          預(yù)訓(xùn)練詞向量使用word2vec[1]初始化,位置編碼向量和BIO實體類型編碼向量隨機初始化。輸入字符通過查表獲取向量編碼,在模型訓(xùn)練過程中,這3個向量矩陣的參數(shù)隨著網(wǎng)絡(luò)更新優(yōu)化至最佳性能。

          4 數(shù)據(jù)集

          作者采用的是ACE 2005語料庫,該語料庫存在下載權(quán)限,需要自行去官網(wǎng)(https://www.ldc.upenn.edu) 獲取數(shù)據(jù)集權(quán)限。該數(shù)據(jù)集有33種事件子類型以及“無事件”,因此一共有34種分類標(biāo)簽。

          5 實驗分析

          為了驗證額外拼接的兩種向量的效果,作者進(jìn)行了消融實驗,結(jié)果如下??梢钥闯銎唇拥膬煞N向量對性能提升至關(guān)重要,在做其他文本分類的任務(wù)中也可以參考這點。

          為了驗證提出的CNN事件檢測模型的效果,作者進(jìn)行了不同模型的對比實驗。CNN2(添加實體類型編碼信息的CNN模型)實現(xiàn)了最優(yōu)的性能。

          CNN1(沒有添加實體類型編碼信息的CNN模型)的性能也比絕大多數(shù)對比模型的性能更優(yōu)。

          6 領(lǐng)域適應(yīng)實驗結(jié)果

          特征工程本質(zhì)上存在領(lǐng)域適應(yīng)問題,在源領(lǐng)域進(jìn)行的復(fù)雜的特征工程往往無法用于目標(biāo)領(lǐng)域。

          為了探究CNN方法用于事件檢測任務(wù)的領(lǐng)域適應(yīng)性問題,作者進(jìn)行了一系列對比實驗,將ACE 2005數(shù)據(jù)集中的“broadcast news“和“newswire”文本作為源領(lǐng)域,將“broadcast conversation”、“telephone conversation”和“webblogs”文本作為目標(biāo)領(lǐng)域。通過在源領(lǐng)域訓(xùn)練模型,目標(biāo)領(lǐng)域測試模型來評估模型的領(lǐng)域適應(yīng)性問題。

          實驗結(jié)果顯示,CNN2在源領(lǐng)域和目標(biāo)領(lǐng)域的性能指標(biāo)均達(dá)到了最優(yōu),證明了CNN適用于事件檢測任務(wù),可以在不同領(lǐng)域之間進(jìn)行遷移。

          推 薦 閱 讀

          參 考 資 料

          [1] Tomas Mikolov, Greg Corrado, and Jeffrey Dean. 2013. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS.

          歡 迎 關(guān) 注

          由于微信平臺算法改版,訂閱號內(nèi)容將不再以時間排序展示,如果大家想第一時間看到我們的推送,強烈建議星標(biāo)我們幫我們點【在看】。星標(biāo)具體步驟:

          (1)點擊頁面最上方“NLP情報局”,進(jìn)入主頁

          (2)點擊右上角的小點點,在彈出頁面點擊“設(shè)為星標(biāo)”,就可以啦

          感謝支持??

          原創(chuàng)不易,有收獲的話請幫忙點擊分享、點贊、在看??

          瀏覽 47
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美九九九在线观看 | 青青草黄视频无限在线观 | 五月天人人操 | 在线观看免费视频黄 | 久久国产性爱 |