當(dāng)卷積網(wǎng)絡(luò)遇上事件檢測 (經(jīng)典論文解讀)

0 前情提要
上一篇文章從初號機暴走的角度介紹了何為事件抽取,以及一個簡單的事件抽取模型,后續(xù)本專欄將會解讀以往論文,持續(xù)深入分析事件抽取任務(wù),有疑問的伙伴可以后臺留言哦。
今天介紹的是第一個把卷積網(wǎng)絡(luò)(CNN)用于事件檢測的工作。
論文標(biāo)題:
Event Detection and Domain Adaptation with Convolutional Neural Networks
論文鏈接:
https://www.aclweb.org/anthology/P15-2060.pdf
1 克服痛點
一篇論文之所以存在價值,是因為能夠解決以往研究工作無法解決的痛點。
在這個工作之前,事件檢測采用的是傳統(tǒng)特征工程方法,會帶來以下的問題:1)越充分的特征所需的特征工程越復(fù)雜,付出的成本也就越多;2)構(gòu)造特征的步驟會帶來錯誤傳遞問題。
卷積網(wǎng)絡(luò)可以自動抽取文本特征,不需要復(fù)雜的特征工程,自然不存在上述的問題。
2 任務(wù)定義
事件檢測任務(wù)可以說是事件抽取任務(wù)的簡化版本,只需要檢測出文本中是否存在特定類型的事件,例如:
“A police officer was killed in New Jersey today“
句子中,“killed“是”死亡“事件的觸發(fā)詞,該句子存在”死亡“事件。
既然是檢測一個句子是否存在、以及存在何種事件類型,那么事件檢測任務(wù)可以看作文本多分類任務(wù),僅僅需要對句子進(jìn)行語義編碼,然后對其進(jìn)行事件類型分類即可。
2015年,Nguyen和Grishman將CNN引進(jìn)事件檢測任務(wù),實現(xiàn)了從傳統(tǒng)特征工程方法到深度學(xué)習(xí)方法的跨越。
3 模型細(xì)節(jié)

在輸入數(shù)據(jù)處理層面,對每個輸入文本設(shè)置一個固定的長度31,截斷超出的部分以及填充缺失的部分,每個輸入文本對應(yīng)一個事件類型的分類標(biāo)簽。
預(yù)訓(xùn)練詞向量使用word2vec[1]初始化,位置編碼向量和BIO實體類型編碼向量隨機初始化。輸入字符通過查表獲取向量編碼,在模型訓(xùn)練過程中,這3個向量矩陣的參數(shù)隨著網(wǎng)絡(luò)更新優(yōu)化至最佳性能。
4 數(shù)據(jù)集
作者采用的是ACE 2005語料庫,該語料庫存在下載權(quán)限,需要自行去官網(wǎng)(https://www.ldc.upenn.edu) 獲取數(shù)據(jù)集權(quán)限。該數(shù)據(jù)集有33種事件子類型以及“無事件”,因此一共有34種分類標(biāo)簽。
5 實驗分析

為了驗證提出的CNN事件檢測模型的效果,作者進(jìn)行了不同模型的對比實驗。CNN2(添加實體類型編碼信息的CNN模型)實現(xiàn)了最優(yōu)的性能。
CNN1(沒有添加實體類型編碼信息的CNN模型)的性能也比絕大多數(shù)對比模型的性能更優(yōu)。

6 領(lǐng)域適應(yīng)實驗結(jié)果
特征工程本質(zhì)上存在領(lǐng)域適應(yīng)問題,在源領(lǐng)域進(jìn)行的復(fù)雜的特征工程往往無法用于目標(biāo)領(lǐng)域。
為了探究CNN方法用于事件檢測任務(wù)的領(lǐng)域適應(yīng)性問題,作者進(jìn)行了一系列對比實驗,將ACE 2005數(shù)據(jù)集中的“broadcast news“和“newswire”文本作為源領(lǐng)域,將“broadcast conversation”、“telephone conversation”和“webblogs”文本作為目標(biāo)領(lǐng)域。通過在源領(lǐng)域訓(xùn)練模型,目標(biāo)領(lǐng)域測試模型來評估模型的領(lǐng)域適應(yīng)性問題。

推 薦 閱 讀
參 考 資 料
[1] Tomas Mikolov, Greg Corrado, and Jeffrey Dean. 2013. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS.
歡 迎 關(guān) 注
由于微信平臺算法改版,訂閱號內(nèi)容將不再以時間排序展示,如果大家想第一時間看到我們的推送,強烈建議星標(biāo)我們幫我們點【在看】。星標(biāo)具體步驟:
(1)點擊頁面最上方“NLP情報局”,進(jìn)入主頁
(2)點擊右上角的小點點,在彈出頁面點擊“設(shè)為星標(biāo)”,就可以啦
感謝支持??
原創(chuàng)不易,有收獲的話請幫忙點擊分享、點贊、在看??
