抽取式摘要最新研究進(jìn)展
點(diǎn)擊上方“程序員大白”,選擇“星標(biāo)”公眾號(hào)
重磅干貨,第一時(shí)間送達(dá)

聲明:本文轉(zhuǎn)載自 哈工大訊飛聯(lián)合實(shí)驗(yàn)室 公眾號(hào),作者 趙峻瑤
本期導(dǎo)讀:文本摘要技術(shù)(Text Summarization)是信息爆炸時(shí)代,提升人們獲取有效信息效率的關(guān)鍵技術(shù)之一,如何從冗余、非結(jié)構(gòu)化的長(zhǎng)文本中提煉出關(guān)鍵信息,構(gòu)成精簡(jiǎn)通順的摘要,是文本摘要的核心問(wèn)題。抽取式摘要?jiǎng)t是文本摘要技術(shù)中效果穩(wěn)定,實(shí)現(xiàn)簡(jiǎn)單的一類(lèi)方法,本文結(jié)合COLING 2020中抽取式摘要相關(guān)的兩篇最新工作,對(duì)抽取式摘要方法中如何合理設(shè)置抽取單元展開(kāi)介紹。
???
引言
在自動(dòng)文本摘要任務(wù)中,抽取式摘要方法是從原文中抽取預(yù)先設(shè)置好的抽取單元,抽取單元一般為句子、短語(yǔ)或詞,目前大多數(shù)方法還是以句子為抽取單元,雖然句子級(jí)的抽取式摘要方法能夠?qū)崿F(xiàn)一個(gè)較好的摘要效果,但依然存在以下問(wèn)題:
冗余性,抽取出的句子存在冗余。 不必要性,抽取出的句子包含了一些不關(guān)鍵的信息。 存在抽取出的句子之間銜接生硬,不夠自然。
現(xiàn)有工作通常使用tri-block后處理策略,即跳過(guò)和已選擇句子存在tri-gram重疊的句子來(lái)減少冗余。還有一些工作在抽取的摘要基礎(chǔ)上結(jié)合生成式摘要方法進(jìn)行改寫(xiě)和優(yōu)化,減少不相關(guān)的信息,同時(shí)提升銜接流暢度。本期介紹的兩篇工作從設(shè)計(jì)一個(gè)比句子更細(xì)粒度的抽取單元出發(fā),希望通過(guò)細(xì)粒度的抽取單元,分割出整句中的關(guān)鍵信息和不關(guān)鍵信息,避開(kāi)冗余的和不必要的內(nèi)容來(lái)解決前兩點(diǎn)問(wèn)題。
At Which Level Should We Extract An Empirical Analysis on Extractive Document Summarization
騰訊的Qingyu Zhou等人發(fā)表于COLING 2020會(huì)議上的一篇文章,論文主要針對(duì)抽取整句摘要方法存在的冗余性和不必要性問(wèn)題,提出一種以子句作為抽取單元的抽取式摘要方法。本文的主要貢獻(xiàn)包括兩點(diǎn):(1)提出了一種子句作為抽取單元的設(shè)置方式,介于短語(yǔ)和整句之間。(2)設(shè)計(jì)了基于BERT的子句摘要抽取模型,性能相比抽取整句有所提升。
子句的定義

本文通過(guò)Penn Treebank(PTB)[1]方法對(duì)句子進(jìn)行句法成分分析,對(duì)每一個(gè)從句節(jié)點(diǎn)S和SBAR都視為子句單元。為了保留更完整的語(yǔ)義信息,如果一個(gè)從句節(jié)點(diǎn)被包括在更高層的從句節(jié)點(diǎn)中,則選擇最高層的子句節(jié)點(diǎn)(除去根節(jié)點(diǎn))作為抽取的子句單元。例如圖1中,紅色實(shí)線圈中的從句節(jié)點(diǎn)是最終選定的子句單元,如果一個(gè)句子解析后不存在從句節(jié)點(diǎn),則直接選用整句作為抽取單元。
模型概述

抽取模型參考了BERTSUM[2],這里對(duì)子句范圍內(nèi)的token做平均池化得到子句單元的表示,收集到所有子句單元的表示后再經(jīng)過(guò)一層Transformer層混合上下句之間的信息,經(jīng)過(guò)一層全連接層進(jìn)行二分類(lèi)預(yù)測(cè)當(dāng)前子句單元是需要抽取。訓(xùn)練時(shí)學(xué)習(xí)每個(gè)子句是否需要抽取,預(yù)測(cè)時(shí)選擇分?jǐn)?shù)最高的top-N個(gè)子句拼接后輸出。
實(shí)驗(yàn)評(píng)價(jià)
實(shí)驗(yàn)數(shù)據(jù)集使用經(jīng)典的文本摘要數(shù)據(jù)集CNN/DailyMail。

表1中Ora表示抽取式摘要方法中對(duì)目標(biāo)抽取單元的Oracle構(gòu)造方法,一般以貪心思想依次選擇ROUGE增量分?jǐn)?shù)最高的抽取單元加入,選擇N個(gè)或沒(méi)有可使ROUGE分?jǐn)?shù)增加的選擇時(shí)停止??梢钥吹剑宰泳渥鳛槌槿卧?,Ora-ss抽取方法的ROUGE P分?jǐn)?shù)更高,說(shuō)明以子句為抽取單元能夠避免抽取到不必要信息。從n-gram Overlap指標(biāo)可以看出,Ora-ss抽取的內(nèi)容重復(fù)度更低,冗余性相對(duì)抽取整句Ora-sent方法更低。

實(shí)驗(yàn)結(jié)果如表2所示,SSE模型不依賴(lài)后處理策略,在ROUGE-2和ROUGE-L上都超越了基線方法,且對(duì)比BERT-SENT(作者復(fù)現(xiàn)的BERTSUMEXT)提升顯著。

人工評(píng)估結(jié)果如表3,隨機(jī)采樣了50條樣本,經(jīng)過(guò)人工打分對(duì)比兩個(gè)模型之間的優(yōu)劣,各指標(biāo)均是越低表示模型表現(xiàn)越優(yōu)秀??梢钥吹絊SE模型犧牲了一定的可讀性,帶來(lái)了整體上性能的提升,減少了冗余性和不必要性。
結(jié)論
以句法成分解析樹(shù)中從句節(jié)點(diǎn)作為抽取式摘要的抽取單元,能夠有效降低抽取摘要的冗余性和不必要性,犧牲一定的可讀性,提升整體摘要性能,可讀性受句法解析器準(zhǔn)確率,以及子句片段自身相對(duì)于整個(gè)句子的不完備性影響,但整體上SSE達(dá)到相比抽取句子更優(yōu)的性能。
Fact-level Extractive Summarization with Hierarchical Graph Mask on BERT
浙江大學(xué)Hanlu Wu等人在COLING 2020會(huì)議上發(fā)表的一篇文章,本文主要貢獻(xiàn)包括兩點(diǎn):(1)基于依存分析方法設(shè)計(jì)了一種子句單元,命名為事實(shí)(Fact)。(2)設(shè)計(jì)了層次化的事實(shí)抽取摘要模型,通過(guò)改變注意力Mask對(duì)BERT直接引入了結(jié)構(gòu)化信息。
事實(shí)的定義

本文提出了一種經(jīng)驗(yàn)性的事實(shí)拆分算法,流程如下:
用依存分析方法(Stanford CoreNLP)對(duì)候選句子進(jìn)行解析,每個(gè)句子用標(biāo)點(diǎn)符號(hào)、連接詞和從句的節(jié)點(diǎn)進(jìn)行拆分,包括PU(標(biāo)點(diǎn)), CC(連詞), IP(從句)。 為了獲得完整的語(yǔ)義單元,我們對(duì)一些特殊的關(guān)系連邊兩端的子句進(jìn)行合并,包括acl:relcl,advcl(狀語(yǔ)從句修飾詞),appos(同位詞),ccomp(從句補(bǔ)充)。 判斷conj(連接關(guān)系)連接的2個(gè)元素是從句還是詞語(yǔ),如果2個(gè)元素距離低于一個(gè)閾值,則視為連接2個(gè)詞語(yǔ)進(jìn)行合并,否則視為2個(gè)子句。 預(yù)先定義了一個(gè)最小事實(shí)長(zhǎng)度和最大事實(shí)長(zhǎng)度,在執(zhí)行上述合并過(guò)程中,如果某個(gè)子句長(zhǎng)度超過(guò)最大長(zhǎng)度,則視為獨(dú)立的子句,不參與合并。一切合并操作執(zhí)行完成后,若存在小于最小長(zhǎng)度的子句,和前置的子句進(jìn)行合并,最后所有的子句作為事實(shí)。

表4統(tǒng)計(jì)了CNN/DM數(shù)據(jù)中訓(xùn)練集的文章按句子切分和按事實(shí)切分后的數(shù)量和長(zhǎng)度,平均1個(gè)句子包含1.6個(gè)事實(shí),存在一部分句子獨(dú)立作為單個(gè)事實(shí),其他情況下通常一個(gè)句子被拆分為2到3個(gè)事實(shí)。
模型概述

模型如圖4所示,在BERT的注意力層加入了一個(gè)Mask矩陣來(lái)加入層次化的結(jié)構(gòu)信息,主要構(gòu)造了2種連邊:
同粒度下當(dāng)前token和其他token之間的雙向連邊,圖4中同色token之間都存在雙向連邊。 細(xì)粒度token指向粗粒度token的單向連邊,例如圖4中藍(lán)色token指向自己所在事實(shí)token [cls_f]的連邊,以及事實(shí)指向句子,句子指向文檔的連邊。
在輸出層用全連接來(lái)對(duì)每個(gè)事實(shí)做分類(lèi),結(jié)合了文檔的表示和所在句子的表示:
||表示連接,在輸出時(shí)使用文檔和對(duì)應(yīng)句子的表示一同判斷當(dāng)前事實(shí)是否抽取。
訓(xùn)練時(shí)只學(xué)習(xí)事實(shí)的loss,預(yù)測(cè)時(shí)預(yù)測(cè)top-4的事實(shí),加上tri-block去冗余策略。
實(shí)驗(yàn)評(píng)價(jià)
本文實(shí)驗(yàn)數(shù)據(jù)采用CNN/DM數(shù)據(jù)集。

首先展示了基于事實(shí)用Oracle方法抽取摘要的效果,如表5所示,基于事實(shí)的Oracle方法提高了抽取方法的理論上界,能夠生產(chǎn)更精確的抽取標(biāo)簽。

表6顯示加入事實(shí)后,相對(duì)于作者復(fù)現(xiàn)的BERTSUM都有一定的提升,其中結(jié)合句子級(jí)的表示效果最佳,而額外使用文檔級(jí)的信息沒(méi)有帶來(lái)提升,說(shuō)明句子級(jí)的信息能夠有助于判斷句子內(nèi)的事實(shí)是否應(yīng)該抽取,而全文的文檔級(jí)信息過(guò)于粗粒度,對(duì)判斷事實(shí)是否抽取沒(méi)有幫助。

消融實(shí)驗(yàn)中對(duì)比了減去片段編碼和位置編碼的模型結(jié)果,表7下半部分是兩種基線方法去除位置編碼的結(jié)果,可以看出本文的方法去除位置信息后效果下降相對(duì)較小,說(shuō)明層次化的結(jié)構(gòu)信息有助于更好地幫助模型理解語(yǔ)義信息而不會(huì)過(guò)度依賴(lài)位置信息。
總結(jié)
兩篇工作都是以設(shè)計(jì)粒度介于詞和句子之間的抽取單元為主要思想,對(duì)比來(lái)看,第一篇的子句抽取單元粒度更細(xì),有著更高的理論上界,但存在一些可讀性上的問(wèn)題。第二篇定義的事實(shí)作為抽取單元,在劃分事實(shí)的算法中加入經(jīng)驗(yàn)性的處理,保證了事實(shí)拆分的準(zhǔn)確度和語(yǔ)義完整度。從模型優(yōu)化上來(lái)看,第二篇提供了一種從修改掩碼角度來(lái)對(duì)預(yù)訓(xùn)練模型引入結(jié)構(gòu)化信息的思路,但實(shí)驗(yàn)中個(gè)人認(rèn)為缺少了對(duì)應(yīng)的消融驗(yàn)證實(shí)驗(yàn),應(yīng)當(dāng)對(duì)比結(jié)構(gòu)化掩碼和全連接掩碼的實(shí)驗(yàn)結(jié)果。
抽取式摘要是文本摘要中的一類(lèi)重要方法,除了本期兩篇工作關(guān)注的冗余性問(wèn)題和不必要性問(wèn)題,還存在例如抽取句子之間語(yǔ)義不連貫,銜接生硬等問(wèn)題,以及如何對(duì)抽取式摘要進(jìn)行準(zhǔn)確評(píng)價(jià)也是值得探究的一個(gè)問(wèn)題。在實(shí)際應(yīng)用中設(shè)計(jì)方法時(shí)我們更應(yīng)該關(guān)注問(wèn)題本身,使得方法具有更好地滿足真實(shí)需要。
參考文獻(xiàn)
[1]Mitchell P. Marcus, Mary Ann Marcinkiewicz, and Beatrice Santorini. 1993. Building a large annotated corpus of English: The Penn Treebank. Comput. Linguist., 19(2):313–330, June.
[2]Yang Liu. 2019. Fine-tune BERT for Extractive Summarization. arXiv preprint arXiv:1903.10318.
推薦閱讀
國(guó)產(chǎn)小眾瀏覽器因屏蔽視頻廣告,被索賠100萬(wàn)(后續(xù))
年輕人“不講武德”:因看黃片上癮,把網(wǎng)站和786名女主播起訴了
關(guān)于程序員大白
程序員大白是一群哈工大,東北大學(xué),西湖大學(xué)和上海交通大學(xué)的碩士博士運(yùn)營(yíng)維護(hù)的號(hào),大家樂(lè)于分享高質(zhì)量文章,喜歡總結(jié)知識(shí),歡迎關(guān)注[程序員大白],大家一起學(xué)習(xí)進(jìn)步!

