<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          基于神經(jīng)標(biāo)簽搜索,中科院&微軟亞研零樣本多語(yǔ)言抽取式摘要入選ACL 2022

          共 4806字,需瀏覽 10分鐘

           ·

          2022-07-08 06:59


          來(lái)源:機(jī)器之心

          本文約2500字,建議閱讀5分鐘

          本文介紹了基于神經(jīng)標(biāo)簽搜索情況下,中科院和微軟亞研的實(shí)驗(yàn)進(jìn)展。


          這項(xiàng)研究旨在解決零樣本下法語(yǔ)、德語(yǔ)、西班牙語(yǔ)、俄語(yǔ)和土耳其語(yǔ)等多語(yǔ)種的抽取式摘要任務(wù),并在多語(yǔ)言摘要數(shù)據(jù)集 MLSUM 上大幅提升了基線模型的分?jǐn)?shù)。


          抽取式文本摘要目前在英文上已經(jīng)取得了很好的性能,這主要得益于大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型和豐富的標(biāo)注語(yǔ)料。但是對(duì)于其他小語(yǔ)種語(yǔ)言,目前很難得到大規(guī)模的標(biāo)注數(shù)據(jù)。


          中國(guó)科學(xué)院信息工程研究所和微軟亞洲研究院聯(lián)合提出一種是基于 Zero-Shot 的多語(yǔ)言抽取式文本摘要模型。具體方法是使用在英文上預(yù)訓(xùn)練好的抽取式文本摘要模型來(lái)在其他低資源語(yǔ)言上直接進(jìn)行摘要抽取;并針對(duì)多語(yǔ)言 Zero-Shot 中的單語(yǔ)言標(biāo)簽偏差問(wèn)題,提出了多語(yǔ)言標(biāo)簽(Multilingual Label)標(biāo)注算法和神經(jīng)標(biāo)簽搜索模型(Neural Label Search for Summarization, NLSSum)。


          實(shí)驗(yàn)結(jié)果表明,模型 NLSSum 在多語(yǔ)言摘要數(shù)據(jù)集 MLSUM 的所有語(yǔ)言上大幅度超越 Baseline 模型的分?jǐn)?shù)。其中在俄語(yǔ)(Ru)數(shù)據(jù)集上,零樣本模型性能已經(jīng)接近使用全量監(jiān)督數(shù)據(jù)得到的模型。


          該研究發(fā)表在了 ACL 2022 會(huì)議主會(huì)長(zhǎng)文上。



          論文地址:
          https://aclanthology.org/2022.acl-long.42.pdf


          引言


          隨著 BERT 在自然語(yǔ)言處理領(lǐng)域的發(fā)展,在大規(guī)模無(wú)標(biāo)注數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練的模式得到了廣泛的關(guān)注。


          近些年,有很多研究工作在多種語(yǔ)言的無(wú)標(biāo)簽語(yǔ)料上進(jìn)行訓(xùn)練,從而得到了支持多種語(yǔ)言的預(yù)訓(xùn)練模型。這些基于多語(yǔ)言文本的預(yù)訓(xùn)練模型能夠在跨語(yǔ)言的下游任務(wù)上取得很好的性能,例如 mBERT、XLM 和 XLMR。對(duì)于基于 Zero-Shot 的多語(yǔ)言任務(wù),上述的多語(yǔ)言模型也能取得不錯(cuò)的效果。其中,XLMR 模型的 Zero-Shot 效果在 XNLI 數(shù)據(jù)集上已經(jīng)能夠達(dá)到其他模型 Fine-tune 的水平。因此這為我們?cè)诔槿∈轿谋菊蝿?wù)上進(jìn)行基于 Zero-Shot 的探索提供了基礎(chǔ)。


          在單語(yǔ)言的抽取式文本摘要中,數(shù)據(jù)集通常只含有原始文檔和人工編寫(xiě)的摘要,因此需要使用基于貪心算法的句子標(biāo)簽標(biāo)注算法來(lái)對(duì)原文中的每句話進(jìn)行標(biāo)注。但這種算法是面向單語(yǔ)言的標(biāo)注方法,得到的結(jié)果會(huì)產(chǎn)生單語(yǔ)言標(biāo)簽偏差問(wèn)題,在多語(yǔ)言的任務(wù)上仍然需要優(yōu)化。下面的圖表展示的就是單語(yǔ)言標(biāo)簽偏差問(wèn)題。


          表 1. 多語(yǔ)言 Zero-Shot 中的單語(yǔ)言標(biāo)簽偏差問(wèn)題。


          如上表 1 樣例所示,這個(gè)例子是摘要領(lǐng)域目前最常見(jiàn)的 CNN/DM 數(shù)據(jù)集中選取的部分文檔。CNN/DM 是一個(gè)英文數(shù)據(jù)集,示例中上半部分的即為原始文檔中的英文表示和人工編寫(xiě)的英文摘要;示例中的下半部分是使用微軟開(kāi)源的工業(yè)級(jí)翻譯模型 Marian,將英文的文檔和摘要全部翻譯為德語(yǔ)。示例中的這句話和人工編寫(xiě)的摘要具有較高的相似性,因此會(huì)得到較高的 ROUGE 分?jǐn)?shù)。


          但是對(duì)于翻譯成德語(yǔ)的文檔句子和摘要,我們發(fā)現(xiàn)兩者的相似性較低,對(duì)應(yīng)的 ROUGE 分?jǐn)?shù)也會(huì)較低。這種情況下,使用英語(yǔ)語(yǔ)言環(huán)境下標(biāo)注的標(biāo)簽直接訓(xùn)練的多語(yǔ)言文本摘要模型,在其他語(yǔ)言的語(yǔ)言環(huán)境中并不是最優(yōu)的。


          上述實(shí)例表明同一個(gè)句子在不同語(yǔ)言環(huán)境下會(huì)存在標(biāo)簽偏差的問(wèn)題,也就是目前的貪心算標(biāo)注標(biāo)簽的方式無(wú)法滿足基于 Zero-Shot 的多語(yǔ)言文本摘要任務(wù)。


          為了解決上述基于 Zero-Shot 的多語(yǔ)言抽取式文本摘要中單語(yǔ)言標(biāo)簽偏置的問(wèn)題,我們提出了一種多語(yǔ)言標(biāo)簽算法。在原來(lái)單語(yǔ)言標(biāo)簽的基礎(chǔ)上,通過(guò)使用翻譯和雙語(yǔ)詞典的方式在 CNN/DM 數(shù)據(jù)集上構(gòu)造出另外幾組多語(yǔ)言交互的句子標(biāo)簽。對(duì)于這幾組語(yǔ)言標(biāo)簽,設(shè)計(jì)出神經(jīng)語(yǔ)言標(biāo)簽搜索模型 (NLSSum) 來(lái)充分利用它們對(duì)抽取式摘要模型進(jìn)行監(jiān)督學(xué)習(xí)。


          在 NLSSum 模型中,使用層次級(jí)的權(quán)重來(lái)對(duì)這幾組標(biāo)簽進(jìn)行句子級(jí)別 (Sentence-Level) 和組級(jí)別 (Set-Level) 的權(quán)重賦值。在抽取式模型的訓(xùn)練期間, Sentence-Level 和 Set-Level 權(quán)重預(yù)測(cè)器是和摘要抽取器一起在英文標(biāo)注語(yǔ)料上進(jìn)行訓(xùn)練的。模型推斷測(cè)試的時(shí)候,在其他語(yǔ)言上只使用摘要抽取器來(lái)進(jìn)行摘要抽取。


          技術(shù)概覽


          我們針對(duì)基于 Zero-Shot 多語(yǔ)言摘要任務(wù)中的單語(yǔ)言標(biāo)簽偏移問(wèn)題,提出了神經(jīng)標(biāo)簽搜索模型來(lái)對(duì)多語(yǔ)言標(biāo)簽使用神經(jīng)網(wǎng)絡(luò)搜索其權(quán)重,并使用加權(quán)后的標(biāo)簽監(jiān)督抽取式摘要器。具體的流程分為以下五步:


          • 多語(yǔ)言數(shù)據(jù)增強(qiáng):這里的目前是將原始英文文檔用翻譯、雙語(yǔ)詞典換等方式來(lái)減少和目標(biāo)語(yǔ)言之間的偏差;

          • 多語(yǔ)言標(biāo)簽:我們的抽取式摘要模型最終是通過(guò)多語(yǔ)言標(biāo)簽來(lái)進(jìn)行監(jiān)督的,其中多語(yǔ)言標(biāo)簽總共包含 4 組標(biāo)簽,這 4 組標(biāo)簽都是根據(jù)不同的策略來(lái)標(biāo)注的;

          • 神經(jīng)標(biāo)簽搜索:在這步中為不同組標(biāo)簽設(shè)計(jì)了層次級(jí)的權(quán)重預(yù)測(cè),包括句子級(jí)別 (Sentence-Level) 和組級(jí)別 (Set-Level),最終使用加權(quán)的標(biāo)簽來(lái)對(duì)抽取式摘要模型進(jìn)行監(jiān)督;

          • 微調(diào)訓(xùn)練 / Fine-Tunig:使用增強(qiáng)的文檔數(shù)據(jù)和加權(quán)平均的多語(yǔ)言標(biāo)簽來(lái) Fine-Tune 神經(jīng)摘要抽取模型;

          • 基于 Zero-Shot 的多語(yǔ)言摘要抽取:使用在英文標(biāo)注數(shù)據(jù)上訓(xùn)練完的模型可以直接在低資源語(yǔ)言的文檔上進(jìn)行摘要句子抽取。

           

          圖 1:多語(yǔ)言標(biāo)簽。


          如上圖 1 所示,在原始英文文檔 D 和人工編寫(xiě)摘要 s 上設(shè)計(jì)出四組多語(yǔ)言標(biāo)簽 (Ua,Ub,Uc,Ud),具體的構(gòu)造方法如下所示:


          1. 標(biāo)簽集合 Ua:定義 Ua=GetPosLabel (D,s) 為使用文檔 D 和人工編寫(xiě)摘要 s 使用貪心算法得到的抽取為摘要的句子集合,其中 GetPosLabel 返回的是標(biāo)簽為 1 的句子的索引。使用 (D,s) 得到的是英文文檔上的到的摘要句子,這個(gè)結(jié)果對(duì)于其他語(yǔ)言來(lái)說(shuō)并不是最優(yōu)的,因此我們還設(shè)計(jì)了另外三組標(biāo)簽。


          2. 標(biāo)簽集合 Ub:首先將英文原始文檔和人工編寫(xiě)摘要都使用機(jī)器翻譯模型 MarianMT 將其翻譯為目標(biāo)語(yǔ)言,標(biāo)記為 DMT 和 sMT,然后使用 Ub=GetPosLabel (DMT,sMT) 的方式得到翻譯后文檔上摘要句子的索引集合。這種借助于機(jī)器翻譯模型的方法相當(dāng)于使用目標(biāo)語(yǔ)言的句法結(jié)構(gòu)來(lái)表達(dá)原始英文的語(yǔ)義,因此得到的摘要句子能反應(yīng)出目標(biāo)語(yǔ)言句法結(jié)構(gòu)對(duì)摘要信息的偏重。


          3. 標(biāo)簽集合 Uc:在這組標(biāo)簽的構(gòu)造中,首先將原始英文文檔自動(dòng)翻譯為目標(biāo)語(yǔ)言 DMT,然后將人工編寫(xiě)的英文摘要使用雙語(yǔ)詞典替換為目標(biāo)語(yǔ)言 SWR (將所有摘要中的詞都進(jìn)行替換),然后我們使用 Uc=GetPosLabel (DMT,SWR) 的方式得到翻譯和詞替換方式交互的摘要句子索引集合。這種方法將原始文檔使用機(jī)器翻譯來(lái)替換句法結(jié)構(gòu),摘要使用雙語(yǔ)詞典翻譯來(lái)保留原始語(yǔ)言句法結(jié)構(gòu)同時(shí)和文檔語(yǔ)言保持一直,因此能夠得到目標(biāo)語(yǔ)言和原始語(yǔ)言之間句法結(jié)構(gòu)在抽取摘要句子上的交互。


          4. 標(biāo)簽集合 Ud:這個(gè)方法中,文檔使用的是原始英文文檔 D;摘要先經(jīng)過(guò)機(jī)器翻譯轉(zhuǎn)換到目標(biāo)語(yǔ)言,然后經(jīng)過(guò)雙語(yǔ)詞典進(jìn)行詞替換轉(zhuǎn)換回英語(yǔ),使用 S′來(lái)表示。最終我們使用 Ud=GetPosLabel (D,S′) 來(lái)得到抽取式摘要句子標(biāo)簽集合。在這種方法中,原始文檔保持不變,摘要?jiǎng)t是使用目標(biāo)語(yǔ)言的句法結(jié)構(gòu),因此能夠再次得到目標(biāo)語(yǔ)言和原始語(yǔ)言之間句法結(jié)構(gòu)在抽取摘要句子上的交互。


          需要注意的是,使用 GetPosLabel (D,S) 的時(shí)候,要保證 D 和 S 是同種語(yǔ)言的表示,因?yàn)榛谪澬乃惴ǖ臉?biāo)簽標(biāo)注算法本質(zhì)上是對(duì)詞語(yǔ)級(jí)別進(jìn)行匹配。另外,還有很多種構(gòu)造多語(yǔ)言標(biāo)簽的方法,我們只是選取了幾組有代表性的方法。這些方法中使用的機(jī)器翻譯模型和雙語(yǔ)詞典替換可能會(huì)引入額外的誤差,因此需要為這幾組標(biāo)簽學(xué)習(xí)合適的權(quán)重。


          如下圖 2 所示,對(duì)于已經(jīng)得到的幾組多語(yǔ)言標(biāo)簽 (Ua,Ub,Uc,Ud),需要設(shè)計(jì)神經(jīng)標(biāo)簽搜索的模型來(lái)對(duì)不同組的標(biāo)簽設(shè)置權(quán)重。權(quán)重包含兩部分,句子級(jí)別 (Sentence-Level) 和組級(jí)別 (Set-Level)。對(duì)應(yīng)這兩個(gè)級(jí)別的權(quán)重,我們分別定義兩個(gè)權(quán)重預(yù)測(cè)器,句子級(jí)別權(quán)重預(yù)測(cè) Transformeralpha 和組級(jí)別權(quán)重預(yù)測(cè) Transformerbeta。

           

          圖 2:多語(yǔ)言神經(jīng)標(biāo)簽搜索摘要模型。

          實(shí)驗(yàn)結(jié)果

          NLSSum 是通過(guò)神經(jīng)搜索的方式來(lái)對(duì) MultilingualLabel 中不同標(biāo)簽集合賦予不同的權(quán)重,并最終得到加權(quán)平均的標(biāo)簽。使用這種最終的標(biāo)簽在英文數(shù)據(jù)集上訓(xùn)練抽取式摘要模型。和單語(yǔ)言標(biāo)簽相比,多語(yǔ)言標(biāo)簽中存在更多的跨語(yǔ)言語(yǔ)義和語(yǔ)法信息,因此本文的模型能夠在 Baseline 基礎(chǔ)上獲得較大的提升。

          如下表 2 所示,實(shí)驗(yàn)使用的數(shù)據(jù)集包括 CNN/DM 和 MLSUM,具體數(shù)據(jù)集描述如表 6.2 所示。MLSUM 是第一個(gè)大規(guī)模的多語(yǔ)言文本摘要數(shù)據(jù)集,它從新網(wǎng)網(wǎng)站上爬取了 150 萬(wàn)條文檔和摘要,包含五種語(yǔ)言:法語(yǔ) (French,F(xiàn)r)、德語(yǔ) (German,De)、西班牙語(yǔ) (Spanish,ES)、俄語(yǔ) (Russian,Ru) 和土耳其語(yǔ) (Turkish,Tr)。MLSUM 是在測(cè)試推斷的時(shí)候驗(yàn)證 Zero-Shot 多語(yǔ)言模型的跨語(yǔ)言遷移能力。在訓(xùn)練階段使用的是文本摘要領(lǐng)域最常見(jiàn)的 CNN/DM 英文數(shù)據(jù)集。

          表 2:MLSUM 數(shù)據(jù)集上的 ROUGE 結(jié)果。

          這里對(duì) MLSUM 數(shù)據(jù)集上各個(gè)基線模型的的 ROUGE 結(jié)果進(jìn)行對(duì)比。表格總共分為三部分。

          • 第一部分展示的是 Oracle 和 Lead 這些簡(jiǎn)單的基線模型;
          • 第二部分展示的是基于監(jiān)督學(xué)習(xí)的一些基線模型,其中 (TrainAll) 是在所有語(yǔ)言的數(shù)據(jù)集上進(jìn)行訓(xùn)練,(TrainOne) 是在每個(gè)語(yǔ)言的數(shù)據(jù)集上單獨(dú)訓(xùn)練;
          • 第三部分展示的是無(wú)監(jiān)督學(xué)習(xí)的結(jié)果,所有的模型都是只在英文數(shù)據(jù)集上進(jìn)行訓(xùn)練。

          其中,根據(jù)第二部分的結(jié)果很容易發(fā)現(xiàn),在監(jiān)督學(xué)習(xí)中,基于生成式的摘要方式比抽取式的更加合適。在第三部分中,基線模型 XLMRSum 的性能能夠超越生成式模型的 MARGE,這說(shuō)明無(wú)監(jiān)督學(xué)習(xí)中使用抽取式方法更加合適。

          另外,當(dāng)使用機(jī)器翻譯和雙語(yǔ)詞典替換來(lái)對(duì)原始文檔進(jìn)行數(shù)據(jù)增強(qiáng)的時(shí)候 (基線模型 XLMRSum-MT 和 XLMRSum-WR),可以發(fā)現(xiàn) XLMRSum-MT 模型會(huì)帶來(lái)模型性能下降,而 XLMRSum-WR 會(huì)帶來(lái)性能的提升,因此最終的模型中數(shù)據(jù)增強(qiáng)選擇的是基于雙語(yǔ)詞典的詞替換方式。

          因此對(duì)于我們 NLSSum 模型,我們同樣有兩種配置,NLSSum-Sep 是將 CNN/DM 單獨(dú)詞替換為對(duì)應(yīng)的一種目標(biāo)語(yǔ)言并進(jìn)行微調(diào)訓(xùn)練;NLSSum 是 CNN/DM 詞分別替換為所有的目標(biāo)語(yǔ)言并在所有語(yǔ)言的替換后的數(shù)據(jù)集上進(jìn)行微調(diào)訓(xùn)練。

          最終結(jié)果顯示,在所有語(yǔ)言上進(jìn)行訓(xùn)練的 NLSSum 效果更好。從表格中我們可以總結(jié)出以下結(jié)論:

          • 基于翻譯模型的輸入數(shù)據(jù)增強(qiáng)會(huì)引入誤差,所以應(yīng)該避免在輸入中使用翻譯模型;相反,雙語(yǔ)詞典的詞替換方式是一個(gè)不錯(cuò)的數(shù)據(jù)增強(qiáng)方法;
          • 標(biāo)簽的構(gòu)造過(guò)程中不涉及模型輸入,所以可以使用機(jī)器翻譯模型來(lái)輔助標(biāo)簽生成。

          如下圖 3 所示,通過(guò)可視化分析進(jìn)一步研究不同語(yǔ)言間重要信息的分布位置,從中可以看出英文語(yǔ)言中重要信息分布較為靠前,而其他語(yǔ)言中的重要信息則比較分散,這也是多語(yǔ)言標(biāo)簽?zāi)軌蛱嵘P托阅苤匾颉?/span>

          圖 3:不同語(yǔ)言中摘要句子的分布位置。

          未來(lái)研究將關(guān)注于:1. 尋找更加合理的多語(yǔ)言句子級(jí)別標(biāo)簽標(biāo)注算法;2. 研究如何提升低資源語(yǔ)言摘要結(jié)果,同時(shí)不降低英語(yǔ)語(yǔ)料上的結(jié)果。

          編輯:王菁
          校對(duì):林亦霖





          瀏覽 23
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  看国内看国内黄色一级片和国产麻豆 | 亚洲无码视频在线观看观看 | 久久电影三级无码 | 日本黄色A片免费看 | 欧美日一道夲 |