<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          CALMS:多語言摘要中的信息抽取與共享 | ?ACL 2021 Findings

          共 3248字,需瀏覽 7分鐘

           ·

          2021-08-19 17:43

          點擊上方視學(xué)算法”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時間送達(dá)

          作者 | 王丹青

          編輯 | 陳大鑫

          在快節(jié)奏的生活中,人們往往沒有耐心閱讀長篇大論,而是希望能夠通過簡短的文字迅速掌握文章的重點信息,從而判斷是否有必要詳細(xì)閱讀。因此不管是在新聞推送還是在論文撰寫,為文章提取一個簡明扼要的摘要都是十分重要的。以往這項工作都是由文章作者或者專門的編輯進(jìn)行,而現(xiàn)在,人們可以通過 AI 模型自動為文章提供摘要,大大解救了為總結(jié)全文而絞盡腦汁的作者編輯們。

          緊隨國際化的步伐,我們對于摘要生成的需求也不再局限于單種語言。對于我們熟悉的中文,閱讀摘要自然能夠節(jié)約部分時間,但是對于不熟悉的英法德等語言,我們更需要通過摘要來判斷是否有必要花費(fèi)大量精力對全文進(jìn)行翻譯閱讀。然而,為每一種不熟悉的語言建立一個模型實在是過于繁重,我們最希望的是有一個統(tǒng)一的模型,能夠同時對多種語言的文章進(jìn)行閱讀理解,同時生成對應(yīng)語言的摘要輸出,這就是多語言摘要的研究核心。

          一個優(yōu)秀的模型除了精心的算法設(shè)計,還離不開大量的數(shù)據(jù)。由于摘要本身撰寫難度,人們很難收集到大量高質(zhì)量的文章-摘要對數(shù)據(jù),這個現(xiàn)象在小眾的語言上尤為突出。因此,要解決多語言摘要問題,我們首先需要解決的是數(shù)據(jù)問題。有了數(shù)據(jù)之后,我們希望能夠讓模型取長補(bǔ)短,利用資源豐富的語言數(shù)據(jù)來扶貧資源稀缺的語言。

          這里AI 科技評論為大家介紹一篇來自 ACL2021 Findings 的多語言摘要工作《Contrastive Aligned Joint Learning for Multilingual Summarization》。

          該篇文章由字節(jié)跳動人工智能實驗室和復(fù)旦大學(xué)合作完成,主要提供了一個囊括了12種語言,總數(shù)據(jù)量達(dá)到100萬的新多語言數(shù)據(jù)集 MLGSum。同時,該篇工作設(shè)計了兩個任務(wù)來提取文章信息并在多種語言間進(jìn)行語義對齊,從而來同時提升模型在多種語言上的摘要性能。


          1

          多語言摘要數(shù)據(jù)集 MLGSum

          機(jī)器學(xué)習(xí)模型,算法為主,但數(shù)據(jù)先行。沒有高質(zhì)量的大規(guī)模數(shù)據(jù)只能是巧婦難為無米之炊。然而,目前絕大多數(shù)摘要數(shù)據(jù)集均集中在英文上,最近提出的多語言數(shù)據(jù)集MLSUM[1]也只提供了5種語言。

          因此,作者首先從多語言新聞網(wǎng)站上收集了大量的新聞數(shù)據(jù)并進(jìn)行篩選,保留包含人工摘要的部分?jǐn)?shù)據(jù),最終獲得了包括 12 種語言,總共文章-摘要對高達(dá)100萬的大規(guī)模數(shù)據(jù)集。具體語言和數(shù)據(jù)分布見圖 1,其中縱坐標(biāo)單位為萬。

          通過柱狀圖可以看到,德語(De),英語(En),俄羅斯語(Ru),法語(Fr)和中文(Zh)的數(shù)據(jù)量較多,其余幾種語言的數(shù)據(jù)量較少。因而作者以此為劃分,前面5種作為高資源語種,后面7種作為低資源語種。

          作者的目標(biāo)在于,在高資源語種上訓(xùn)練一個聯(lián)合模型,使得其能夠同時在5種語言上獲得優(yōu)于單語言模型的性能。與此同時,該聯(lián)合模型能夠很好地遷移到低資源語種上。

          圖1:MLGSum的各語言數(shù)據(jù)量


          2

          對比學(xué)習(xí)的多語言摘要模型 CALMS

          針對摘要的任務(wù)特性,作者利用對比學(xué)習(xí)的思想,設(shè)計了兩個句子級別的輔助任務(wù)。

          第一個叫對比句子排序 (Contrastive Sentence Ranking, CSR),其目的是幫助模型分辨出哪些信息更加重要。

          具體做法是,首先從文章中隨機(jī)抽取出若干個句子作為摘要候選;其次將這些候選項和標(biāo)準(zhǔn)摘要進(jìn)行對比,相似度最高的作為正樣本,其余作為負(fù)樣本。在模型學(xué)習(xí)過程中,需要將正負(fù)樣本的表示距離不斷拉大,從而分辨出文章中哪些句子對摘要更加重要。

          第二個叫對齊句替換 (Sentence Aligned Substitution, SAS),其目的是拉近不同語言間相似句子的距離。

          具體來說,首先作者從語言A的文章中抽取出一些重要信息句(如前幾句),翻譯成另一種語言B并且進(jìn)行替換,模型需要根據(jù)替換后的混合文章將原始句子還原出來。這個任務(wù)希望能夠借助翻譯拉近語種間的語義表示。從一方面來說,還原的過程可以認(rèn)為是對重要信息句做B到A的翻譯;從另一個方面來說,可以將其視作利用A文章的剩余內(nèi)容來還原重要信息句。基于重要信息句的信息量和剩余所有內(nèi)容的信息量之和相似的假設(shè),可以將這個過程視作自監(jiān)督摘要。

          圖2: CSR和SAS任務(wù)設(shè)計


          3

          性能一覽

          作者利用 mBART 模型[2]作為多語言語言模型初始化,并且利用上述兩個任務(wù)進(jìn)行進(jìn)一步微調(diào),最終獲得了模型CALMS(Contrastive Aligned Joint Learning for Multilingual Summarization)。

          首先在5種高資源語言上進(jìn)行了實驗,結(jié)果如下所示。其中Mono模型為每種語言一個的單語言模型,Multi模型為聯(lián)合的多語言模型。可以看出,通過上述兩個方法的設(shè)計,聯(lián)合模型在每種語言上都優(yōu)于單語言模型,并且通過針對每種語言的微調(diào)可以進(jìn)一步提升性能。

          圖3: 各模型在De En Ru Fr Zh五種語言上的性能(以ROUGE-1為例)

          此外,針對低資源語言,作者將上述在5種語言上聯(lián)合訓(xùn)練的模型 CALMS 作為初始化,遷移到低資源語言上。其中 Transformer 和 mBART 為直接在該低資源語言上訓(xùn)練的模型。

          可以看到,針對上述5種語言較為相近的幾個語系,如Romance羅曼語(Fr Pt Es 法語 葡萄牙語 西班牙語)和Savic斯拉夫語(Ru Uk 俄語 烏克蘭語),CALMS明顯優(yōu)于直接訓(xùn)練的單語言模型,但是對于較遠(yuǎn)的幾個語系,效果有所下降。這是因為CALMS針對上述5個語種進(jìn)行針對性微調(diào)優(yōu)化,導(dǎo)致語義空間和其余語系更遠(yuǎn)。同時針對沒有被mBART覆蓋的Id印度尼西亞語,CALMS取得了優(yōu)于單語言模型的效果,這是因為CALMS對摘要任務(wù)本身提取重要信息的能力也進(jìn)行了加強(qiáng)。

          圖4: CALMS遷移到低資源語言上的性能


          4

          總結(jié)

          該篇文章為了解決多語言摘要問題,首先提出了一個包含 12 種語言的摘要數(shù)據(jù)集 MLGSum;其次針對多語言和摘要兩個特性設(shè)計了兩個輔助任務(wù),來加強(qiáng)模型提取重要信息和語言間對齊的能力。最終聯(lián)合模型CALMS在5種高資源語言上取得了優(yōu)于單語言模型的能力,并且證實了其在相似語系中有著良好的遷移能力。

          數(shù)據(jù)集和代碼將會公開在 https://github.com/brxx122/CALMS

          參考文獻(xiàn)

          [1]Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, and Jacopo Staiano. 2020. Mlsum: The multilingual summarization corpus. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 8051–8067.

          [2] Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer. 2020. Multilingual denoising pre-training for neural machine translation. Transactions of the Association for Computational Linguistics, 8:726–742.



          點個在看 paper不斷!

          瀏覽 51
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美高清操逼视频 | 韩国无码精品久久久 | 五月天成人小说 | 欧美成人在线观看免费 | 卡一卡二无码 |