<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【NLP】人大團隊研究:面向文本生成,預(yù)訓(xùn)練模型進展梳理

          共 5976字,需瀏覽 12分鐘

           ·

          2021-06-18 03:07


          文本生成 NLP 中最重要且頗具挑戰(zhàn)性的任務(wù)之一。近年來,預(yù)訓(xùn)練語言模型 (Pretrained Language Models ,下文簡稱 “PLM”) 的范式,極大地推動了該領(lǐng)域的發(fā)展。例如,我們曾介紹過 AI 在古詩生成上的突破《清華團隊最新成果:可致特朗普能詠比特幣,AI 寫古詩 “更上一層樓”


          最近,一項由中國人民大學(xué)團隊完成的預(yù)印本論文 Pretrained Language Models for Text Generation: A Survey,概述了在用于文本生成的 PLM 主題中取得的主要進展,旨在為文本生成研究人員提供相關(guān)研究的綜述與指導(dǎo)。


          Transformer 與 PLM 的興起


          文本生成,旨在將輸入數(shù)據(jù)(例如,序列和關(guān)鍵字)以人類語言模式生成合理且可讀的文本。


          PLM 的思路,則是首先在大規(guī)模語料庫中預(yù)訓(xùn)練模型,然后在各種下游任務(wù)中對這些模型進行微調(diào),以達到最先進的結(jié)果。


          PLM 可以從語料庫中編碼大量語言知識,并促使生成語言的通用表示。因此,PLM 通常有利于下游任務(wù),并且可以避免從頭開始訓(xùn)練新模型。


          此外,隨著算力的增強和 Transformer 架構(gòu)的出現(xiàn),PLM 由淺入深,在許多任務(wù)中取得了出色的性能,例如 BERT 和 GPT。因此,研究人員提出了各種方法來解決基于 PLM 的文本生成任務(wù)。


          文本生成的核心是生成一系列離散標記序列 y=〈y1, . . . , yj, . . . , yn〉,其中每個 yj 是從單詞詞匯表 V 中提取的。在大多數(shù)情況下,文本生成以輸入數(shù)據(jù)為條件,例如屬性、文本和結(jié)構(gòu)化數(shù)據(jù),記為  。形式上,文本生成任務(wù)可以描述為:


                


          輸入  
          任務(wù)
          隨機噪聲(Random noise)
          無條件文本生成(Unconditional text generation)
          離散屬性(Discrete attributes)
          主題到文本的生成(Topic-to-text generation)
          基于屬性的文本生成(Attribute-based generation)
          結(jié)構(gòu)化數(shù)據(jù)(Structured data)
          數(shù)據(jù)到文本的生成(Data-to-text generatio)
          多媒體(Multimedia)
          圖像文本描述(Image Caption)
          語音識別(Speech recognition)
          文本序列(Text sequence)
          機器翻譯(Machine translation)
          總結(jié)(Summarization)
          對話系統(tǒng)(Dialogue system)
          表 1 文本生成的主要任務(wù)及其對應(yīng)輸入

          PLM  使用大量未標記的文本數(shù)據(jù)進行預(yù)訓(xùn)練,并且可以在下游生成任務(wù)上進行微調(diào)。

          在大規(guī)模語料庫上預(yù)訓(xùn)練的 PLM 將海量的語言和世界知識編碼為大量參數(shù),可以增強對語言的理解并提高生成質(zhì)量。預(yù)訓(xùn)練的思想受到人類思維的啟發(fā),比如人類會轉(zhuǎn)移和重用過去所學(xué)的舊知識,以理解新知識并處理各種新任務(wù)。受此啟發(fā),PLM 可以利用舊經(jīng)驗和知識成功地執(zhí)行新任務(wù)。

          由于 Transformer 取得的巨大成就,幾乎所有的 PLM 都采用了 Transformer 的骨干網(wǎng)絡(luò)。對于文本生成任務(wù),一些 PLM 使用遵循基本編碼器 - 解碼器框架的標準 Transformer 架構(gòu),而其他 PLM 使用僅解碼器的 Transformer。

          不同的數(shù)據(jù)類型

          從輸入來看,文本生成可以分為三種主要輸入,即非結(jié)構(gòu)化輸入、結(jié)構(gòu)化輸入和多媒體輸入。PLM 將對這些輸入數(shù)據(jù)進行建模。

          丨非結(jié)構(gòu)輸入

          在 NLP 研究中,大多數(shù)研究側(cè)重于對非結(jié)構(gòu)化文本輸入(例如,句子、段落和文檔)進行建模。要生成令人滿意的輸出文本,需要具備出色語言理解能力,即超越輸入文本中單個單詞表面含義。

          在某些情況下,輸入文本可能是由多個句子和段落組成的長文檔。對于受句子或短段落約束的 PLM,它們不太能夠準確地對文檔中的長期依賴項進行建模。考慮到這一挑戰(zhàn),分層 BERT 被提出用來學(xué)習具有自注意力的句子之間的交互以進行文檔編碼。此外,為了捕獲句間關(guān)系,DiscoBERT 在 BERT 之上堆疊圖卷積網(wǎng)絡(luò) (GCN) 以對結(jié)構(gòu)性話語圖進行建模。通過直接對話語單元進行操作,DiscoBERT 保留了包含更多概念或上下文的能力,從而產(chǎn)生更簡潔和信息量更大的輸出文本。

          該研究觀察到大多數(shù)最新的 PLM 都是針對英文文本進行預(yù)訓(xùn)練的。然而,許多多語言生成任務(wù)(例如機器翻譯)涉及多種語言,某些語言資源不足,這一挑戰(zhàn)阻礙了單語 PLM 在多語文本生成任務(wù)中的廣泛應(yīng)用。因此,Conneau 等人提出學(xué)習跨語言模型(XLMs)以進行多語言理解。基于跨語言 PLM,文本生成模型即使在資源匱乏的語言中仍可獲得有效的輸入詞嵌入。

          丨結(jié)構(gòu)化輸入

          結(jié)構(gòu)化數(shù)據(jù)(例如圖形和表格)也是許多實際應(yīng)用(例如天氣報告生成)中文本生成的關(guān)鍵輸入類型。然而,在現(xiàn)實世界的場景中,很難收集大量帶有真實文本的標記結(jié)構(gòu)化數(shù)據(jù)進行訓(xùn)練。由于在大規(guī)模語料庫上進行了預(yù)訓(xùn)練,PLM 編碼了大量的語言知識,并在許多任務(wù)中表現(xiàn)出出色的小樣本能力。

          在將 PLM 應(yīng)用于結(jié)構(gòu)化數(shù)據(jù)時,一個主要挑戰(zhàn)是如何將結(jié)構(gòu)化數(shù)據(jù)輸入到 PLM 中,PLM 最初是為序列文本設(shè)計的。為了適應(yīng) PLM 的順序性質(zhì),Ribeiro 等人將輸入知識圖(KG)和抽象意義表示(AMR)圖線性化為三元組序列,Li 等人引入了一個額外的圖編碼器來對輸入 KG 進行編碼,Gogo 采用基于模板的方法將輸入表序列化為文本序列。例如,屬性 - 值對 “name: jackreynolds” 將被序列化為句子 “name is jackreynolds”。然而,直接線性化會丟失原始數(shù)據(jù)的結(jié)構(gòu)信息,這可能導(dǎo)致生成關(guān)于數(shù)據(jù)的不忠實原文本。因此,為了生成忠實文本,Gong 等人提出了一個輔助重建任務(wù)來恢復(fù)輸入數(shù)據(jù)的結(jié)構(gòu)信息,這可以增強建模結(jié)構(gòu)信息的能力。

          通常,輸出文本應(yīng)盡可能多地保留結(jié)構(gòu)化數(shù)據(jù)中的重要信息。因此,為了生成符合輸入的高保真文本,采用指針生成器機制從輸入知識數(shù)據(jù)中復(fù)制單詞。通過將 PLM 以外部知識為基礎(chǔ),很可能賦予生成模型兼具豐富的知識和良好的泛化能力。

          丨多媒體輸入

          除了上述文本數(shù)據(jù)之外,還進行了一些嘗試將多媒體數(shù)據(jù)(例如圖像、視頻和語音)作為輸入,例如圖像、視頻文本描述和語音識別等。VideoBERT 和 CBT 都對視頻文本描述任務(wù)進行了預(yù)訓(xùn)練。

          然而,它們僅對基于 BERT 的編碼器進行了預(yù)訓(xùn)練,以學(xué)習視覺和語言標記序列的雙向聯(lián)合分布。所以必須再訓(xùn)練一個單獨的視頻到文本解碼器,但這往往會導(dǎo)致預(yù)訓(xùn)練 - 微調(diào)的差異。相比之下,Unified VLP 使用共享的多層 Trans-former 網(wǎng)絡(luò)進行編碼和解碼。

          受 GPT 中生成預(yù)訓(xùn)練目標的啟發(fā),跨模態(tài)預(yù)訓(xùn)練模型(XGPT)被提出,以圖像為輸入,在預(yù)訓(xùn)練階段使用圖像標題任務(wù)作為基本生成任務(wù)。

          除了圖像和視頻,語音識別還需要人工轉(zhuǎn)錄的監(jiān)督數(shù)據(jù)。因此,開發(fā)了許多無監(jiān)督和半監(jiān)督方法來集成 PLM 以進行弱監(jiān)督學(xué)習。例如,還有團隊提出了一種無監(jiān)督的方法來預(yù)訓(xùn)練編碼器 - 解碼器模型,其中包含不成對的語音和書面文本。兩個預(yù)訓(xùn)練階段用于分別提取帶有語音和書面文本的聲學(xué)和語言信息,這對于下游的語音識別任務(wù)很有用。

          3 大關(guān)鍵要求

          在不同的文本生成任務(wù)中,生成的文本應(yīng)該滿足幾個關(guān)鍵屬性,即相關(guān)性、忠于原文和順序一致。

          根據(jù)語言學(xué)文獻,在文本生成中,相關(guān)性是指輸出文本中的主題與輸入文本高度相關(guān)。一個代表性的例子是對話系統(tǒng)的任務(wù),它需要生成的響應(yīng)與輸入對話歷史相關(guān)。除了對話歷史之外,還可以提供與響應(yīng)類型相對應(yīng)的條件作為外部輸入,例如響應(yīng)的主題和說話者的角色。生成的響應(yīng)也應(yīng)該與條件相關(guān)。

          同樣,忠于原文也是文本生成的一個關(guān)鍵指標,它要求生成文本中的內(nèi)容不應(yīng)與輸入文本中的事實相矛盾。有時,它進一步意味著生成的文本符合世界事實。一個代表性的例子是文本摘要任務(wù),其目的是生成代表原始內(nèi)容中最重要信息的忠實文本。在大量文本集合上進行預(yù)訓(xùn)練,PLM 可能有利于利用背景知識生成忠實的文本。

          另外,在 NLP 領(lǐng)域,順序保持表示輸入和輸出文本中語義單元(詞、短語等)的順序是一致的。

          最有代表性的例子是機器翻譯任務(wù)。從源語言翻譯成目標語言時,保持源語言和目標語言的短語順序一致,會在一定程度上保證翻譯結(jié)果的準確性。

          幾種常用的微調(diào)策略

          對于使用 PLM 生成文本,一個關(guān)鍵因素是如何設(shè)計合適的微調(diào)策略。在這一部分,該研究從數(shù)據(jù)、任務(wù)和模型 3 大角度回顧了幾種常用的微調(diào)策略。

          數(shù)據(jù)角度

          在將 PLMs 應(yīng)用于文本生成任務(wù)尤其是在新領(lǐng)域的文本生成任務(wù)時,如何設(shè)計適合新領(lǐng)域特點的合適有效的微調(diào)策略是一個重要的考慮因素。

          小樣本學(xué)習:通常采用的方法是使用預(yù)訓(xùn)練參數(shù)插入現(xiàn)有模塊。然后該研究用幾個、一個甚至沒有研究任務(wù)的例子對它進行微調(diào),分別是所謂的少樣本、單樣本和零樣本。

          例如在多語言翻譯中,一些低資源語言缺乏足夠的平行語料庫。XLM 提出學(xué)習跨語言模型,可以將在高資源語言中學(xué)到的知識用于低資源語言。使用第 4 節(jié)中提出的方法,小樣本學(xué)習也可以應(yīng)用于數(shù)據(jù)到文本的任務(wù)。

          領(lǐng)域轉(zhuǎn)移:在微調(diào)目標任務(wù)之前,繼續(xù)在具有預(yù)訓(xùn)練目標的特定數(shù)據(jù)上訓(xùn)練 PLM。掩碼預(yù)測是一種廣泛使用的方法,試圖使用剩余的令牌來預(yù)測被掩碼的令牌。領(lǐng)域轉(zhuǎn)移中存在多種掩蔽方式的變體。

          任務(wù)角度

          除了新領(lǐng)域的特征外,在微調(diào) PLM 時考慮特定生成任務(wù)中的語言連貫性和文本保真度等特殊問題也很有意義。

          增強連貫性:為了增強語言連貫性,一個重要的方法是在微調(diào)期間更好地建模語言上下文。通過對比學(xué)習微調(diào)的模型擅長區(qū)分句子對是否相似。通過這種方法,PLM 被迫理解兩個句子之間的位置或語義關(guān)系,從而獲得更好的表示。

          下一句預(yù)測(NSP)是判斷兩個輸入句子是否為連續(xù)句段的常用方法,可應(yīng)用于摘要和對話系統(tǒng)。

          去噪自動編碼 (DAE) 將損壞的文本作為輸入,旨在恢復(fù)原始文本。使用 DAE 微調(diào)的模型具有很強的理解整體句子和捕獲更遠距離相關(guān)性的能力。

          保真度:文本保真度是指生成的文本如何與原始輸入信息保持一致,這是許多文本生成任務(wù)中需要考慮的一個重要方面。PLMs 中的通用結(jié)構(gòu)無法在特定文本生成任務(wù)中保留文本保真度。對于表到文本生成任務(wù),需要對表的結(jié)構(gòu)信息進行編碼。

          數(shù)據(jù)
          種類
          方法
          輸入
          非結(jié)構(gòu)化
          BERT 充當文本編碼器;用于文檔建模的分層;以及用于多語言輸入文本的跨語言 PLM。
          結(jié)構(gòu)化
          將 KG 和 AMR 圖線性化為三重序列;用于編碼 KG 的圖編碼器;以及將表序列化為基于模板的文本序列。
          多媒體
          視頻文本描述;圖像文本描述;以及語音識別。
          輸出
          相關(guān)性
          微調(diào)對話系統(tǒng)中的 PLM 以生成更相關(guān)和上下文相關(guān)的響應(yīng);以及基于 BERT 推廣到任何類型的輸入條件。
          忠于原文
          使用多個 PLM 提高忠實度;從輸入中檢索相關(guān)部分并結(jié)合 PLM 的先驗知識;以及通過主題建模損失在不同目標域中生成忠實文本。
          順序一致性
          詞對對齊;通用多語言機器翻譯模型和詞表示對齊。
          表 2 文本生成的輸入類型和輸出屬性的類別

          模型角度

          為了提高生成文本的質(zhì)量,關(guān)鍵是根據(jù)特定任務(wù)的數(shù)據(jù)很好地訓(xùn)練 PLMs 的參數(shù),以便 PLMs 可以捕獲專門針對生成任務(wù)的語義特征。然而,如上所述,特定于任務(wù)的數(shù)據(jù)不足,因此在對有限數(shù)據(jù)進行微調(diào)時很可能會出現(xiàn)過擬合的情況。這一部分將介紹幾種針對模型的微調(diào)方法。

          首先是使用固定的教師 GPT 來保存在另一個微調(diào) GPT 中編碼的知識。包括利用 BERT 模型(教師)作為監(jiān)督來指導(dǎo) Seq2Seq 模型(學(xué)生)以獲得更好的生成性能。此外,還可以利用兩個優(yōu)化器分別更新 PLM 和初始模塊的參數(shù),以解決兩個模塊之間的差異。

          還有其他方法可以指導(dǎo)微調(diào)過程。例如,強化學(xué)習可用于通過不可微的度量直接指導(dǎo)模型,例如 ROUGE。

          未來的幾大重要方向

          本文概述了用于文本生成的預(yù)訓(xùn)練語言模型的最新進展。為了推進這一領(lǐng)域,將 PLM 應(yīng)用于文本生成有幾個有希望的未來方向。

          模型擴展

          這個方向的必要性在于,預(yù)訓(xùn)練和下游生成任務(wù)之間仍然存在差異。因此,為文本生成設(shè)計合適的預(yù)訓(xùn)練范式仍十分必要。此外,在預(yù)訓(xùn)練期間將外部知識納入 PLM 已被證明是有效的,研究如何為文本生成注入更多的相關(guān)知識是一個重要趨勢。

          可控生成

          使用 PLM 生成可控文本是一個有趣的方向,但仍處于早期的階段。控制生成文本的某些屬性有許多有用的應(yīng)用,例如在對話系統(tǒng)中對抑郁癥患者產(chǎn)生積極響應(yīng)。

          然而,PLM 通常在通用語料庫中進行預(yù)訓(xùn)練,難以控制生成文本的多粒度屬性(例如,情感、主題和連貫性)。同時,這些控制代碼是預(yù)設(shè)的和粗粒度的。未來的工作可以探索多粒度控制并開發(fā)足夠可控的 PLM。

          模型壓縮

          盡管具有大規(guī)模參數(shù)的 PLM 在文本生成方面取得了成功,但這些模型在資源受限的環(huán)境中部署具有挑戰(zhàn)性。因此,研究如何以少量參數(shù)實現(xiàn)競爭性能是有意義的。

          微調(diào)探索

          預(yù)訓(xùn)練的直接目的是將 PLM 中學(xué)到的語言知識提煉到下游生成任務(wù)中。并且,微調(diào)是目前主要的傳輸方法。可以通過多種方式將知識從 PLM 轉(zhuǎn)移到下游模型。

          與語言無關(guān)的 PLM

          如今,幾乎所有用于文本生成的 PLM 都主要基于英語。這些 PLM 在處理非英語生成任務(wù)時會遇到挑戰(zhàn)。因此,與語言無關(guān)的 PLM 值得研究,它需要捕獲跨不同語言的通用語言和語義特征。

          道德問題

          目前,PLM 是在從網(wǎng)絡(luò)爬取的大規(guī)模語料庫上進行預(yù)訓(xùn)練的,沒有進行細粒度過濾,可能會導(dǎo)致道德問題,例如生成有關(guān)用戶的私人內(nèi)容。因此,研究人員應(yīng)盡最大努力防止濫用 PLM。此外,PLM 生成的文本可能存在偏見,這與訓(xùn)練數(shù)據(jù)在性別、種族和宗教維度上的偏見一致。因此,該研究應(yīng)該干預(yù) PLM 以防止此類偏差。

          Refrence:
          https://arxiv.org/pdf/2105.10311v2.pdf

          往期精彩回顧





          本站qq群851320808,加入微信群請掃碼:

          瀏覽 131
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  一区二区视频 | 九色九一视频 | 毛片手机在线 | 亚洲天堂网址 | 黄色一级网址 |