<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【NLP】“統(tǒng)一語言學(xué)習(xí)范式”:詳解50個任務(wù)達到sota的谷歌新模型

          共 5503字,需瀏覽 12分鐘

           ·

          2022-05-27 21:27



          現(xiàn)有的預(yù)訓(xùn)練模型(pre-trained models)通常針對特定類別的問題。迄今為止,對于正確的模型架構(gòu)和預(yù)訓(xùn)練設(shè)置應(yīng)該是什么,似乎學(xué)術(shù)界仍未達成共識。


          谷歌團隊在這個問題上邁出了重要一步:他們在Unifying Language Learning Paradigms這篇論文中提出了一個統(tǒng)一的預(yù)訓(xùn)練模型框架,該框架在數(shù)據(jù)集和設(shè)置中普遍有效。


          在廣泛的消融實驗比較多個預(yù)訓(xùn)練目標(biāo)之后,團隊并發(fā)現(xiàn)這個方法在多種不同設(shè)置中優(yōu)于 T5 和/或 GPT 模型,將這個ul2模型擴展到 20B 參數(shù)后,在 50 個完善的監(jiān)督 NLP 任務(wù)上實現(xiàn)了 SOTA 性能,這些任務(wù)包括語言生成(自動和人工評估)、語言理解、文本分類、問答、常識推理、長文本推理、結(jié)構(gòu)化知識基礎(chǔ)和信息檢索。


          論文:https://arxiv.org/pdf/2205.05131.pdf

          代碼:https://github.com/google-research/google-research/tree/master/ul2


          背景和動機:究竟如何選擇預(yù)訓(xùn)練模型?


          如今有大量的預(yù)訓(xùn)練語言模型提供給NLP 研究人員和從業(yè)者。


          當(dāng)面對應(yīng)該使用什么模型的問題時,答案通常是取決于具體的任務(wù)?;卮疬@個問題可能非常困難,這個問題包括了許多后續(xù)的細粒度問題,比如,“僅使用編碼器還是使用編碼器-解碼器架構(gòu)?”,“span corruption還是語言模型?”。


          進一步追問,答案似乎總是取決于目標(biāo)下游的任務(wù)。


          本文對這一思考過程進行了質(zhì)疑和反思,具體回答了為什么選擇預(yù)訓(xùn)練語言模型要依賴于下游任務(wù)的問題。那么,如何對能在許多任務(wù)中普遍有效地模型進行預(yù)訓(xùn)練?


          本文提出了使通用語言模型成為可能的關(guān)鍵一步:提出了一個統(tǒng)一的語言學(xué)習(xí)范式(UL2)的框架,簡而言之,該框架在非常不同的任務(wù)和設(shè)置中始終有效。圖1展示了UL2如何普遍良好地在各類下游任務(wù)上執(zhí)行,而不像其他模型經(jīng)常需要進行權(quán)衡。


          圖1. UL2與其他預(yù)訓(xùn)練語言模型在下游任務(wù)上的對比


          通用模型的吸引力是顯而易見的,它的出現(xiàn)允許集中精力改進和擴大單一模型,而不是在N個預(yù)訓(xùn)練模型之間分散資源。此外,在資源受限的情況下,只有少數(shù)幾個模型可以被服務(wù)(例如,在設(shè)備上),最好有一個可以在許多類型的任務(wù)上表現(xiàn)良好的單一預(yù)訓(xùn)練模型。



          統(tǒng)一語言學(xué)習(xí)范式:任務(wù)及架構(gòu)


          預(yù)訓(xùn)練任務(wù)


          許多預(yù)訓(xùn)練任務(wù)可以簡單地表述為“輸入到目標(biāo)”任務(wù),其中輸入是指模型所依賴的任何形式的內(nèi)存或上下文,目標(biāo)是模型的預(yù)期輸出。語言模型使用所有先前的時間步長作為模型的輸入來預(yù)測下一個標(biāo)記,即目標(biāo)。在跨度損壞中,該模型利用過去和未來的所有未損壞標(biāo)記作為預(yù)測損壞跨度(目標(biāo))的輸入。PrefixLMs 是使用過去的token作為輸入的LMs,但雙向使用輸入序列。這提供了比 vanilla LM 中輸入的單向編碼更多的建模能力。


          鑒于這個觀點,可以將一個預(yù)訓(xùn)練目標(biāo)近似地簡化為另一個目標(biāo)。例如,在跨度損壞目標(biāo)中,當(dāng)損壞的跨度(即目標(biāo))等于整個序列時,問題實際上變成了語言建模問題??紤]到這一點,使用跨度損壞,通過將跨度長度設(shè)置得很大,可以有效地模擬局部區(qū)域的 LM 目標(biāo)。


          本文定義了一個預(yù)訓(xùn)練任務(wù),涵蓋了使用的所有不同去噪任務(wù)。去噪任務(wù)的輸入和目標(biāo)由 SPANCORRUPT 函數(shù)生成,該函數(shù)由三個值 (μ, r, n) 參數(shù)化,其中 μ 是平均跨度長度,r 是損壞率,n 是損壞跨度的數(shù)量。注意,n 可能是輸入長度 L 和跨度長度 μ 的函數(shù),例如 L/μ,但在某些情況下,使用固定值 n。給定一個輸入文本,SPANCORRUPT 對從平均值為 μ 的(正態(tài)或均勻)分布中提取的長度跨度引入了損壞。


          損壞后,輸入文本隨后被饋送到去噪任務(wù),損壞的跨度用作要恢復(fù)的目標(biāo)。例如,要使用此公式構(gòu)建類似于因果語言建模的目標(biāo),只需設(shè)置 (μ = L, r = 1.0, n = 1),即其跨度長度等于序列長度的單個跨度 . 為了表達一個類似于 Prefix LM 目標(biāo)的方法,可以設(shè)置 (μ = L - P, r = 1.0 - P/L, n = 1),其中 P 是前綴的長度,附加約束是單個損壞的跨度總是到達序列的末尾。


          這種輸入到目標(biāo)的公式可以應(yīng)用于編碼器-解碼器模型和單棧transformer模型(例如,解碼器模型)。因此選擇選擇預(yù)測下一個目標(biāo)標(biāo)記的模型而不是那些就地預(yù)測的模型(例如,預(yù)測 BERT 中的當(dāng)前掩碼標(biāo)記),因為下一個目標(biāo)公式更通用并且可以包含更多任務(wù)而不是使用特殊的CLS token和特定任務(wù)的頭。


          團隊推測,一個強大的通用模型必須在預(yù)訓(xùn)練期間解決各種問題。鑒于預(yù)訓(xùn)練是使用自監(jiān)督完成的,應(yīng)該將這種多樣性注入模型的目標(biāo),否則模型可能會缺乏某種能力,比如長文本生成。


          基于此,以及當(dāng)前的目標(biāo)函數(shù)類型,研究定義了三個主要的范式用于預(yù)訓(xùn)練:


          l R去噪器 常規(guī)去噪是 Raffel 等人引入的標(biāo)準(zhǔn)span corruption,使用 2 到 5 個token作為跨度長度,掩蓋了大約 15% 的輸入標(biāo)記。這些span很短,對于獲取知識而不是學(xué)習(xí)生成流暢的文本可能有用。


          l S去噪器 在構(gòu)建輸入到目標(biāo)任務(wù)時觀察到嚴(yán)格的順序,即前綴語言建模。為此只需將輸入序列劃分為兩個標(biāo)記子序列作為上下文和目標(biāo),這樣目標(biāo)就不會依賴于未來的信息。這與標(biāo)準(zhǔn)span corruption不同,其中可能存在位置比上下文token更早的目標(biāo)token。


          l X去噪器 一種極端版本的去噪,其中模型必須恢復(fù)大部分輸入,給定一小部分到中等部分。這模擬了模型需要從信息相對有限的內(nèi)存中生成長目標(biāo)的情況。為此選擇包含具有積極去噪的示例,其中大約 50% 的輸入序列被屏蔽。這是通過增加跨度長度和/或損壞率來實現(xiàn)的。如果預(yù)訓(xùn)練任務(wù)具有較長的跨度(例如,≥ 12)或具有較大的損壞率(例如,≥ 30%),則認為它是極端的。X去噪的動機是作為常規(guī)跨度損壞和類似目標(biāo)的語言模型之間的插值。


          這組去噪器與之前使用的目標(biāo)函數(shù)有很強的聯(lián)系:R-Denoising 是 T5 跨度破壞目標(biāo),S-Denoising 連接到類似于 GPT 的因果語言模型,而 X-Denoising 可以將模型暴露于 來自 T5 和因果 LM 的目標(biāo)。


          值得注意的是,X 降噪器也與提高樣本效率有關(guān),因為在每個樣本中可以學(xué)習(xí)到更多的標(biāo)記來預(yù)測,這與 LM 的精神相似,建議以統(tǒng)一的方式混合所有這些任務(wù),并有一個混合的自我監(jiān)督目標(biāo)。最終目標(biāo)是7個降噪器的混合,配置如下:


          表1. UL2混合降噪器的配置


          對于 X 和 R 降噪器,跨度長度是從平均值為 μ 的正態(tài)分布中采樣的。對于 S-Denoisers,使用均勻分布,將損壞的 span 的數(shù)量固定為 1,并附加一個約束,即損壞的 span 應(yīng)該在原始輸入文本的末尾結(jié)束。這大致相當(dāng)于 seq2seq 去噪或 Prefix LM 預(yù)訓(xùn)練目標(biāo)。


          表2. 不同預(yù)訓(xùn)練模型在各個下游任務(wù)上的實驗結(jié)果


          由于 LM 是 Prefix-LM 的一個特例,沒有必要在混合中包含一個隨意的 LM 任務(wù)。所有任務(wù)在混合中的參與度大致相等。本文還探索了一種替代方案,將 S 降噪器的數(shù)量增加到混合物中降噪器的 50%,而所有其他降噪器占據(jù)剩余部分。


          模型架構(gòu)


          UL2 采用與架構(gòu)無關(guān)的設(shè)計理念。


          兩種架構(gòu)(編碼器-解碼器與僅解碼器)之間的選擇更多是一種效率權(quán)衡,并且架構(gòu)選擇不應(yīng)與預(yù)訓(xùn)練目標(biāo)混為一談。因此模型有一個 UL2 解碼器和一個 UL2 編碼器-解碼器,


          ?UL2 采用了相當(dāng)標(biāo)準(zhǔn)的vanilla ?T5 transform,并通過經(jīng)受時間考驗的修改進行了增強,即 GLU 層(Shazeer,2020)和 T5 風(fēng)格的相對注意力。為了不進一步將架構(gòu)修改與預(yù)訓(xùn)練貢獻混為一談,模型的主干仍然類似于 T5 模型,這也與 (Narang et al., 2021) 等結(jié)果有關(guān)。



          消融實驗及結(jié)果


          基線模型


          研究將UL2與以下預(yù)訓(xùn)練模型進行對比,分別是Causal Language Model (標(biāo)準(zhǔn)的從左到右的自回歸語言模型預(yù)訓(xùn)練,本文稱為 GPT-like)、Prefix LM (Causal LM 的變種)、Span Corruption 、Span Corruption + LM 、UniLM。


          所有目標(biāo)都探索了單棧和編碼器-解碼器架構(gòu)。


          所有架構(gòu)都是在編碼器-解碼器或僅解碼器模型結(jié)構(gòu)中實現(xiàn)的目標(biāo)輸入,因為 BERT 風(fēng)格的掩碼語言建模預(yù)訓(xùn)練已經(jīng)有效地被這種預(yù)訓(xùn)練風(fēng)格所包含。本文也不建議使用特定于任務(wù)的分類頭,因為它們顯然違背了擁有通用模型的原則。


          實驗設(shè)置


          研究使用的數(shù)據(jù)集是 SuperGLUE ,由 8 個 NLU 子任務(wù)組成。


          此外也對來自 GEM 基準(zhǔn)的 3 個數(shù)據(jù)集進行了實驗,這些數(shù)據(jù)集專注于語言生成問題。


          對于所有這些任務(wù),評估監(jiān)督微調(diào)和基于提示的一次性學(xué)習(xí)。最后還使用 C4 驗證集上的困惑度分?jǐn)?shù)比較了UL2模型在文本生成方面的一般能力。


          對于 SuperGLUE,團隊會在適當(dāng)?shù)臅r候報告完善的指標(biāo),例如準(zhǔn)確度、F1 或精確匹配。對于 GEM 基準(zhǔn),使用 Rouge-L 指標(biāo)。對于語言建模,使用負對數(shù)困惑。模型的普遍性,即它們在所有任務(wù)范圍內(nèi)的集體表現(xiàn),是這里的主要評估標(biāo)準(zhǔn)。為了從這個角度進行模型之間的比較,需要一個綜合性能得分。但是,不同任務(wù)的指標(biāo)在本質(zhì)上存在很大差異——例如,F(xiàn)1 和困惑度。


          為了解決這個問題,團隊選擇報告并使用相對于基線的歸一化相對增益作為整體指標(biāo)。為此,使用標(biāo)準(zhǔn)語言模型(僅解碼器)(GPT-like)和標(biāo)準(zhǔn)跨度去噪編碼器-解碼器(T5)作為主要基線,并報告所有方法與這些成熟候選者的相對性能。團隊認為這是比較這些模型最合適的方法,因為很容易推斷新模型通常比流行設(shè)置(例如,GPT 或 T5-like)好多少。此外還強調(diào)了整體收益是標(biāo)準(zhǔn)化的這一事實,因此這變得更難利用或容易受到基準(zhǔn)彩票效應(yīng)的影響。


          消融實驗結(jié)果


          沒有簡單的方法來比較只解碼器模型和編碼器-解碼器模型,但可以用計算匹配的方式或參數(shù)匹配的方式來比較它們。因此,這組結(jié)果中的編碼器-解碼器模型的參數(shù)數(shù)量大約是解碼器模型的兩倍,但速度相似。


          表3. 對比標(biāo)準(zhǔn)編碼器-解碼器模型的相對性能


          表4. 對比GPT類模型的相對性能


          當(dāng)使用 T5 作為參考基線時,除了 UL2 解碼器,沒有一個預(yù)訓(xùn)練的解碼器模型優(yōu)于 T5。此外,整體相對性能下降了 10% 到 30%。


          這里最好的解碼器基線模型是 Prefix-LM 解碼器模型,它比 T5 基線差大約 10%。從這些結(jié)果中可以清楚地看出,當(dāng)且僅當(dāng)不考慮存儲時,編碼器-解碼器模型應(yīng)該優(yōu)于僅解碼器模型。


          基于與類似 GPT(因果 LM + 解碼器)和類似 T5(跨度損壞 + 編碼器解碼器)設(shè)置的相對比較,能夠輕松確定完善的設(shè)置是否確實是最優(yōu)的或已經(jīng)接近最優(yōu)的。首先,因果 LM(如GPT)設(shè)置似乎是更差的配置,因為它優(yōu)于所有的基線。


          因此,團隊使直截了當(dāng)建議盡可能至少使用 Prefix-LM 或 UniLM 進行訓(xùn)練。最好的僅解碼器模型(UL2 除外)是 Prefix-LM 預(yù)訓(xùn)練,它為語言模型保留一個內(nèi)存前綴以作為條件。關(guān)于 Prefix-LM 預(yù)訓(xùn)練,有趣的是 Prefix-LM 實際上比 T5 span 損壞設(shè)置好 +16.7%。Prefix-LM 編碼器-解碼器模型確實不如 SuperGLUE 上的默認 T5 模型有效,但總的來說,它更強大,尤其是在一次性或開放文本生成方面。


          總體而言,在 Prefix LM 和跨度損壞編碼器 - 解碼器模型 (T5) 之間,尚不清楚哪個是普遍優(yōu)越的模型,因為在不同的子任務(wù)之間存在給予和接受,盡管值得注意的是 Prefix-LM EncDec 模型只輕微犧牲了某些任務(wù)的性能,而其他任務(wù)的性能卻大幅增加了數(shù)倍。


          表5. one-shot實驗結(jié)果


          表6. Mixture-of-Denoisers的消融實驗結(jié)果


          為了確定模式切換能力對性能有影響,團隊進行了消融實驗,用 one-shot XSum 和 one-shot SuperGLUE 進行實驗。表 5 報告了改變范式提示給模型的結(jié)果。


          首先觀察到的是提示對模型性能有相當(dāng)大的影響,即使用正確或錯誤的提示會導(dǎo)致 48% 的性能差距。


          另一方面,SuperGLUE 對提示不太敏感。在 SuperGLUE 上,使用提示幾乎總是比在一次性評估期間不使用提示要好。然而,對于 XSum,獲得正確的提示似乎對于良好的性能至關(guān)重要。


          總結(jié)


          總而言之,本文提出了一種新的范式來訓(xùn)練普遍有效的模型。


          1、提出了一種新的降噪器混合 (MoD) 預(yù)訓(xùn)練,它將多個預(yù)訓(xùn)練任務(wù)混合。


          2、引入了模式切換,一種將下游任務(wù)行為與上游預(yù)訓(xùn)練相關(guān)聯(lián)的方法。


          此外,大量實驗表明,UL2 在大多數(shù)的有監(jiān)督和少樣本任務(wù)上始終優(yōu)于 GPT 類模型和T5模型,在9個任務(wù)上優(yōu)于 T5,歸一化后的整體增益提升76.1%。最后,UL2 擴展到20B參數(shù),并在60 個 NLP 任務(wù)進行了多樣化的實驗。結(jié)果表明,UL2 在其中的 50 個下游任務(wù)上都實現(xiàn)了SOTA的性能。

          ?
          往期精彩回顧




          瀏覽 12
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  精品人伦一区二区三区蜜桃免费 | 人人摸人人操人人看 | 免费在线看黄的网站 | 亚洲A片视频 | 亚洲人妻在线观看 |