現(xiàn)有的預(yù)訓(xùn)練模型（pre-trained models）通常針對特定類別的問題。迄今為止，對于正確的模型架構(gòu)和預(yù)訓(xùn)練設(shè)置應(yīng)該是什么，似乎學(xué)術(shù)界仍未達成共識。

谷歌團隊在這個問題上邁出了重要一步：他們在Unifying Language Learning Paradigms這篇論文中提出了一個統(tǒng)一的預(yù)訓(xùn)練模型框架，該框架在數(shù)據(jù)集和設(shè)置中普遍有效。

在廣泛的消融實驗比較多個預(yù)訓(xùn)練目標(biāo)之后，團隊并發(fā)現(xiàn)這個方法在多種不同設(shè)置中優(yōu)于 T5 和/或 GPT 模型，將這個ul2模型擴展到 20B 參數(shù)后，在 50 個完善的監(jiān)督 NLP 任務(wù)上實現(xiàn)了 SOTA 性能，這些任務(wù)包括語言生成（自動和人工評估）、語言理解、文本分類、問答、常識推理、長文本推理、結(jié)構(gòu)化知識基礎(chǔ)和信息檢索。

論文：https://arxiv.org/pdf/2205.05131.pdf
代碼：https://github.com/google-research/google-research/tree/master/ul2

背景和動機：究竟如何選擇預(yù)訓(xùn)練模型？

如今有大量的預(yù)訓(xùn)練語言模型提供給NLP 研究人員和從業(yè)者。

當(dāng)面對應(yīng)該使用什么模型的問題時，答案通常是取決于具體的任務(wù)?；卮疬@個問題可能非常困難，這個問題包括了許多后續(xù)的細粒度問題，比如，“僅使用編碼器還是使用編碼器-解碼器架構(gòu)?”，“span corruption還是語言模型？”。

進一步追問，答案似乎總是取決于目標(biāo)下游的任務(wù)。

本文對這一思考過程進行了質(zhì)疑和反思，具體回答了為什么選擇預(yù)訓(xùn)練語言模型要依賴于下游任務(wù)的問題。那么，如何對能在許多任務(wù)中普遍有效地模型進行預(yù)訓(xùn)練？

本文提出了使通用語言模型成為可能的關(guān)鍵一步：提出了一個統(tǒng)一的語言學(xué)習(xí)范式(UL2)的框架，簡而言之，該框架在非常不同的任務(wù)和設(shè)置中始終有效。圖1展示了UL2如何普遍良好地在各類下游任務(wù)上執(zhí)行，而不像其他模型經(jīng)常需要進行權(quán)衡。

圖1. UL2與其他預(yù)訓(xùn)練語言模型在下游任務(wù)上的對比

通用模型的吸引力是顯而易見的，它的出現(xiàn)允許集中精力改進和擴大單一模型，而不是在N個預(yù)訓(xùn)練模型之間分散資源。此外，在資源受限的情況下，只有少數(shù)幾個模型可以被服務(wù)(例如，在設(shè)備上)，最好有一個可以在許多類型的任務(wù)上表現(xiàn)良好的單一預(yù)訓(xùn)練模型。

統(tǒng)一語言學(xué)習(xí)范式：任務(wù)及架構(gòu)

預(yù)訓(xùn)練任務(wù)

許多預(yù)訓(xùn)練任務(wù)可以簡單地表述為“輸入到目標(biāo)”任務(wù)，其中輸入是指模型所依賴的任何形式的內(nèi)存或上下文，目標(biāo)是模型的預(yù)期輸出。語言模型使用所有先前的時間步長作為模型的輸入來預(yù)測下一個標(biāo)記，即目標(biāo)。在跨度損壞中，該模型利用過去和未來的所有未損壞標(biāo)記作為預(yù)測損壞跨度（目標(biāo)）的輸入。PrefixLMs 是使用過去的token作為輸入的LMs，但雙向使用輸入序列。這提供了比 vanilla LM 中輸入的單向編碼更多的建模能力。

鑒于這個觀點，可以將一個預(yù)訓(xùn)練目標(biāo)近似地簡化為另一個目標(biāo)。例如，在跨度損壞目標(biāo)中，當(dāng)損壞的跨度（即目標(biāo)）等于整個序列時，問題實際上變成了語言建模問題?？紤]到這一點，使用跨度損壞，通過將跨度長度設(shè)置得很大，可以有效地模擬局部區(qū)域的 LM 目標(biāo)。

本文定義了一個預(yù)訓(xùn)練任務(wù)，涵蓋了使用的所有不同去噪任務(wù)。去噪任務(wù)的輸入和目標(biāo)由 SPANCORRUPT 函數(shù)生成，該函數(shù)由三個值 (μ, r, n) 參數(shù)化，其中 μ 是平均跨度長度，r 是損壞率，n 是損壞跨度的數(shù)量。注意，n 可能是輸入長度 L 和跨度長度 μ 的函數(shù)，例如 L/μ，但在某些情況下，使用固定值 n。給定一個輸入文本，SPANCORRUPT 對從平均值為 μ 的（正態(tài)或均勻）分布中提取的長度跨度引入了損壞。

損壞后，輸入文本隨后被饋送到去噪任務(wù)，損壞的跨度用作要恢復(fù)的目標(biāo)。例如，要使用此公式構(gòu)建類似于因果語言建模的目標(biāo)，只需設(shè)置 (μ = L, r = 1.0, n = 1)，即其跨度長度等于序列長度的單個跨度 . 為了表達一個類似于 Prefix LM 目標(biāo)的方法，可以設(shè)置 (μ = L - P, r = 1.0 - P/L, n = 1)，其中 P 是前綴的長度，附加約束是單個損壞的跨度總是到達序列的末尾。

這種輸入到目標(biāo)的公式可以應(yīng)用于編碼器-解碼器模型和單棧transformer模型（例如，解碼器模型）。因此選擇選擇預(yù)測下一個目標(biāo)標(biāo)記的模型而不是那些就地預(yù)測的模型（例如，預(yù)測 BERT 中的當(dāng)前掩碼標(biāo)記），因為下一個目標(biāo)公式更通用并且可以包含更多任務(wù)而不是使用特殊的CLS token和特定任務(wù)的頭。

團隊推測，一個強大的通用模型必須在預(yù)訓(xùn)練期間解決各種問題。鑒于預(yù)訓(xùn)練是使用自監(jiān)督完成的，應(yīng)該將這種多樣性注入模型的目標(biāo)，否則模型可能會缺乏某種能力，比如長文本生成。

基于此，以及當(dāng)前的目標(biāo)函數(shù)類型，研究定義了三個主要的范式用于預(yù)訓(xùn)練：

l R去噪器 常規(guī)去噪是 Raffel 等人引入的標(biāo)準(zhǔn)span corruption，使用 2 到 5 個token作為跨度長度，掩蓋了大約 15% 的輸入標(biāo)記。這些span很短，對于獲取知識而不是學(xué)習(xí)生成流暢的文本可能有用。

l S去噪器 在構(gòu)建輸入到目標(biāo)任務(wù)時觀察到嚴(yán)格的順序，即前綴語言建模。為此只需將輸入序列劃分為兩個標(biāo)記子序列作為上下文和目標(biāo)，這樣目標(biāo)就不會依賴于未來的信息。這與標(biāo)準(zhǔn)span corruption不同，其中可能存在位置比上下文token更早的目標(biāo)token。

l X去噪器 一種極端版本的去噪，其中模型必須恢復(fù)大部分輸入，給定一小部分到中等部分。這模擬了模型需要從信息相對有限的內(nèi)存中生成長目標(biāo)的情況。為此選擇包含具有積極去噪的示例，其中大約 50% 的輸入序列被屏蔽。這是通過增加跨度長度和/或損壞率來實現(xiàn)的。如果預(yù)訓(xùn)練任務(wù)具有較長的跨度（例如，≥ 12）或具有較大的損壞率（例如，≥ 30%），則認為它是極端的。X去噪的動機是作為常規(guī)跨度損壞和類似目標(biāo)的語言模型之間的插值。

這組去噪器與之前使用的目標(biāo)函數(shù)有很強的聯(lián)系：R-Denoising 是 T5 跨度破壞目標(biāo)，S-Denoising 連接到類似于 GPT 的因果語言模型，而 X-Denoising 可以將模型暴露于來自 T5 和因果 LM 的目標(biāo)。

值得注意的是，X 降噪器也與提高樣本效率有關(guān)，因為在每個樣本中可以學(xué)習(xí)到更多的標(biāo)記來預(yù)測，這與 LM 的精神相似，建議以統(tǒng)一的方式混合所有這些任務(wù)，并有一個混合的自我監(jiān)督目標(biāo)。最終目標(biāo)是7個降噪器的混合，配置如下：

表1. UL2混合降噪器的配置

對于 X 和 R 降噪器，跨度長度是從平均值為 μ 的正態(tài)分布中采樣的。對于 S-Denoisers，使用均勻分布，將損壞的 span 的數(shù)量固定為 1，并附加一個約束，即損壞的 span 應(yīng)該在原始輸入文本的末尾結(jié)束。這大致相當(dāng)于 seq2seq 去噪或 Prefix LM 預(yù)訓(xùn)練目標(biāo)。

表2. 不同預(yù)訓(xùn)練模型在各個下游任務(wù)上的實驗結(jié)果

由于 LM 是 Prefix-LM 的一個特例，沒有必要在混合中包含一個隨意的 LM 任務(wù)。所有任務(wù)在混合中的參與度大致相等。本文還探索了一種替代方案，將 S 降噪器的數(shù)量增加到混合物中降噪器的 50%，而所有其他降噪器占據(jù)剩余部分。

模型架構(gòu)

UL2 采用與架構(gòu)無關(guān)的設(shè)計理念。

兩種架構(gòu)（編碼器-解碼器與僅解碼器）之間的選擇更多是一種效率權(quán)衡，并且架構(gòu)選擇不應(yīng)與預(yù)訓(xùn)練目標(biāo)混為一談。因此模型有一個 UL2 解碼器和一個 UL2 編碼器-解碼器，

?UL2 采用了相當(dāng)標(biāo)準(zhǔn)的vanilla ?T5 transform，并通過經(jīng)受時間考驗的修改進行了增強，即 GLU 層（Shazeer，2020）和 T5 風(fēng)格的相對注意力。為了不進一步將架構(gòu)修改與預(yù)訓(xùn)練貢獻混為一談，模型的主干仍然類似于 T5 模型，這也與 (Narang et al., 2021) 等結(jié)果有關(guān)。

消融實驗及結(jié)果

基線模型

研究將UL2與以下預(yù)訓(xùn)練模型進行對比，分別是Causal Language Model （標(biāo)準(zhǔn)的從左到右的自回歸語言模型預(yù)訓(xùn)練，本文稱為 GPT-like）、Prefix LM （Causal LM 的變種）、Span Corruption 、Span Corruption + LM 、UniLM。

所有目標(biāo)都探索了單棧和編碼器-解碼器架構(gòu)。

所有架構(gòu)都是在編碼器-解碼器或僅解碼器模型結(jié)構(gòu)中實現(xiàn)的目標(biāo)輸入，因為 BERT 風(fēng)格的掩碼語言建模預(yù)訓(xùn)練已經(jīng)有效地被這種預(yù)訓(xùn)練風(fēng)格所包含。本文也不建議使用特定于任務(wù)的分類頭，因為它們顯然違背了擁有通用模型的原則。

實驗設(shè)置

研究使用的數(shù)據(jù)集是 SuperGLUE ，由 8 個 NLU 子任務(wù)組成。

此外也對來自 GEM 基準(zhǔn)的 3 個數(shù)據(jù)集進行了實驗，這些數(shù)據(jù)集專注于語言生成問題。

對于所有這些任務(wù)，評估監(jiān)督微調(diào)和基于提示的一次性學(xué)習(xí)。最后還使用 C4 驗證集上的困惑度分?jǐn)?shù)比較了UL2模型在文本生成方面的一般能力。

對于 SuperGLUE，團隊會在適當(dāng)?shù)臅r候報告完善的指標(biāo)，例如準(zhǔn)確度、F1 或精確匹配。對于 GEM 基準(zhǔn)，使用 Rouge-L 指標(biāo)。對于語言建模，使用負對數(shù)困惑。模型的普遍性，即它們在所有任務(wù)范圍內(nèi)的集體表現(xiàn)，是這里的主要評估標(biāo)準(zhǔn)。為了從這個角度進行模型之間的比較，需要一個綜合性能得分。但是，不同任務(wù)的指標(biāo)在本質(zhì)上存在很大差異——例如，F(xiàn)1 和困惑度。

為了解決這個問題，團隊選擇報告并使用相對于基線的歸一化相對增益作為整體指標(biāo)。為此，使用標(biāo)準(zhǔn)語言模型（僅解碼器）（GPT-like）和標(biāo)準(zhǔn)跨度去噪編碼器-解碼器（T5）作為主要基線，并報告所有方法與這些成熟候選者的相對性能。團隊認為這是比較這些模型最合適的方法，因為很容易推斷新模型通常比流行設(shè)置（例如，GPT 或 T5-like）好多少。此外還強調(diào)了整體收益是標(biāo)準(zhǔn)化的這一事實，因此這變得更難利用或容易受到基準(zhǔn)彩票效應(yīng)的影響。

消融實驗結(jié)果

沒有簡單的方法來比較只解碼器模型和編碼器-解碼器模型，但可以用計算匹配的方式或參數(shù)匹配的方式來比較它們。因此，這組結(jié)果中的編碼器-解碼器模型的參數(shù)數(shù)量大約是解碼器模型的兩倍，但速度相似。

表3. 對比標(biāo)準(zhǔn)編碼器-解碼器模型的相對性能

表4. 對比GPT類模型的相對性能

當(dāng)使用 T5 作為參考基線時，除了 UL2 解碼器，沒有一個預(yù)訓(xùn)練的解碼器模型優(yōu)于 T5。此外，整體相對性能下降了 10% 到 30%。

這里最好的解碼器基線模型是 Prefix-LM 解碼器模型，它比 T5 基線差大約 10%。從這些結(jié)果中可以清楚地看出，當(dāng)且僅當(dāng)不考慮存儲時，編碼器-解碼器模型應(yīng)該優(yōu)于僅解碼器模型。

基于與類似 GPT（因果 LM + 解碼器）和類似 T5（跨度損壞 + 編碼器解碼器）設(shè)置的相對比較，能夠輕松確定完善的設(shè)置是否確實是最優(yōu)的或已經(jīng)接近最優(yōu)的。首先，因果 LM（如GPT）設(shè)置似乎是更差的配置，因為它優(yōu)于所有的基線。

因此，團隊使直截了當(dāng)建議盡可能至少使用 Prefix-LM 或 UniLM 進行訓(xùn)練。最好的僅解碼器模型（UL2 除外）是 Prefix-LM 預(yù)訓(xùn)練，它為語言模型保留一個內(nèi)存前綴以作為條件。關(guān)于 Prefix-LM 預(yù)訓(xùn)練，有趣的是 Prefix-LM 實際上比 T5 span 損壞設(shè)置好 +16.7%。Prefix-LM 編碼器-解碼器模型確實不如 SuperGLUE 上的默認 T5 模型有效，但總的來說，它更強大，尤其是在一次性或開放文本生成方面。

總體而言，在 Prefix LM 和跨度損壞編碼器 - 解碼器模型 (T5) 之間，尚不清楚哪個是普遍優(yōu)越的模型，因為在不同的子任務(wù)之間存在給予和接受，盡管值得注意的是 Prefix-LM EncDec 模型只輕微犧牲了某些任務(wù)的性能，而其他任務(wù)的性能卻大幅增加了數(shù)倍。

表5. one-shot實驗結(jié)果

表6. Mixture-of-Denoisers的消融實驗結(jié)果

為了確定模式切換能力對性能有影響，團隊進行了消融實驗，用 one-shot XSum 和 one-shot SuperGLUE 進行實驗。表 5 報告了改變范式提示給模型的結(jié)果。

首先觀察到的是提示對模型性能有相當(dāng)大的影響，即使用正確或錯誤的提示會導(dǎo)致 48% 的性能差距。

另一方面，SuperGLUE 對提示不太敏感。在 SuperGLUE 上，使用提示幾乎總是比在一次性評估期間不使用提示要好。然而，對于 XSum，獲得正確的提示似乎對于良好的性能至關(guān)重要。

總結(jié)

總而言之，本文提出了一種新的范式來訓(xùn)練普遍有效的模型。

1、提出了一種新的降噪器混合 (MoD) 預(yù)訓(xùn)練，它將多個預(yù)訓(xùn)練任務(wù)混合。

2、引入了模式切換，一種將下游任務(wù)行為與上游預(yù)訓(xùn)練相關(guān)聯(lián)的方法。

此外，大量實驗表明，UL2 在大多數(shù)的有監(jiān)督和少樣本任務(wù)上始終優(yōu)于 GPT 類模型和T5模型，在9個任務(wù)上優(yōu)于 T5，歸一化后的整體增益提升76.1%。最后，UL2 擴展到20B參數(shù)，并在60 個 NLP 任務(wù)進行了多樣化的實驗。結(jié)果表明，UL2 在其中的 50 個下游任務(wù)上都實現(xiàn)了SOTA的性能。


往期精彩回顧




適合初學(xué)者入門人工智能的路線及資料下載
(圖文+視頻)機器學(xué)習(xí)入門系列下載
中國大學(xué)慕課《機器學(xué)習(xí)》（黃海廣主講）
機器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印
《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯
機器學(xué)習(xí)交流qq群955171419，加入微信群請掃碼：

【NLP】“統(tǒng)一語言學(xué)習(xí)范式”：詳解50個任務(wù)達到sota的谷歌新模型

背景和動機：究竟如何選擇預(yù)訓(xùn)練模型？