<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          清華大學(xué)力作!一個(gè)「PPT」框架,讓超大模型調(diào)參變簡(jiǎn)單

          共 4728字,需瀏覽 10分鐘

           ·

          2021-09-14 05:09

          ↑↑↑點(diǎn)擊上方藍(lán)字,回復(fù)資料,10個(gè)G的驚喜

          轉(zhuǎn)自:機(jī)器之心

          圖源:https://www.zhihu.com/pin/1419682869878489088

          近年來(lái),微調(diào)預(yù)訓(xùn)練語(yǔ)言模型(PLM)取得了很大進(jìn)展。通過(guò)微調(diào) PLM 的全部參數(shù),從大規(guī)模無(wú)標(biāo)簽語(yǔ)料庫(kù)中獲得的多方面知識(shí)可以用于處理各種 NLP 任務(wù),并優(yōu)于從頭學(xué)習(xí)模型的方法。為簡(jiǎn)單起見,此處將這種全模型調(diào)整(full-model tuning)稱為 FT。

          如下圖 1 (b) 和 (c)所示,主流的 FT 方法共有兩種。第一種是任務(wù)導(dǎo)向的微調(diào),在 PLM 上添加一個(gè) task-specific 的頭(head),然后通過(guò)優(yōu)化 task-specific 訓(xùn)練數(shù)據(jù)上的 task-specific 學(xué)習(xí)目標(biāo),來(lái)微調(diào)整個(gè)模型。


          第二種是以 prompt 為導(dǎo)向的微調(diào),其靈感來(lái)自最近的一些研究,這些研究利用語(yǔ)言 prompt 來(lái)激發(fā) PLM 的知識(shí)。在以 prompt 為導(dǎo)向的微調(diào)中,數(shù)據(jù)樣本被轉(zhuǎn)換為包含 prompt token 的線性序列,所有的下游任務(wù)都被轉(zhuǎn)化為語(yǔ)言建模問(wèn)題。

          如圖 1 (c) 所示,通過(guò)在句子中添加 prompt(It was hXi),我們可以根據(jù) PLM 在掩碼位置給出的預(yù)測(cè)結(jié)果(great 或 terrible)來(lái)確定這個(gè)句子到底是積極還是消極。

          如圖 1 所示,與以任務(wù)為導(dǎo)向的微調(diào)相比,在目標(biāo)方面(掩碼語(yǔ)言建模),以 prompt 為導(dǎo)向的微調(diào)更類似于預(yù)訓(xùn)練,因此有助于更好地利用 PLM 中的知識(shí),通常也能取得更好的結(jié)果。

          盡管上述 FT 方法已經(jīng)顯示出很好的結(jié)果,但隨著模型規(guī)模的迅速擴(kuò)張,為每個(gè)下游任務(wù)微調(diào)一個(gè)完整的大模型正變得越來(lái)越昂貴。為了應(yīng)對(duì)這一挑戰(zhàn),來(lái)自谷歌的 Brian Lester 等人在《 The Power of Scale for Parameter-Efficient Prompt Tuning 》中提出了 prompt tuning(PT),以降低為下游任務(wù)微調(diào)大模型的成本,如圖 1 (d)所示。

          具體來(lái)說(shuō),PT 采用包含連續(xù)嵌入的 soft prompt 代替 hard prompt(離散語(yǔ)言短語(yǔ))。這些連續(xù) prompt 嵌入通常是隨機(jī)初始化和端到端學(xué)習(xí)的。為了避免為每個(gè)下游任務(wù)存儲(chǔ)整個(gè)模型,PT 凍結(jié)了 PLM 的所有參數(shù),只調(diào)整 soft prompt,無(wú)需添加任何中間層和 task-specific 組件。盡管 PT 具有很少的可調(diào)參數(shù)和簡(jiǎn)單的設(shè)計(jì),但它仍然可以媲美 FT,如圖 2(a)所示。


          PT 有兩個(gè)非常有前景的優(yōu)勢(shì):1)與 hard prompt 相比,soft prompt 可以端到端學(xué)習(xí);2)PT 是大規(guī)模 PLM 實(shí)際應(yīng)用的一種高效、有效的范式。然而,如圖 2 (b)所示,在 few-shot 場(chǎng)景下,PT 的表現(xiàn)比 FT 差很多,這可能會(huì)阻礙 PT 在各種低資源場(chǎng)景下的應(yīng)用。

          因此,在這篇論文中,來(lái)自清華大學(xué)的 Yuxian Gu、Xu Han、劉知遠(yuǎn)、黃民烈四位研究者廣泛探索了如何通過(guò) PT 以高效和有效的方式使用 PLM 進(jìn)行 few-shot 學(xué)習(xí)。

          具體來(lái)說(shuō),在論文的第二部分,他們進(jìn)行了試點(diǎn)實(shí)驗(yàn),分析了 PT 在大規(guī)模 PLM 中用于 few-shot 學(xué)習(xí)的有效性,這是現(xiàn)在很多研究所忽略的問(wèn)題。他們發(fā)現(xiàn):1)verbalizer 的選擇對(duì)于性能有很大的影響;2)簡(jiǎn)單地用具體的詞嵌入初始化 soft prompt 并不能提高性能;3)將 soft 和 hard prompt 結(jié)合起來(lái)很有幫助;4)所有這些方法都不能很好地處理 few-shot prompt 調(diào)優(yōu)問(wèn)題。上述觀察結(jié)果表明,為大規(guī)模 PLM 找到合適的 prompt 并非易事,而精心設(shè)計(jì)的 soft prompt token 初始化至關(guān)重要。


          論文鏈接:https://arxiv.org/pdf/2109.04332.pdf

          為了幫助模型找到合適的 prompt,研究者使用大規(guī)模無(wú)標(biāo)記語(yǔ)料庫(kù)上的自監(jiān)督任務(wù)對(duì)這些 token 進(jìn)行預(yù)訓(xùn)練。為了保證預(yù)訓(xùn)練 prompt 的泛化能力,他們將典型分類任務(wù)分為三種:sentence-pair 分類、multiple-choice 分類和 single-text 分類,每種對(duì)應(yīng)一個(gè)自監(jiān)督的預(yù)訓(xùn)練任務(wù)。此外,他們發(fā)現(xiàn) multiple-choice 分類比其他分類都要普遍,可以將所有下游分類任務(wù)都統(tǒng)一到這種分類中。他們給這種 Pre-trained Prompt Tuning 框架起名為「PPT」。

          研究者使用 3 個(gè) 11B 的 PLM(T5-XXL、mT5-XXL、CPM-2)在多個(gè)數(shù)據(jù)集上評(píng)估了 PPT 的性能。實(shí)驗(yàn)結(jié)果表明,PPT 不僅可以大幅提升 few-shot PT,媲美甚至超越 FT 方法,還能降低 few-shot 學(xué)習(xí)的方差。除有效性之外,PPT 還保留了現(xiàn)有 PT 方法的參數(shù)效率,這對(duì)未來(lái)在大規(guī)模 PLM 上的應(yīng)用具有重要價(jià)值。

          PPT 架構(gòu)概覽

          遵循 T5 和 PT 的方法,研究者以一種 text-to-text 的方式解決所有下游任務(wù)。如圖 1(d)所示,為了彌合預(yù)訓(xùn)練和下游任務(wù)之間的 objective gap,以 prompt 為導(dǎo)向的微調(diào)將下游任務(wù)轉(zhuǎn)化為一些完形填空式的目標(biāo)。以分類任務(wù)為例,給定輸入句子及其標(biāo)簽,首先應(yīng)用模式映射將 x 轉(zhuǎn)換為一個(gè)新的 token 序列 f(x),其中 V 是 PLM 的詞匯表。f(x)不僅添加了一些 prompt token 作為提示,還保留了至少一個(gè) masking token <X>,讓 PLM 預(yù)測(cè)掩碼位置的 token。接下來(lái),使用一個(gè) verbalizer將 y 映射到一個(gè)標(biāo)簽 token 序列 v(y)。借助 f(·)和 v(·),分類任務(wù)可以用 pattern-verbalizer 對(duì) (f, v) 來(lái)表示:


          其中,θ表示所有可調(diào)參數(shù),特別是 PLM 的參數(shù)。為了方便起見,研究者使用「PVP」來(lái)表示這個(gè) pattern-verbalizer 對(duì)。

          在 PT 中,將一組 soft prompt token P 連接到序列的前面,模型輸入變?yōu)?[P;f (x)]。其中, [·; ·] 為連接函數(shù)。通過(guò)單獨(dú)調(diào)整 P,其他參數(shù)固定,將式(1) 替換為:


          由于大規(guī)模 PLM 性能強(qiáng)大,在多個(gè)全數(shù)據(jù)情境下,式(2) 被證實(shí)與這些 FT 方法具有可比性。但是研究者發(fā)現(xiàn),學(xué)習(xí)有效的 soft prompt 并不容易,這可能導(dǎo)致模型在各種 few-shot 情境下性能較低。參數(shù)的初始化通常對(duì)模型的學(xué)習(xí)難度有很大的影響。一般來(lái)說(shuō),除了隨機(jī)初始化 p 之外,一些研究從 PLM 的詞匯表 V 中采樣詞嵌入作為初始化。然而,試點(diǎn)實(shí)驗(yàn)的結(jié)果表明,現(xiàn)有初始化策略及其簡(jiǎn)單變體對(duì)基于大規(guī)模 PLM 的模型性能影響很小或有消極影響(具體細(xì)節(jié)參見論文第四部分)。

          近年來(lái),預(yù)訓(xùn)練已經(jīng)被證明是一種尋找模型良好初始化的有效方法。受此啟發(fā),研究者提出預(yù)訓(xùn)練 soft prompt。他們注意到,若干組下游任務(wù)與基于無(wú)標(biāo)簽預(yù)訓(xùn)練語(yǔ)料庫(kù)的某些自監(jiān)督任務(wù)相關(guān)。例如,一些 sentence-pair 分類的任務(wù)(如自然語(yǔ)言推理和句子相似度計(jì)算),與預(yù)訓(xùn)練階段使用的 NSP 任務(wù)相似。如圖 3 所示,這些任務(wù)都以兩個(gè)句子作為輸入并比較它們的語(yǔ)義。因此,對(duì)于這些 sentence-pair 任務(wù)來(lái)說(shuō),由 NSP 預(yù)訓(xùn)練的 soft prompt 可以是一個(gè)很好的初始化。


          假設(shè)可以將下游任務(wù)分為 m 組:{T_1, T_2, ..., T_m},其中,T_i 是包含 n_i 個(gè)下游任務(wù)的集合,其中,。針對(duì)每個(gè)組,研究者設(shè)計(jì)了一個(gè)對(duì)應(yīng)的預(yù)訓(xùn)練任務(wù),在這些預(yù)訓(xùn)練任務(wù)上預(yù)訓(xùn)練了 soft prompt 之后(所有模型參數(shù)固定),研究者得到 m 個(gè)預(yù)訓(xùn)練 prompt:{P_1, P_2, ..., P_m}。在預(yù)訓(xùn)練之后,對(duì)于 T_i 中的每個(gè)任務(wù),研究者繼續(xù)優(yōu)化式(2),使用 P_i 作為 soft prompt 的初始化。

          實(shí)驗(yàn)及結(jié)果

          之前的工作(Lester 等,2021;Zhang 等,2021b)表明,T5-XXL 在完全數(shù)據(jù)設(shè)置方面可以與 FT 相媲美。因此在實(shí)驗(yàn)部分,對(duì)于英文數(shù)據(jù)集,該研究使用具有 11B 個(gè)參數(shù)的 T5-XXL 作為基礎(chǔ)模型來(lái)進(jìn)行 PT。該研究還對(duì)各種尺寸的 T5 進(jìn)行了 FT 實(shí)驗(yàn),驗(yàn)證了 T5-XXL 在 few-shot 場(chǎng)景中的表現(xiàn)優(yōu)于其他尺寸,并且基于 T5-XXL 改進(jìn) PT 是有意義的。對(duì)于中文數(shù)據(jù)集,該研究基于 CPM-2 進(jìn)行 PT。由于 CPM-2 不提供其他尺寸的模型,研究者將其與各種尺寸的 mT5 (Xue 等, 2021) 進(jìn)行比較。

          主要實(shí)驗(yàn)結(jié)果

          在英文和中文數(shù)據(jù)集上的結(jié)果如下表 4 所示,其中 FT 的部分展示了各種尺寸 T5 模型的全模型微調(diào)結(jié)果;PT 的部分展示了 PPT 和其他基線的結(jié)果。第一個(gè)基線是 Vanilla PT,其中的 soft token 是從正態(tài)分布中隨機(jī)初始化的;第二個(gè)基線是混合策略;然后該研究還考慮了 Lester 等人(2021)使用的 LM Adaption。其中 T5 模型通過(guò)語(yǔ)言建模進(jìn)一步預(yù)訓(xùn)練 10K 步,以減少預(yù)訓(xùn)練和微調(diào)之間的差距。除了 PPT 以外,該研究還測(cè)試了 PPT 的兩種變體:一種是 Hybrid PPT,將精心設(shè)計(jì)的 hard prompt 與預(yù)訓(xùn)練的 soft prompt 相結(jié)合;另一種是 Unified PPT,其中所有任務(wù)都以 multiple-choice 的格式統(tǒng)一。

          表 4 給出了關(guān)于有效性的結(jié)果:

          • 隨著參數(shù)數(shù)量的增加,F(xiàn)T 的性能有所提升。

          • 在大多數(shù)數(shù)據(jù)集中,PPT 明顯優(yōu)于 Vanilla PT 和 LM Adaption。

          • PPT 在所有中文數(shù)據(jù)集和大多數(shù)英文數(shù)據(jù)集上都優(yōu)于 10B 模型的 FT。

          • PPT 在大多數(shù)數(shù)據(jù)集上會(huì)產(chǎn)生較小的方差,相比之下,一般的 few-shot 學(xué)習(xí)常存在不穩(wěn)定性,例如 Vanilla PT。



          Unified PPT 將所有格式統(tǒng)一為 multiple-choice 的格式,是 PPT 的另一種變體。表 4 的結(jié)果表明 Unified PPT 達(dá)到了與 PPT 和 Hybrid PPT 相當(dāng)?shù)男阅?,并且?yōu)于 soft-prompt 調(diào)整基線。

          以上所有數(shù)據(jù)集的分類標(biāo)簽都少于 5 個(gè),該研究進(jìn)一步在超過(guò) 5 個(gè)標(biāo)簽的數(shù)據(jù)集上測(cè)試了 Unified PPT,實(shí)驗(yàn)結(jié)果如下表 5 所示。


          采樣效率

          研究者探究了當(dāng)訓(xùn)練樣本數(shù)量增加時(shí) FT、PT 和 PPT 的比較結(jié)果。下圖 4 展示了這些方法在 RACEm 和 CB 數(shù)據(jù)集上的趨勢(shì)。從中可以觀察到,對(duì)于從 32 到 128 個(gè)樣本,PPT 始終優(yōu)于 Vanilla PT,當(dāng)數(shù)量增長(zhǎng)到 256 時(shí),三種方法的性能逐漸收斂。



          推薦閱讀

          (點(diǎn)擊標(biāo)題可跳轉(zhuǎn)閱讀)

          23個(gè)優(yōu)秀的機(jī)器學(xué)習(xí)數(shù)據(jù)集

          6行代碼!用Python將PDF轉(zhuǎn)為word

          臺(tái)大美女教授陳缊儂:《應(yīng)用深度學(xué)習(xí)》

          李宏毅《機(jī)器學(xué)習(xí)》視頻教程 PPT

          適合入門的深度學(xué)習(xí)綜述

          老鐵,三連支持一下,好嗎?↓↓↓

          瀏覽 43
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美成人手机 | 青青艹网站在线观看 | 淫色淫香综合网 | 在线观看国产亚洲 | 操逼视频素材大全网站直接看 |