一個(gè)「PPT」框架,讓超大模型調(diào)參變簡(jiǎn)單:清華劉知遠(yuǎn)、黃民烈團(tuán)隊(duì)力作
視學(xué)算法報(bào)道
機(jī)器之心編輯部
來自清華大學(xué)的劉知遠(yuǎn)、黃民烈等研究者提出了一個(gè)名為「PPT」的新框架。PPT=Pre-trained Prompt Tuning。




及其標(biāo)簽
,首先應(yīng)用模式映射
將 x 轉(zhuǎn)換為一個(gè)新的 token 序列 f(x),其中 V 是 PLM 的詞匯表。f(x)不僅添加了一些 prompt token 作為提示,還保留了至少一個(gè) masking token <X>,讓 PLM 預(yù)測(cè)掩碼位置的 token。接下來,使用一個(gè) verbalizer
將 y 映射到一個(gè)標(biāo)簽 token 序列 v(y)。借助 f(·)和 v(·),分類任務(wù)可以用 pattern-verbalizer 對(duì) (f, v) 來表示:


,其中,
。針對(duì)每個(gè)組,研究者設(shè)計(jì)了一個(gè)對(duì)應(yīng)的預(yù)訓(xùn)練任務(wù)
,在這些預(yù)訓(xùn)練任務(wù)上預(yù)訓(xùn)練了 soft prompt 之后(所有模型參數(shù)固定),研究者得到 m 個(gè)預(yù)訓(xùn)練 prompt:{P_1, P_2, ..., P_m}。在預(yù)訓(xùn)練之后,對(duì)于 T_i 中的每個(gè)任務(wù)
,研究者繼續(xù)優(yōu)化式(2),使用 P_i 作為 soft prompt 的初始化。隨著參數(shù)數(shù)量的增加,F(xiàn)T 的性能有所提升。
在大多數(shù)數(shù)據(jù)集中,PPT 明顯優(yōu)于 Vanilla PT 和 LM Adaption。
PPT 在所有中文數(shù)據(jù)集和大多數(shù)英文數(shù)據(jù)集上都優(yōu)于 10B 模型的 FT。
PPT 在大多數(shù)數(shù)據(jù)集上會(huì)產(chǎn)生較小的方差,相比之下,一般的 few-shot 學(xué)習(xí)常存在不穩(wěn)定性,例如 Vanilla PT。



? THE END
轉(zhuǎn)載請(qǐng)聯(lián)系原公眾號(hào)獲得授權(quán)
投稿或?qū)で髨?bào)道:[email protected]

點(diǎn)個(gè)在看 paper不斷!
評(píng)論
圖片
表情
