清華大學(xué)力作!一個(gè)「PPT」框架,讓超大模型調(diào)參變簡(jiǎn)單
↑↑↑點(diǎn)擊上方藍(lán)字,回復(fù)資料,10個(gè)G的驚喜
轉(zhuǎn)自:機(jī)器之心




及其標(biāo)簽
,首先應(yīng)用模式映射
將 x 轉(zhuǎn)換為一個(gè)新的 token 序列 f(x),其中 V 是 PLM 的詞匯表。f(x)不僅添加了一些 prompt token 作為提示,還保留了至少一個(gè) masking token <X>,讓 PLM 預(yù)測(cè)掩碼位置的 token。接下來(lái),使用一個(gè) verbalizer
將 y 映射到一個(gè)標(biāo)簽 token 序列 v(y)。借助 f(·)和 v(·),分類任務(wù)可以用 pattern-verbalizer 對(duì) (f, v) 來(lái)表示:


,其中,
。針對(duì)每個(gè)組,研究者設(shè)計(jì)了一個(gè)對(duì)應(yīng)的預(yù)訓(xùn)練任務(wù)
,在這些預(yù)訓(xùn)練任務(wù)上預(yù)訓(xùn)練了 soft prompt 之后(所有模型參數(shù)固定),研究者得到 m 個(gè)預(yù)訓(xùn)練 prompt:{P_1, P_2, ..., P_m}。在預(yù)訓(xùn)練之后,對(duì)于 T_i 中的每個(gè)任務(wù)
,研究者繼續(xù)優(yōu)化式(2),使用 P_i 作為 soft prompt 的初始化。隨著參數(shù)數(shù)量的增加,F(xiàn)T 的性能有所提升。
在大多數(shù)數(shù)據(jù)集中,PPT 明顯優(yōu)于 Vanilla PT 和 LM Adaption。
PPT 在所有中文數(shù)據(jù)集和大多數(shù)英文數(shù)據(jù)集上都優(yōu)于 10B 模型的 FT。
PPT 在大多數(shù)數(shù)據(jù)集上會(huì)產(chǎn)生較小的方差,相比之下,一般的 few-shot 學(xué)習(xí)常存在不穩(wěn)定性,例如 Vanilla PT。



推薦閱讀
(點(diǎn)擊標(biāo)題可跳轉(zhuǎn)閱讀)
23個(gè)優(yōu)秀的機(jī)器學(xué)習(xí)數(shù)據(jù)集
臺(tái)大美女教授陳缊儂:《應(yīng)用深度學(xué)習(xí)》
老鐵,三連支持一下,好嗎?↓↓↓
評(píng)論
圖片
表情
