NLP 的 不可能三角?
作者 | 太子長琴
整理 | NewBeeNLP
今天來看看 NLP 模型的不可能三角,并基于此一些未來的研究方向。
Paper: Impossible Triangle: What's Next for Pre-trained Language Models?[1]
PLM 的不可能三角指的是:
中等模型大小(1B以下) SOTA few-shot 能力 SOTA 微調(diào)能力
目前所有的 PLM 都缺其中一個或多個。很多注入知識蒸餾、數(shù)據(jù)增強(qiáng)、Prompt 的方法用以緩解這些缺失,但卻在實際中帶來了新的工作量。本文提供了一個未來的研究方向,將任務(wù)分解成幾個關(guān)鍵階段來實現(xiàn)不可能三角。
預(yù)訓(xùn)練模型已經(jīng)廣為人知,但人們并未在中小模型上發(fā)現(xiàn) few-shot 甚至 zero-shot 的能力,大模型上的確有,但由于太大在實際使用時很不方便。而現(xiàn)實是很多時候我們沒有過多標(biāo)注數(shù)據(jù),需要這種 few-shot 的能力。
不可能三角
如下圖所示:

P1 用于使用合理的計算資源進(jìn)行高效部署 P2 用于沒有或少量標(biāo)注數(shù)據(jù)場景 P3 用于相對大量標(biāo)注數(shù)據(jù)場景
一個很好的證據(jù)是 Google 最近發(fā)表的 PaLM,論文發(fā)現(xiàn),模型規(guī)模和 few/zero-shot 表現(xiàn)之間存在 不連續(xù) 的提升。比如說,與 8B 和 62B 的模型對比,PaLM 的 540B 在很多任務(wù)上表現(xiàn)出突破性的提升。
對于不可能三角,實際的 PLM 往往可以達(dá)到 1-2 個:
中等大小 PLM(1B以下):P1+P3 超大規(guī)模 PLM:P2。值得注意的是:zero/few-shot 的效果依然不如有監(jiān)督;另外大部分微調(diào)后也不如中等大小 PLM 微調(diào)后的結(jié)果(原因很可能是模型太大)。
當(dāng)前策略
對模型規(guī)模(缺 P1):
一般在超大模型顯示出極好的 zero/few-shot 能力和微調(diào)后強(qiáng)大的性能時發(fā)生。 常用的方法是「知識蒸餾」。 有兩個問題:學(xué)生模型幾乎不能達(dá)到教師模型的效果;模型太大會阻礙有效推理,使其作為教師模型不方便。
對較差的 zero/few-shot 能力(缺 P2):
這是中等模型較為常見的:可以通過微調(diào)達(dá)到 SOTA,但 zero/few-shot 能力相對不足。 方法是「通過其他模型生成偽標(biāo)簽和樣例,或噪聲注入擴(kuò)充數(shù)據(jù)」。 不過,偽數(shù)據(jù)質(zhì)量的變化和不同任務(wù)中數(shù)據(jù)類型的多樣性對普遍適用的解決方案提出了挑戰(zhàn)。
對較差的有監(jiān)督訓(xùn)練表現(xiàn)(缺 P3):
這在超大模型微調(diào)時很典型,其中計算資源有限或訓(xùn)練數(shù)據(jù)量不足以對其進(jìn)行微調(diào)。 典型的策略是「Prompt 學(xué)習(xí)」,可以使用硬提示(離散文本模板)或軟提示(連續(xù)模板),以便在微調(diào)期間僅更新硬提示詞或軟提示的參數(shù)。 不過,該方法對 Prompt 的選擇和訓(xùn)練數(shù)據(jù)格外敏感,依然不如中等大小 PLM + 有監(jiān)督。
未來方法
本文提出了一種多階段的方法。
階段 1:確定目標(biāo)是實現(xiàn)一些(不可能三角中)需要的屬性,改進(jìn)缺失的屬性。比如,SOTA 有監(jiān)督的中等模型可以提高 few-shot 學(xué)習(xí)表現(xiàn),SOTA few-shot 能力的大模型壓縮到有更好有監(jiān)督表現(xiàn)的小點的模型。 階段 2:實現(xiàn)三個屬性的 PLM 是為少數(shù)任務(wù)開發(fā)的。可以利用目標(biāo)任務(wù)的獨特特征,比如表現(xiàn)對訓(xùn)練數(shù)據(jù)規(guī)模依賴性較小,zero/few-shot 和有監(jiān)督表現(xiàn)之間的 gap 較小等。 階段 3:基于階段 1 和階段 2,在一般 NLP 任務(wù)上實現(xiàn)三個屬性??赡艿姆椒òǎ河么罅繑?shù)據(jù)預(yù)訓(xùn)練一個中等大小的模型,更好的知識蒸餾,通用的數(shù)據(jù)增強(qiáng)方法等。
這篇文章雖然篇幅不長,但切入點還挺有意思,也分析了針對各屬性的緩解策略:知識蒸餾、數(shù)據(jù)增強(qiáng)、Prompt 學(xué)習(xí)等,并基于此提出了未來的研究方向,其實看起來是很自然的想法。不過這個不可能三角的確有點意思。
本文參考資料
Impossible Triangle: What's Next for Pre-trained Language Models?: https://arxiv.org/abs/2204.06130
往期精彩回顧
