大模型對齊階段的Scaling Laws
共 5908字,需瀏覽 12分鐘
·
2024-04-03 01:55
大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自李rumor
隨著過去一年大模型技術(shù)的發(fā)展,數(shù)據(jù)、模型尺寸scale up后的能力已經(jīng)不容置疑,scaling law也被越來越多研究者重視起來。在預(yù)訓(xùn)練資源消耗如此大的情況下,掌握scaling law有眾多優(yōu)點:
-
提前預(yù)測最終模型效果,知道每次訓(xùn)練的大概能到什么程度,要是不及預(yù)期可以根據(jù)預(yù)算再進(jìn)行調(diào)整 -
在小尺寸模型上做置信的實驗,進(jìn)行數(shù)據(jù)、算法策略驗證,降低實驗的時間、資源成本 -
在真正的大規(guī)模預(yù)訓(xùn)練中,隨時監(jiān)測模型效果是否符合預(yù)期
目前對于scaling law的研究主要是在預(yù)訓(xùn)練階段,而對齊階段在數(shù)據(jù)、算法策略上的實驗也會有很大成本,今天我們就來看兩篇對齊階段的工作,分別研究了SFT和RLHF階段影響效果的重要因素,希望能給大家?guī)硪恍┬碌膇nsight。
01 精調(diào)saling Law
When Scaling Meets LLM Finetuning - The Effect of Data, Model and Finetuning Method[1]
這篇文章來自Google,發(fā)表在ICLR2024。作者主要在文本翻譯任務(wù)上,研究了精調(diào)數(shù)據(jù)數(shù)量、模型尺寸、預(yù)訓(xùn)練數(shù)據(jù)數(shù)量、PET參數(shù)量(prompt tuning、lora)對效果的影響。
精調(diào)和預(yù)訓(xùn)練比較接近,得到的公式也較接近,可以用冪函數(shù)來表示:
-
精調(diào)數(shù)據(jù)存在scaling law,雖然現(xiàn)在大家都認(rèn)同小數(shù)量高質(zhì)數(shù)據(jù)能取得很好的效果,但當(dāng)下游任務(wù)確定時懟量也是一種選擇 -
對比全參數(shù)精調(diào)FMT和PET精調(diào)的結(jié)果可以發(fā)現(xiàn),F(xiàn)MT需要更多的數(shù)據(jù),也能取得更好的效果。而數(shù)據(jù)量少時更適合用PET,prompt tuning在數(shù)據(jù)量少的時候更好,lora在數(shù)據(jù)量多的時候更好更穩(wěn)定。另外PET的精調(diào)方式很依賴模型尺寸和預(yù)訓(xùn)練數(shù)據(jù),當(dāng)基座很強時,PET和FMT的差距會縮小 -
同時作者也分析了一下精調(diào)模型在其他任務(wù)上的泛化效果,發(fā)現(xiàn)精調(diào)后模型可以泛化到相似的任務(wù),由于PET對參數(shù)的改動較小,因此PET的方式泛化會更好
RLHF Scaling Law
When a measure becomes a target, it ceases to be a good measure.
-
根據(jù)當(dāng)前模型偏離的KL散度,來預(yù)測模型何時到達(dá)最高的真實分?jǐn)?shù),提升評估效率 -
根據(jù)使用的RM,來預(yù)測模型能達(dá)到什么效果,或者根據(jù)效果倒推要用多大的模型
對于RLHF的scalinglaw,如何挑選X和Y軸?
總結(jié)
When Scaling Meets LLM Finetuning - The Effect of Data, Model and Finetuning Method: https://arxiv.org/abs/2402.17193
[2]DeepSeek LLM: https://arxiv.org/abs/2401.02954
