<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          大模型對齊階段的Scaling Laws

          共 5908字,需瀏覽 12分鐘

           ·

          2024-04-03 01:55

          大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自李rumor

          隨著過去一年大模型技術(shù)的發(fā)展,數(shù)據(jù)、模型尺寸scale up后的能力已經(jīng)不容置疑,scaling law也被越來越多研究者重視起來。在預(yù)訓(xùn)練資源消耗如此大的情況下,掌握scaling law有眾多優(yōu)點:

          1. 提前預(yù)測最終模型效果,知道每次訓(xùn)練的大概能到什么程度,要是不及預(yù)期可以根據(jù)預(yù)算再進(jìn)行調(diào)整
          2. 在小尺寸模型上做置信的實驗,進(jìn)行數(shù)據(jù)、算法策略驗證,降低實驗的時間、資源成本
          3. 在真正的大規(guī)模預(yù)訓(xùn)練中,隨時監(jiān)測模型效果是否符合預(yù)期

          目前對于scaling law的研究主要是在預(yù)訓(xùn)練階段,而對齊階段在數(shù)據(jù)、算法策略上的實驗也會有很大成本,今天我們就來看兩篇對齊階段的工作,分別研究了SFT和RLHF階段影響效果的重要因素,希望能給大家?guī)硪恍┬碌膇nsight。

          01 精調(diào)saling Law


          When Scaling Meets LLM Finetuning - The Effect of Data, Model and Finetuning Method[1]

          這篇文章來自Google,發(fā)表在ICLR2024。作者主要在文本翻譯任務(wù)上,研究了精調(diào)數(shù)據(jù)數(shù)量、模型尺寸、預(yù)訓(xùn)練數(shù)據(jù)數(shù)量、PET參數(shù)量(prompt tuning、lora)對效果的影響。

          精調(diào)和預(yù)訓(xùn)練比較接近,得到的公式也較接近,可以用冪函數(shù)來表示:



          其中 是精調(diào)數(shù)據(jù)尺寸, 是其他影響因子, 都是需要擬合的參數(shù), 可以反應(yīng)因子的重要程度。
          在這篇工作中,作者以精調(diào)數(shù)據(jù)量為核心因素,分別建模了精調(diào)數(shù)據(jù)量和其他因素的聯(lián)合scaling law。
          精調(diào)數(shù)據(jù)量+模型尺寸



          上圖中實線為作者擬合的曲線,圓點是擬合用的實驗點,倒三角是held-out點,用來驗證外推是否準(zhǔn)確??梢钥吹剑S著數(shù)據(jù)量和模型尺寸的增加,test ppl也展現(xiàn)了一定規(guī)律的下降。但實際推到16B尺寸時在PET方式下擬合程度一般,作者分析是16B本身在預(yù)訓(xùn)練階段存在一些問題。
          精調(diào)數(shù)據(jù)量+預(yù)訓(xùn)練數(shù)據(jù)量
          可以看到,預(yù)訓(xùn)練數(shù)據(jù)量對下游精調(diào)確實也有一定影響,外推擬合的也比較好。不過對比模型尺寸可以發(fā)現(xiàn),同樣計算預(yù)算下,用更大的模型尺寸精調(diào)>用更多數(shù)據(jù)預(yù)訓(xùn)練。但作者也指出這可能是因為翻譯任務(wù)對于多樣性的要求不高。
          精調(diào)數(shù)據(jù)量+PET參數(shù)量
          可以看到,增加PET參數(shù)量的幫助很小。同時lora比prompt tuning的方式更加穩(wěn)定,更容易擬合,prompt tuning甚至出現(xiàn)了inverse scaling的現(xiàn)象。
          總結(jié)
          由于這篇工作只在機(jī)器翻譯任務(wù)上做了實驗,同時外推到16B的偏差較大,因此參考意義有限。但作者的一些實驗也有重要的參考意義:
          1. 精調(diào)數(shù)據(jù)存在scaling law,雖然現(xiàn)在大家都認(rèn)同小數(shù)量高質(zhì)數(shù)據(jù)能取得很好的效果,但當(dāng)下游任務(wù)確定時懟量也是一種選擇
          2. 對比全參數(shù)精調(diào)FMT和PET精調(diào)的結(jié)果可以發(fā)現(xiàn),F(xiàn)MT需要更多的數(shù)據(jù),也能取得更好的效果。而數(shù)據(jù)量少時更適合用PET,prompt tuning在數(shù)據(jù)量少的時候更好,lora在數(shù)據(jù)量多的時候更好更穩(wěn)定。另外PET的精調(diào)方式很依賴模型尺寸和預(yù)訓(xùn)練數(shù)據(jù),當(dāng)基座很強時,PET和FMT的差距會縮小
          3. 同時作者也分析了一下精調(diào)模型在其他任務(wù)上的泛化效果,發(fā)現(xiàn)精調(diào)后模型可以泛化到相似的任務(wù),由于PET對參數(shù)的改動較小,因此PET的方式泛化會更好
          因此,對于有明確下游任務(wù)的場景,用強基座+小數(shù)量+PET精調(diào)是一個很明智的選擇。但對于任務(wù)不明確的通用場景,正如作者所言:the optimal finetuning method is highly task- and finetuning data-dependent,要得到明確的規(guī)律還有一定難度。

          RLHF Scaling Law


          RLHF涉及到4個模型,變量非常多,想想都不知道怎么下手。但這并難不倒OpenAI,他們早在22年底就悄咪咪放出了一篇文章,一共只有三個作者,第二作者是PPO之父John Schulman,同時也是OpenAI Alignment的Lead,陣容非常強大。
          相比于預(yù)訓(xùn)練和精調(diào),Scaling law對于RLHF還有一項重要意義,因為在RLHF過程中,存在著一個很典型的問題:過優(yōu)化(overoptimization)。當(dāng)使用獎勵模型(Reward Model,簡稱RM)去代替人類判斷時,很難保證它是無偏的,而強化算法又會讓模型走捷徑,一旦發(fā)現(xiàn)哪個地方獎勵高,立刻就朝著該方向優(yōu)化,拿到更高獎勵值。
          這一現(xiàn)象也可以稱為Goodhart’s law:
          When a measure becomes a target, it ceases to be a good measure.
          所以真實的場景就很迷了,明明看著獎勵曲線上升得很美妙,但評估出來效果不一定更好,所以到底挑哪個checkpoint去評估呢?
          如果有RLHF的scaling law,我們就可以預(yù)測模型真實的最優(yōu)ckpt,適時停止訓(xùn)練,減少模型訓(xùn)練、評估成本
          OpenAI這篇工作得到的結(jié)論則是:
          其中 , 是通過RM算出來的。
          公式中的核心是RM尺寸和KL散度兩個因素,有了這個公式之后,我們就可以:
          1. 根據(jù)當(dāng)前模型偏離的KL散度,來預(yù)測模型何時到達(dá)最高的真實分?jǐn)?shù),提升評估效率
          2. 根據(jù)使用的RM,來預(yù)測模型能達(dá)到什么效果,或者根據(jù)效果倒推要用多大的模型
          雖然最終的公式看起來非常簡單,但作者也進(jìn)行了很多的實驗和分析。首先介紹一下實驗設(shè)置,為了提升評估效率,作者使用了兩個RM,一個時Gold RM,作為labeler的角色,標(biāo)注一份數(shù)據(jù)后訓(xùn)練proxy RM,用來做RL實驗:



          對于RLHF的scalinglaw,如何挑選X和Y軸?


          首先Y軸比較好選,預(yù)訓(xùn)練模型一般用loss,比較連續(xù),且可以很好地反映模型效果,RL可以自然地用Reward,也具有同樣的功能。
          但X軸就不一樣了,設(shè)置成KL散度非常巧妙,因為RL不能像預(yù)訓(xùn)練/精調(diào)一樣用計算量、過的Token數(shù)量等,如果RL也用訓(xùn)練時過的Token數(shù)量,會有一個問題:預(yù)訓(xùn)練和SFT只優(yōu)化交叉熵?fù)p失這一個目標(biāo),而RL同時優(yōu)化總獎勵和KL懲罰兩個目標(biāo),而且這兩個目標(biāo)是互相拉扯的,KL懲罰希望模型盡量不偏離太遠(yuǎn),而模型要拿更多的獎勵不可避免會有參數(shù)更新。
          于是作者看了一下不同KL懲罰系數(shù)下KL散度與步數(shù)的關(guān)系:
          KL散度與步數(shù)的關(guān)系
          如果系數(shù)過大,感覺模型就不更新了,那這時候Reward還能提嗎?因此KL penalty在RLHF中其實起著early stopping的作用,為了研究訓(xùn)練步數(shù)的影響,作者實驗時去掉了KL penalty
          除了RM尺寸,還有其他影響因素嗎?
          作者也對RM的訓(xùn)練數(shù)據(jù)量進(jìn)行了實驗,結(jié)果比較符合直覺,訓(xùn)練數(shù)據(jù)越多實際的gold score越大,但無法擬合出更清晰的規(guī)律。
          同時作者也嘗試了不同的policy模型尺寸,更大的模型在相同RM下效果更好,比較符合直覺。但也有不符合直覺的地方,比如作者覺得更大的模型會更快過優(yōu)化,實際上是和小模型在相同的KL點開始過優(yōu)化的。同時不同尺寸下proxy和gold的分?jǐn)?shù)gap也基本接近,沒有比小模型更好擬合RM。
          個人認(rèn)為OpenAI的這篇工作非常值得一看,有很多實驗細(xì)節(jié),同時得到的結(jié)論簡潔優(yōu)雅。

          總結(jié)


          Scaling law不僅是一個好用的工具,它本身的存在也給出了能影響模型效果的關(guān)鍵因素,指導(dǎo)著算法的迭代方向,比如在預(yù)訓(xùn)練中,核心是數(shù)據(jù)量、模型尺寸,最近Deepseek[2]的工作中也對batch size、learning rate這兩個重要超參數(shù)進(jìn)行了分析。而在對齊階段,綜合上面兩篇工作,數(shù)據(jù)量、模型尺寸、RM尺寸都對效果有著規(guī)律清晰的影響,掌握這些規(guī)律十分重要,也希望后面能有更多Scaling law的相關(guān)工作。
          參考資料
          [1]

          When Scaling Meets LLM Finetuning - The Effect of Data, Model and Finetuning Method: https://arxiv.org/abs/2402.17193

          [2]

          DeepSeek LLM: https://arxiv.org/abs/2401.02954


          租售GPU算力
          租:4090/A800/H800/H100
          售:現(xiàn)貨H100/H800

          特別適合企業(yè)級應(yīng)用
          掃碼了解詳情?


          點「在看」的人都變好看了哦!
          瀏覽 60
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲无吗高清视频 | 影音先锋色网 | 怡红院视频网 | 亚洲高清免费 | 亚洲中文日韩无码 |