<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          為什么說大模型微調(diào)是每個人都必備的核心技能?

          共 3634字,需瀏覽 8分鐘

           ·

          2023-11-01 14:41

          最近直播超級多,預(yù)約保你有收獲

          近期直播:基于開源 LLM 大模型的微調(diào)(Fine tuning)實戰(zhàn)

           0 

          為什么要對 LLM 大模型進行微調(diào)(Fine tuning)?

          LLM 大模型(比如ChatGPT-4.0已經(jīng)很強大了,為什么還需要微調(diào)?
          主要有如下 4 點原因:
          第一、缺乏專有數(shù)據(jù),比如:企業(yè)內(nèi)部的私有數(shù)據(jù)。
          第二、缺乏最新數(shù)據(jù),比如:GPT-4的訓(xùn)練數(shù)據(jù)截止到2021年9月。
          第三、預(yù)訓(xùn)練成本高,比如:GPG-3 預(yù)訓(xùn)練成本為140萬美金。
          第四、提升數(shù)據(jù)安全性,比如:企業(yè)私有數(shù)據(jù)是不能傳遞給第三方大模型的,基于開源大模型的微調(diào)才能滿足業(yè)務(wù)的需求。

           1 

          如何對 LLM 大模型進行微調(diào)(Fine tuning)?

          從參數(shù)規(guī)模的角度,對大模型進行微調(diào)(Fine tuning)有兩條技術(shù)路線:

          第一、對全量的參數(shù),進行全量的訓(xùn)練,叫做全量微調(diào)  Full Fine Tuning,簡稱 FFT。
          第二、只對部分參數(shù)進行訓(xùn)練,叫做 Parameter-Efficient Fine Tuning,簡稱 FEFT。
          FFT 的原理,就是用特定的數(shù)據(jù),對 LLM 大模型進行訓(xùn)練,將 W 變成 W`,W` 相比 W ,最大的改進點就是在上述特定數(shù)據(jù)領(lǐng)域的表現(xiàn)會好很多。
          但 FFT 也會帶來一些問題,主要有以下兩個:
          第一、訓(xùn)練的成本會比較高,因為微調(diào)的參數(shù)量跟預(yù)訓(xùn)練的是一樣多;
          第二、災(zāi)難性遺忘(Catastrophic Forgetting),用特定訓(xùn)練數(shù)據(jù)去微調(diào)可能會把這個領(lǐng)域的表現(xiàn)變好,但也可能會把原來表現(xiàn)好的別的領(lǐng)域的能力變差。比如:把 LLM 大模型的編程能力進行了調(diào)優(yōu),有可能會導(dǎo)致在文學(xué)創(chuàng)造等方面能力降低,如何在微調(diào)的過程中,同時兼顧各個能力維度,目前也是學(xué)術(shù)界研究的熱點之一。
          PEFT 主要解決就是 FFT 存在的上述兩個問題,PEFT 也是目前比較主流的微調(diào)方案。
          從訓(xùn)練數(shù)據(jù)的來源和訓(xùn)練方法的角度,LLM 大模型的微調(diào)有以下幾條技術(shù)路線:
          第一、監(jiān)督式微調(diào) Supervised Fine Tuning,簡稱 SFT,這個方案主要是用人工標(biāo)注的數(shù)據(jù),用傳統(tǒng)機器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的方法,對 LLM 大模型進行微調(diào)。
          第二、基于人類反饋的強化學(xué)習(xí)微調(diào) Reinforcement Learning from Human Feedback,簡稱 RLHF。這個方案的主要特點是把人類反饋,通過強化學(xué)習(xí)方式,引入到對 LLM 大模型的微調(diào)中,讓 LLM 大模型生成結(jié)果,更加符合人類的期望。
          第三、基于 AI 反饋的強化學(xué)習(xí)微調(diào) Reinforcement Learning with AI Feedback),簡稱 RLAIF。這個原理和 RLHF 類似,但是反饋的來源是 AI。這里是想解決反饋系統(tǒng)的效率問題,因為收集人類反饋,相對來說成本會比較高、效率比較低。比如:ChatGPT-4.0 通過訓(xùn)練獎勵模型來對 LLM 大模型的回答進行打分,激勵 ChatGPT-4.0 正向迭代優(yōu)化。
          不同的分類角度,只是側(cè)重點不一樣,對同一個 LLM 大模型的微調(diào),也不局限于某一個方案,可以多個方案組合調(diào)優(yōu)。
          微調(diào)的最終目的,是能夠在可控成本的前提下,盡可能地提升 LLM 大模型在特定領(lǐng)域的綜合能力。

           2 

          主流部分參數(shù) PEFT 微調(diào)(Fine tuning)方案剖析

          第一、Prompt Tuning,它的出發(fā)點Prompt-tuning 給每個任務(wù)定義了自己的 Prompt,拼接到數(shù)據(jù)上作為輸入,同時 freeze 預(yù)訓(xùn)練模型進行訓(xùn)練,在沒有加額外層的情況下,可以看到隨著模型體積增大效果越來越好,最終追上了 LLM 大模型精調(diào)的效果。
          第二、Prefix Tuning,基于 Prompt Engineering 的實踐表明,在不改變 LLM 大模型的前提下,在 Prompt 中添加適當(dāng)?shù)臈l件,可以引導(dǎo)LLM 大模型有更加出色的表現(xiàn)。
          Prefix Tuning 和 Prompt Tuning 是類似的,只是在具體實現(xiàn)上有一些差異。
          Prompt Tuning 是在 Embedding 嵌入環(huán)節(jié),在輸入序列 X 前面加特定的Token。
          而 Prefix Tuning 是在 Transformer 的 Encoder 和 Decoder 的網(wǎng)絡(luò)中都加一些特定的前綴。
          具體是將 Y = WX 中的 W,變成 W` = [Wp; W],Y = W`X。
          Prefix Tuning 保證了基座大模型本身是不變的,在推理的過程中,按需在 W 前面拼接一些參數(shù)。
          第三、LoRALoRA 的實現(xiàn)思想很簡單,如下圖所示,就是凍結(jié)一個預(yù)訓(xùn)練模型的矩陣參數(shù),并選擇用 A 和 B 矩陣來替代,在下游任務(wù)時只更新 A 和 B。
          LoRA 有一個假設(shè):我們現(xiàn)在看到的這些 LLM 大語言模型,它們都是被過度參數(shù)化的。而過度參數(shù)化的大模型背后,都有一個低維的本質(zhì)模型。
          大模型參數(shù)很多,但并不是所有的參數(shù)都是發(fā)揮同樣作用的,大模型中一部分參數(shù),是非常重要的,是影響大模型生成結(jié)果的關(guān)鍵參數(shù),這部分關(guān)鍵參數(shù)就是上面提到的低維的本質(zhì)模型。
          結(jié)合上圖來看,LoRA 的實現(xiàn)包括以下幾步:
          首先, 要適配特定的下游任務(wù),要訓(xùn)練一個特定的模型,將 Y=WX 變成 Y=(W+?W)X,這里面 ?W 主是我們要微調(diào)得到的結(jié)果;
          其次,將 ?W 進行低維分解 ?W=AB  (?W為 m * n 維,A 為 m * r 維,B 為 r * n 維,r 就是上述假設(shè)中的低維);
          接下來,用特定的訓(xùn)練數(shù)據(jù),訓(xùn)練出 A 和 B 即可得到 ?W,在推理的過程中直接將 ?W 加到 W 上去,再沒有額外的成本。
          另外,如果要用 LoRA 適配不同的場景,切換也非常方便,做簡單的矩陣加法即可:(W + ?W) - ?W + ?W`。
          第四、QLoRA,結(jié)合上述流程
          QLoRA 就是量化版的 LoRA,量化,是一種在保證模型效果基本不降低的前提下,通過降低參數(shù)的精度,來減少模型對于計算資源的需求的方法。
          量化的核心目標(biāo)是降成本,降訓(xùn)練成本,特別是降后期的推理成本。
          QLoRA 是在 LoRA 的基礎(chǔ)上,進行了進一步的量化,將原本用 16bit 表示的參數(shù),降為用 4bit 來表示,可以在保證模型效果的同時,極大地降低成本。
          比如:65B的 LLaMA  的微調(diào)要 780GB 的 GPU 內(nèi)存,而用了 QLoRA 之后,只需要 48GB。效果相當(dāng)驚人!
          除了以上微調(diào)方法外,還有 Adapter、P tuning、P tuning V2等微調(diào)方案。

           3

          免費超干貨 LLM 大模型直播

          為了幫助同學(xué)們掌握好 LLM 大模型的微調(diào)技術(shù),本周日晚8點,我會開一場直播和同學(xué)們深度聊聊大模型的技術(shù)、分布式訓(xùn)練和參數(shù)高效微調(diào),請同學(xué)點擊下方按鈕預(yù)約直播,咱們本周日晚8點不見不散哦~~

          近期直播:基于開源 LLM 大模型的微調(diào)(Fine tuning)實戰(zhàn)

          END


          瀏覽 924
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  成人精品久久久 | 日韩激情网站 | 久久99免费视频 | 国产制服丝袜操视频网站 | 麻豆成人A片 |