欧美操逼视频,国产极品艳情生活视频在线播放 ,免费特一黄色,国产激情乱伦,操人妻视频,操操操操操逼,国产激情福利,超碰乱插

▼最近直播超級多，預(yù)約保你有收獲

近期直播：《基于開源 LLM 大模型的微調(diào)（Fine tuning）實戰(zhàn)》

0 —

為什么要對 LLM 大模型進行微調(diào)（Fine tuning）？

LLM 大模型（比如：ChatGPT-4.0）已經(jīng)很強大了，為什么還需要微調(diào)？

主要有如下 4 點原因：

第一、缺乏專有數(shù)據(jù)，比如：企業(yè)內(nèi)部的私有數(shù)據(jù)。

第二、缺乏最新數(shù)據(jù)，比如：GPT-4的訓(xùn)練數(shù)據(jù)截止到2021年9月。

第三、預(yù)訓(xùn)練成本高，比如：GPG-3 預(yù)訓(xùn)練成本為140萬美金。

第四、提升數(shù)據(jù)安全性，比如：企業(yè)私有數(shù)據(jù)是不能傳遞給第三方大模型的，基于開源大模型的微調(diào)才能滿足業(yè)務(wù)的需求。

— 1 —

如何對 LLM 大模型進行微調(diào)（Fine tuning）？

從參數(shù)規(guī)模的角度，對大模型進行微調(diào)（Fine tuning）有兩條技術(shù)路線：

第一、對全量的參數(shù)，進行全量的訓(xùn)練，叫做全量微調(diào) Full Fine Tuning，簡稱 FFT。

第二、只對部分參數(shù)進行訓(xùn)練，叫做 Parameter-Efficient Fine Tuning，簡稱 FEFT。

FFT 的原理，就是用特定的數(shù)據(jù)，對 LLM 大模型進行訓(xùn)練，將 W 變成 W`，W` 相比 W ，最大的改進點就是在上述特定數(shù)據(jù)領(lǐng)域的表現(xiàn)會好很多。

但 FFT 也會帶來一些問題，主要有以下兩個：

第一、訓(xùn)練的成本會比較高，因為微調(diào)的參數(shù)量跟預(yù)訓(xùn)練的是一樣多；

第二、災(zāi)難性遺忘（Catastrophic Forgetting），用特定訓(xùn)練數(shù)據(jù)去微調(diào)可能會把這個領(lǐng)域的表現(xiàn)變好，但也可能會把原來表現(xiàn)好的別的領(lǐng)域的能力變差。比如：把 LLM 大模型的編程能力進行了調(diào)優(yōu)，有可能會導(dǎo)致在文學(xué)創(chuàng)造等方面能力降低，如何在微調(diào)的過程中，同時兼顧各個能力維度，目前也是學(xué)術(shù)界研究的熱點之一。

PEFT 主要解決就是 FFT 存在的上述兩個問題，PEFT 也是目前比較主流的微調(diào)方案。

從訓(xùn)練數(shù)據(jù)的來源和訓(xùn)練方法的角度，LLM 大模型的微調(diào)有以下幾條技術(shù)路線：

第一、監(jiān)督式微調(diào) Supervised Fine Tuning，簡稱 SFT，這個方案主要是用人工標(biāo)注的數(shù)據(jù)，用傳統(tǒng)機器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的方法，對 LLM 大模型進行微調(diào)。

第二、基于人類反饋的強化學(xué)習(xí)微調(diào) Reinforcement Learning from Human Feedback，簡稱 RLHF。這個方案的主要特點是把人類反饋，通過強化學(xué)習(xí)方式，引入到對 LLM 大模型的微調(diào)中，讓 LLM 大模型生成結(jié)果，更加符合人類的期望。

第三、基于 AI 反饋的強化學(xué)習(xí)微調(diào) Reinforcement Learning with AI Feedback)，簡稱 RLAIF。這個原理和 RLHF 類似，但是反饋的來源是 AI。這里是想解決反饋系統(tǒng)的效率問題，因為收集人類反饋，相對來說成本會比較高、效率比較低。比如：ChatGPT-4.0 通過訓(xùn)練獎勵模型來對 LLM 大模型的回答進行打分，激勵 ChatGPT-4.0 正向迭代優(yōu)化。

不同的分類角度，只是側(cè)重點不一樣，對同一個 LLM 大模型的微調(diào)，也不局限于某一個方案，可以多個方案組合調(diào)優(yōu)。

微調(diào)的最終目的，是能夠在可控成本的前提下，盡可能地提升 LLM 大模型在特定領(lǐng)域的綜合能力。

— 2 —

主流部分參數(shù) PEFT 微調(diào)（Fine tuning）方案剖析

第一、Prompt Tuning，它的出發(fā)點Prompt-tuning 給每個任務(wù)定義了自己的 Prompt，拼接到數(shù)據(jù)上作為輸入，同時 freeze 預(yù)訓(xùn)練模型進行訓(xùn)練，在沒有加額外層的情況下，可以看到隨著模型體積增大效果越來越好，最終追上了 LLM 大模型精調(diào)的效果。

第二、Prefix Tuning，基于 Prompt Engineering 的實踐表明，在不改變 LLM 大模型的前提下，在 Prompt 中添加適當(dāng)?shù)臈l件，可以引導(dǎo)LLM 大模型有更加出色的表現(xiàn)。

Prefix Tuning 和 Prompt Tuning 是類似的，只是在具體實現(xiàn)上有一些差異。

Prompt Tuning 是在 Embedding 嵌入環(huán)節(jié)，在輸入序列 X 前面加特定的Token。

而 Prefix Tuning 是在 Transformer 的 Encoder 和 Decoder 的網(wǎng)絡(luò)中都加一些特定的前綴。

具體是將 Y = WX 中的 W，變成 W` = [Wp; W]，Y = W`X。

Prefix Tuning 保證了基座大模型本身是不變的，在推理的過程中，按需在 W 前面拼接一些參數(shù)。

第三、LoRA，LoRA 的實現(xiàn)思想很簡單，如下圖所示，就是凍結(jié)一個預(yù)訓(xùn)練模型的矩陣參數(shù)，并選擇用 A 和 B 矩陣來替代，在下游任務(wù)時只更新 A 和 B。

LoRA 有一個假設(shè)：我們現(xiàn)在看到的這些 LLM 大語言模型，它們都是被過度參數(shù)化的。而過度參數(shù)化的大模型背后，都有一個低維的本質(zhì)模型。

大模型參數(shù)很多，但并不是所有的參數(shù)都是發(fā)揮同樣作用的，大模型中一部分參數(shù)，是非常重要的，是影響大模型生成結(jié)果的關(guān)鍵參數(shù)，這部分關(guān)鍵參數(shù)就是上面提到的低維的本質(zhì)模型。

結(jié)合上圖來看，LoRA 的實現(xiàn)包括以下幾步：

首先, 要適配特定的下游任務(wù)，要訓(xùn)練一個特定的模型，將 Y=WX 變成 Y=(W+?W)X，這里面 ?W 主是我們要微調(diào)得到的結(jié)果；

其次，將 ?W 進行低維分解 ?W=AB (?W為 m * n 維，A 為 m * r 維，B 為 r * n 維，r 就是上述假設(shè)中的低維)；

接下來，用特定的訓(xùn)練數(shù)據(jù)，訓(xùn)練出 A 和 B 即可得到 ?W，在推理的過程中直接將 ?W 加到 W 上去，再沒有額外的成本。

另外，如果要用 LoRA 適配不同的場景，切換也非常方便，做簡單的矩陣加法即可：(W + ?W) - ?W + ?W`。

第四、QLoRA，結(jié)合上述流程

QLoRA 就是量化版的 LoRA，量化，是一種在保證模型效果基本不降低的前提下，通過降低參數(shù)的精度，來減少模型對于計算資源的需求的方法。

量化的核心目標(biāo)是降成本，降訓(xùn)練成本，特別是降后期的推理成本。

QLoRA 是在 LoRA 的基礎(chǔ)上，進行了進一步的量化，將原本用 16bit 表示的參數(shù)，降為用 4bit 來表示，可以在保證模型效果的同時，極大地降低成本。

比如：65B的 LLaMA 的微調(diào)要 780GB 的 GPU 內(nèi)存，而用了 QLoRA 之后，只需要 48GB。效果相當(dāng)驚人！

除了以上微調(diào)方法外，還有 Adapter、P tuning、P tuning V2等微調(diào)方案。

— 3—

免費超干貨 LLM 大模型直播

為了幫助同學(xué)們掌握好 LLM 大模型的微調(diào)技術(shù)，本周日晚8點，我會開一場直播和同學(xué)們深度聊聊大模型的技術(shù)、分布式訓(xùn)練和參數(shù)高效微調(diào)，請同學(xué)點擊下方按鈕預(yù)約直播，咱們本周日晚8點不見不散哦~~

近期直播：《基于開源 LLM 大模型的微調(diào)（Fine tuning）實戰(zhàn)》

END

為什么說大模型微調(diào)是每個人都必備的核心技能？