萬(wàn)字長(zhǎng)文總結(jié)大模型微調(diào)技能圖譜
共 8935字,需瀏覽 18分鐘
·
2024-05-08 10:00
詳細(xì)大綱
介紹課程目標(biāo)、安排和預(yù)期成果
明確對(duì)學(xué)員的要求和期望
概述課程中將探討的項(xiàng)目和技術(shù)
討論大模型技術(shù)的行業(yè)現(xiàn)狀
推薦關(guān)注的工具和開(kāi)源項(xiàng)目
大模型的定義和重要性
大模型發(fā)展歷程和關(guān)鍵里程碑
預(yù)訓(xùn)練與微調(diào)的基本概念
大模型預(yù)訓(xùn)練、數(shù)據(jù)處理、微調(diào)、對(duì)齊
大模型訓(xùn)練的基礎(chǔ)設(shè)施和資源需求
面臨的挑戰(zhàn)和未來(lái)發(fā)展方向
Transformer模型的基本架構(gòu)
Self-Attention機(jī)制的原理和計(jì)算過(guò)程
Multi-Head Attention的設(shè)計(jì)和作用
注意力權(quán)重的計(jì)算和可視化
Self-Attention在模型中的作用和優(yōu)勢(shì)
Positional Encoding的概念和實(shí)現(xiàn)方法
Rotary Positional Embedding
BPE tokenizer,SentencePiece Encoding
Transformer中的Feed-Forward Networks
Layer Normalization的原理和重要性
Transformer模型中的殘差連接
編碼器和解碼器的結(jié)構(gòu)差異
Transformer的訓(xùn)練策略和優(yōu)化方法
參數(shù)初始化和學(xué)習(xí)率調(diào)度
Transformer模型的正則化技術(shù)
Attention機(jī)制的變種和改進(jìn)
Greedy Decoding, Beam-search
Top-K Sampling, Top-p Sampling
Transformer源碼解讀
全量微調(diào)與高效微調(diào)的區(qū)別
Transformer模型微調(diào)的常見(jiàn)策略
選擇合適的微調(diào)任務(wù)和數(shù)據(jù)集
微調(diào)中的挑戰(zhàn)和最佳實(shí)踐
評(píng)估微調(diào)效果的標(biāo)準(zhǔn)和工具
PEFT的安裝
PEFT的使用說(shuō)明,核心模塊講解
指令數(shù)據(jù)準(zhǔn)備和預(yù)處理的技巧
實(shí)施微調(diào)的詳細(xì)步驟
微調(diào)項(xiàng)目的性能評(píng)估和分析
GPT系列模型的發(fā)展歷程
GP1到GPT4,GPT3模型剖析
GPT代碼解讀
InstructGPT模型剖析
Zero-shot Prompting
Few-shot Prompting
GPT模型的局限性和挑戰(zhàn)
LLaMA模型的特點(diǎn)和技術(shù)創(chuàng)新
LLaMA模型的原理剖析
LLaMA源碼解讀
LLaMA與其他大模型的對(duì)比
LLaMA模型的訓(xùn)練和微調(diào)策略
面對(duì)LLaMA模型的未來(lái)發(fā)展方向
ChatGLM的架構(gòu)和設(shè)計(jì)理念
ChatGLM模型解讀
ChatGLM1到ChatGLM3的技術(shù)迭代
ChatGLM模型的優(yōu)勢(shì)和應(yīng)用領(lǐng)域
ChatGLM模型微調(diào)和部署的實(shí)踐指南
ChatGLM模型的評(píng)估和性能優(yōu)化
Baichuan模型的概述和核心技術(shù)
Baichuan原理剖析和源碼解讀
Baichuan模型與其他模型的比較
Baichuan模型在特定任務(wù)上的應(yīng)用
微調(diào)Baichuan模型的策略和技巧
Baichuan模型的局限
指令微調(diào)的定義與應(yīng)用背景
指令微調(diào)與傳統(tǒng)微調(diào)的對(duì)比
指令微調(diào)在大模型中的重要性
指令微調(diào)流程概覽
指令微調(diào)的挑戰(zhàn)與策略
矩陣和向量的基本概念
矩陣運(yùn)算與性質(zhì)
特征值和特征向量
矩陣分解(SVD)技術(shù)簡(jiǎn)介
矩陣在LoRA算法中的應(yīng)用
LoRA算法的原理與動(dòng)機(jī)
Lora中的Low-rank假設(shè)
LoRA的關(guān)鍵技術(shù)組件
LoRA算法的實(shí)現(xiàn)步驟
LoRA算法的優(yōu)化與調(diào)試
LoRA算法源碼解讀
指令數(shù)據(jù)的重要性與來(lái)源
自動(dòng)化和手動(dòng)搜集指令數(shù)據(jù)的方法
指令數(shù)據(jù)的預(yù)處理和標(biāo)準(zhǔn)化
生成高質(zhì)量指令數(shù)據(jù)的技巧
指令數(shù)據(jù)集的維護(hù)與更新
指令數(shù)據(jù)的人工質(zhì)量評(píng)估與自動(dòng)質(zhì)量評(píng)估
Alpaca微調(diào)項(xiàng)目的設(shè)計(jì)與目標(biāo)
準(zhǔn)備Alpaca微調(diào)所需的指令數(shù)據(jù)
實(shí)施Alpaca微調(diào)的詳細(xì)步驟
評(píng)估Alpaca微調(diào)效果的方法
分析與解決Alpaca微調(diào)中遇到的問(wèn)題
解讀Alpaca項(xiàng)目源碼
AdaLoRA與LoRa的比較
動(dòng)態(tài)改變矩陣權(quán)重的意義
SVD與AdaLoRA
訓(xùn)練AdaLoRA
AdaLoRA源碼解讀
AdaLoRA案例講解
Vicuna微調(diào)項(xiàng)目的背景與應(yīng)用場(chǎng)景
ShareGPT數(shù)據(jù)收集
Vicuna微調(diào)的實(shí)施流程和技術(shù)細(xì)節(jié)
Vicuna微調(diào)效果的評(píng)估與分析
基于Vicuna微調(diào)項(xiàng)目的經(jīng)驗(yàn)總結(jié)與展望
第三階段:大模型指令微調(diào)之- Quantization
Quantization在深度學(xué)習(xí)中的作用與原理
常見(jiàn)的Quantization技術(shù)及其分類(lèi)
模型Quantization對(duì)性能和精度的影響
Quantization的實(shí)踐步驟和工具
模型Quantization的挑戰(zhàn)與解決策略
QLoRA算法的定義和背景
QLoRA與LoRA的關(guān)鍵區(qū)別和改進(jìn)
QLoRA算法的詳細(xì)實(shí)現(xiàn)過(guò)程
4bit NormalFloat, double quantization
QLoRA算法的優(yōu)化和調(diào)試技巧
QLoRA源碼解讀
技術(shù)方案的設(shè)計(jì)
收集和預(yù)處理指令數(shù)據(jù)
基于PEFT進(jìn)行QLora大模型微調(diào)
評(píng)估QLoRA微調(diào)之后的效果
分析QLoRA微調(diào)過(guò)程中遇到的問(wèn)題及其解決方案
模型壓縮的必要性和技術(shù)背景
常見(jiàn)的模型壓縮方法概述
模型壓縮與Quantization的關(guān)系
實(shí)施模型壓縮的步驟和注意事項(xiàng)
模型壓縮技術(shù)的最新研究進(jìn)展
模型蒸餾的基本概念和工作原理
模型蒸餾在模型優(yōu)化中的應(yīng)用
不同蒸餾技術(shù)的比較和選擇
實(shí)施模型蒸餾的具體方法
模型蒸餾技術(shù)面臨的挑戰(zhàn)及其解決策略
ZeroQuant算法的基本原理和應(yīng)用背景
ZeroQuant在模型Quantization中的創(chuàng)新點(diǎn)
實(shí)現(xiàn)ZeroQuant的關(guān)鍵步驟和技術(shù)要求
ZeroQuant源碼解讀
ZeroQuant技術(shù)的局限性和未來(lái)方向
SmoothQuant算法的設(shè)計(jì)理念和核心技術(shù)
SmoothQuant與傳統(tǒng)Quantization方法的區(qū)別
實(shí)施SmoothQuant算法的具體流程
SmoothQuant源碼解讀
SmoothQuant面臨的技術(shù)挑戰(zhàn)和改進(jìn)路徑
RLHF的起源和背景
RLHF在人工智能中的作用和重要性
強(qiáng)化學(xué)習(xí)與人類(lèi)反饋:結(jié)合的優(yōu)勢(shì)
RLHF的主要應(yīng)用領(lǐng)域和案例研究
從InstructGPT到GPT4
人類(lèi)反饋在強(qiáng)化學(xué)習(xí)中的角色
不同形式的人類(lèi)反饋:標(biāo)注、偏好、指導(dǎo)
從人類(lèi)反饋中學(xué)習(xí):方法和策略
人類(lèi)反饋數(shù)據(jù)的收集和處理
人類(lèi)反饋強(qiáng)化學(xué)習(xí)的挑戰(zhàn)和解決方案
PPO的起源和動(dòng)機(jī)
PPO與其他策略梯度方法的對(duì)比
算法核心概念和原理
PPO的優(yōu)勢(shì)和局限性
PPO的應(yīng)用領(lǐng)域和案例
強(qiáng)化學(xué)習(xí)基本概念介紹
數(shù)據(jù)在強(qiáng)化學(xué)習(xí)中的作用和重要性
狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)的數(shù)據(jù)結(jié)構(gòu)
數(shù)據(jù)收集、處理和利用的方法
使用模擬環(huán)境進(jìn)行數(shù)據(jù)生成和測(cè)試
策略梯度方法簡(jiǎn)介
優(yōu)勢(shì)函數(shù)和回報(bào)
基線(xiàn)的概念和作用
累積回報(bào)與折扣回報(bào)
探索與利用的權(quán)衡
目標(biāo)函數(shù)和KL散度
裁剪目標(biāo)函數(shù)的原理
多次迭代優(yōu)化策略
廣義優(yōu)勢(shì)估計(jì)(GAE)
重要性采樣和策略更新
構(gòu)建神經(jīng)網(wǎng)絡(luò)模型
實(shí)現(xiàn)PPO的優(yōu)化循環(huán)
自適應(yīng)學(xué)習(xí)率調(diào)整
調(diào)試和性能分析技巧
評(píng)估對(duì)齊之后的大模型
PPO變體和改進(jìn)策略
處理高維輸入和模型泛化
多智能體環(huán)境中的PPO應(yīng)用
強(qiáng)化學(xué)習(xí)中的遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)
強(qiáng)化學(xué)習(xí)中的安全性和可解釋性
項(xiàng)目需求分析和技術(shù)方案設(shè)計(jì)
環(huán)境設(shè)置和任務(wù)定義
對(duì)齊數(shù)據(jù)的收集和預(yù)處理
實(shí)現(xiàn)PPO訓(xùn)練流程
結(jié)果分析和性能優(yōu)化
DPO(Direct Preference Optimization)介紹
與PPO算法對(duì)比
DPO的應(yīng)用場(chǎng)景和重要性
基本原理和工作機(jī)制
DPO算法的優(yōu)勢(shì)和挑戰(zhàn)
偏好與排序問(wèn)題在A(yíng)I中的角色
數(shù)據(jù)表示:成對(duì)比較和偏好矩陣
偏好學(xué)習(xí)的挑戰(zhàn)
排序和偏好預(yù)測(cè)的評(píng)估指標(biāo)
經(jīng)典偏好學(xué)習(xí)算法概覽
偏好建模的數(shù)學(xué)框架
直接與間接偏好優(yōu)化的對(duì)比
DPO中的關(guān)鍵算法組件
成對(duì)比較數(shù)據(jù)的處理方法
DPO的損失函數(shù)和優(yōu)化策略
數(shù)據(jù)整理與預(yù)處理
構(gòu)建偏好學(xué)習(xí)模型的步驟
使用Python實(shí)現(xiàn)基礎(chǔ)DPO模型
在benchmark上測(cè)試DPO性能
DPO的優(yōu)勢(shì)和缺點(diǎn)
推薦系統(tǒng)中的偏好學(xué)習(xí)
設(shè)計(jì)DPO驅(qū)動(dòng)的推薦算法
處理實(shí)時(shí)用戶(hù)反饋
實(shí)施DPO進(jìn)行推薦模型微調(diào)
評(píng)估推薦系統(tǒng)的性能
多任務(wù)學(xué)習(xí)與DPO的結(jié)合
DPO在非監(jiān)督學(xué)習(xí)中的應(yīng)用
深度學(xué)習(xí)方法與DPO
交互式偏好學(xué)習(xí)
DPO技術(shù)的變種
Prefix Tuning的基本原理
實(shí)現(xiàn)Prefix Tuning的關(guān)鍵步驟
Prefix Tuning源碼解讀
Prefix Tuning與其他微調(diào)方法的比較
在NLP任務(wù)中應(yīng)用Prefix Tuning的案例
Prefix Tuning的局限性和挑戰(zhàn)
Adaptor Tuning的基本原理
如何在大模型中插入Adaptor層
Adaptor Tuning的優(yōu)點(diǎn)和應(yīng)用場(chǎng)景
Adaptor Tuning源碼解讀
實(shí)際案例:Adaptor Tuning在分類(lèi)任務(wù)中的應(yīng)用
Adaptor Tuning的效率和擴(kuò)展性問(wèn)題
Flash Attention的設(shè)計(jì)思想和算法原理
優(yōu)化Transformer模型中的注意力機(jī)制
Flash Attention在提升處理速度和效率上的作用
應(yīng)用Flash Attention改進(jìn)大模型的案例分析
Flash Attention的實(shí)現(xiàn)挑戰(zhàn)和解決方案
介紹Flash Attention 2與前版本的區(qū)別
深入探討Flash Attention 2的技術(shù)改進(jìn)點(diǎn)
Flash Attention 2在復(fù)雜任務(wù)處理中的應(yīng)用示例
評(píng)估Flash Attention 2的性能和適用范圍
Flash Attention 2的實(shí)現(xiàn)細(xì)節(jié)和調(diào)優(yōu)建議
KTO算法背景和理論基礎(chǔ)
Kahneman-Tversky優(yōu)化在微調(diào)中的應(yīng)用
實(shí)施KTO的關(guān)鍵技術(shù)步驟
KTO在提高決策質(zhì)量中的角色
KTO應(yīng)用案例和性能分析
結(jié)合QLoRA和Flash Attention的微調(diào)策略
任務(wù)選取和數(shù)據(jù)準(zhǔn)備
微調(diào)流程詳解:從預(yù)處理到模型評(píng)估
分析微調(diào)后模型的性能改進(jìn)
面臨的挑戰(zhàn)及解決方案分享
增量學(xué)習(xí)(Continual learning)的重要性
與傳統(tǒng)從零訓(xùn)練的對(duì)比
增量學(xué)習(xí)的應(yīng)用場(chǎng)景
任務(wù)選取和數(shù)據(jù)準(zhǔn)備
微調(diào)流程詳解:從預(yù)處理到模型評(píng)估
什么是災(zāi)難性遺忘
解決災(zāi)難性遺忘的思路
正則化、動(dòng)態(tài)網(wǎng)絡(luò)架構(gòu)、元學(xué)習(xí)
通用數(shù)據(jù)與垂直數(shù)據(jù)的混合訓(xùn)練
數(shù)據(jù)中的信息分析
調(diào)整學(xué)習(xí)率
增量學(xué)習(xí)在大規(guī)模數(shù)據(jù)集上的應(yīng)用
多模態(tài)與跨領(lǐng)域增量學(xué)習(xí)
自適應(yīng)學(xué)習(xí)和在線(xiàn)學(xué)習(xí)技術(shù)
強(qiáng)化學(xué)習(xí)與增量學(xué)習(xí)的結(jié)合
未來(lái)增量學(xué)習(xí)的發(fā)展方向
|
|
|
|
|
|
|
|
|
|
|
|
課程PPT舉例
課程主講
-
清華大學(xué)計(jì)算機(jī)科學(xué)與人工智能研究部博士后 -
長(zhǎng)期在大廠(chǎng)從事對(duì)話(huà)系統(tǒng),預(yù)訓(xùn)練語(yǔ)言模型的研發(fā)和商業(yè)化 -
主要從事自然語(yǔ)言處理,對(duì)話(huà)領(lǐng)域的先行研究與商業(yè)化 -
先后在A(yíng)AAI,NeurIPS,ACM,EMNLP等國(guó)際頂會(huì)及期刊發(fā)表高水平論文十余篇
-
多家上市公司技術(shù)戰(zhàn)略顧問(wèn) -
曾任金融科技獨(dú)角獸公司首席科學(xué)家 -
曾任量化投資初創(chuàng)公司首席科學(xué)家 -
曾任美國(guó)亞馬遜推薦系統(tǒng)工程師 -
深耕人工智能領(lǐng)域十余年,授課培養(yǎng)AI學(xué)員數(shù)萬(wàn)人
報(bào)名咨詢(xún)
掃描二維碼,添加顧問(wèn)老師咨詢(xún)~
