QLoRA量化 LLM 的高效微調(diào)
QLoRA 是華盛頓大學提出的一種有效的微調(diào)方法,可以減少內(nèi)存使用量,足以在單個 48GB GPU 上微調(diào) 65B 參數(shù)模型,同時保留完整的 16 位微調(diào)任務性能。QLoRA 通過凍結(jié)的 4 位量化預訓練語言模型將梯度反向傳播到低階適配器 (LoRA)。
項目團隊同時還發(fā)布了一個命名為 Guanaco(原駝)的大語言模型,在 Vicuna 基準測試中優(yōu)于所有以前公開發(fā)布的模型,達到 ChatGPT 性能水平的 99.3%,同時只需要在單個 GPU 上進行 24 小時的微調(diào)。
QLoRA 引入了許多創(chuàng)新來節(jié)省內(nèi)存而不犧牲性能:
- (a) 4 位 NormalFloat (NF4),一種新的數(shù)據(jù)類型,理論上是正態(tài)分布權(quán)重的最佳信息
- (b) 雙量化,通過量化量化常數(shù)來減少平均內(nèi)存占用,以及
- (c) 分頁優(yōu)化器來管理內(nèi)存峰值。使用 QLoRA 對 1,000 多個模型進行微調(diào),提供跨 8 個指令數(shù)據(jù)集、多種模型類型(LLaMA、T5)和無法通過常規(guī)微調(diào)運行的模型規(guī)模(例如 33B 和65B參數(shù)模型)。
結(jié)果表明,即使使用比以前的 SoTA 更小的模型,QLoRA 在小型高質(zhì)量數(shù)據(jù)集上進行微調(diào)也會產(chǎn)生最先進的結(jié)果。項目團隊提供了基于人類和 GPT-4 評估的聊天機器人性能的詳細分析,表明 GPT-4 評估是人類評估的廉價且合理的替代方案。此外,還發(fā)現(xiàn)當前的聊天機器人基準測試無法準確評估聊天機器人的性能水平。
所有模型和代碼已發(fā)布,包括用于 4 位訓練的 CUDA 內(nèi)核。
評論
圖片
表情
