久9精品,色五月丁香影音先锋,91成人18,大香蕉中文在线,伊人成年网站综合网,av永久免费,丁香婷婷五月基地,亚洲精彩视频

Lora

轉(zhuǎn)自：機器之心

? 作者表示：在各種有效的 LLM 微調(diào)方法中，LoRA 仍然是他的首選。

LoRA（Low-Rank Adaptation）作為一種用于微調(diào) LLM（大語言模型）的流行技術(shù)，最初由來自微軟的研究人員在論文《 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 》中提出。不同于其他技術(shù)，LoRA 不是調(diào)整神經(jīng)網(wǎng)絡(luò)的所有參數(shù)，而是專注于更新一小部分低秩矩陣，從而大大減少了訓練模型所需的計算量。

由于 LoRA 的微調(diào)質(zhì)量與全模型微調(diào)相當，很多人將這種方法稱之為微調(diào)神器。自發(fā)布以來，相信很多人都對這項技術(shù)感到好奇，想要從頭開始編寫代碼從而更好的理解該研究。以前苦于沒有合適的文檔說明，現(xiàn)在，教程來了。

這篇教程的作者是知名機器學習與 AI 研究者 Sebastian Raschka，他表示在各種有效的 LLM 微調(diào)方法中，LoRA 仍然是自己的首選。為此，Sebastian 專門寫了一篇博客《Code LoRA From Scratch》，從頭開始構(gòu)建 LoRA，在他看來，這是一種很好的學習方法。

簡單來說，本文通過從頭編寫代碼的方式來介紹低秩自適應(yīng)（LoRA），實驗中 Sebastian 對 DistilBERT 模型進行了微調(diào)，并用于分類任務(wù)。

LoRA 與傳統(tǒng)微調(diào)方法的對比結(jié)果顯示，使用 LoRA 方法在測試準確率上達到了 92.39%，這與僅微調(diào)模型最后幾層相比（86.22% 的測試準確率）顯示了更好的性能。

Sebastian 是如何實現(xiàn)的，我們接著往下看。

從頭開始編寫 LoRA

用代碼的方式表述一個 LoRA 層是這樣的：

其中，in_dim 是想要使用 LoRA 修改的層的輸入維度，與此對應(yīng)的 out_dim 是層的輸出維度。代碼中還添加了一個超參數(shù)即縮放因子 alpha，alpha 值越高意味著對模型行為的調(diào)整越大，值越低則相反。此外，本文使用隨機分布中的較小值來初始化矩陣 A，并用零初始化矩陣 B。

值得一提的是，LoRA 發(fā)揮作用的地方通常是神經(jīng)網(wǎng)絡(luò)的線性（前饋）層。舉例來說，對于一個簡單的 PyTorch 模型或具有兩個線性層的模塊（例如，這可能是 Transformer 塊的前饋模塊），其前饋（forward）方法可以表述為：