TRL使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練語(yǔ)言模型
TRL (Transformer Reinforcement Learning) 是 Hugging Face 推出的一個(gè)具有強(qiáng)化學(xué)習(xí)功能的全棧 Transformer 語(yǔ)言模型。
TRL 是一個(gè)完整的堆棧庫(kù),Hugging Face 提供了一組工具來(lái)通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練 Transformer 語(yǔ)言模型,從監(jiān)督微調(diào)步驟 (SFT)、獎(jiǎng)勵(lì)建模步驟 (RM) 到近端策略優(yōu)化 (PPO) 步驟。該庫(kù)是建立在Hugging Face 的transformers庫(kù)之上。因此,預(yù)訓(xùn)練的語(yǔ)言模型可以通過(guò)transformers直接加載。目前支持大多數(shù)解碼器架構(gòu)和編碼器-解碼器架構(gòu)。
Highlights:
-
SFTTrainer:transformersTrainer 的輕量且友好的包裝器,可輕松微調(diào)自定義數(shù)據(jù)集上的語(yǔ)言模型或適配器。 -
RewardTrainer:transformersTrainer 的輕量級(jí)包裝,可根據(jù)人類偏好輕松調(diào)整語(yǔ)言模型(獎(jiǎng)勵(lì)建模)。 -
PPOTrainer:語(yǔ)言模型的 PPO 訓(xùn)練器,只需要(查詢、響應(yīng)、獎(jiǎng)勵(lì))三元組來(lái)優(yōu)化語(yǔ)言模型。 -
AutoModelForCausalLMWithValueHead&AutoModelForSeq2SeqLMWithValueHead:一個(gè) transformer 模型,每個(gè)標(biāo)記都有一個(gè)額外的標(biāo)量輸出,可以用作強(qiáng)化學(xué)習(xí)中的值函數(shù)。 - 示例:訓(xùn)練 GPT2 使用 BERT 情感分類器生成積極的電影評(píng)論、僅使用適配器的完整 RLHF、訓(xùn)練 GPT-j 以降低毒性、Stack-Llama 示例等。
評(píng)論
圖片
表情
