女人18毛片水多毛片久久1,一级黄色电影在线观看,黄色一级电影免费,第九色伊人,欧美中文字幕在线播放,JIZZ丝袜壮感的18老师不卡,素人超碰11,污污污在线观看网站一区二区

TRL使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練語(yǔ)言模型

聯(lián)合創(chuàng)作 · 2023-09-26 00:02

TRL (Transformer Reinforcement Learning) 是 Hugging Face 推出的一個(gè)具有強(qiáng)化學(xué)習(xí)功能的全棧 Transformer 語(yǔ)言模型。

TRL 是一個(gè)完整的堆棧庫(kù)，Hugging Face 提供了一組工具來(lái)通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練 Transformer 語(yǔ)言模型，從監(jiān)督微調(diào)步驟 (SFT)、獎(jiǎng)勵(lì)建模步驟 (RM) 到近端策略優(yōu)化 (PPO) 步驟。該庫(kù)是建立在Hugging Face 的transformers庫(kù)之上。因此，預(yù)訓(xùn)練的語(yǔ)言模型可以通過(guò)transformers直接加載。目前支持大多數(shù)解碼器架構(gòu)和編碼器-解碼器架構(gòu)。

Highlights：

SFTTrainer：transformersTrainer 的輕量且友好的包裝器，可輕松微調(diào)自定義數(shù)據(jù)集上的語(yǔ)言模型或適配器。
RewardTrainer：transformersTrainer 的輕量級(jí)包裝，可根據(jù)人類偏好輕松調(diào)整語(yǔ)言模型（獎(jiǎng)勵(lì)建模）。
PPOTrainer：語(yǔ)言模型的 PPO 訓(xùn)練器，只需要（查詢、響應(yīng)、獎(jiǎng)勵(lì)）三元組來(lái)優(yōu)化語(yǔ)言模型。
AutoModelForCausalLMWithValueHead& AutoModelForSeq2SeqLMWithValueHead：一個(gè) transformer 模型，每個(gè)標(biāo)記都有一個(gè)額外的標(biāo)量輸出，可以用作強(qiáng)化學(xué)習(xí)中的值函數(shù)。
示例：訓(xùn)練 GPT2 使用 BERT 情感分類器生成積極的電影評(píng)論、僅使用適配器的完整 RLHF、訓(xùn)練 GPT-j 以降低毒性、Stack-Llama 示例等。

點(diǎn)贊

評(píng)論

編輯分享

舉報(bào)