<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          TRL使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練語(yǔ)言模型

          聯(lián)合創(chuàng)作 · 2023-09-26 00:02

          TRL (Transformer Reinforcement Learning) 是 Hugging Face 推出的一個(gè)具有強(qiáng)化學(xué)習(xí)功能的全棧 Transformer 語(yǔ)言模型。

          TRL 是一個(gè)完整的堆棧庫(kù),Hugging Face 提供了一組工具來(lái)通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練 Transformer 語(yǔ)言模型,從監(jiān)督微調(diào)步驟 (SFT)、獎(jiǎng)勵(lì)建模步驟 (RM) 到近端策略優(yōu)化 (PPO) 步驟。該庫(kù)是建立在Hugging Face 的transformers庫(kù)之上。因此,預(yù)訓(xùn)練的語(yǔ)言模型可以通過(guò)transformers直接加載。目前支持大多數(shù)解碼器架構(gòu)和編碼器-解碼器架構(gòu)。

          Highlights:

          • SFTTrainertransformersTrainer 的輕量且友好的包裝器,可輕松微調(diào)自定義數(shù)據(jù)集上的語(yǔ)言模型或適配器。
          • RewardTrainertransformersTrainer 的輕量級(jí)包裝,可根據(jù)人類偏好輕松調(diào)整語(yǔ)言模型(獎(jiǎng)勵(lì)建模)。
          • PPOTrainer:語(yǔ)言模型的 PPO 訓(xùn)練器,只需要(查詢、響應(yīng)、獎(jiǎng)勵(lì))三元組來(lái)優(yōu)化語(yǔ)言模型。
          • AutoModelForCausalLMWithValueHeadAutoModelForSeq2SeqLMWithValueHead:一個(gè) transformer 模型,每個(gè)標(biāo)記都有一個(gè)額外的標(biāo)量輸出,可以用作強(qiáng)化學(xué)習(xí)中的值函數(shù)。
          • 示例:訓(xùn)練 GPT2 使用 BERT 情感分類器生成積極的電影評(píng)論、僅使用適配器的完整 RLHF、訓(xùn)練 GPT-j 以降低毒性、Stack-Llama 示例等。

           

          瀏覽 45
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  九一精品福利 | 亚洲一区二区在线免费观看 | 成人在线一级片电影视频 | 人人做人人爱,人人操 | 777视频在线观看 |