<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          PPO算法的一個(gè)簡(jiǎn)單實(shí)現(xiàn):對(duì)話機(jī)器人

          共 2218字,需瀏覽 5分鐘

           ·

          2023-07-27 10:39

          本文接前面文章:
          1. 入門強(qiáng)化學(xué)習(xí)所需掌握的基本概念
          2. MDP的前置知識(shí):隨機(jī)過(guò)程、馬爾可夫過(guò)程、馬爾可夫獎(jiǎng)勵(lì)
          3. 馬爾可夫決策過(guò)程(MDP):馬爾可夫獎(jiǎng)勵(lì)(MRP) + 智能體動(dòng)作因素

          4. 動(dòng)態(tài)規(guī)劃法--通過(guò)動(dòng)態(tài)規(guī)劃法求解最優(yōu)策略

          5. 蒙特卡洛法及時(shí)序差分法與DP、MC的區(qū)別

          6. RL的分類:基于模型(Value-base/Policy-based)與不基于模型

          7. TD(0)控制/Sarsa(0)算法與TD(n)控制/n步Sarsa算法

          8. Q-learning:重要性采樣及Sarsa算法與Q-learning更新規(guī)則的對(duì)比

          9. 什么是策略梯度和梯度計(jì)算/更新的流程

          10. 避免采樣的數(shù)據(jù)僅能用一次:重要性采樣(為采樣q解決p從而增加重要性權(quán)重)

          11. 引入優(yōu)勢(shì)演員-評(píng)論家算法(Advantage Actor-Criti):為避免獎(jiǎng)勵(lì)總為正增加基線

          12. 基于信任區(qū)域的TRPO:加進(jìn)KL散度解決兩個(gè)分布相差大或步長(zhǎng)難以確定的問(wèn)題

          13. 什么是近端策略優(yōu)化PPO與PPO-penaltyPPO算法的另一個(gè)變種

          14. PPO算法的另一個(gè)變種:近端策略優(yōu)化裁剪PPO-clip

          (接上文)

          上,PPO算法是一種具體的Actor-Critic算法實(shí)現(xiàn),比如在對(duì)話機(jī)器人中,輸入的prompt是state,輸出的response是action,想要得到的策略就是怎么從prompt生成action能夠得到最大的reward,也就是擬合人類的偏好。具體實(shí)現(xiàn)時(shí),可以按如下兩大步驟實(shí)現(xiàn)

          1、首先定義4個(gè)模型:Actor(action_logits)、SFT(sft_logits)、Critic(value)、RM「r(x, y)」,和kl_div、reward、優(yōu)勢(shì)函數(shù)adv
          從prompt庫(kù)中采樣出來(lái)的prompt在經(jīng)過(guò)SFT(微調(diào)過(guò)GPT3/GPT3.5的模型稱之為SFT)做generate得到一個(gè)response,這個(gè)『prompt + response』定義為sequence(這個(gè)采樣的過(guò)程是批量采樣進(jìn)行g(shù)enerate,得到一個(gè)sequence buffer),然后這個(gè)sequence buffer的內(nèi)容做batched之后輸入給4個(gè)模型做inference

          這4個(gè)模型分別為Actor、SFT、Critic、RM,其中:

          Actor和SFT都是175B的模型,且Actor參數(shù)由SFT初始化(SFT是baseline),Actor輸出action_logits,SFT輸出sft_logits
          sft_logits和action_logits做kl_div,為了約束actor模型的更新step不要偏離原始模型SFT太遠(yuǎn)
          Critic和RM是6B的模型,Critic參數(shù)由RM初始化
          Critic輸出標(biāo)量value,RM輸出標(biāo)量r(x, y),由r(x, y)和kl_div計(jì)算得到reward,reward和value計(jì)算得到adv
          2、其次,通過(guò)pg_loss和value_loss優(yōu)化迭代
          Actor的流程是取出sequence,然后inference生成新的logits,再和sequence對(duì)應(yīng)的之前的logits計(jì)算ratio,和adv計(jì)算出pg_loss,也就是actor的loss,然后反向傳播,優(yōu)化器迭代
          Critic的流程是取出sequence,然后inference得到新的value,和old_value做clip_value,再和reward計(jì)算value loss,然后反向傳播,優(yōu)化器迭代

          代碼實(shí)現(xiàn)需要的話可以私蘇蘇老師V:julyedukefu008

          ?

          好消息

          為助力更多小伙伴穩(wěn)贏下半年—轉(zhuǎn)型成功,升職加薪,七月在線機(jī)器學(xué)習(xí)集訓(xùn)營(yíng)、高級(jí)班限時(shí)五折起購(gòu)!加滿額贈(zèng)課+所有集訓(xùn)營(yíng)高級(jí)班課程一次報(bào)名,答疑服務(wù)三年

          學(xué)術(shù)/學(xué)業(yè)/職稱論文,申碩/申博,1V1輔導(dǎo)現(xiàn)在需求也越來(lái)越旺,如果你有論文需求,別猶豫,七月在線論文保發(fā);國(guó)內(nèi)外求職1V1輔導(dǎo)也如火如荼進(jìn)行中

          1. 有意找蘇蘇老師(VX:julyedukefu008 )或七月在線其他老師申請(qǐng)?jiān)嚶?了解課程

                  

            (掃碼聯(lián)系蘇蘇老師

            點(diǎn)擊閱讀原文了解更多

          瀏覽 410
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  我要操你国产传媒 | 中文字幕久久人妻无码精品蜜桃 | 伊人大香蕉伊人 | 天天操,夜夜操 | 亚洲在在线观看 |