一级黄色操逼视频,JUY-579被丈夫的上司侵犯后的第7天,我,中国一级黄色电影网,午夜精品电影,www.日韩美av,亚洲成人无码高清在线,欧美大骚逼,精品韩国一区二区三区

本文接前面文章：

入門強(qiáng)化學(xué)習(xí)所需掌握的基本概念
MDP的前置知識(shí)：隨機(jī)過(guò)程、馬爾可夫過(guò)程、馬爾可夫獎(jiǎng)勵(lì)
馬爾可夫決策過(guò)程(MDP)：馬爾可夫獎(jiǎng)勵(lì)(MRP) + 智能體動(dòng)作因素
動(dòng)態(tài)規(guī)劃法--通過(guò)動(dòng)態(tài)規(guī)劃法求解最優(yōu)策略
蒙特卡洛法及時(shí)序差分法與DP、MC的區(qū)別
RL的分類：基于模型(Value-base/Policy-based)與不基于模型
TD(0)控制/Sarsa(0)算法與TD(n)控制/n步Sarsa算法
Q-learning：重要性采樣及Sarsa算法與Q-learning更新規(guī)則的對(duì)比
什么是策略梯度和梯度計(jì)算/更新的流程
避免采樣的數(shù)據(jù)僅能用一次：重要性采樣(為采樣q解決p從而增加重要性權(quán)重)
引入優(yōu)勢(shì)演員-評(píng)論家算法(Advantage Actor-Criti)：為避免獎(jiǎng)勵(lì)總為正增加基線
基于信任區(qū)域的TRPO：加進(jìn)KL散度解決兩個(gè)分布相差大或步長(zhǎng)難以確定的問(wèn)題
什么是近端策略優(yōu)化PPO與PPO-penaltyPPO算法的另一個(gè)變種
PPO算法的另一個(gè)變種：近端策略優(yōu)化裁剪PPO-clip

（接上文）

綜上，PPO算法是一種具體的Actor-Critic算法實(shí)現(xiàn)，比如在對(duì)話機(jī)器人中，輸入的prompt是state，輸出的response是action，想要得到的策略就是怎么從prompt生成action能夠得到最大的reward，也就是擬合人類的偏好。具體實(shí)現(xiàn)時(shí)，可以按如下兩大步驟實(shí)現(xiàn)

1、首先定義4個(gè)模型：Actor(action_logits)、SFT(sft_logits)、Critic(value)、RM「r(x, y)」，和kl_div、reward、優(yōu)勢(shì)函數(shù)adv

從prompt庫(kù)中采樣出來(lái)的prompt在經(jīng)過(guò)SFT(微調(diào)過(guò)GPT3/GPT3.5的模型稱之為SFT)做generate得到一個(gè)response，這個(gè)『prompt + response』定義為sequence(這個(gè)采樣的過(guò)程是批量采樣進(jìn)行g(shù)enerate，得到一個(gè)sequence buffer)，然后這個(gè)sequence buffer的內(nèi)容做batched之后輸入給4個(gè)模型做inference

這4個(gè)模型分別為Actor、SFT、Critic、RM，其中：

Actor和SFT都是175B的模型，且Actor參數(shù)由SFT初始化(SFT是baseline)，Actor輸出action_logits，SFT輸出sft_logits

sft_logits和action_logits做kl_div，為了約束actor模型的更新step不要偏離原始模型SFT太遠(yuǎn)

Critic和RM是6B的模型，Critic參數(shù)由RM初始化

Critic輸出標(biāo)量value，RM輸出標(biāo)量r(x, y)，由r(x, y)和kl_div計(jì)算得到reward，reward和value計(jì)算得到adv

2、其次，通過(guò)pg_loss和value_loss優(yōu)化迭代

Actor的流程是取出sequence，然后inference生成新的logits，再和sequence對(duì)應(yīng)的之前的logits計(jì)算ratio，和adv計(jì)算出pg_loss，也就是actor的loss，然后反向傳播，優(yōu)化器迭代

Critic的流程是取出sequence，然后inference得到新的value，和old_value做clip_value，再和reward計(jì)算value loss，然后反向傳播，優(yōu)化器迭代

代碼實(shí)現(xiàn)需要的話可以私蘇蘇老師V：julyedukefu008

好消息

為助力更多小伙伴穩(wěn)贏下半年—轉(zhuǎn)型成功，升職加薪，七月在線機(jī)器學(xué)習(xí)集訓(xùn)營(yíng)、高級(jí)班限時(shí)五折起購(gòu)！加滿額贈(zèng)課+所有集訓(xùn)營(yíng)高級(jí)班課程一次報(bào)名，答疑服務(wù)三年

學(xué)術(shù)/學(xué)業(yè)/職稱論文，申碩/申博，1V1輔導(dǎo)現(xiàn)在需求也越來(lái)越旺，如果你有論文需求，別猶豫，七月在線論文保發(fā)；國(guó)內(nèi)外求職1V1輔導(dǎo)也如火如荼進(jìn)行中

有意找蘇蘇老師（VX：julyedukefu008 ）或七月在線其他老師申請(qǐng)?jiān)嚶?了解課程
```
      
```
```
（掃碼聯(lián)系蘇蘇老師）
```
點(diǎn)擊“閱讀原文”了解更多

PPO算法的一個(gè)簡(jiǎn)單實(shí)現(xiàn)：對(duì)話機(jī)器人