欧美一级的视频勉费看,国产日批视频免费观看,欧美网站在线播放,尻屄在线观看,男人射美女,日韩欧美一区二区三区,亚洲成人色老头77777性爱网,国产三级片在线观看,免费乱伦AV

點擊上方“程序員大白”，選擇“星標”公眾號

重磅干貨，第一時間送達

轉(zhuǎn)自 | 機器之心

強化學習框架怎么選？不如自己定制一個。

強化學習（reinforcement learning，RL）是近年來最受關(guān)注的人工智能研究方向之一，在機器人、游戲等領(lǐng)域應(yīng)用甚廣。現(xiàn)有的強化學習框架往往無法支持高效、定制化的訓(xùn)練場景的問題。

近日，GitHub 上一個名為 JORLDY 的開源、可定制強化學習（RL）框架引發(fā)關(guān)注。

項目地址：https://github.com/kakaoenterprise/JORLDY

JORLDY 的主要優(yōu)點是提供多種分布式強化學習算法，并且易于定制。由于 JORLDY 目前還是 beta 版本，與現(xiàn)有框架相比存在一些不足。

開發(fā)團隊表示未來將繼續(xù)提高 JORLDY 的可用性。此外，他們還計劃添加新的強化學習環(huán)境和算法，例如基于模型的強化學習、多智能體強化學習和元強化學習。

該開源 RL 框架具有以下特性：

提供 20 + 種強化學習算法和多種強化學習環(huán)境；
算法和環(huán)境可定制；
可以添加新的算法和環(huán)境；
使用 ray 提供分布式 RL 算法；
算法的基準測試是在許多 RL 環(huán)境中進行的。

分布式架構(gòu)

為了實現(xiàn)分布式強化學習，該項目使用 ray（允許參與者并行交互）和多進程，支持單個參與者（actor）訓(xùn)練、同步分布式訓(xùn)練和異步分布式訓(xùn)練。

單個參與者訓(xùn)練

單個參與者訓(xùn)練腳本中包含主進程和管理進程。在主進程中，單個智能體與環(huán)境交互以收集轉(zhuǎn)移（transition）數(shù)據(jù)，并借助這些數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)。在管理進程中，使用最新的網(wǎng)絡(luò)進行評估得到一個分數(shù)，并在主進程中記錄這個分數(shù)和訓(xùn)練結(jié)果。訓(xùn)練流程如下圖所示：

同步分布式訓(xùn)練

同步分布式訓(xùn)練腳本和單個參與者訓(xùn)練腳本類似，也是包含主進程和管理進程。在主進程中，多個參與者同時并行交互以收集轉(zhuǎn)移數(shù)據(jù)，并借助這些數(shù)據(jù)訓(xùn)練模型。在管理進程中，用最新的模型進行評估得到一個分數(shù)，并在主進程中記錄這個分數(shù)和訓(xùn)練結(jié)果。訓(xùn)練流程如下圖所示：

異步分布式訓(xùn)練

異步分布式訓(xùn)練腳本中包含交互進程、主進程和管理進程。在交互進程中，多個參與者并行交互以收集轉(zhuǎn)移數(shù)據(jù)。與同步分布式訓(xùn)練腳本不同，每個參與者都是異步交互的。更具體地說，在異步分布式訓(xùn)練腳本中，參與者交互時，僅為在特定時間內(nèi)已完成的參與者傳輸數(shù)據(jù)。在主進程中借助轉(zhuǎn)移數(shù)據(jù)訓(xùn)練模型。在管理進程中使用最新的模型進行評估得到一個分數(shù)，并在主進程中記錄這個分數(shù)和訓(xùn)練結(jié)果。訓(xùn)練流程如下圖所示。

安裝與使用

安裝代碼如下：

git clone https://github.com/kakaoenterprise/JORLDY.git  cd JORLDYpip?install?-r?requirements.txt
# linuxapt-get update apt-get -y install libgl1-mesa-glx # for opencvapt-get -y install libglib2.0-0    # for opencvapt-get -y install gifsicle        # for gif optimize

使用以下代碼開始使用 JORLDY：

cd jorldy
# Examples: python [script name] --config [config path]python single_train.py --config config.dqn.cartpolepython single_train.py --config config.rainbow.atari --env.name assault
# Examples: python [script name] --config [config path] --[optional parameter key] [parameter value]python single_train.py --config config.dqn.cartpole --agent.batch_size 64python sync_distributed_train.py --config config.ppo.cartpole --train.num_workers 8

感興趣的小伙伴快去試試吧！

參考鏈接：

https://www.reddit.com/r/MachineLearning/comments/qp9bra/project_jorldy_opensource_reinforcement_learning/

推薦閱讀

13個你一定要知道的PyTorch特性

解讀：為什么要做特征歸一化/標準化？

一文搞懂 PyTorch 內(nèi)部機制

張一鳴：每個逆襲的年輕人，都具備的底層能力

關(guān)于程序員大白

程序員大白是一群哈工大，東北大學，西湖大學和上海交通大學的碩士博士運營維護的號，大家樂于分享高質(zhì)量文章，喜歡總結(jié)知識，歡迎關(guān)注[程序員大白]，大家一起學習進步！

可定制算法和環(huán)境，這個開源強化學習框架火了