<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          可定制算法和環(huán)境,這個開源強化學習框架火了

          共 2178字,需瀏覽 5分鐘

           ·

          2021-11-29 23:29

          點擊上方“程序員大白”,選擇“星標”公眾號

          重磅干貨,第一時間送達

          轉(zhuǎn)自 | 機器之心

          強化學習框架怎么選?不如自己定制一個。

          強化學習(reinforcement learning,RL)是近年來最受關(guān)注的人工智能研究方向之一,在機器人、游戲等領(lǐng)域應(yīng)用甚廣。現(xiàn)有的強化學習框架往往無法支持高效、定制化的訓(xùn)練場景的問題。

          近日,GitHub 上一個名為 JORLDY 的開源、可定制強化學習(RL)框架引發(fā)關(guān)注。


          項目地址:https://github.com/kakaoenterprise/JORLDY

          JORLDY 的主要優(yōu)點是提供多種分布式強化學習算法,并且易于定制。由于 JORLDY 目前還是 beta 版本,與現(xiàn)有框架相比存在一些不足。

          開發(fā)團隊表示未來將繼續(xù)提高 JORLDY 的可用性。此外,他們還計劃添加新的強化學習環(huán)境和算法,例如基于模型的強化學習、多智能體強化學習和元強化學習。

          該開源 RL 框架具有以下特性:

          • 提供 20 + 種強化學習算法和多種強化學習環(huán)境;

          • 算法和環(huán)境可定制;

          • 可以添加新的算法和環(huán)境;

          • 使用 ray 提供分布式 RL 算法;

          • 算法的基準測試是在許多 RL 環(huán)境中進行的。


          分布式架構(gòu)

          為了實現(xiàn)分布式強化學習,該項目使用 ray(允許參與者并行交互)和多進程,支持單個參與者(actor)訓(xùn)練、同步分布式訓(xùn)練和異步分布式訓(xùn)練。

          單個參與者訓(xùn)練

          單個參與者訓(xùn)練腳本中包含主進程和管理進程。在主進程中,單個智能體與環(huán)境交互以收集轉(zhuǎn)移(transition)數(shù)據(jù),并借助這些數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)。在管理進程中,使用最新的網(wǎng)絡(luò)進行評估得到一個分數(shù),并在主進程中記錄這個分數(shù)和訓(xùn)練結(jié)果。訓(xùn)練流程如下圖所示:


          同步分布式訓(xùn)練

          同步分布式訓(xùn)練腳本和單個參與者訓(xùn)練腳本類似,也是包含主進程和管理進程。在主進程中,多個參與者同時并行交互以收集轉(zhuǎn)移數(shù)據(jù),并借助這些數(shù)據(jù)訓(xùn)練模型。在管理進程中,用最新的模型進行評估得到一個分數(shù),并在主進程中記錄這個分數(shù)和訓(xùn)練結(jié)果。訓(xùn)練流程如下圖所示:


          異步分布式訓(xùn)練

          異步分布式訓(xùn)練腳本中包含交互進程、主進程和管理進程。在交互進程中,多個參與者并行交互以收集轉(zhuǎn)移數(shù)據(jù)。與同步分布式訓(xùn)練腳本不同,每個參與者都是異步交互的。更具體地說,在異步分布式訓(xùn)練腳本中,參與者交互時,僅為在特定時間內(nèi)已完成的參與者傳輸數(shù)據(jù)。在主進程中借助轉(zhuǎn)移數(shù)據(jù)訓(xùn)練模型。在管理進程中使用最新的模型進行評估得到一個分數(shù),并在主進程中記錄這個分數(shù)和訓(xùn)練結(jié)果。訓(xùn)練流程如下圖所示。


          安裝與使用


          安裝代碼如下:

          git clone https://github.com/kakaoenterprise/JORLDY.git  cd JORLDYpip?install?-r?requirements.txt
          # linuxapt-get update apt-get -y install libgl1-mesa-glx # for opencvapt-get -y install libglib2.0-0 # for opencvapt-get -y install gifsicle # for gif optimize

          使用以下代碼開始使用 JORLDY:

          cd jorldy
          # Examples: python [script name] --config [config path]python single_train.py --config config.dqn.cartpolepython single_train.py --config config.rainbow.atari --env.name assault
          # Examples: python [script name] --config [config path] --[optional parameter key] [parameter value]python single_train.py --config config.dqn.cartpole --agent.batch_size 64python sync_distributed_train.py --config config.ppo.cartpole --train.num_workers 8

          感興趣的小伙伴快去試試吧!

          參考鏈接:
          https://www.reddit.com/r/MachineLearning/comments/qp9bra/project_jorldy_opensource_reinforcement_learning/

          13個你一定要知道的PyTorch特性

          解讀:為什么要做特征歸一化/標準化?

          一文搞懂 PyTorch 內(nèi)部機制

          張一鳴:每個逆襲的年輕人,都具備的底層能力


          關(guān)


          西質(zhì)結(jié)關(guān)[]


          瀏覽 83
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久草中文大香蕉 | 俺也色俺也干 | 神马午夜福利视频 | 国产麻豆成人传媒免费观看 | 亚欧在线免费 |