XWorld強化學(xué)習(xí)的 C ++ / Python 模擬器程序包
XWorld 是一個用于強化學(xué)習(xí)的 C ++ / Python 模擬器程序包,該存儲庫包含了用于強化學(xué)習(xí)研究的模擬器集合。
下載安裝命令 ## CPU版本安裝命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/cpu paddlepaddle ## GPU版本安裝命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/gpu paddlepaddle-gpu
XWorld 具有 teacher 基礎(chǔ)架構(gòu),該基礎(chǔ)架構(gòu)被實現(xiàn)為多個有限狀態(tài)機(Finite State Machines,FSM)的調(diào)度程序。這樣的想法是,在給定環(huán)境的情況下,teacher 可以提出從任務(wù)集中抽樣(通過一些啟發(fā)式方法)的任務(wù)。制定為 FSM 的每個任務(wù)都有多個階段,teacher 在不同階段執(zhí)行不同的任務(wù)。從一個階段到另一個階段的過渡取決于環(huán)境狀態(tài),例如,代理處于空閑狀態(tài)還是它是否已實現(xiàn)目標(biāo)。每個階段都會返回幾件事,包括下一階段和 teacher 的動作。目前,該團(tuán)隊將語言(字符串)定義為 teacher 的唯一行為。但是,teacher 可以在每個階段更改環(huán)境(例如,添加/刪除對象,更改地圖大小等)。
上圖對架構(gòu)進(jìn)行了說明。其目的是讓用戶靈活地編寫簡單的 Python 腳本來配置環(huán)境映射和任務(wù)。
當(dāng)前,該 teacher 僅合并到 XWorld2D 和 XWorld3D 中。
要求
- 編譯器:GCC 4.8 或更高
- CMake:CMake 3.0 或以上
- Python:Python 2.7
依存關(guān)系
在構(gòu)建 XWorld 之前,必須安裝以下軟件。
Boost, Glog, GFlags, GTest 和 Python
在 Ubuntu 14.04 和 16.04 中,您可以執(zhí)行
sudo apt-get install libboost-all-dev libgflags-dev libgoogle-glog-dev libgtest-dev python-dev
評論
圖片
表情
