CoachPython 強(qiáng)化學(xué)習(xí)研究框架
Coach 是 Intel Nervana 開源的一個(gè)強(qiáng)化學(xué)習(xí)研究框架,包含許多最先進(jìn)的算法的實(shí)現(xiàn)。該框架利用多核 CPU 處理能力,用于訓(xùn)練和評估增強(qiáng)學(xué)習(xí) Agent。Coach 包含一些領(lǐng)先的增強(qiáng)學(xué)習(xí)算法的多線程實(shí)現(xiàn),適用于各種游戲和機(jī)器人環(huán)境。
Coach 是一個(gè) Python 環(huán)境,有了 Coach,我們就有可能通過結(jié)合不同的模塊對智能體建模了,也能在不同的環(huán)境中訓(xùn)練智能體。可使用的環(huán)境,讓我們能在不同的實(shí)務(wù)領(lǐng)域測試智能體,比如機(jī)器人、自動(dòng)駕駛汽車、游戲等。Coach 能夠收集訓(xùn)練過程的統(tǒng)計(jì)數(shù)據(jù),并支持高級可視化技術(shù),從而 debug 訓(xùn)練的智能體。
Coach 有非常易于使用的 API,用于實(shí)驗(yàn)新的 RL 算法,并允許新環(huán)境的簡單集成來解答。 基本的 RL 組件(算法、環(huán)境、神經(jīng)網(wǎng)絡(luò)架構(gòu)、探索策略等)能很好的解耦,因此能無痛擴(kuò)展和重用現(xiàn)有的組件。
簡單示例:
python coach.py -p CartPole_DQN -r
評論
圖片
表情
