深度學(xué)習(xí)的發(fā)展方向: 深度強(qiáng)化學(xué)習(xí)!
每日干貨?&?每月組隊(duì)學(xué)習(xí),不錯(cuò)過
作者:莫凡&馬晶敏,上海交通大學(xué),Datawhale成員
一、深度學(xué)習(xí)的反思
二、強(qiáng)化學(xué)習(xí)原理

2.3 深入淺出強(qiáng)化學(xué)習(xí)

掌握了狀態(tài)信息,游戲里的馬里奧開始躍躍欲試,準(zhǔn)備做出反應(yīng)了。強(qiáng)化學(xué)習(xí)也一樣,我們將s(t)作為智能體的輸入,智能體會(huì)略加思索,接著就能做出“動(dòng)作”。這里的動(dòng)作,就是前面介紹的第四個(gè)重要概念。智能體能做出哪些動(dòng)作呢?這和具體的場(chǎng)景有關(guān),譬如在馬里奧游戲中,動(dòng)作就是指“頂蘑菇”或者“踩烏龜”,一般記為a(t)。
2.4?強(qiáng)化學(xué)習(xí)方向分類
當(dāng)然,除了這兩大方向,強(qiáng)化學(xué)習(xí)還有其它的腦洞方向,譬如基于模型(Model-Based)的強(qiáng)化學(xué)習(xí),不過由于成本和難度較高,用得比較少。而這兩大方向都各自包含了大量的具體實(shí)現(xiàn)算法,即使方向相同,各個(gè)算法在細(xì)節(jié)上仍然有很大差異。
三、深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合
本文參考北京理工大學(xué)劉馳教授的《深度強(qiáng)化學(xué)習(xí):學(xué)術(shù)前沿與實(shí)戰(zhàn)應(yīng)用》,本書詳解了深度強(qiáng)化學(xué)習(xí)領(lǐng)域近年來重要進(jìn)展及其典型應(yīng)用場(chǎng)景,涵蓋新的理論算法、工程實(shí)現(xiàn)和領(lǐng)域應(yīng)用。緊跟學(xué)術(shù)前沿,聯(lián)合工程實(shí)踐,值得學(xué)習(xí)。
“整理不易,點(diǎn)贊三連↓
