貢獻(xiàn)者:Datawhale開(kāi)源項(xiàng)目組
作為人工智能里最受關(guān)注的領(lǐng)域之一,強(qiáng)化學(xué)習(xí)的熱度一直居高不下,但它的學(xué)習(xí)難度也同樣不低。
在學(xué)習(xí)強(qiáng)化學(xué)習(xí)的過(guò)程中,遇到了有無(wú)數(shù)資料卻難以入門(mén)的問(wèn)題,于是發(fā)起了Datawhale強(qiáng)化學(xué)習(xí)項(xiàng)目,希望自學(xué)的同時(shí)幫助更多學(xué)習(xí)者輕松入門(mén)。

"蘑菇書(shū)"萃取李宏毅的深度強(qiáng)化學(xué)習(xí)等經(jīng)典課程,結(jié)合學(xué)習(xí)者角度的理解與分析,發(fā)布9個(gè)月,就在GitHub獲得3.3k+Star和1w+下載,也有幸得到李宏毅、周博磊、李科澆等大咖老師的推薦。現(xiàn)在,在人民郵電出版社的支持下,終于發(fā)布了第一版紙質(zhì)書(shū)。
從李沐開(kāi)源的《動(dòng)手學(xué)深度學(xué)習(xí)》,邱錫鵬的《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》,再到Datawhale的《南瓜書(shū)》、《Easy RL:強(qiáng)化學(xué)習(xí)教程》出版,讓知識(shí)回歸大眾,讓大眾有機(jī)會(huì)和行業(yè)精英一樣為社會(huì)做出貢獻(xiàn),是Datawhale開(kāi)源內(nèi)容的探索性意義。
從開(kāi)源到出版,帶來(lái)的收入其實(shí)不高,但讓開(kāi)源貢獻(xiàn)者被大眾認(rèn)可是促使開(kāi)源良性循環(huán)的重要一環(huán),會(huì)促使國(guó)內(nèi)的開(kāi)源氛圍變好,讓更多人受益。
如果有意向參與開(kāi)源內(nèi)容建設(shè),可以文末閱讀原文加入我們:Datawhale團(tuán)隊(duì)第六期錄取名單。
這本書(shū)結(jié)合了強(qiáng)化學(xué)習(xí)領(lǐng)域公開(kāi)課的精華

來(lái)自中科院、清華、北大的三位發(fā)起者通過(guò)自學(xué)這3門(mén)公開(kāi)課,根據(jù)自身的理解整理優(yōu)化得來(lái)了《Easy RL:強(qiáng)化學(xué)習(xí)教程》,并且獲得了三位公開(kāi)課老師的支持。
這是一本完全根據(jù)學(xué)習(xí)經(jīng)歷編著而成的書(shū)
也就是說(shuō),這本書(shū)完全從讀者學(xué)習(xí)的角度出發(fā),既有學(xué)霸學(xué)長(zhǎng)在學(xué)習(xí)中的重點(diǎn)——3門(mén)公開(kāi)課的精華內(nèi)容,還有學(xué)霸凝練的精華和擴(kuò)展的內(nèi)容——作者們?cè)诖蟛糠终履┰O(shè)置了原創(chuàng)的關(guān)鍵詞、習(xí)題和面試題,并提供Python代碼實(shí)現(xiàn)。幫助初學(xué)者避“坑”,用輕松的步伐入門(mén)強(qiáng)化學(xué)習(xí)。其實(shí),每個(gè)人在學(xué)習(xí)一門(mén)新的課程時(shí),都會(huì)有自己獨(dú)特的經(jīng)驗(yàn)和方法,這種經(jīng)驗(yàn)和方法的共享非常難能可貴。
二、感謝老師們的鼓勵(lì)和支持
感謝李宏毅、周博磊、李科澆、汪軍、張偉楠、李升波、胡裕靖 7位強(qiáng)化學(xué)習(xí)領(lǐng)域大咖老師的親筆認(rèn)可和推薦。
在認(rèn)識(shí)本書(shū)編著者之前,我就已經(jīng)在網(wǎng)絡(luò)上注意到他們的教程“Easy-RL”,因?yàn)椤癊asy-RL”有部分內(nèi)容改編自我在臺(tái)灣大學(xué)開(kāi)授的“深度強(qiáng)化學(xué)習(xí)”上課視頻。當(dāng)?shù)谝淮慰吹健癊asy-RL”時(shí),我的第一個(gè)想法是:這群人把強(qiáng)化學(xué)習(xí)的知識(shí)整理得真好,不僅有理論說(shuō)明,還加上了程序?qū)嵗瑢W(xué)們以后可以直接讀這套教程,這樣我上課也就不用再講強(qiáng)化學(xué)習(xí)的部分了。很高興王琦、楊毅遠(yuǎn)、江季三位編著者能夠把“Easy-RL”以圖書(shū)的形式出版。
——李宏毅 臺(tái)灣大學(xué)副教授
很欣喜三位編著者能整合和升華我與另外兩位老師的強(qiáng)化學(xué)習(xí)公開(kāi)課資料,編著出這本實(shí)用的強(qiáng)化學(xué)習(xí)入門(mén)教程。這本教程專(zhuān)注于強(qiáng)化學(xué)習(xí)理論與實(shí)踐相結(jié)合,通過(guò)生動(dòng)的例子和動(dòng)手實(shí)踐幫助讀者深入理解各種算法。以強(qiáng)化學(xué)習(xí)為代表的機(jī)器智能決策是人工智能的重要方向之一,希望未來(lái)更多優(yōu)秀的同學(xué)可以通過(guò)這本教程和強(qiáng)化學(xué)習(xí)的公開(kāi)課,開(kāi)啟自己的研究之旅,實(shí)現(xiàn)類(lèi)似于A(yíng)lphaGo系列的開(kāi)創(chuàng)性工作。
——周博磊,加利福尼亞大學(xué)洛杉磯分校(UCLA)
助理教授
還記得我當(dāng)初自學(xué)強(qiáng)化學(xué)習(xí)的時(shí)候,中文資料少之又少,只能去啃國(guó)外的教材和論文;后來(lái)開(kāi)設(shè)“世界冠軍帶你從零實(shí)踐強(qiáng)化學(xué)習(xí)”這門(mén)公開(kāi)課,也是期望可以為強(qiáng)化學(xué)習(xí)中文社區(qū)添磚加瓦;所以很開(kāi)心國(guó)內(nèi)的學(xué)生能自發(fā)地形成這種公開(kāi)的、系統(tǒng)的強(qiáng)化學(xué)習(xí)中文入門(mén)課程筆記的整理、分享與社區(qū)討論的氛圍。看了“Easy-RL”倉(cāng)庫(kù)以及編著者發(fā)來(lái)的這本書(shū)第1章的內(nèi)容,我發(fā)現(xiàn)這本書(shū)不僅是一個(gè)筆記合集,編著者有重點(diǎn)地梳理了理論,并配備了難度適中的習(xí)題實(shí)踐和面試題供讀者參考。我相信這本書(shū)的出版對(duì)于剛接觸強(qiáng)化學(xué)習(xí)的學(xué)生,以及準(zhǔn)備轉(zhuǎn)行的在職人員都會(huì)有幫助。非常推薦強(qiáng)化學(xué)習(xí)初學(xué)者閱讀它。
——李科澆, 飛槳強(qiáng)化學(xué)習(xí)PARL團(tuán)隊(duì)核心成員
百度高級(jí)研發(fā)工程師
王琦、楊毅遠(yuǎn)和江季三位年輕作者,從自身學(xué)習(xí)和實(shí)踐的角度將他們對(duì)強(qiáng)化學(xué)習(xí)基礎(chǔ)內(nèi)容的理解加以匯總,并完善成一本初學(xué)者之間交流、互動(dòng)以及應(yīng)用強(qiáng)化學(xué)習(xí)的實(shí)戰(zhàn)圖書(shū)。三位年輕作者在開(kāi)源平臺(tái)中多次迭代內(nèi)容,和讀者共同建立起了一套化繁為簡(jiǎn)的、淺顯易懂的強(qiáng)化學(xué)習(xí)思維架構(gòu),這種做法很值得借鑒。目前,強(qiáng)化學(xué)習(xí)還處于高速發(fā)展期,正是年輕人施展拳腳的好賽道。這本書(shū)為強(qiáng)化學(xué)習(xí)的初學(xué)者和愛(ài)好者提供了一份難得的、可快速入門(mén)的學(xué)習(xí)和研究資料,相信讀者會(huì)從這本書(shū)中得到課堂之外、實(shí)用之內(nèi)和興趣之中的前沿學(xué)術(shù)成果的應(yīng)用知識(shí)。
——汪軍,倫敦大學(xué)學(xué)院(UCL)計(jì)算機(jī)科學(xué)系教授
近年來(lái),國(guó)內(nèi)的學(xué)習(xí)者對(duì)于強(qiáng)化學(xué)習(xí)的熱情日漸高漲,但是目前缺少一本適合初學(xué)者自學(xué)的書(shū)。這本書(shū)正好彌補(bǔ)了這一空白。由于三位編著者都是開(kāi)源社區(qū)Datawhale 的成員,在這本書(shū)開(kāi)源過(guò)程中得到了學(xué)習(xí)者的反饋,因此這本書(shū)更能從學(xué)習(xí)者的視角行文。全書(shū)以簡(jiǎn)潔的語(yǔ)言介紹強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)以及深度強(qiáng)化學(xué)習(xí)的內(nèi)容,讓初學(xué)者能夠以輕快的步伐入門(mén)強(qiáng)化學(xué)習(xí)。
——張偉楠,上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系
副教授、博士生導(dǎo)師
強(qiáng)化學(xué)習(xí)是人工智能的一個(gè)重要研究領(lǐng)域,具有潛在的巨大應(yīng)用價(jià)值。以 Al- phaZero 為代表的圍棋智能突破,也從側(cè)面證明了其解決復(fù)雜高維問(wèn)題的能力。然而強(qiáng)化學(xué)習(xí)的應(yīng)用尚處于起步階段,它既有理論學(xué)習(xí)的復(fù)雜度,又有工程實(shí)踐的挑戰(zhàn)性,導(dǎo)致初學(xué)者難以入門(mén),更難以深入。這本書(shū)以生動(dòng)形象的語(yǔ)言、深入淺出的邏輯,介紹了一系列基本的強(qiáng)化學(xué)習(xí)算法,并結(jié)合豐富有趣的經(jīng)典案例講解代碼實(shí)踐,為強(qiáng)化學(xué)習(xí)初學(xué)者提供了一套可快速上手的學(xué)習(xí)資料。
——李升波,清華大學(xué)車(chē)輛與運(yùn)載學(xué)院
長(zhǎng)聘教授、博士生導(dǎo)師
《Easy RL:強(qiáng)化學(xué)習(xí)教程》一書(shū)很好地整合了強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)、經(jīng)典算法、前沿方向和尖端技術(shù)解讀,填補(bǔ)了國(guó)內(nèi)在這方面的空白,完全可以作為中文強(qiáng)化學(xué)習(xí)教材。初學(xué)者通過(guò)閱讀這本書(shū)可以全方位地了解強(qiáng)化學(xué)習(xí),而強(qiáng)化學(xué)習(xí)研究者也可以從這本書(shū)中獲得靈感和新的收獲。三位編著者并沒(méi)有用艱深晦澀的語(yǔ)言去描述強(qiáng)化學(xué)習(xí),而是從自己的學(xué)習(xí)心得出發(fā),將自己的學(xué)習(xí)筆記凝結(jié)成這幾十萬(wàn)字的精華,娓娓道來(lái),讓人手不釋卷。整本書(shū)的章節(jié)安排非常合理,前后章節(jié)環(huán)環(huán)相扣,既包含初學(xué)者必須掌握的關(guān)鍵知識(shí)點(diǎn),也包含強(qiáng)化學(xué)習(xí)的前沿技術(shù)動(dòng)態(tài),展現(xiàn)出強(qiáng)化學(xué)習(xí)清晰的發(fā)展脈絡(luò)。感謝這本書(shū)的三位編著者奉獻(xiàn)出自己寶貴的學(xué)習(xí)經(jīng)驗(yàn)和知識(shí)結(jié)晶,相信未來(lái)會(huì)有很多優(yōu)秀的同學(xué)因?yàn)檫@本書(shū)投身于強(qiáng)化學(xué)習(xí)的研究熱潮中。
——胡裕靖,網(wǎng)易伏羲強(qiáng)化學(xué)習(xí)研究組負(fù)責(zé)人
三、給讀者的學(xué)習(xí)建議
首先,通過(guò)關(guān)鍵詞高效入門(mén)
為了盡可能地降低閱讀門(mén)檻,作者們?cè)凇澳⒐綍?shū)”中對(duì)3門(mén)公開(kāi)課的精華內(nèi)容進(jìn)行了選取和優(yōu)化,對(duì)所涉及的公式給出了詳細(xì)的推導(dǎo)過(guò)程,對(duì)較難理解的知識(shí)點(diǎn)進(jìn)行了重點(diǎn)講解和強(qiáng)化,以方便讀者輕松入門(mén)。并且,為了豐富內(nèi)容,書(shū)中還補(bǔ)充了不少3門(mén)公開(kāi)課之外的強(qiáng)化學(xué)習(xí)相關(guān)知識(shí)。
在學(xué)習(xí)過(guò)程中,可以通過(guò)書(shū)中總結(jié)的大量關(guān)鍵詞概念,高效地回憶并掌握核心內(nèi)容。
其次,可以作為面試前的準(zhǔn)備
書(shū)籍拓展了習(xí)題和面試題:習(xí)題部分以問(wèn)答的形式闡述了相應(yīng)章中出現(xiàn)的知識(shí)點(diǎn),幫助讀者厘清知識(shí)脈絡(luò);面試題部分的內(nèi)容源于大廠(chǎng)的算法崗面試真題,通過(guò)還原真實(shí)的面試場(chǎng)景和面試問(wèn)題,幫助讀者開(kāi)闊思路,助力大家面試?yán)硐氲膷徫弧?/p>

▲題目配有答案詳解
最后,通過(guò)代碼實(shí)戰(zhàn)深入理解
強(qiáng)化學(xué)習(xí)是一個(gè)理論與實(shí)踐相結(jié)合的學(xué)科,我們不僅要理解算法背后的原理,還要通過(guò)上機(jī)實(shí)踐來(lái)實(shí)現(xiàn)算法,讓理論知識(shí)得到實(shí)際的應(yīng)用。
書(shū)籍配有Python代碼實(shí)現(xiàn)源代碼,大家可以親自動(dòng)手實(shí)現(xiàn)各種經(jīng)典的強(qiáng)化學(xué)習(xí)算法,通過(guò)實(shí)戰(zhàn)更清晰地理解算法并快速應(yīng)用。
目前是首批發(fā)行,以最低 6.9折 優(yōu)惠購(gòu)買(mǎi),附優(yōu)惠購(gòu)買(mǎi)的海報(bào)。
最后,為了感謝各位讀者的一直以來(lái)的支持,在Datawhale送出5本《Easy RL:強(qiáng)化學(xué)習(xí)教程》,依然是老規(guī)矩:評(píng)論區(qū)留言并點(diǎn)贊數(shù)前五的讀者將直接送書(shū)。