強(qiáng)化學(xué)習(xí):原理與Python實(shí)現(xiàn)
本書理論完備,涵蓋主流經(jīng)典強(qiáng)化學(xué)習(xí)算法和深度強(qiáng)化學(xué)習(xí)算法;實(shí)戰(zhàn)性強(qiáng),基于Python、Gym、TensorFlow 2、AlphaZero等構(gòu)建,配套代碼與綜合案例。全書共12章,主要內(nèi)容如下。
第1章:介紹強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)與強(qiáng)化學(xué)習(xí)環(huán)境庫Gym的使用,并給出完整的編程實(shí)例。
第2~9章:介紹強(qiáng)化學(xué)習(xí)的理論知識(shí)。以Markov決策過程為基礎(chǔ)模型,覆蓋了所有主流強(qiáng)化學(xué)習(xí)理論和算法,包括資格跡等經(jīng)典算法和深度確定性梯度策略等深度強(qiáng)化學(xué)習(xí)算法。所有章節(jié)都提供了與算法配套的Python程序,使讀者完全掌握強(qiáng)化學(xué)習(xí)算法的原理與應(yīng)用。
第10~12章:介紹了多個(gè)熱門綜合案例,包括電動(dòng)游戲、棋盤游戲和自動(dòng)駕駛。算法部分涵蓋了在《自然》《科學(xué)》等權(quán)威期刊上發(fā)表的多個(gè)深度強(qiáng)化學(xué)習(xí)明星算法。
肖智清
強(qiáng)化學(xué)習(xí)一線研發(fā)人員,清華大學(xué)工學(xué)博士,現(xiàn)就職于全球知名投資銀行。擅長(zhǎng)概率統(tǒng)計(jì)和機(jī)器學(xué)習(xí),近5年發(fā)表SCI/EI論文十余篇,是多個(gè)頂級(jí)期刊和會(huì)議審稿人。在國(guó)內(nèi)外多項(xiàng)程序設(shè)計(jì)和數(shù)據(jù)科學(xué)競(jìng)賽上獲得冠軍。
