強化學(xué)習(xí)/智能科學(xué)與技術(shù)叢書
本書共有19章,分為六大部分,詳細(xì)介紹了強化學(xué)習(xí)中各領(lǐng)域的基本理論和新進展,內(nèi)容包括:MDP、動態(tài)規(guī)劃、蒙特卡羅方法、批處理強化學(xué)習(xí)、TD學(xué)習(xí)、Q學(xué)習(xí)、策略迭代的小二乘法、遷移學(xué)習(xí)、貝葉斯強化學(xué)習(xí)、、一階邏輯MDP、層次式強化學(xué)習(xí)、演化計算、預(yù)測性定義狀態(tài)表示、去中心化的部分可觀察MDP、博弈論和多學(xué)習(xí)器強化學(xué)習(xí)等內(nèi)容,并闡述強化學(xué)習(xí)與心理和神經(jīng)科學(xué)、游戲領(lǐng)域、機器人領(lǐng)域的關(guān)系和應(yīng)用,后提出未來發(fā)展趨勢及研究熱點問題,有助于年輕的研究者了解整個強化學(xué)習(xí)領(lǐng)域,發(fā)現(xiàn)新的研究方向。本書適合作為高等院校機器學(xué)習(xí)相關(guān)課程的參考書,也可作為人工智能領(lǐng)域從業(yè)技術(shù)人員的參考用書。
馬可·威寧(Marco Wiering)在荷蘭格羅寧根大學(xué)人工智能系工作,他發(fā)表過各種強化學(xué)習(xí)主題的文章,研究領(lǐng)域包括強化學(xué)習(xí)、機器學(xué)習(xí)、深度學(xué)習(xí)、目標(biāo)識別、文本學(xué)習(xí),進化計算、機器人等。
馬丁·范·奧特羅(Martijn van Otterlo)是荷蘭奈梅亨大學(xué)認(rèn)知人工智能小組的一員。主要研究領(lǐng)域是強化學(xué)習(xí)在環(huán)境中的知識表示。
