<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          斯坦福新書《決策算法》發(fā)布,全文400多頁PDF免費下載!

          共 3149字,需瀏覽 7分鐘

           ·

          2021-02-02 17:08

          最近,斯坦福大學(xué)發(fā)布了一部新書:《決策算法》( Algorithms for Decision Making),該書主要由Mykel J.Kochenderfer教授編撰

          Mykel J.Kochenderfer教授帶領(lǐng)的斯坦福智能系統(tǒng)實驗室(SISL)實驗室,每年在計算機領(lǐng)域各大頂級會議和期刊上收獲頗豐,僅在2021年這一個月里,實驗室已經(jīng)有9篇論文于AAAI2021,AAMAS2021,AIAA Journal等頂級會議和期刊上發(fā)表。

          在這里簡單介紹下,斯坦福智能系統(tǒng)實驗室(SISL)的研究主要是關(guān)于用于設(shè)計魯棒決策系統(tǒng)的先進算法和分析方法。

          其中,實驗室特別感興趣的細分領(lǐng)域有:系統(tǒng)的空中交通管制,無人駕駛飛機和其他需要在不確定動態(tài)環(huán)境下,在保持安全和效率的同時,需要做決策的航空航天應(yīng)用。

          SISL主要集中在對高效的計算方法的研究上,重點關(guān)注如何從高維、概率的問題中推導(dǎo)出最優(yōu)的策略決策。

          圖:SISL成員合照

          這本新書《決策算法》主要介紹了在不確定情況下的最優(yōu)決策算法

          該書涵蓋了與決策相關(guān)的各種主題,介紹了問題中隱含的數(shù)學(xué)公式以及解決它們的算法。此外,本書中添加了許多舉例和練習(xí)題,來傳達各種方法下蘊含的直覺。

          此書是為高年級本科生和研究生以及專業(yè)人員準備的。要學(xué)習(xí)這本書的內(nèi)容,閱讀者需要有一定的數(shù)學(xué)功底,并接觸過多變量微積分,線性代數(shù),和概率的概念。

          這本教科書的基礎(chǔ)是算法,并都用Julia編程語言實現(xiàn)。除此之外,附錄中還提供了一些復(fù)習(xí)材料。

          從這本書受益最大的學(xué)科有數(shù)學(xué)、統(tǒng)計學(xué)、計算機科學(xué)、航空航天、電氣工程和運籌學(xué)。

          先對本書的部分章節(jié)進行詳解:

          第一章:概率推理

          主要講述了概率推理(Probabilistic Reasoning),主要包括以下小節(jié):

          • 表示(Representation)
          • 推理(Inference)
          • 參數(shù)學(xué)習(xí)(Parameter Learning)
          • 結(jié)構(gòu)學(xué)習(xí)(Structure Learning)
          • 簡單決策(Simple Decisions)

          從討論如何用概率分布表示不確定性開始,作者將討論如何構(gòu)建模型,如何使用模型進行推斷,以及如何從數(shù)據(jù)中學(xué)習(xí)模型的參數(shù)和結(jié)構(gòu)。

          之后,作者介紹了效用理論的基礎(chǔ),并展示了它是如何在不確定性下形成理性決策的。效用理論可以被納入概率圖形模型,形成所謂的決策網(wǎng)絡(luò)。該章節(jié)將重點放在單步?jīng)Q策上,對連續(xù)決策問題的討論將留到本書的下一部分。

          第二章:序列問題

          書的第二章主要講述了序列問題(Seqential Problems),主要包括以下小節(jié):

          • 確切解決方法(Exact Solution Methods)
          • 近似值函數(shù)(Approximate Value Functions)
          • 在線規(guī)劃(Online Planning)
          • 策略搜索(Policy Search)
          • 策略梯度估計(Policy Gradient Estimation)
          • 策略梯度優(yōu)化(Policy Gradient Optimization)
          • Actor-Critic算法(Actor-Critic Methods)
          • 策略驗證(Policy Validation)

          此前的章節(jié)都假設(shè)在某個時刻所需要做的是單一的決定,但許多重要的問題需要我們做出一系列的決定。

          在此情況下,最大期望效用原則仍然適用,但是在序列環(huán)境下的最優(yōu)決策需要對未來的序列操作和觀察進行推理。

          這本書的這一章節(jié)將討論隨機環(huán)境中的順序決策問題。作者將在模型已知和環(huán)境完全可觀察的假設(shè)下,關(guān)注順序決策問題的一般公式。在之后的章節(jié)中,作者將會放松這兩個假設(shè)。

          本章的討論將從引入序列決策問題的標準數(shù)學(xué)模型——馬爾可夫決策過程開始,主要討論了幾種求精確解的方法、離線和在線近似解決方法的集合,以及一種涉及直接搜索參數(shù)化決策策略空間的方法。

          第三章:模型不確定性

          主要講述了模型不確定性(Model Uncertainty),主要包括以下小節(jié):

          • 探索和利用(Exploration and Exploitation)
          • 基于模型的方法(Model-Based Methods)
          • 脫離模型的方法(Model-Free Methods)
          • 模仿學(xué)習(xí)(Imitation Learning)

          在討論順序決策問題時,本書假設(shè)轉(zhuǎn)移模型和報酬模型是已知的。然而,在許多問題中,這些模型并不是完全已知的,而且代理必須通過經(jīng)驗學(xué)會進一步的操作。

          通過觀察狀態(tài)轉(zhuǎn)換獎勵形式的行為結(jié)果,代理選擇能夠最大化其長期獎勵積累的行為,解決這種存在模型不確定性的問題是強化學(xué)習(xí)領(lǐng)域的主題,也是本書這一部分的重點。

          在該章中,作者討論了解決模型不確定性的幾個挑戰(zhàn):

          首先,代理必須謹慎地掌握探索環(huán)境和利用基于經(jīng)驗的知識的平衡。

          第二,獎勵可能是在重要決定做出很久之后才得到的,所以較晚的獎勵必須分配給較早的決定。

          第三,代理必須從有限的經(jīng)驗中進行概括。對此,作者回顧了解決這些挑戰(zhàn)的理論和一些關(guān)鍵的算法。

          第四章:狀態(tài)不確定性

          主要講述了狀態(tài)不確定性(State Uncertainty),主要包括以下小節(jié):

          • 信念(Beliefs)
          • 確切信念狀態(tài)規(guī)劃(Exact Belif State Planning)
          • 離線信念狀態(tài)規(guī)劃(Offline Belief State Planning)
          • 在線信念狀態(tài)規(guī)劃(Online Belif State Planning)
          • 控制器抽象(Controller Abstractions)

          前幾章包括了過渡函數(shù)中的不確定性,包括結(jié)果狀態(tài)和模型中的不確定性。在本章中,作者將不確定性擴展到狀態(tài)領(lǐng)域。

          第19章展示了如何根據(jù)過去的觀察和行動序列更新信念的分布。第20章概述了優(yōu)化策略的精確方法。

          第21章回顧了各種離線逼近方法,它們在處理更大的問題時比精確的方法有更好的伸縮性。

          第22章擴展了在線近似方法以適應(yīng)部分可觀測性。

          第23章介紹了有限狀態(tài)控制器,來表示優(yōu)化策略和方法。

          第五章:多代理系統(tǒng)

          主要講述了多代理系統(tǒng)(Multiagent Systems),主要包括以下小節(jié):

          • 多代理推理(Multiagent Reasoning)
          • 序列問題(Squential Problems)
          • 狀態(tài)不確定性(State Uncertainty)
          • 協(xié)作代理(Collaborative Agents)

          到目前為止,本書主要是從單個代理的角度來進行決策?,F(xiàn)在,討論的核心概念將會擴展到涉及多個代理的問題。

          在多代理系統(tǒng)中,我們可以將其他代理模擬為潛在的盟友或?qū)κ?,并隨著時間的推移相應(yīng)地進行調(diào)整。

          第24章介紹了博弈中的多代理推理,并概述了如何從簡單的交互作用中計算均衡。

          第25章討論了如何為隨著時間的推移而交互的多個主體設(shè)計算法,描述了偏向于理性適應(yīng)而非均衡收斂的學(xué)習(xí)算法。

          第26章表明,狀態(tài)不確定性顯著增加了問題的復(fù)雜性,并強調(diào)了這些領(lǐng)域的獨有的挑戰(zhàn)和困難。

          第27章重點介紹了協(xié)作代理的各種模型和算法。

          以上就是全書大概的介紹啦,感興趣的小伙伴可以下載全書哦

          獲取的方式很簡單,直接掃描下方公眾號回復(fù)關(guān)鍵字「決策算法」,即可獲取!

          長按下面的二維碼,關(guān)注公眾號“后端面試那些事

          回復(fù)?決策算法?四字自行領(lǐng)取吧

          往期推薦

          Spring中涉及的設(shè)計模式總結(jié)

          據(jù)說這套組合拳,可以把面試官給問懵逼了,你要不要試試?

          微信8.0之后,又悄悄上線新功能:別人“搶不到”的紅包!趕緊看看灰度到你了沒?

          我以為的周末 vs 實際上的周末

          蘋果開源代碼中驚現(xiàn)“wechat”,老外注釋的吐槽亮了!

          中國男人の數(shù)據(jù)大賞



          瀏覽 17
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  无码V∧| 超碰91在线 | 免费成年人视频 | 大香蕉论坛伊人在线网 | 能看的黄色视频 |