<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          強化學(xué)習(xí)常用算法+實際應(yīng)用 ,必須get這些核心要點!

          共 2527字,需瀏覽 6分鐘

           ·

          2022-06-24 10:57


          點擊上方小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時間送達


          【導(dǎo)讀】強化學(xué)習(xí)(RL)是現(xiàn)代人工智能領(lǐng)域中最熱門的研究主題之一,其普及度還在不斷增長。本文介紹了開始學(xué)習(xí)RL需要了解的核心要素。戳右邊鏈接上  了解更多!

          強化學(xué)習(xí)是現(xiàn)代人工智能領(lǐng)域中最熱門的研究主題之一,其普及度還在不斷增長。 



          強化學(xué)習(xí)是什么?和其他機器學(xué)習(xí)技術(shù)有何區(qū)別?
          強化學(xué)習(xí)是一種機器學(xué)習(xí)技術(shù),它使代理能夠使用自身行為和經(jīng)驗的反饋通過反復(fù)試驗在交互式環(huán)境中學(xué)習(xí)。

          盡管監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)都使用輸入和輸出之間的映射,但監(jiān)督學(xué)習(xí)提供給智能體的反饋是執(zhí)行任務(wù)的正確動作集,而強化學(xué)習(xí)則將獎懲作為正面和負(fù)面行為的信號。 

          無監(jiān)督學(xué)習(xí)在目標(biāo)方面有所不同。無監(jiān)督學(xué)習(xí)的目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)點之間的相似點和差異,而在強化學(xué)習(xí)的情況下,目標(biāo)是找到合適的行為模型,以最大化智能體的總累積獎勵。 

          下圖說明了通用強化學(xué)習(xí)模型的動作獎勵反饋回路。


          如何制定基本的強化學(xué)習(xí)問題?


          一些描述強化學(xué)習(xí)問題基本要素的關(guān)鍵術(shù)語是:

          • 環(huán)境-智能體在其中運行的物理狀態(tài)

          • 狀態(tài)-智能體的當(dāng)前狀況

          • 獎勵-來自環(huán)境的反饋

          • 策略-映射智能體狀態(tài)到動作的方法

          • 值-智能體在特定狀態(tài)下采取的行動將獲得的未來獎勵


          強化學(xué)習(xí)問題可以通過游戲來最好地解釋。讓我們以吃豆人游戲為例,智能體(PacMan)的目標(biāo)是在網(wǎng)格中吃掉食物,同時避開途中出現(xiàn)的鬼魂。 

          在這種情況下,網(wǎng)格世界是智能體所作用的交互式環(huán)境。智能體成功遲到豆豆會得到獎勵,如果智能體被幽靈殺死(輸?shù)袅擞螒颍﹦t會被懲罰。 

          狀態(tài)值得是智能體在網(wǎng)格世界中的位置,總累積獎勵是贏得比賽。



          為了建立最優(yōu)政策,智能體面臨探索新狀態(tài)的困境,同時又要使其整體收益最大化,這稱為“探索與開發(fā)”的權(quán)衡。

          為了平衡兩者,最佳的整體策略可能涉及短期犧牲。因此,智能體應(yīng)該收集足夠的信息,以便將來做出最佳的總體決策。

          馬爾可夫決策過程(MDP)是描述強化學(xué)習(xí)環(huán)境的數(shù)學(xué)框架,幾乎所有強化學(xué)習(xí)問題都可以使用MDP來表述。

          一個MDP由一組有限的環(huán)境狀態(tài)S,在每種狀態(tài)下的一組可能的動作A,一個實值獎勵函數(shù)R和一個過渡模型P(s’,s | a)組成。

          但是,現(xiàn)實環(huán)境更可能缺少任何有關(guān)環(huán)境動力學(xué)的先驗知識。在這種情況下,無模型強化學(xué)習(xí)方法非常有用。

          Q學(xué)習(xí)是一種常用的無模型方法,可用于構(gòu)建自己玩的PacMan智能體。它圍繞更新Q值的概念展開,Q值表示在狀態(tài)s中執(zhí)行動作a的值。以下值更新規(guī)則是Q學(xué)習(xí)算法的核心。



          什么是最常用的強化學(xué)習(xí)算法?

           

          Q學(xué)習(xí)和SARSA(狀態(tài)-行動-獎勵-狀態(tài)-行動)是兩種常用的無模型強化學(xué)習(xí)算法。它們的勘探策略不同,而利用策略卻相似。 

          Q-學(xué)習(xí)是強化學(xué)習(xí)的一種方法。Q-學(xué)習(xí)就是要記錄下學(xué)習(xí)過的政策,因而告訴智能體什么情況下采取什么行動會有最大的獎勵值。Q-學(xué)習(xí)不需要對環(huán)境進行建模,即使是對帶有隨機因素的轉(zhuǎn)移函數(shù)或者獎勵函數(shù)也不需要進行特別的改動就可以進行。

          對于任何有限的馬可夫決策過程(FMDP),Q-學(xué)習(xí)可以找到一個可以最大化所有步驟的獎勵期望的策略,在給定一個部分隨機的策略和無限的探索時間,Q-學(xué)習(xí)可以給出一個最佳的動作選擇策略?!癚”這個字母在強化學(xué)習(xí)中表示一個動作的品質(zhì)(quality)。

          而SARSA是一種策略上方法,在其中根據(jù)其當(dāng)前操作a得出的值來學(xué)習(xí)值。這兩種方法易于實現(xiàn),但缺乏通用性,因為它們無法估計未知狀態(tài)的值,這可以通過更高級的算法來克服,例如使用神經(jīng)網(wǎng)絡(luò)來估計Q值的Deep Q-Networks(DQNs)。但是DQN只能處理離散的低維操作空間。

          深度確定性策略梯度(DDPG)是一種無模型,脫離策略,actor-critic的算法,它通過在高維連續(xù)操作空間中學(xué)習(xí)策略來解決此問題。下圖是actor-critic體系結(jié)構(gòu)的表示。



          強化學(xué)習(xí)的實際應(yīng)用是什么?
          由于強化學(xué)習(xí)需要大量數(shù)據(jù),因此它最適用于容易獲得模擬數(shù)據(jù)的領(lǐng)域,例如游戲性,機器人技術(shù)。

          強化學(xué)習(xí)被廣泛用于構(gòu)建用于玩計算機游戲的AI。AlphaGo Zero是第一個在古代中國的圍棋游戲中擊敗世界冠軍的計算機程序。其他包括ATARI游戲,西洋雙陸棋等。在機器人技術(shù)和工業(yè)自動化中,強化學(xué)習(xí)用于使機器人自己創(chuàng)建有效的自適應(yīng)控制系統(tǒng),該系統(tǒng)從自身的經(jīng)驗和行為中學(xué)習(xí)。 DeepMind在“通過異步策略更新進行機器人操縱的深度強化學(xué)習(xí)”方面的工作就是一個很好的例子。

          強化學(xué)習(xí)的其他應(yīng)用包括抽象文本摘要引擎,可以從用戶交互中學(xué)習(xí)并隨時間改進的對話智能體(文本,語音),學(xué)習(xí)醫(yī)療保健中的最佳治療策略以及用于在線股票交易的基于強化學(xué)習(xí)的智能體。

          好消息!

          小白學(xué)視覺知識星球

          開始面向外開放啦??????




          下載1:OpenCV-Contrib擴展模塊中文版教程
          在「小白學(xué)視覺」公眾號后臺回復(fù):擴展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實戰(zhàn)項目52講
          小白學(xué)視覺公眾號后臺回復(fù):Python視覺實戰(zhàn)項目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學(xué)校計算機視覺。

          下載3:OpenCV實戰(zhàn)項目20講
          小白學(xué)視覺公眾號后臺回復(fù):OpenCV實戰(zhàn)項目20講即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學(xué)習(xí)進階。

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 21
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  黄色A片播放 | 性爱无码视频 | 日韩区一中文字幕a∨ | 人人肏屄| 色综合色综合 |