<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          深度學(xué)習(xí)的發(fā)展方向: 深度強(qiáng)化學(xué)習(xí)!

          共 3898字,需瀏覽 8分鐘

           ·

          2022-02-25 17:51

          本文共3600字,建議閱讀10分鐘

          深度強(qiáng)化學(xué)習(xí)是一個(gè)值得持續(xù)研究和關(guān)注的新方向。


          深度學(xué)習(xí)不夠智能,強(qiáng)化學(xué)習(xí)又太抽象。深度強(qiáng)化學(xué)習(xí)是兩套理論體系乘風(fēng)破浪以后的成團(tuán)產(chǎn)物,其骨架來(lái)自強(qiáng)化學(xué)習(xí),而靈魂由深度學(xué)習(xí)賦予。深度強(qiáng)化學(xué)習(xí)是一個(gè)值得持續(xù)研究和關(guān)注的新方向。


          一、深度學(xué)習(xí)的反思


          現(xiàn)在深度學(xué)習(xí)大熱,一點(diǎn)也不輸給現(xiàn)在的室外氣溫,但大熱背后也有隱憂(yōu),深度學(xué)習(xí)雖然表面光鮮,但細(xì)看就會(huì)發(fā)現(xiàn):仍然充滿(mǎn)了槽點(diǎn)。

          其中一個(gè)可謂是直擊靈魂。現(xiàn)在深度學(xué)習(xí)用得最多的就是有監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)不妨理解成“有參考答案的學(xué)習(xí)”,它有一個(gè)特點(diǎn),就是數(shù)據(jù)必須經(jīng)過(guò)標(biāo)識(shí)才能用于訓(xùn)練。但現(xiàn)在海量的數(shù)據(jù)是未標(biāo)識(shí)數(shù)據(jù),且標(biāo)識(shí)成本很高。很多研究人員,甚至包括有不少的大牛都在反思,琢磨深度學(xué)習(xí)是不是“錯(cuò)了”。如果說(shuō)人工智能發(fā)展的正道在于模擬人類(lèi)智能,那深度學(xué)習(xí)的這套學(xué)習(xí)模式可能走了歪路。

          舉一個(gè)例子,就是人類(lèi)的小嬰兒學(xué)走路。小嬰兒學(xué)走路肯定不是靠先看一大堆的《如何解鎖行走姿勢(shì)》或者《人類(lèi)直立動(dòng)作大全》之類(lèi)的資料,用行話(huà)來(lái)說(shuō),就是不必依賴(lài)外部輸入大量的訓(xùn)練數(shù)據(jù)。那小嬰兒是怎么學(xué)的呢?靠不斷嘗試,也就是我們常說(shuō)的跌倒了爬起來(lái)再走。簡(jiǎn)單來(lái)說(shuō),這一派研究人員認(rèn)為:深度學(xué)習(xí)和人類(lèi)的學(xué)習(xí)模式是截然不同的,別看現(xiàn)在大紅大紫,早晚是要碰到天花板的。那應(yīng)該怎么辦呢?很多人都指了同一個(gè)地方,就是深度強(qiáng)化學(xué)習(xí)。

          二、強(qiáng)化學(xué)習(xí)原理

          深度強(qiáng)化學(xué)習(xí)是兩套理論體系乘風(fēng)破浪以后的成團(tuán)產(chǎn)物,這兩套體系本來(lái)都是單飛型選手,分別是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí),具體來(lái)說(shuō),深度強(qiáng)化學(xué)習(xí)的骨架來(lái)自強(qiáng)化學(xué)習(xí),而靈魂則是由深度學(xué)習(xí)賦予。所以,要講明白深度強(qiáng)化學(xué)習(xí),首先來(lái)看下強(qiáng)化學(xué)習(xí)。

          2.1?AlphaGo進(jìn)化史

          AlphaGo打敗柯潔等一眾國(guó)際頂尖棋手的事實(shí)讓大家對(duì)人工智能技術(shù)信心倍增。當(dāng)年AlphaGo一共迭代了三個(gè)版本,分別是戰(zhàn)勝李世石的一代目AlphaGo Lee、戰(zhàn)勝柯潔的二代目AlphaGo Master,以及吊打前兩代的三代目AlphaGo Zero。這三代棋藝當(dāng)然是逐代遞增了,技術(shù)上也有一個(gè)明顯的變化趨勢(shì),就是強(qiáng)化學(xué)習(xí)的比重越來(lái)越大。


          最開(kāi)始訓(xùn)練AlphaGo的模型,是需要用借助已有棋譜的,也就是需要參考答案,是有監(jiān)督學(xué)習(xí)。而當(dāng)進(jìn)化到了AlphaGo Zero,這哥們兒開(kāi)始“悟了”,對(duì),是真正意義上的悟了,不再需要任何棋譜,完全自食其力,從零開(kāi)始自學(xué)成才,所以名字叫Zero。親爹DeepMind喜不自勝,跑到Nature發(fā)了一篇爆款論文,名字叫《Mastering the game of go without human knowledge》,我看中文不妨就翻譯為《圍棋滅霸》,反正意思就是“你們?nèi)祟?lèi)都是渣渣,我不需要人教也能稱(chēng)霸棋壇”。這次是真不用人教,那靠什么自學(xué)呢?就是強(qiáng)化學(xué)習(xí)。AlphaGo Zero的學(xué)習(xí)模式非常類(lèi)似于人類(lèi),而且取得了無(wú)可非議的良好效果,確實(shí)讓業(yè)內(nèi)所有人都真真切切地感受到了強(qiáng)化學(xué)習(xí)的驚人潛力。

          2.2?強(qiáng)化學(xué)習(xí)基礎(chǔ)概念

          說(shuō)了這么多,那什么是強(qiáng)化學(xué)習(xí)呢?強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種。強(qiáng)化學(xué)習(xí)和有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)都不太一樣,有一個(gè)智能體(Agent)的概念。什么是智能體呢?大家應(yīng)該都玩過(guò)任天堂的一款經(jīng)典FC橫版通關(guān)游戲——馬里奧兄弟。在游戲中,玩家通過(guò)控制馬里奧頂蘑菇、踩烏龜來(lái)取得勝利,如果想用強(qiáng)化學(xué)習(xí)來(lái)通關(guān),那這里的智能體指的就是馬里奧。

          智能體是強(qiáng)化學(xué)習(xí)的第一個(gè)重要概念,是主角,但強(qiáng)化學(xué)習(xí)作為一臺(tái)好戲,自然不能光有主角,還得有舞臺(tái),這就是強(qiáng)化學(xué)習(xí)的第二個(gè)重要概念,環(huán)境(Environment)。

          強(qiáng)化學(xué)習(xí)的學(xué)習(xí)過(guò)程,就是作為主角的智能體和作為舞臺(tái)的環(huán)境不斷交互的過(guò)程。這個(gè)過(guò)程又包括三個(gè)重要概念,分別是觀察(Observation)、動(dòng)作(Action)和獎(jiǎng)勵(lì)(Reward)。這五個(gè)概念可謂是強(qiáng)化學(xué)習(xí)的五線(xiàn)譜,能夠演奏出無(wú)數(shù)美妙動(dòng)人的旋律。

          那么,對(duì)于剛剛提出的智能體、環(huán)境、觀察、動(dòng)作和獎(jiǎng)勵(lì)這這五個(gè)概念是怎么進(jìn)行演奏呢?

          2.3 深入淺出強(qiáng)化學(xué)習(xí)

          首先一條就是主線(xiàn),前面已經(jīng)介紹,強(qiáng)化學(xué)習(xí)的主線(xiàn)就是作為主角智能體,與作為舞臺(tái)的環(huán)境所作的各種交互。交互過(guò)程衍生了三個(gè)概念,聽(tīng)起來(lái)復(fù)雜,其實(shí)玩馬里奧兄弟游戲非常相像,完全可以一對(duì)一比照。

          回想一下,游戲里的馬里奧想要通關(guān),第一步需要干什么呢?前進(jìn)后退還是蹦蹦跳跳?都不對(duì),首先需要觀察。你得先看一下周?chē)h(huán)境,看看前面到底蘑菇還是烏龜,才能決定接下來(lái)的行動(dòng)。觀察環(huán)境,獲取當(dāng)前的狀態(tài)信息了,才決定下一步行動(dòng)對(duì)不對(duì)?強(qiáng)化學(xué)習(xí)也一樣,主角智能體通過(guò)前面介紹的第三個(gè)重要概念“觀察”,來(lái)獲得當(dāng)前時(shí)刻的各種狀態(tài)信息,一般記為s(t)。


          掌握了狀態(tài)信息,游戲里的馬里奧開(kāi)始躍躍欲試,準(zhǔn)備做出反應(yīng)了。強(qiáng)化學(xué)習(xí)也一樣,我們將s(t)作為智能體的輸入,智能體會(huì)略加思索,接著就能做出“動(dòng)作”。這里的動(dòng)作,就是前面介紹的第四個(gè)重要概念。智能體能做出哪些動(dòng)作呢?這和具體的場(chǎng)景有關(guān),譬如在馬里奧游戲中,動(dòng)作就是指“頂蘑菇”或者“踩烏龜”,一般記為a(t)。

          最后一個(gè)重要概念是“獎(jiǎng)勵(lì)”。這個(gè)好理解,前面我們一再?gòu)?qiáng)調(diào),強(qiáng)化學(xué)習(xí)的主線(xiàn)是智能體與環(huán)境的各種交互,那現(xiàn)在當(dāng)智能體做出某個(gè)動(dòng)作后,環(huán)境當(dāng)然也得有所表示,得有個(gè)反饋信息,這就是獎(jiǎng)勵(lì)。譬如馬里奧游戲中,馬里奧“吃到金幣”后,相應(yīng)的游戲得分就會(huì)增加,這就是獎(jiǎng)勵(lì)。需要說(shuō)明一點(diǎn),強(qiáng)化學(xué)習(xí)的“獎(jiǎng)勵(lì)”和我們?nèi)粘K?xí)慣的用法略有不同,強(qiáng)調(diào)的是環(huán)境對(duì)智能體的反饋。上面說(shuō)的得分增加,這是一種好的反饋,當(dāng)然也有壞的反饋,譬如做了什么動(dòng)作被扣分了,但無(wú)論是好的反饋,還是壞的反饋,在強(qiáng)化學(xué)習(xí)這里都統(tǒng)一稱(chēng)為“獎(jiǎng)勵(lì)”。

          至此,智能體就完成了一輪強(qiáng)化學(xué)習(xí)。不斷重復(fù)這輪流程,智能體就能順利地與環(huán)境交互下去。聽(tīng)起來(lái)是不是很簡(jiǎn)單?不過(guò),魔鬼都藏在細(xì)節(jié)里。

          2.4?強(qiáng)化學(xué)習(xí)方向分類(lèi)

          不知道大家在閱讀時(shí),有沒(méi)有注意到強(qiáng)化學(xué)習(xí)的一個(gè)非常重要的問(wèn)題,上面卻一筆帶過(guò)?沒(méi)錯(cuò),就是從獲取s(t)到做出a(t)之間的“略加思索”。作為輸入的狀態(tài)信息,和作為輸出的待選動(dòng)作,都是給定好的,但二者的映射關(guān)系如何,也就是輸入什么樣的狀態(tài)信息該對(duì)應(yīng)輸出什么樣的動(dòng)作反應(yīng),也就是智能體應(yīng)該如何進(jìn)行思考。

          這是強(qiáng)化學(xué)習(xí)最核心的問(wèn)題。有了問(wèn)題,自然就會(huì)產(chǎn)生各種腦洞。我們說(shuō)強(qiáng)化學(xué)習(xí)的五個(gè)概念像是五線(xiàn)譜,演奏出無(wú)數(shù)美妙旋律,這絕對(duì)不是藝術(shù)化的比喻,而是實(shí)情。為了解決強(qiáng)化學(xué)習(xí)這個(gè)核心問(wèn)題,研究人員是真真切切地開(kāi)了無(wú)數(shù)的腦洞,總的來(lái)說(shuō),主要是朝著兩大方向開(kāi)腦洞。

          第一個(gè)大方向叫基于價(jià)值(Value-Based)的強(qiáng)化學(xué)習(xí)。機(jī)器學(xué)習(xí)都有個(gè)目標(biāo)函數(shù)的概念,而基于價(jià)值的強(qiáng)化學(xué)習(xí),它的目標(biāo)函數(shù)就是累計(jì)獎(jiǎng)勵(lì)最大化,也就是當(dāng)前哪個(gè)動(dòng)作能讓得分更高就選擇做哪個(gè)動(dòng)作。這很符合我們的直覺(jué)認(rèn)知,比較容易理解。那怎么達(dá)到這個(gè)目標(biāo)呢?不同的算法各有不同,基于價(jià)值(Value-Based)的強(qiáng)化學(xué)習(xí)算法中,最有名氣的算法應(yīng)該數(shù)Q-Learning,也有人稱(chēng)為Q學(xué)習(xí),通過(guò)不斷計(jì)算和更新動(dòng)作價(jià)值函數(shù)Q來(lái)實(shí)現(xiàn)獎(jiǎng)勵(lì)最大化。

          第二個(gè)大方向叫基于策略(Policy-Based)的強(qiáng)化學(xué)習(xí)。基于價(jià)值雖然符合直覺(jué),但這種走一步看一步,每次都要用價(jià)值函數(shù)量一下才能行動(dòng)的做法,難免讓人有種“無(wú)頭蒼蠅瞎轉(zhuǎn)”的無(wú)力感,而基于策略的強(qiáng)化學(xué)習(xí)最大的特點(diǎn)就是果斷拋棄了價(jià)值函數(shù),嘗試找到每個(gè)狀態(tài)對(duì)應(yīng)的最佳動(dòng)作,從而形成一套動(dòng)作策略,每走一步策略都能直接給出最佳的下一步動(dòng)作。

          當(dāng)然,除了這兩大方向,強(qiáng)化學(xué)習(xí)還有其它的腦洞方向,譬如基于模型(Model-Based)的強(qiáng)化學(xué)習(xí),不過(guò)由于成本和難度較高,用得比較少。而這兩大方向都各自包含了大量的具體實(shí)現(xiàn)算法,即使方向相同,各個(gè)算法在細(xì)節(jié)上仍然有很大差異。

          三、深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合

          最后一個(gè)問(wèn)題是,深度學(xué)習(xí)是怎樣和強(qiáng)化學(xué)習(xí)結(jié)合,成為深度強(qiáng)化學(xué)習(xí)的呢?

          前面我們說(shuō),深度強(qiáng)化學(xué)習(xí),強(qiáng)化學(xué)習(xí)是骨架,深度學(xué)習(xí)是靈魂,這是什么意思呢?深度強(qiáng)化學(xué)習(xí)的主要運(yùn)行機(jī)制,其實(shí)與強(qiáng)化學(xué)習(xí)是基本一致的,也都是根據(jù)輸入的s(t),找到對(duì)應(yīng)的輸出a(t),只不過(guò)使用了深度神經(jīng)網(wǎng)絡(luò)來(lái)完成這一過(guò)程。

          更有甚者,有的深度強(qiáng)化學(xué)習(xí)算法,干脆直接在現(xiàn)成的強(qiáng)化學(xué)習(xí)算法上,通過(guò)添加深度神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)一套新的深度強(qiáng)化學(xué)習(xí)算法,非常有名的深度強(qiáng)化學(xué)習(xí)算法DQN就是典型的例子。

          前面我們介紹基于價(jià)值的強(qiáng)化學(xué)習(xí)算法中介紹了Q-Learning算法,有一個(gè)重要的步驟是計(jì)算Q值,而傳統(tǒng)的Q-Learning算法是通過(guò)Q表來(lái)完成計(jì)算的,但表格存在一個(gè)明顯的局限性,狀態(tài)-動(dòng)作空間越大,Q表就越膨脹,而且是大一點(diǎn)就膨脹好幾圈。這樣下去不行的,早晚是要河邊見(jiàn)的……

          那怎么改善呢?研究人員一想,現(xiàn)在大熱的深度神經(jīng)網(wǎng)絡(luò)不是最擅長(zhǎng)干這事嗎?于是一拍大腿,不再需要?jiǎng)隈{Q表您老人家來(lái)記錄Q值了,統(tǒng)統(tǒng)改成了深度神經(jīng)網(wǎng)絡(luò),這就是DQN。雖然聽(tīng)起來(lái)改動(dòng)不大,但兩者結(jié)合效果很好,能力提升明顯,成就了廣為使用的深度強(qiáng)化學(xué)習(xí)算法。

          本文參考北京理工大學(xué)劉馳教授的《深度強(qiáng)化學(xué)習(xí):學(xué)術(shù)前沿與實(shí)戰(zhàn)應(yīng)用》,本書(shū)詳解了深度強(qiáng)化學(xué)習(xí)領(lǐng)域近年來(lái)重要進(jìn)展及其典型應(yīng)用場(chǎng)景,涵蓋新的理論算法、工程實(shí)現(xiàn)和領(lǐng)域應(yīng)用。緊跟學(xué)術(shù)前沿,聯(lián)合工程實(shí)踐,值得學(xué)習(xí)。

          編輯:王菁

          校對(duì):林亦霖

          瀏覽 53
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  免费观看无码 | 成人天堂| 8050午夜二级 | 亚洲欧美日韩性爱 | 影音先锋女人av噜噜色 |