<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          深度學(xué)習(xí)的發(fā)展方向: 深度強(qiáng)化學(xué)習(xí)!

          共 4344字,需瀏覽 9分鐘

           ·

          2022-06-24 10:56

          點(diǎn)擊上方小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)

          作者:莫凡&馬晶敏,上海交通大學(xué)

          轉(zhuǎn)載自:Datawhale

          深度學(xué)習(xí)不夠智能,強(qiáng)化學(xué)習(xí)又太抽象。深度強(qiáng)化學(xué)習(xí)是兩套理論體系乘風(fēng)破浪以后的成團(tuán)產(chǎn)物,其骨架來自強(qiáng)化學(xué)習(xí),而靈魂由深度學(xué)習(xí)賦予。深度強(qiáng)化學(xué)習(xí)是一個(gè)值得持續(xù)研究和關(guān)注的新方向。 


          一、深度學(xué)習(xí)的反思

           

          現(xiàn)在深度學(xué)習(xí)大熱,一點(diǎn)也不輸給現(xiàn)在的室外氣溫,但大熱背后也有隱憂,深度學(xué)習(xí)雖然表面光鮮,但細(xì)看就會發(fā)現(xiàn):仍然充滿了槽點(diǎn)。
          其中一個(gè)可謂是直擊靈魂。現(xiàn)在深度學(xué)習(xí)用得最多的就是有監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)不妨理解成“有參考答案的學(xué)習(xí)”,它有一個(gè)特點(diǎn),就是數(shù)據(jù)必須經(jīng)過標(biāo)識才能用于訓(xùn)練。但現(xiàn)在海量的數(shù)據(jù)是未標(biāo)識數(shù)據(jù),且標(biāo)識成本很高。很多研究人員,甚至包括有不少的大牛都在反思,琢磨深度學(xué)習(xí)是不是“錯(cuò)了”。如果說人工智能發(fā)展的正道在于模擬人類智能,那深度學(xué)習(xí)的這套學(xué)習(xí)模式可能走了歪路。
          舉一個(gè)例子,就是人類的小嬰兒學(xué)走路。小嬰兒學(xué)走路肯定不是靠先看一大堆的《如何解鎖行走姿勢》或者《人類直立動(dòng)作大全》之類的資料,用行話來說,就是不必依賴外部輸入大量的訓(xùn)練數(shù)據(jù)。那小嬰兒是怎么學(xué)的呢?靠不斷嘗試,也就是我們常說的跌倒了爬起來再走。簡單來說,這一派研究人員認(rèn)為:深度學(xué)習(xí)和人類的學(xué)習(xí)模式是截然不同的,別看現(xiàn)在大紅大紫,早晚是要碰到天花板的。那應(yīng)該怎么辦呢?很多人都指了同一個(gè)地方,就是深度強(qiáng)化學(xué)習(xí)。 

          二、強(qiáng)化學(xué)習(xí)原理


          深度強(qiáng)化學(xué)習(xí)是兩套理論體系乘風(fēng)破浪以后的成團(tuán)產(chǎn)物,這兩套體系本來都是單飛型選手,分別是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí),具體來說,深度強(qiáng)化學(xué)習(xí)的骨架來自強(qiáng)化學(xué)習(xí),而靈魂則是由深度學(xué)習(xí)賦予。所以,要講明白深度強(qiáng)化學(xué)習(xí),首先來看下強(qiáng)化學(xué)習(xí)。

          2.1 AlphaGo進(jìn)化史

           

          AlphaGo打敗柯潔等一眾國際頂尖棋手的事實(shí)讓大家對人工智能技術(shù)信心倍增。當(dāng)年AlphaGo一共迭代了三個(gè)版本,分別是戰(zhàn)勝李世石的一代目AlphaGo Lee、戰(zhàn)勝柯潔的二代目AlphaGo Master,以及吊打前兩代的三代目AlphaGo Zero。這三代棋藝當(dāng)然是逐代遞增了,技術(shù)上也有一個(gè)明顯的變化趨勢,就是強(qiáng)化學(xué)習(xí)的比重越來越大。
          最開始訓(xùn)練AlphaGo的模型,是需要用借助已有棋譜的,也就是需要參考答案,是有監(jiān)督學(xué)習(xí)。而當(dāng)進(jìn)化到了AlphaGo Zero,這哥們兒開始“悟了”,對,是真正意義上的悟了,不再需要任何棋譜,完全自食其力,從零開始自學(xué)成才,所以名字叫Zero。親爹DeepMind喜不自勝,跑到Nature發(fā)了一篇爆款論文,名字叫《Mastering the game of go without human knowledge》,我看中文不妨就翻譯為《圍棋滅霸》,反正意思就是“你們?nèi)祟惗际窃也恍枰私桃材芊Q霸棋壇”。這次是真不用人教,那靠什么自學(xué)呢?就是強(qiáng)化學(xué)習(xí)。AlphaGo Zero的學(xué)習(xí)模式非常類似于人類,而且取得了無可非議的良好效果,確實(shí)讓業(yè)內(nèi)所有人都真真切切地感受到了強(qiáng)化學(xué)習(xí)的驚人潛力。
          2.2 強(qiáng)化學(xué)習(xí)基礎(chǔ)概念


          說了這么多,那什么是強(qiáng)化學(xué)習(xí)呢?強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種。強(qiáng)化學(xué)習(xí)和有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)都不太一樣,有一個(gè)智能體(Agent)的概念。什么是智能體呢?大家應(yīng)該都玩過任天堂的一款經(jīng)典FC橫版通關(guān)游戲——馬里奧兄弟。在游戲中,玩家通過控制馬里奧頂蘑菇、踩烏龜來取得勝利,如果想用強(qiáng)化學(xué)習(xí)來通關(guān),那這里的智能體指的就是馬里奧。
          智能體是強(qiáng)化學(xué)習(xí)的第一個(gè)重要概念,是主角,但強(qiáng)化學(xué)習(xí)作為一臺好戲,自然不能光有主角,還得有舞臺,這就是強(qiáng)化學(xué)習(xí)的第二個(gè)重要概念,環(huán)境(Environment)。
          強(qiáng)化學(xué)習(xí)的學(xué)習(xí)過程,就是作為主角的智能體和作為舞臺的環(huán)境不斷交互的過程。這個(gè)過程又包括三個(gè)重要概念,分別是觀察(Observation)、動(dòng)作(Action)和獎(jiǎng)勵(lì)(Reward)。這五個(gè)概念可謂是強(qiáng)化學(xué)習(xí)的五線譜,能夠演奏出無數(shù)美妙動(dòng)人的旋律。
          那么,對于剛剛提出的智能體、環(huán)境、觀察、動(dòng)作和獎(jiǎng)勵(lì)這這五個(gè)概念是怎么進(jìn)行演奏呢?

          2.3 深入淺出強(qiáng)化學(xué)習(xí)


          首先一條就是主線,前面已經(jīng)介紹,強(qiáng)化學(xué)習(xí)的主線就是作為主角智能體,與作為舞臺的環(huán)境所作的各種交互。交互過程衍生了三個(gè)概念,聽起來復(fù)雜,其實(shí)玩馬里奧兄弟游戲非常相像,完全可以一對一比照。
          回想一下,游戲里的馬里奧想要通關(guān),第一步需要干什么呢?前進(jìn)后退還是蹦蹦跳跳?都不對,首先需要觀察。你得先看一下周圍環(huán)境,看看前面到底蘑菇還是烏龜,才能決定接下來的行動(dòng)。觀察環(huán)境,獲取當(dāng)前的狀態(tài)信息了,才決定下一步行動(dòng)對不對?強(qiáng)化學(xué)習(xí)也一樣,主角智能體通過前面介紹的第三個(gè)重要概念“觀察”,來獲得當(dāng)前時(shí)刻的各種狀態(tài)信息,一般記為s(t)。

          掌握了狀態(tài)信息,游戲里的馬里奧開始躍躍欲試,準(zhǔn)備做出反應(yīng)了。強(qiáng)化學(xué)習(xí)也一樣,我們將s(t)作為智能體的輸入,智能體會略加思索,接著就能做出“動(dòng)作”。這里的動(dòng)作,就是前面介紹的第四個(gè)重要概念。智能體能做出哪些動(dòng)作呢?這和具體的場景有關(guān),譬如在馬里奧游戲中,動(dòng)作就是指“頂蘑菇”或者“踩烏龜”,一般記為a(t)。

          最后一個(gè)重要概念是“獎(jiǎng)勵(lì)”。這個(gè)好理解,前面我們一再強(qiáng)調(diào),強(qiáng)化學(xué)習(xí)的主線是智能體與環(huán)境的各種交互,那現(xiàn)在當(dāng)智能體做出某個(gè)動(dòng)作后,環(huán)境當(dāng)然也得有所表示,得有個(gè)反饋信息,這就是獎(jiǎng)勵(lì)。譬如馬里奧游戲中,馬里奧“吃到金幣”后,相應(yīng)的游戲得分就會增加,這就是獎(jiǎng)勵(lì)。需要說明一點(diǎn),強(qiáng)化學(xué)習(xí)的“獎(jiǎng)勵(lì)”和我們?nèi)粘K?xí)慣的用法略有不同,強(qiáng)調(diào)的是環(huán)境對智能體的反饋。上面說的得分增加,這是一種好的反饋,當(dāng)然也有壞的反饋,譬如做了什么動(dòng)作被扣分了,但無論是好的反饋,還是壞的反饋,在強(qiáng)化學(xué)習(xí)這里都統(tǒng)一稱為“獎(jiǎng)勵(lì)”。
          至此,智能體就完成了一輪強(qiáng)化學(xué)習(xí)。不斷重復(fù)這輪流程,智能體就能順利地與環(huán)境交互下去。聽起來是不是很簡單?不過,魔鬼都藏在細(xì)節(jié)里。

          2.4 強(qiáng)化學(xué)習(xí)方向分類

           

          不知道大家在閱讀時(shí),有沒有注意到強(qiáng)化學(xué)習(xí)的一個(gè)非常重要的問題,上面卻一筆帶過?沒錯(cuò),就是從獲取s(t)到做出a(t)之間的“略加思索”。作為輸入的狀態(tài)信息,和作為輸出的待選動(dòng)作,都是給定好的,但二者的映射關(guān)系如何,也就是輸入什么樣的狀態(tài)信息該對應(yīng)輸出什么樣的動(dòng)作反應(yīng),也就是智能體應(yīng)該如何進(jìn)行思考。
          這是強(qiáng)化學(xué)習(xí)最核心的問題。有了問題,自然就會產(chǎn)生各種腦洞。我們說強(qiáng)化學(xué)習(xí)的五個(gè)概念像是五線譜,演奏出無數(shù)美妙旋律,這絕對不是藝術(shù)化的比喻,而是實(shí)情。為了解決強(qiáng)化學(xué)習(xí)這個(gè)核心問題,研究人員是真真切切地開了無數(shù)的腦洞,總的來說,主要是朝著兩大方向開腦洞。
          第一個(gè)大方向叫基于價(jià)值(Value-Based)的強(qiáng)化學(xué)習(xí)。機(jī)器學(xué)習(xí)都有個(gè)目標(biāo)函數(shù)的概念,而基于價(jià)值的強(qiáng)化學(xué)習(xí),它的目標(biāo)函數(shù)就是累計(jì)獎(jiǎng)勵(lì)最大化,也就是當(dāng)前哪個(gè)動(dòng)作能讓得分更高就選擇做哪個(gè)動(dòng)作。這很符合我們的直覺認(rèn)知,比較容易理解。那怎么達(dá)到這個(gè)目標(biāo)呢?不同的算法各有不同,基于價(jià)值(Value-Based)的強(qiáng)化學(xué)習(xí)算法中,最有名氣的算法應(yīng)該數(shù)Q-Learning,也有人稱為Q學(xué)習(xí),通過不斷計(jì)算和更新動(dòng)作價(jià)值函數(shù)Q來實(shí)現(xiàn)獎(jiǎng)勵(lì)最大化。
          第二個(gè)大方向叫基于策略(Policy-Based)的強(qiáng)化學(xué)習(xí)。基于價(jià)值雖然符合直覺,但這種走一步看一步,每次都要用價(jià)值函數(shù)量一下才能行動(dòng)的做法,難免讓人有種“無頭蒼蠅瞎轉(zhuǎn)”的無力感,而基于策略的強(qiáng)化學(xué)習(xí)最大的特點(diǎn)就是果斷拋棄了價(jià)值函數(shù),嘗試找到每個(gè)狀態(tài)對應(yīng)的最佳動(dòng)作,從而形成一套動(dòng)作策略,每走一步策略都能直接給出最佳的下一步動(dòng)作。

          當(dāng)然,除了這兩大方向,強(qiáng)化學(xué)習(xí)還有其它的腦洞方向,譬如基于模型(Model-Based)的強(qiáng)化學(xué)習(xí),不過由于成本和難度較高,用得比較少。而這兩大方向都各自包含了大量的具體實(shí)現(xiàn)算法,即使方向相同,各個(gè)算法在細(xì)節(jié)上仍然有很大差異。


          三、深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合

           

          最后一個(gè)問題是,深度學(xué)習(xí)是怎樣和強(qiáng)化學(xué)習(xí)結(jié)合,成為深度強(qiáng)化學(xué)習(xí)的呢?
          前面我們說,深度強(qiáng)化學(xué)習(xí),強(qiáng)化學(xué)習(xí)是骨架,深度學(xué)習(xí)是靈魂,這是什么意思呢?深度強(qiáng)化學(xué)習(xí)的主要運(yùn)行機(jī)制,其實(shí)與強(qiáng)化學(xué)習(xí)是基本一致的,也都是根據(jù)輸入的s(t),找到對應(yīng)的輸出a(t),只不過使用了深度神經(jīng)網(wǎng)絡(luò)來完成這一過程。
          更有甚者,有的深度強(qiáng)化學(xué)習(xí)算法,干脆直接在現(xiàn)成的強(qiáng)化學(xué)習(xí)算法上,通過添加深度神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)一套新的深度強(qiáng)化學(xué)習(xí)算法,非常有名的深度強(qiáng)化學(xué)習(xí)算法DQN就是典型的例子。
          前面我們介紹基于價(jià)值的強(qiáng)化學(xué)習(xí)算法中介紹了Q-Learning算法,有一個(gè)重要的步驟是計(jì)算Q值,而傳統(tǒng)的Q-Learning算法是通過Q表來完成計(jì)算的,但表格存在一個(gè)明顯的局限性,狀態(tài)-動(dòng)作空間越大,Q表就越膨脹,而且是大一點(diǎn)就膨脹好幾圈。這樣下去不行的,早晚是要河邊見的……
          那怎么改善呢?研究人員一想,現(xiàn)在大熱的深度神經(jīng)網(wǎng)絡(luò)不是最擅長干這事嗎?于是一拍大腿,不再需要?jiǎng)隈{Q表您老人家來記錄Q值了,統(tǒng)統(tǒng)改成了深度神經(jīng)網(wǎng)絡(luò),這就是DQN。雖然聽起來改動(dòng)不大,但兩者結(jié)合效果很好,能力提升明顯,成就了廣為使用的深度強(qiáng)化學(xué)習(xí)算法。

          好消息!

          小白學(xué)視覺知識星球

          開始面向外開放啦??????




          下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
          在「小白學(xué)視覺」公眾號后臺回復(fù):擴(kuò)展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實(shí)戰(zhàn)項(xiàng)目52講
          小白學(xué)視覺公眾號后臺回復(fù):Python視覺實(shí)戰(zhàn)項(xiàng)目即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計(jì)數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個(gè)視覺實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計(jì)算機(jī)視覺。

          下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講
          小白學(xué)視覺公眾號后臺回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器自動(dòng)駕駛、計(jì)算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 105
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  www五月天 | 亚洲第一无码天堂精品 | 久操影视 | 国产三级网站在线播放 | 一本无码免费 |