<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          AutoML入侵強(qiáng)化學(xué)習(xí)!Google用「元學(xué)習(xí)」來強(qiáng)化學(xué)習(xí),ICLR2021已接收

          共 2889字,需瀏覽 6分鐘

           ·

          2021-05-05 02:15



            新智元報(bào)道  

          來源:google

          編輯:LRS

          【新智元導(dǎo)讀】元學(xué)習(xí)是一種讓機(jī)器去學(xué)習(xí)如何靈活學(xué)習(xí)解決問題的一種技術(shù)。谷歌的新工作使用符號(hào)圖來表示并應(yīng)用AutoML的優(yōu)化技術(shù)來學(xué)習(xí)新的、可解釋和可推廣的強(qiáng)化學(xué)習(xí)算法。目前已被ICLR 2021接收。


          近年來,AutoML在自動(dòng)化機(jī)器學(xué)習(xí)的設(shè)計(jì)方面已經(jīng)取得了巨大的成功,例如設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)和模型更新規(guī)則。

           

          神經(jīng)架構(gòu)搜索(NAS)是其中一個(gè)重要的研究方向,可以用來搜索更好的神經(jīng)網(wǎng)絡(luò)架構(gòu)以用于圖像分類等任務(wù),并且可以幫助設(shè)計(jì)人員在硬件設(shè)計(jì)上找到速度更快、能耗更低的架構(gòu)方案。

           

          除NAS之外,谷歌之前的研究AutoML-Zero甚至還可以從零開始使用基本數(shù)學(xué)運(yùn)算設(shè)計(jì)一個(gè)完整的算法。

           

          但這些方法是為監(jiān)督學(xué)習(xí)而設(shè)計(jì)的,總體算法更加簡單明了,拿到標(biāo)簽,然后訓(xùn)練。

           

          但對于強(qiáng)化學(xué)習(xí)來說,目標(biāo)可能沒有那么明確,例如采樣策略的設(shè)計(jì)、整體的損失函數(shù)等,模型的更新過程并不是很明確,組件搜索的空間也更大。

           

          自動(dòng)化清華學(xué)習(xí)算法之前的工作主要集中在模型更新規(guī)則上。這些方法學(xué)習(xí)更好的優(yōu)化器、更新本身的策略,通常用神經(jīng)網(wǎng)絡(luò)(RNN或CNN)表示更新規(guī)則,使用基于梯度的方法進(jìn)行優(yōu)化。

           

          但是,這些學(xué)習(xí)的規(guī)則無法解釋,也不具有泛化性,因?yàn)槟P蜋?quán)重的獲得過程是不透明的,并且數(shù)據(jù)也是來源于特定領(lǐng)域的。

           

          強(qiáng)化學(xué)習(xí)算法和計(jì)算圖


          NAS在神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)的圖的空間中進(jìn)行搜索,受NAS的想法啟發(fā),本文通過將RL算法的損失函數(shù)表示為計(jì)算圖來元學(xué)習(xí)強(qiáng)化學(xué)習(xí)算法。

           

          在這種情況下,將有向無環(huán)圖用于損失函數(shù),節(jié)點(diǎn)代表輸入、運(yùn)算符、參數(shù)和輸出,將增強(qiáng)AutoML的可解釋性。

           

          例如,在DQN的計(jì)算圖中,輸入節(jié)點(diǎn)包括來自緩沖區(qū)的數(shù)據(jù),運(yùn)算符節(jié)點(diǎn)包括神經(jīng)網(wǎng)絡(luò)運(yùn)算符和基本數(shù)學(xué)運(yùn)算符,而輸出節(jié)點(diǎn)表示損失,通過梯度下降法來優(yōu)化模型。

           

          這種表示有一些好處,既能表示現(xiàn)有的算法,也可以定義新的未被發(fā)現(xiàn)的算法,并且也是可解釋的。

           

          如果研究人員可以理解為什么學(xué)習(xí)的算法更好,那么他們既可以修改算法的內(nèi)部組成部分來改進(jìn)它,又可以將有益的組成部分轉(zhuǎn)移到其他問題上。

           

           

           

          這種表示形式很容易通過PyGlove庫實(shí)現(xiàn),它可以將圖形方便地轉(zhuǎn)換為正則化優(yōu)化的搜索空間。


          會(huì)進(jìn)化的RL算法

           

          本文提出的強(qiáng)化學(xué)習(xí)算法是基于進(jìn)化的方式。

           

          首先,我們用隨機(jī)圖初始化一群訓(xùn)練的agent,在一組訓(xùn)練環(huán)境中并行訓(xùn)練。agent首先在類似CartPole這樣的簡單環(huán)境上進(jìn)行訓(xùn)練,目的是快速清除性能不佳的程序。如果agent無法解決簡單環(huán)境,就會(huì)以0分的分?jǐn)?shù)提前停止,否則訓(xùn)練將會(huì)進(jìn)入更難的環(huán)境,例如Lunar Lander等,評估算法的性能并將其用于更新整體的權(quán)重,在這些訓(xùn)練器中,更有前途的算法會(huì)進(jìn)一步發(fā)生變異。

           

          為了減少搜索空間,論文中使用功能等效檢查器,如果它們在功能上與先前檢查過的算法相同,則會(huì)跳過實(shí)驗(yàn)直到提出新的算法。

           

          隨著新的變異候選算法的訓(xùn)練和評估,該循環(huán)繼續(xù)進(jìn)行。在訓(xùn)練結(jié)束時(shí),我們選擇最佳算法并在一系列看不見的測試環(huán)境中評估其性能。

           

          實(shí)驗(yàn)中的數(shù)據(jù)規(guī)模大概是300個(gè)訓(xùn)練器,我們觀察到205000個(gè)突變后良好的候選進(jìn)化,需要大約三天的訓(xùn)練時(shí)間。我們之所以能夠在CPU上進(jìn)行培訓(xùn),是因?yàn)橛?xùn)練環(huán)境非常簡單,可以控制訓(xùn)練的計(jì)算和能源成本。為了進(jìn)一步控制訓(xùn)練成本,我們使用人工設(shè)計(jì)的RL算法(例如DQN)為初始種群播種。

           

           

           

          我們重點(diǎn)介紹兩種發(fā)現(xiàn)的算法,它們表現(xiàn)出良好的泛化性能。第一個(gè)是DQNReg,它基于DQN,在Q值上額外增加正則平方的Bellman誤差。第二個(gè)學(xué)習(xí)的損失函數(shù)DQNClipped,Q值的最大值和Bellman誤差平方(以常數(shù)為模)。兩種算法都可以看作是歸一化Q值的一種。雖然DQNReg添加了軟約束,但DQNClipped可以解釋為一種約束優(yōu)化,如果Q值太大,它將最小化Q值。在訓(xùn)練的早期階段,高估Q值是一個(gè)潛在的問題時(shí),一旦滿足此約束條件,損失函數(shù)將最小化原始的平方Bellman誤差。

           

          盡管DQN等基準(zhǔn)通常高估了Q值,但我們學(xué)到的算法以不同的方式解決了這一問題。DQNReg低估了Q值,而DQNClipped具有與double dqn類似的行為,因?yàn)樗鼤?huì)緩慢地接近真實(shí)值。

           

          值得指出的是,當(dāng)使用DQN進(jìn)行演化時(shí),這兩種算法會(huì)不斷迭代出現(xiàn)。

           

           

          通常在RL中,泛化是指經(jīng)過訓(xùn)練的策略,可以跨任務(wù)進(jìn)行泛化。在一組經(jīng)典控制環(huán)境上,學(xué)習(xí)到的算法可以匹配密集獎(jiǎng)勵(lì)任務(wù)(CartPole,Acrobot,LunarLander)上的基線,而在稀疏獎(jiǎng)勵(lì)任務(wù)MountainCar上優(yōu)于DQN 。

           

           

          在測試各種不同任務(wù)的一組稀疏獎(jiǎng)勵(lì)MiniGrid環(huán)境中,我們發(fā)現(xiàn)DQNReg在樣本效率和最終性能方面都大大優(yōu)于訓(xùn)練和測試環(huán)境的基線。實(shí)際上,在尺寸、配置和熔巖等新障礙物存在變化的測試環(huán)境中,效果甚至更為明顯。

           

           

           

          這些環(huán)境的起始位置,墻面配置和對象配置在每次重置時(shí)都是隨機(jī)的,這需要agent進(jìn)行概括而不是簡單地記住環(huán)境,盡管DDQN經(jīng)常努力學(xué)習(xí)任何有意義的行為,但DQNReg可以更有效地學(xué)習(xí)最佳行為。

           

           

          無論是在非圖像的環(huán)境上進(jìn)行訓(xùn)練,還是在基于圖像的Atari環(huán)境上,這種表示方法都能帶來性能上的提升。這表明,這種元學(xué)習(xí)算法的通用性。

           

           

          這篇論文討論了如何將新的強(qiáng)化學(xué)習(xí)算法的損失函數(shù)表示為計(jì)算圖,并在此表示形式上擴(kuò)展多個(gè)agent訓(xùn)練來學(xué)習(xí)新的可解釋RL算法。

           

          計(jì)算圖使研究人員既可以建立在人為設(shè)計(jì)的算法上,又可以使用與現(xiàn)有算法相同的數(shù)學(xué)工具集來學(xué)習(xí)算法。這些算法的性能超過之前的baseline系統(tǒng),并且可以用于非視覺類的任務(wù)。

           

          文章的作者希望這項(xiàng)工作可以促進(jìn)機(jī)器輔助算法的開發(fā),未來計(jì)算元學(xué)習(xí)可以幫助研究人員找到新的研究方向。


          參考資料:

          https://ai.googleblog.com/2021/04/evolving-reinforcement-learning.html


          推薦閱讀:




          AI家,新天地。西山新綠,新智元在等你!


          【新智元高薪誠聘】主筆、高級編輯、商務(wù)總監(jiān)、運(yùn)營經(jīng)理、實(shí)習(xí)生等崗位,歡迎投遞簡歷至[email protected] (或微信: 13520015375)


          辦公地址:北京海淀中關(guān)村軟件園3號(hào)樓1100



          瀏覽 58
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美成人精品一二三区欧美风情 | 亚洲无码蜜桃传媒 | 中文久久无码一区二区 | 蜜桃羞羞无码久久久 | 操大黑逼视频 |