<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          DeepMind大神Silver聯(lián)手Sutton論證無限猴子原理:用強(qiáng)化學(xué)習(xí)就能搞定通用人工智能!

          共 3921字,需瀏覽 8分鐘

           ·

          2021-06-12 19:44



            新智元報(bào)道  

          來源:sciencedirect

          編輯:Emil 好困

          【新智元導(dǎo)讀】DeepMind最近研究了一下大自然,于是決定把「達(dá)爾文主義」應(yīng)用在AI上面。首先給AI設(shè)定一個(gè)獎(jiǎng)勵(lì),等AI學(xué)會(huì)如何把獎(jiǎng)勵(lì)做到最大化,它就是個(gè)出色的人工智能代理了。


          人工智能發(fā)展了這么久,終于產(chǎn)生了包括卷積,注意力,全連接等各種機(jī)制。

           

          有趣的是,最近的研究反而搞起了「這些機(jī)制我們都不需要」的創(chuàng)新。

           

          例如蘋果發(fā)表的一篇論文表示Transformer不需要注意力機(jī)制。


          在這個(gè)方面,DeepMind也不甘落后,發(fā)表文章稱「Reward is Enough」,其他都不需要。

           

          https://www.sciencedirect.com/science/article/pii/S0004370221000862

           

          人工智能現(xiàn)在已經(jīng)能夠在有限的環(huán)境中有效地解決特定的問題,但它們還沒有發(fā)展出在人類和動(dòng)物身上看到的那種普遍的「智能」。


          DeepMind認(rèn)為「智能」不是從制定和解決復(fù)雜問題中產(chǎn)生,而是通過堅(jiān)持一個(gè)簡單但強(qiáng)大的原則:獎(jiǎng)勵(lì)最大化。

          值得注意的是,發(fā)表這篇文章的是DeepMind強(qiáng)化學(xué)習(xí)領(lǐng)域的兩位大神:David Silver(下圖右)以及Richard Sutton(下圖左)。

           

          David Silver 是 DeepMind 首席科學(xué)家、倫敦大學(xué)學(xué)院計(jì)算機(jī)科學(xué)系教授,他是 AlphaGo 的設(shè)計(jì)研發(fā)主導(dǎo)人物。


          而Richard Sutton 是阿爾伯塔大學(xué)計(jì)算機(jī)系教授、DeepMind 杰出科學(xué)家,他被認(rèn)為是現(xiàn)代計(jì)算的強(qiáng)化學(xué)習(xí)創(chuàng)立者之一。


          獎(jiǎng)勵(lì)最大化就能實(shí)現(xiàn)AGI?

           

          通常認(rèn)為,組合多個(gè)人工智能模塊就可以產(chǎn)生更高的智能系統(tǒng)。例如,把獨(dú)立的計(jì)算機(jī)視覺、語音處理、NLP和運(yùn)動(dòng)控制模塊之間進(jìn)行協(xié)調(diào),從而去解決需要多種技能的復(fù)雜問題。

           

          而DeepMind的研究表示,你們搞這些自上而下的都是歪門邪道,獎(jiǎng)勵(lì)機(jī)制才是自然界中產(chǎn)生如此豐富的智能的原因:

           

          • 不同形式的智能源于不同環(huán)境中不同獎(jiǎng)勵(lì)信號(hào)的最大化。例如蝙蝠的回聲定位或黑猩猩的工具使用等。

           
          • 這些能力的產(chǎn)生也都將服務(wù)于一個(gè)單一的目標(biāo),也就是在動(dòng)物所處的環(huán)境中獲得最大化的回報(bào)。


           
           
          例如,一只想要「活著」的松鼠,那么饑餓最小化這個(gè)獎(jiǎng)勵(lì)機(jī)制就可以認(rèn)為是 「活著 」的一個(gè)子目標(biāo)。
           
          于是,這只松鼠就產(chǎn)生了感知和運(yùn)動(dòng)的技能,從而幫助它在有食物的時(shí)候找到并收集堅(jiān)果。
           
          但只能找到食物的松鼠在食物變少時(shí)就會(huì)餓死。因此又產(chǎn)生了計(jì)劃和記憶的能力,這樣松鼠就可以把堅(jiān)果藏起來,等到冬天的時(shí)候再去找到這些堅(jiān)果。同時(shí),松鼠還需要產(chǎn)生關(guān)于社會(huì)的知識(shí),從而避免其他動(dòng)物去偷藏起來的堅(jiān)果。
           
          論文表示,獎(jiǎng)勵(lì)最大化是足以驅(qū)動(dòng)自然界的生物和強(qiáng)化學(xué)習(xí)代理產(chǎn)生「智能」的,包括知識(shí)、學(xué)習(xí)、感知、社會(huì)智能、語言、概括和模仿。

          因此,人工智能通過獎(jiǎng)勵(lì)最大化的強(qiáng)化學(xué)習(xí)之后,就可以成為今后在人工智能方面通用的解決方案。

          然而,這個(gè)例子依然沒有解釋為什么同樣是最大化獎(jiǎng)勵(lì),人類就能寫出「人工智能」,而這只松鼠就不行?


          獎(jiǎng)勵(lì)最大化的強(qiáng)化學(xué)習(xí)方法

           
          強(qiáng)化學(xué)習(xí)是AI算法的一個(gè)特殊分支,這套方法由三個(gè)關(guān)鍵要素組成:環(huán)境、代理以及獎(jiǎng)勵(lì)機(jī)制。
           


          在執(zhí)行操作的過程中,代理會(huì)依據(jù)操作過程對(duì)于目標(biāo)的影響程度來決定獎(jiǎng)勵(lì)或者懲罰,同時(shí)改變自己和環(huán)境狀態(tài)。
           
          許多的強(qiáng)化學(xué)習(xí)產(chǎn)生的問題在于代理對(duì)于環(huán)境缺乏初始的認(rèn)知,從而導(dǎo)致開始時(shí)的隨機(jī)操作。根據(jù)反饋,代理學(xué)會(huì)調(diào)整其行為,并制定最大化獎(jiǎng)勵(lì)的策略。
           
          在論文中,DeepMind 的研究人員建議將強(qiáng)化學(xué)習(xí)作為主要算法,它可以通過學(xué)習(xí)在自然界中的獎(jiǎng)勵(lì)最大化方法,并最終帶來通用人工智能。

          作者在論文中說,「如果一個(gè)代理能夠連續(xù)調(diào)整它的行為來提升獎(jiǎng)勵(lì),那么任何在這種環(huán)境下的重復(fù)性能力都可以通過代理這樣的行為產(chǎn)生出來?!?/span>

          一個(gè)好的強(qiáng)化學(xué)習(xí)代理可以通過這樣的方法學(xué)習(xí)感知、語言、社交能力等等。

          在論文中,研究人員提供了幾個(gè)例子,展示了強(qiáng)化學(xué)習(xí)代理如何能夠在游戲和機(jī)器人環(huán)境中學(xué)習(xí)一般技能。

           
          不過研究人員同時(shí)強(qiáng)調(diào),一些基本問題仍然有待解決,比如他們對(duì)于強(qiáng)化學(xué)習(xí)的樣本執(zhí)行效率缺乏理論依據(jù)。

          眾所周知,強(qiáng)化學(xué)習(xí)需要給機(jī)器「喂」大量的數(shù)據(jù),假如讓電腦通過機(jī)器學(xué)習(xí)的方法來學(xué)會(huì)一個(gè)電腦游戲,它們可能需要幾百年來學(xué)習(xí)……

          并且如何在更多的領(lǐng)域來創(chuàng)造一個(gè)強(qiáng)化學(xué)習(xí)系統(tǒng)對(duì)于研究者來說也是一個(gè)挑戰(zhàn),因?yàn)槿魏苇h(huán)境中微小的變化都需要對(duì)模型進(jìn)行全面重新訓(xùn)練。
           
          同時(shí),獎(jiǎng)勵(lì)最大化的學(xué)習(xí)機(jī)制是一個(gè)未解決的問題,仍然是強(qiáng)化學(xué)習(xí)中有待進(jìn)一步研究的核心問題。
           

          獎(jiǎng)勵(lì)最大化的優(yōu)點(diǎn)和缺點(diǎn)


          加州大學(xué)圣地亞哥分校的神經(jīng)科學(xué)家、哲學(xué)家和名譽(yù)教授帕特里夏·丘奇蘭 (Patricia Churchland) 將論文中的想法描述為「非常仔細(xì)和有見地的解決方案」。


          同時(shí),丘奇蘭也指出論文中關(guān)于社會(huì)決策討論中可能存在的缺陷。DeepMind的研究人員專注于在社交過程中的個(gè)人收益。

          而丘奇蘭在自己最近寫的書中談到,對(duì)于哺乳動(dòng)物和鳥類而言,個(gè)體之間的親情關(guān)系往往會(huì)對(duì)社會(huì)決策產(chǎn)生重大影響,比如動(dòng)物會(huì)為了保護(hù)孩子而將自己置于危險(xiǎn)中而不顧。
           
          當(dāng)然,丘奇蘭補(bǔ)充到,自己的觀點(diǎn)對(duì)于論文中的假設(shè)并沒有沖突,只是一個(gè)有益的補(bǔ)充。
           
          而數(shù)據(jù)科學(xué)家Herbert Roitblat 則對(duì)于這篇論文的立場(chǎng)提出了挑戰(zhàn),他認(rèn)為通過簡單的學(xué)習(xí)機(jī)制和試錯(cuò)經(jīng)驗(yàn)足以培養(yǎng)機(jī)器智能的說法有些站不住腳。

          Herbert Roitblat 也是通用AI領(lǐng)域的專家

          如果沒有時(shí)間限制,那么試錯(cuò)學(xué)習(xí)的方法可能可行,但是這個(gè)方法就像是無限猴子定理,即讓一只猴子在打字機(jī)上隨機(jī)按鍵,當(dāng)按鍵時(shí)間達(dá)到無窮,它必然會(huì)打出任何給定的文字。


          「建立了模型和表述方式之后,優(yōu)化或強(qiáng)化就可以指導(dǎo)其進(jìn)化,但這并不意味著強(qiáng)化就足夠了,」Roitblat 說。

          同樣,Roitblat 補(bǔ)充說,該論文沒有對(duì)如何定義強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)、操作和其他元素提出任何建議。

          「強(qiáng)化學(xué)習(xí)的前提是代理有一組有限的潛在操作方式,同時(shí)獎(jiǎng)勵(lì)標(biāo)準(zhǔn)和價(jià)值函數(shù)也需要提前指定。換句話說,通用人工智能的問題恰恰是強(qiáng)化學(xué)習(xí)的先決條件。
          所以如果機(jī)器學(xué)習(xí)都能夠簡化成為最大化某種評(píng)估參數(shù)的形式,那么強(qiáng)化學(xué)習(xí)肯定是有意義的,但是它仍然缺乏說服力。」

          通用人工智能迎來新曙光?


          DeepMind的研究人員在探討通用人工智能的實(shí)現(xiàn)路徑:即通過自下而上,而不是由人類先制定好頂層規(guī)劃和結(jié)構(gòu)的方法來實(shí)現(xiàn)特定的目標(biāo)。
           
          通用人工智能指的是通用人工智能是一些人工智能研究的主要目標(biāo),也是科幻小說和未來研究中的共同話題。一些研究人員將通用人工智能稱為強(qiáng)AI(strong AI)或者完全AI(full AI),或稱機(jī)器具有執(zhí)行通用智能行為(general intelligent action)的能力。與弱AI(weak AI)相比,強(qiáng)AI可以嘗試執(zhí)行全方位的人類認(rèn)知能力。

           

          關(guān)于人工智能的智力水平,與喬布斯共同創(chuàng)建蘋果公司的天才沃茲尼亞克曾經(jīng)提出一個(gè)咖啡測(cè)試:

          即讓一臺(tái)機(jī)器進(jìn)入普通的美國家庭并弄清楚如何制作咖啡:找到咖啡機(jī),找到咖啡,加水,找到杯子,然后通過按下適當(dāng)?shù)陌粹o來沖泡咖啡。

           

          在當(dāng)前AI發(fā)展的水平下,一臺(tái)機(jī)器人能夠做到制作咖啡并非難事:通過工程師的頂層設(shè)計(jì),讓它的感知系統(tǒng)學(xué)會(huì)分辨咖啡、咖啡機(jī)等物品,同時(shí)讓決策和執(zhí)行系統(tǒng)來實(shí)現(xiàn)制作咖啡的一系列操作。

           

          但是難點(diǎn)在于如何讓一臺(tái)「一無所知」的機(jī)器人自己在環(huán)境中學(xué)會(huì)制作咖啡。依據(jù)DeepMind研究人員的論文,通過為AI設(shè)立一個(gè)制作咖啡的目標(biāo),并設(shè)定好相應(yīng)的獎(jiǎng)勵(lì)機(jī)制,通過不斷的試錯(cuò)這臺(tái)機(jī)器終將領(lǐng)悟制作咖啡的真諦。
           
          如果目標(biāo)設(shè)定得好,它可能還會(huì)幫你做出一杯口味純正的貓屎咖啡。

          此篇文章如今在reddit上也引發(fā)了愛好者們的熱烈討論。


          「恐怕這些學(xué)者是在象牙塔里待的時(shí)間太久了,過度自信到了自戀的程度。

          「假設(shè)我有無限資源和時(shí)間,成功地創(chuàng)造出來了AGI,那我會(huì)從這個(gè)過程中學(xué)到什么?這還是科學(xué)嗎?」



          根據(jù)達(dá)爾文的自然選擇理論,生物進(jìn)化大概需要4億年的時(shí)間,但是至今也沒人能解釋清楚6億年前寒武紀(jì)地球上為什么會(huì)突然多了那么多新物種。
           


          或許在自然界中的進(jìn)化,也遠(yuǎn)非我們想象中的那么簡單。


          推薦閱讀:

          圖靈獎(jiǎng)得主Bengio又出新論文,用強(qiáng)化學(xué)習(xí)提升模型泛化性,Reddit崩潰:idea撞車了!

          你用Python 3了嗎?這個(gè)飛向火星的語言已經(jīng)30歲了!

          十年讓70+種語言無障礙溝通?他們決心用系統(tǒng)性創(chuàng)新攻克業(yè)內(nèi)公認(rèn)難題


          參考資料:

          https://venturebeat.com/2021/06/09/deepmind-says-reinforcement-learning-is-enough-to-reach-general-ai/
          https://www.reddit.com/r/MachineLearning/comments/nplhy3/r_reward_is_enough_david_silver_richard_sutton/




          瀏覽 72
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产7777 | 人人摸人人操人人爱 | 国产成人大香蕉 | 国产乱╳╳╳╳AⅤ视频 | 东京热AV无码国产东京热AⅤ |