<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          DeepMind最新論文:強化學習“足以”達到通用人工智能

          共 6343字,需瀏覽 13分鐘

           ·

          2021-06-17 21:52

          大數(shù)據(jù)文摘授權轉載自學術頭條

          作者:XT


          從 1956 年達特茅斯會議首次定義人工智能(AI)至今,人工智能已經(jīng)經(jīng)歷了 60 多年的發(fā)展歷程,計算機領域的科學家們?nèi)〉昧艘淮斡忠淮蔚母锩赃M步,從機器學習、深度學習到強化學習,科學家們設計開發(fā)出了許多復雜的人工智能機制和技術,來復制人類視覺、語言、推理、運動技能和其他與智能生命相關的能力。


          盡管這些努力使得人工智能系統(tǒng)能夠在有限的環(huán)境中有效地解決一些特定的問題,但目前還沒有開發(fā)出像人類和動物一樣 “會思考的機器” ,“通用人工智能(AGI)” 時代尚未到來,想要讓機器完全模擬人類進行自主學習、模式識別、想象創(chuàng)造等活動看起來遙不可及。


          盡管一些樂觀主義者認為通用人工智能離我們不到十年,但一項針對機器學習專家的大型調(diào)查表明,如果存在通用人工智能,那我們可能要到 2040 年左右才能擁有它。


          近日,來自 DeepMind 的科學家在提交給同行評議的期刊《人工智能》(Artificial Intelligence)上的一篇題為 “Reward is enough” 的論文中認為,人工智能及其相關能力不是通過制定和解決復雜問題而產(chǎn)生的,而是通過堅持一個簡單而強大的原則:獎勵最大化。


          (來源:ScienceDirect)


          該研究由 DeepMind 首席研究科學家、倫敦大學學院教授 David Silver 領銜,研究靈感源于他們對自然智能的進化研究以及人工智能的最新成就,在撰寫論文時仍處于預證明階段。研究人員認為,獎勵最大化和試錯經(jīng)驗足以培養(yǎng)表現(xiàn)出與智力相關的能力行為。由此,他們得出結論,強化學習是基于獎勵最大化的人工智能分支,可以推動通用人工智能的發(fā)展。


          “獎勵最大化” 的人工智能實現(xiàn)途徑


          創(chuàng)建人工智能的一種常見方法就是在計算機中嘗試復制智能行為的元素。例如,我們對哺乳動物視覺系統(tǒng)的理解催生了各種人工智能系統(tǒng),來實現(xiàn)對圖像進行分類、定位照片中的對象、定義對象之間的邊界等等。同樣,我們對語言的理解有助于開發(fā)各種自然語言處理系統(tǒng),例如回答問題、文本生成和機器翻譯。


          這些都是狹義人工智能的實例,這些系統(tǒng)旨在執(zhí)行特定任務,而不是具有一般解決問題的能力。一些科學家認為,組裝多個狹義的人工智能模塊會產(chǎn)生更高的智能系統(tǒng)。例如,我們可以擁有一個軟件系統(tǒng),在單獨的計算機視覺、語音處理、NLP 和電機控制模塊之間進行協(xié)調(diào),以解決需要多種技能的復雜問題。


          相比之下,通用人工智能有時也被稱為人類級別的人工智能,它更像是《星球大戰(zhàn)》中的 C-3PO,因為它可以理解上下文、潛臺詞和社會線索,甚至被認為可能完全超過人類。


          (來源:pixabay)


          Deep Mind 的研究人員提出的另一種創(chuàng)建人工智能的方法:重新創(chuàng)建產(chǎn)生自然智能的簡單而有效的規(guī)則。為什么自然界中的的動物和人類會表現(xiàn)出豐富多樣的智能行為?Silver 等人指出,可能是由于每一種能力都源于對一個目標的追求,而這個目標是專門為激發(fā)這種能力而設計的。為此,該研究設計了一個替代假設:最大化獎勵的一般目標足以驅(qū)動表現(xiàn)出自然和人工智能研究的大部分(盡管不是全部)能力的行為?!?/span>


          這種假設基本上是遵守達爾文的生物進化論。從科學的角度分析,在我們周圍看到的復雜有機體中,并沒有自上而下的智能設計。數(shù)十億年的自然選擇和隨機變異過濾了生命形式,使其適合生存和繁殖,能夠更好地應對環(huán)境中的挑戰(zhàn)和情況的生物設法生存和繁殖。其余的都被淘汰了。

           

          這種簡單而有效的機制導致了具有各種感知、導航、改變環(huán)境和相互交流的技能和能力的生物去進化。


          圖 | “獎勵就足夠” 的假設,假定智力及其相關能力可以被理解為在其環(huán)境中行動的主體促進獎勵的最大化


          研究人員在論文中寫道:“動物和人類面臨的自然世界,以及人工代理未來面臨的環(huán)境,本質(zhì)上都是如此復雜,以至于它們需要復雜的能力才能在這些環(huán)境中生存下來。因此,以獎勵最大化來衡量的成功需要各種與智力相關的能力。在這樣的環(huán)境中,任何使獎勵最大化的行為都必須表現(xiàn)出這些能力。從這個意義上說,獎勵最大化的一般目標包含許多甚至可能的所有智能目標?!?/span>


          例如,考慮一只松鼠,它為了尋求減少饑餓的獎勵。一方面,它的感官和運動技能幫助它在有食物時定位和收集堅果。但是,當食物變得稀缺時,一只只去尋找食物的松鼠必然會餓死。這就是為什么它也有計劃技能和記憶來緩存堅果并在冬天恢復它們。松鼠具有社交技能和知識,可以確保其他動物不會偷吃它的堅果。如果你放大來看,饑餓最小化可能是 “活下去” 的一個子目標,這還需要一些技能,例如發(fā)現(xiàn)和躲避危險動物、保護自己免受環(huán)境威脅以及尋找季節(jié)性變化的更好棲息地。

           

          研究人員寫道:“當與智力相關的能力作為獎勵最大化的單一目標的解決方案出現(xiàn)時,這實際上可能提供了一個更深入的理解,因為它解釋了為什么這種能力會出現(xiàn)。相反,當每一種能力被理解為其自身專門目標的解決方案時,為了關注該能力的作用,為什么的問題就被繞開了?!?/span>

           

          研究人員認為,在可能的獎勵最大化方法中,最通用和可擴展的方法是智能體通過試錯及與環(huán)境的交互來學習這樣做。


          通過 “獎勵最大化” 發(fā)展能力


          在這篇論文中,研究人員列舉了一些高級示例,來說明 “在為許多可能的獎勵信號最大化服務中,智能和相關能力將如何隱含地出現(xiàn),對應于自然或人工智能可能指向的許多實用的目標?!?/span>


          在知識和學習方面,研究人員將知識定義為代理人的內(nèi)部信息,包含代理人選擇行動、預測累積獎勵或預測未來觀察的特征,這些知識有先天具備的,也有后天學習而來的知識。獎勵和環(huán)境也塑造了動物與生俱來的知識。例如,由獅子和獵豹等掠食性動物統(tǒng)治的敵對棲息地會獎勵反芻動物,它們自出生以來就具有逃避威脅的先天知識。同時,動物也因其學習棲息地特定知識的能力而獲得獎勵,例如在哪里可以找到食物和住所。


          通過列舉生物世界的學習,說明環(huán)境可能同時需要先天和后天的知識,獎勵最大化的代理將在需要時,通過自然代理的進化和人工代理的設計包含前者,并通過學習獲得后者。在更豐富和更長久的環(huán)境中,需求的平衡越來越向?qū)W習知識轉移。


          (來源:VentureBeat)


          在感知方面,動物的感官技能服務于在復雜環(huán)境中生存的需要。對象識別使動物能夠檢測食物、獵物、朋友和威脅,或找到路徑、庇護所和棲息地;圖像分割使他們能夠分辨不同對象之間的差異,并避免致命錯誤,例如跑下懸崖或從樹枝上掉下來;聽覺有助于發(fā)現(xiàn)動物在偽裝時看不到或找不到獵物的威脅;觸覺、味覺和嗅覺也給動物帶來優(yōu)勢,使其對棲息地有更豐富的感官體驗,在危險的環(huán)境中獲得更大的生存機會。

           

          于是,研究人員假設感知可以被理解為服務于獎勵的最大化。從獎勵最大化而不是監(jiān)督學習的角度考慮感知,最終可能會支持更大范圍的感知行為,包括具有挑戰(zhàn)性和現(xiàn)實形式的感知能力。


          在社會智能方面,研究人員假設社會智能可以被理解為在包含其他代理人的環(huán)境中,從一個代理人的角度最大化累積獎勵來實施,并推斷出如果一個環(huán)境需要社會智能,獎勵最大化將產(chǎn)生社會智能。

           

          在語言理解方面,研究人員假設語言能力的全部豐富性,包括所有這些更廣泛的能力,產(chǎn)生于對獎勵的追求,而理解和產(chǎn)生語言的壓力可以來自許多獎勵增加的好處。例如,一個代理人能夠理解 "危險" 警告,那么它就可以預測并避免負面的獎勵;如果一個代理可以產(chǎn)生 "取" 的命令,可能會導致環(huán)境將一個物體移到代理的附近。這些獎勵的好處可能最終會導致代理人具備各種復雜的語言技能。


          它是一個代理人根據(jù)復雜的觀察序列(如接收句子)產(chǎn)生復雜的行動序列(如說出句子),以影響環(huán)境中的其他代理人并積累更大的獎勵的能力的一個實例。理解和產(chǎn)生語言的壓力可以來自許多獎勵增加的好處。


          研究人員還討論了泛化、模仿以及一般智能的獎勵驅(qū)動基礎,將其描述為 “在單一、復雜的環(huán)境中使單一獎勵最大化 "。在這項研究中,研究人員在自然智能和通用人工智能之間進行了類比:“動物的經(jīng)驗流足夠豐富和多樣的,它可能需要一種靈活的能力來實現(xiàn)各種各樣的子目標(例如覓食、戰(zhàn)斗或逃跑),以便成功地最大化其整體獎勵(例如饑餓或繁殖)。類似地,如果一個人工智能代理的經(jīng)驗流足夠豐富,那么許多目標(例如電池壽命或生存)可能隱含地需要實現(xiàn)同樣廣泛的子目標的能力,因此獎勵的最大化應該足以產(chǎn)生一種通用的人工智能?!?/span>


          “獎勵最大化” 的強化學習 


          按照人工智能之父 John McCarthy 的說法,“智力是在世界范圍內(nèi)實現(xiàn)目標的能力的計算部分”,而后來發(fā)展起來的強化學習將尋求目標的智能問題正式化,對應于不同智能形式的獎勵信號,在不同的環(huán)境中如何實現(xiàn)最大化。


          強化學習是人工智能算法的一個特殊分支,由三個關鍵要素組成:環(huán)境(Environment)、代理(Agent)和獎勵(Reward)。通過執(zhí)行操作,代理會改變自己和環(huán)境的狀態(tài)。根據(jù)這些動作對代理必須實現(xiàn)的目標的影響程度,對其進行獎勵或懲罰。在許多強化學習問題中,智能體沒有環(huán)境的初始知識,并從隨機動作開始。根據(jù)收到的反饋,代理學習調(diào)整其行為并制定最大化其獎勵的策略。


          (來源:TechTalks) 


          在強化學習研究領域的一個著名的例子:敲鑼訓猴。馴獸師在訓練猴子時,以敲鑼為信號來訓練猴子站立敬禮,每當猴子很好地完成站立敬禮的動作,就會獲得一定的食物獎勵;如果沒有完成或者完成的不對,不僅不會得到食物獎勵,甚至會得到一頓鞭子抽打。由于聽到敲鑼后站立敬禮是猴子在所處環(huán)境下能夠獲得的最大收益,所以時間長了猴子自然在聽到馴獸師敲鑼后,就會站立敬禮。

           

          強化學習就是訓練對象如何在環(huán)境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產(chǎn)生能獲得最大利益的習慣性行為。在這篇論文中,DeepMind 的研究人員建議將強化學習作為主要算法,它可以復制自然界中看到的獎勵最大化,并最終導致通用人工智能。

           

          研究人員寫道:“如果一個智能體可以不斷調(diào)整其行為以提高其累積獎勵,那么其環(huán)境反復要求的任何能力最終都必須在智能體的行為中產(chǎn)生?!?并補充說,一個好的強化學習代理可以在學習過程中獲得表現(xiàn)出感知、語言、社會智能等的行為,以便在一個環(huán)境(如人類世界)中實現(xiàn)獎勵最大化,在這個環(huán)境中,這些能力具有持續(xù)的價值。

           

          在論文中,研究人員提供了幾個例子,展示了強化學習代理如何能夠在游戲和機器人環(huán)境中學習一般技能。例如,當被要求在圍棋比賽中取得最大勝利時,AlphaZero 學會了跨越圍棋許多方面的綜合智能。

           

          然而,研究人員強調(diào),一些根本性的挑戰(zhàn)仍未解決,他們并沒有對強化學習代理的樣本效率提供任何理論上的保證。而是猜想,當強大的強化學習代理被置于復雜的環(huán)境中時,將在實踐中產(chǎn)生復雜的智能表達。如果這個猜想是正確的,它將為實現(xiàn)人工通用智能提供了一條完整的途徑。


          強化學習以需要大量數(shù)據(jù)而聞名,強化學習代理可能需要幾個世紀的游戲時間才能掌握計算機游戲。研究人員仍然沒有想出如何創(chuàng)建強化學習系統(tǒng)來將他們的學習推廣到多個領域。因此,環(huán)境的微小變化通常需要對模型進行全面的重新訓練。

           

          研究人員還承認,獎勵最大化的學習機制是一個未解決的問題,仍然是強化學習中有待進一步研究的核心問題。論文拋出了整個強化學習領域研究的一個核心問題,即如何在一個實用的代理中有效地學習獎勵最大化。


          “獎勵最大化” 的優(yōu)缺點


          加州大學圣地亞哥分校的神經(jīng)科學家、哲學家和名譽教授帕特里夏?丘奇蘭(Patricia Churchland)將該論文中的想法描述為 “非常仔細和有見地的解決方案”。

           

          然而,Churchland 也指出了該論文關于社會決策的討論中可能存在的缺陷。Churchland 最近寫了一本關于道德直覺的生物學起源的書,他認為依戀和聯(lián)系是哺乳動物和鳥類社會決策的一個強大因素,這就是為什么動物為了保護他們的孩子而將自己置于極大的危險之中。

           

          Churchland 說:“我傾向于將親密關系以及其他人的關懷視為自己,也就是 “我和我” 的范圍的延伸。在這種情況下,我認為,對論文假設進行小幅修改以實現(xiàn)對 “我和我” 的獎勵最大化會非常有效。當然,我們?nèi)壕觿游锒加幸缿俪潭?,對后代超強依戀、對配偶和親屬非常強依戀,對朋友和熟人很強依戀等等,依戀類型的強度會因環(huán)境和發(fā)育階段而異。”

           

          Churchland 表示,這不是一個主要的批評,并且很可能會非常優(yōu)雅地融入這個假設。Churchland 說:“我對論文的詳細程度以及他們考慮可能存在的弱點的仔細程度印象深刻。我可能也不對,但我傾向于認為這是一個里程碑?!?/span>

           

          針對 “哪一個通用目標可以產(chǎn)生所有形式的智能” 這一問題。研究人員在討論部分提到,在不同的環(huán)境中實現(xiàn)不同的獎勵最大化可能會導致不同的、強大的智能形式,每一種智能都會表現(xiàn)出自己令人印象深刻的、但又無法比擬的一系列能力。一個好的獎勵最大化的代理將利用其環(huán)境中存在的任何元素,但某種形式的智能的出現(xiàn)并不以它們的具體內(nèi)容為前提。


          相比于只有精心構建的獎勵才有可能誘發(fā)一般的智力,研究人員認為人工智能代理智力的出現(xiàn)可能對獎勵信號的性質(zhì)相當穩(wěn)健。此外,他們建議強化學習問題也可以轉化為一個概率框架,接近于獎勵最大化的目標。


          (來源:pixabay)


          數(shù)據(jù)科學家 Herbert Roitblat 對該論文的立場提出了挑戰(zhàn),即簡單的學習機制和試錯經(jīng)驗足以培養(yǎng)與智能相關的能力。Roitblat 認為,論文中提出的理論在現(xiàn)實生活中實施時面臨著一些挑戰(zhàn)。

           

          Roitblat 說 “如果沒有時間限制,那么試錯學習可能就足夠了,否則我們就會遇到無限數(shù)量的猴子在無限長的時間內(nèi)打字的問題?!?無限猴子定理指出,一只猴子在無限長的時間內(nèi)敲打打字機上的隨機鍵,最終可能會打出任何給定的文本。

           

          Roitblat 在《Algorithms are Not Enough》一書中解釋了為什么所有當前包括強化學習在內(nèi)的人工智能算法,都需要仔細制定人類創(chuàng)建的問題和表示。他表示,一旦建立了模型及其內(nèi)在表示,優(yōu)化或強化就可以指導其進化,但這并不意味著強化就足夠了。同樣,Roitblat 補充說,該論文沒有就如何定義強化學習的獎勵、動作和其他元素提出任何建議。

           

          Roitblat 說:“強化學習假設智能體具有一組有限的潛在動作。已經(jīng)指定了獎勵信號和價值函數(shù)。換句話說,通用智能的問題恰恰是提供強化學習作為先決條件的那些東西。因此,如果機器學習都可以簡化為某種形式的優(yōu)化,以最大化某些評估措施,那么強化學習肯定是相關的,但它的解釋性并不強?!?/span>


          參考資料:

          https://www.sciencedirect.com/science/article/pii/S0004370221000862
          https://venturebeat.com/2021/06/09/deepmind-says-reinforcement-learning-is-enough-to-reach-general-ai/
          https://www.jonkrohn.com/posts/2021/1/22/google-deepminds-quest-for-artificial-general-intelligence



          點「在看」的人都變好看了哦!
          瀏覽 53
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲免费高清 | 欧美黄色电影一区二区在线播放 | 亚洲欧洲色| 久久久手机免费视频 | 91精品国产综合久久久久久久 |