點(diǎn)藍(lán)色字關(guān)注“機(jī)器學(xué)習(xí)算法工程師”
設(shè)為星標(biāo),干貨直達(dá)!
轉(zhuǎn)自機(jī)器之心公眾號(hào)
編輯:小舟、陳萍
通用人工智能,用強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)機(jī)制就能實(shí)現(xiàn)嗎?
幾十年來(lái),在人工智能領(lǐng)域,計(jì)算機(jī)科學(xué)家設(shè)計(jì)并開(kāi)發(fā)了各種復(fù)雜的機(jī)制和技術(shù),以復(fù)現(xiàn)視覺(jué)、語(yǔ)言、推理、運(yùn)動(dòng)技能等智能能力。盡管這些努力使人工智能系統(tǒng)在有限的環(huán)境中能夠有效地解決特定的問(wèn)題,但卻尚未開(kāi)發(fā)出與人類和動(dòng)物一般的智能系統(tǒng)。人們把具備與人類同等智慧、或超越人類的人工智能稱為通用人工智能(AGI)。這種系統(tǒng)被認(rèn)為可以執(zhí)行人類能夠執(zhí)行的任何智能任務(wù),它是人工智能領(lǐng)域主要研究目標(biāo)之一。關(guān)于通用人工智能的探索正在不斷發(fā)展。近日強(qiáng)化學(xué)習(xí)大佬 David Silver、Richard Sutton 等人在一篇名為《Reward is enough》的論文中提出將智能及其相關(guān)能力理解為促進(jìn)獎(jiǎng)勵(lì)最大化。
論文地址:https://www.sciencedirect.com/science/article/pii/S0004370221000862該研究認(rèn)為獎(jiǎng)勵(lì)足以驅(qū)動(dòng)自然和人工智能領(lǐng)域所研究的智能行為,包括知識(shí)、學(xué)習(xí)、感知、社交智能、語(yǔ)言、泛化能力和模仿能力,并且研究者認(rèn)為借助獎(jiǎng)勵(lì)最大化和試錯(cuò)經(jīng)驗(yàn)就足以開(kāi)發(fā)出具備智能能力的行為。因此,他們得出結(jié)論:強(qiáng)化學(xué)習(xí)將促進(jìn)通用人工智能的發(fā)展。
創(chuàng)建 AI 的一種常見(jiàn)方法是嘗試在計(jì)算機(jī)中復(fù)制智能行為的元素。例如,我們對(duì)哺乳動(dòng)物視覺(jué)系統(tǒng)的理解催生出各種人工智能系統(tǒng),這些系統(tǒng)可以對(duì)圖像進(jìn)行分類、定位照片中的物體、定義物體的邊界等。同樣,我們對(duì)語(yǔ)言的理解也幫助開(kāi)發(fā)了各種自然語(yǔ)言處理系統(tǒng),比如問(wèn)答、文本生成和機(jī)器翻譯。但這些都是狹義人工智能的實(shí)例,只是被設(shè)計(jì)用來(lái)執(zhí)行特定任務(wù)的系統(tǒng),而不具有解決一般問(wèn)題的能力。一些研究者認(rèn)為,組裝多個(gè)狹義人工智能模塊將產(chǎn)生更強(qiáng)大的智能系統(tǒng),以解決需要多種技能的復(fù)雜問(wèn)題。而在該研究中,研究者認(rèn)為創(chuàng)建通用人工智能的方法是重新創(chuàng)建一種簡(jiǎn)單但有效的規(guī)則。該研究首先提出假設(shè):獎(jiǎng)勵(lì)最大化這一通用目標(biāo),足以驅(qū)動(dòng)自然智能和人工智能中至少大部分的智能行為。」這基本上就是大自然自身的運(yùn)作方式。數(shù)十億年的自然選擇和隨機(jī)變異讓生物不斷進(jìn)化。能夠應(yīng)對(duì)環(huán)境挑戰(zhàn)的生物才能得以生存和繁殖,其余的則被淘汰。這種簡(jiǎn)單而有效的機(jī)制促使生物進(jìn)化出各種技能和能力來(lái)感知、生存、改變環(huán)境,以及相互交流。研究者說(shuō):「人工智能體未來(lái)所面臨的環(huán)境和動(dòng)物與人類面臨的自然世界一樣,本質(zhì)上是如此復(fù)雜,以至于它們需要具備復(fù)雜的能力才能在這些環(huán)境中成功生存?!挂虼耍元?jiǎng)勵(lì)最大化來(lái)衡量的成功,需要智能體表現(xiàn)出相關(guān)的智能能力。從這個(gè)意義上說(shuō),獎(jiǎng)勵(lì)最大化的一般目標(biāo)包含了許多甚至可能是所有的智能目標(biāo)。并且,研究者認(rèn)為最大化獎(jiǎng)勵(lì)最普遍和可擴(kuò)展的方式是借助與環(huán)境交互學(xué)習(xí)的智能體。與人工智能的許多交互式方法一樣,強(qiáng)化學(xué)習(xí)遵循一種協(xié)議,將問(wèn)題分解為兩個(gè)隨時(shí)間順序交互的系統(tǒng):做出決策的智能體(解決方案)和受這些決策影響的環(huán)境(問(wèn)題)。這與其他專用協(xié)議形成對(duì)比,其他專用協(xié)議可能考慮多個(gè)智能體、多個(gè)環(huán)境或其他交互模式。基于強(qiáng)化學(xué)習(xí)的思想,該研究認(rèn)為獎(jiǎng)勵(lì)足以表達(dá)各種各樣的目標(biāo)。智能的多種形式可以被理解為有利于對(duì)應(yīng)的獎(jiǎng)勵(lì)最大化,而與每種智能形式相關(guān)的能力能夠在追求獎(jiǎng)勵(lì)的過(guò)程中隱式產(chǎn)生。因此該研究假設(shè)所有智能及相關(guān)能力可以理解為一種假設(shè):「獎(jiǎng)勵(lì)就足夠了」。智能及其相關(guān)的能力,可以理解為智能體在其環(huán)境中的行為獎(jiǎng)勵(lì)最大化。這一假設(shè)很重要,因?yàn)槿绻钦_的,那么一個(gè)獎(jiǎng)勵(lì)最大化智能體在服務(wù)于其實(shí)現(xiàn)目標(biāo)的過(guò)程中,就可以隱式地產(chǎn)生與智能相關(guān)的能力,具備出色智能能力的智能體將能夠「適者生存」。研究者從以下幾個(gè)方面論述了「獎(jiǎng)勵(lì)就足夠了」這一假設(shè)。
該研究將知識(shí)定義為智能體內(nèi)部信息,例如,知識(shí)可以包含于用于選擇動(dòng)作、預(yù)測(cè)累積獎(jiǎng)勵(lì)或預(yù)測(cè)未來(lái)觀測(cè)特征的函數(shù)參數(shù)中。有些知識(shí)是先驗(yàn)知識(shí),有些知識(shí)是通過(guò)學(xué)習(xí)獲得的。獎(jiǎng)勵(lì)最大化的智能體將根據(jù)環(huán)境情況包含前者,例如借助自然智能體的進(jìn)化和人工智能體的設(shè)計(jì),并通過(guò)學(xué)習(xí)獲取后者。隨著環(huán)境的不斷豐富,需求的平衡將越來(lái)越傾向于學(xué)習(xí)知識(shí)。人類需要各種感知能力來(lái)積累獎(jiǎng)勵(lì),例如分辨朋友和敵人,開(kāi)車時(shí)進(jìn)行場(chǎng)景解析等。這可能需要多種感知模式,包括視覺(jué)、聽(tīng)覺(jué)、嗅覺(jué)、軀體感覺(jué)和本體感覺(jué)。相比于監(jiān)督學(xué)習(xí),從獎(jiǎng)勵(lì)最大化的角度考慮感知,最終可能會(huì)支持更廣泛的感知行為,包括如下具有挑戰(zhàn)性和現(xiàn)實(shí)形式的感知能力:動(dòng)作和觀察通常交織在多種感知形式中,例如觸覺(jué)感知、視覺(jué)掃視、物理實(shí)驗(yàn)、回聲定位等;
感知的效用通常取決于智能體的行為;
獲取信息可能具有顯式和隱式成本;
數(shù)據(jù)的分布通常依賴于上下文,在豐富的環(huán)境中,潛在數(shù)據(jù)多樣性可能遠(yuǎn)遠(yuǎn)超過(guò)智能體的容量或已存在數(shù)據(jù)的數(shù)量——這需要從經(jīng)驗(yàn)中獲取感知;
感知的許多應(yīng)用程序無(wú)法獲得有標(biāo)記的數(shù)據(jù)。
社交智能是一種理解其他智能體并與之有效互動(dòng)的能力。根據(jù)該研究的假設(shè),社交智能可以被理解為在智能體環(huán)境中的某一智能體最大化累積獎(jiǎng)勵(lì)。按照這種標(biāo)準(zhǔn)智能體 - 環(huán)境協(xié)議,一個(gè)智能體觀察其他智能體的行為,并可能通過(guò)自身行為影響其他智能體,就像它觀察和影響環(huán)境的其他方面一樣。一個(gè)能夠預(yù)測(cè)和影響其他智能體行為的智能體通??梢垣@得更大的累積獎(jiǎng)勵(lì)。因此,如果一個(gè)環(huán)境需要社交智能(例如包含動(dòng)物或人類的環(huán)境),獎(jiǎng)勵(lì)最大化將能夠產(chǎn)生社交智能。語(yǔ)言一直是自然和人工智能領(lǐng)域大量研究的一個(gè)主題。由于語(yǔ)言在人類文化和互動(dòng)中起著主導(dǎo)作用,智能本身的定義往往以理解和使用語(yǔ)言的能力為前提,尤其是自然語(yǔ)言。然而,當(dāng)前的語(yǔ)言建模本身不足以產(chǎn)生更廣泛的與智能相關(guān)的語(yǔ)言能力,包括:語(yǔ)言通常是上下文相關(guān)的,不僅與所說(shuō)的內(nèi)容相關(guān),還與智能體周圍環(huán)境中正在發(fā)生的其他事情有關(guān),有時(shí)需要通過(guò)視覺(jué)和其他感官模式感知。此外,語(yǔ)言經(jīng)常穿插其他表達(dá)行為,例如手勢(shì)、面部表情、音調(diào)變化等。
語(yǔ)言是有目的并能對(duì)環(huán)境產(chǎn)生影響的。例如,銷售人員學(xué)習(xí)調(diào)整他們的語(yǔ)言以最大化銷售額。
語(yǔ)言的具體含義和效用因智能體的情況和行為而異。例如,礦工可能需要有關(guān)巖石穩(wěn)定性的語(yǔ)言,農(nóng)民可能需要有關(guān)土壤肥力的語(yǔ)言。此外,語(yǔ)言可能存在機(jī)會(huì)成本,例如討論農(nóng)業(yè)的人并不一定是從事農(nóng)業(yè)工作)。
在豐富的環(huán)境中,語(yǔ)言處理不可預(yù)見(jiàn)事件的潛在用途可能超出任何語(yǔ)料庫(kù)的能力。在這些情況下,可能需要通過(guò)經(jīng)驗(yàn)動(dòng)態(tài)地解決語(yǔ)言問(wèn)題。例如開(kāi)發(fā)一項(xiàng)新技術(shù)或找到一種方法來(lái)解決一個(gè)新的問(wèn)題。
該研究認(rèn)為基于「獎(jiǎng)勵(lì)就足夠了」的假設(shè),豐富的語(yǔ)言能力,包括所有這些更廣泛的能力,都應(yīng)該源于對(duì)獎(jiǎng)勵(lì)的追求。
泛化能力通常被定義為將一個(gè)問(wèn)題的解決方案轉(zhuǎn)換為另一個(gè)問(wèn)題的解決方案的能力。例如,在監(jiān)督學(xué)習(xí)中,泛化可能專注于將從一個(gè)數(shù)據(jù)集(例如照片)學(xué)到的解決方案轉(zhuǎn)移到另一個(gè)數(shù)據(jù)集(例如繪畫(huà))。根據(jù)該研究的假設(shè),泛化可以通過(guò)在智能體和單個(gè)復(fù)雜環(huán)境之間的持續(xù)交互流中最大化累積獎(jiǎng)勵(lì)來(lái)實(shí)現(xiàn),這同樣遵循標(biāo)準(zhǔn)的智能體 - 環(huán)境協(xié)議。人類世界等環(huán)境需要泛化,因?yàn)橹悄荏w在不同的時(shí)間會(huì)面對(duì)環(huán)境的不同方面。例如,一只吃水果的動(dòng)物可能每天都會(huì)遇到一棵新樹(shù),這個(gè)動(dòng)物也可能會(huì)受傷、遭受干旱或面臨入侵物種。在每種情況下,動(dòng)物都必須通過(guò)泛化過(guò)去狀態(tài)的經(jīng)驗(yàn)來(lái)快速適應(yīng)新?tīng)顟B(tài)。動(dòng)物面臨的不同狀態(tài)并沒(méi)有被整齊地劃分為具有不同標(biāo)簽的任務(wù)。相反,狀態(tài)取決于動(dòng)物的行為,它可能結(jié)合了在不同時(shí)間尺度上重復(fù)出現(xiàn)的各種元素,可以觀察到狀態(tài)的重要方面。豐富的環(huán)境同樣需要智能體從過(guò)去的狀態(tài)泛化到未來(lái)的狀態(tài),以及所有相關(guān)的復(fù)雜性,以便有效地積累獎(jiǎng)勵(lì)。模仿是與人類和動(dòng)物智能相關(guān)的一種重要能力,它可以幫助人類和動(dòng)物快速獲得其他能力,例如語(yǔ)言、知識(shí)和運(yùn)動(dòng)技能。在人工智能中,模仿通常被表述為通過(guò)行為克隆,從演示中學(xué)習(xí),并提供有關(guān)教師行為、觀察和獎(jiǎng)勵(lì)的明確數(shù)據(jù)時(shí)。相比之下,觀察學(xué)習(xí)的自然能力包括從觀察到的其他人類或動(dòng)物的行為中進(jìn)行的任何形式的學(xué)習(xí),并且不要求直接訪問(wèn)教師的行為、觀察和獎(jiǎng)勵(lì)。這表明,與通過(guò)行為克隆的直接模仿相比,在復(fù)雜環(huán)境中可能需要更廣泛和現(xiàn)實(shí)的觀察學(xué)習(xí)能力,包括:其他智能體可能是智能體的環(huán)境的組成部分(例如嬰兒觀察其母親),而無(wú)需假設(shè)存在包含教師數(shù)據(jù)的特殊數(shù)據(jù)集;
智能體可能需要學(xué)習(xí)它自己的狀態(tài)與另一個(gè)智能體的狀態(tài)之間的關(guān)聯(lián),或者智能體自己的動(dòng)作和另一個(gè)智能體的觀察結(jié)果,這可能會(huì)產(chǎn)生更高的抽象級(jí)別;
其他智能體可能只能被部分觀察到,因此他們的行為或目標(biāo)可能只是被不完美地推斷出來(lái);
其他智能體可能會(huì)表現(xiàn)出應(yīng)避免的不良行為;
環(huán)境中可能有許多其他智能體,表現(xiàn)出不同的技能或不同的能力水平。
該研究認(rèn)為這些更廣泛的觀察學(xué)習(xí)能力能夠由獎(jiǎng)勵(lì)最大化驅(qū)動(dòng)的,從單個(gè)智能體的角度來(lái)看,它只是將其他智能體視為其環(huán)境的組成部分,這可能會(huì)帶來(lái)許多與行為克隆相同的好處。例如樣本高效的知識(shí)獲取,但這需要更廣泛和更綜合的背景下。基于該研究的假設(shè),通用智能可以理解為通過(guò)在單一復(fù)雜的環(huán)境中最大化一個(gè)特殊獎(jiǎng)勵(lì)來(lái)實(shí)現(xiàn)。例如,自然智能在其整個(gè)生命周期中都面向從與自然世界的互動(dòng)中產(chǎn)生的連續(xù)經(jīng)驗(yàn)流。動(dòng)物的經(jīng)驗(yàn)流足夠豐富和多樣,它可能需要靈活的能力來(lái)實(shí)現(xiàn)各種各樣的子目標(biāo)(例如覓食、戰(zhàn)斗、逃跑等),以便成功地最大化其整體獎(jiǎng)勵(lì)(例如饑餓或繁殖) 。類似地,如果人工智能體的經(jīng)驗(yàn)流足夠豐富,那么單一目標(biāo)(例如電池壽命或生存)可能隱含地需要實(shí)現(xiàn)同樣廣泛的子目標(biāo)的能力,因此獎(jiǎng)勵(lì)最大化應(yīng)該足以產(chǎn)生一種通用人工智能。該研究的主要假設(shè)是智能及其相關(guān)能力可以被理解為促進(jìn)獎(jiǎng)勵(lì)最大化,這與智能體的性質(zhì)無(wú)關(guān)。因此,如何構(gòu)建最大化獎(jiǎng)勵(lì)的智能體是一個(gè)重要問(wèn)題。該研究認(rèn)為這個(gè)問(wèn)題同樣可以通過(guò)問(wèn)題本身,即「獎(jiǎng)勵(lì)最大化」來(lái)回答。具體來(lái)說(shuō),研究者設(shè)想了一種具有一般能力的智能體,然后從他們與環(huán)境交互的持續(xù)經(jīng)驗(yàn)中學(xué)習(xí)如何最大化獎(jiǎng)勵(lì)。這種智能體,被稱之為強(qiáng)化學(xué)習(xí)智能體。
在所有可能的最大化獎(jiǎng)勵(lì)的解決方法中,最自然的方法當(dāng)然是通過(guò)與環(huán)境交互,從經(jīng)驗(yàn)中學(xué)習(xí)。隨著時(shí)間的推移,這種互動(dòng)體驗(yàn)提供了大量關(guān)于因果關(guān)系、行為后果以及如何積累獎(jiǎng)勵(lì)的信息。與其預(yù)先確定智能體的行為(相信設(shè)計(jì)者對(duì)環(huán)境的預(yù)知),不如賦予智能體發(fā)現(xiàn)自己行為的一般能力(相信經(jīng)驗(yàn))是很自然的。更具體地說(shuō),最大化獎(jiǎng)勵(lì)的設(shè)計(jì)目標(biāo)是通過(guò)從經(jīng)驗(yàn)中學(xué)習(xí)最大化獎(jiǎng)勵(lì)的行為的持續(xù)內(nèi)部過(guò)程來(lái)實(shí)現(xiàn)的。對(duì)于該研究「獎(jiǎng)勵(lì)就足夠了」的觀點(diǎn),有網(wǎng)友表示不贊成:「這似乎是對(duì)個(gè)人效用函數(shù)這一共同概念的重新語(yǔ)境化。所有生物都有效用函數(shù),他們的目標(biāo)是最大化他們的個(gè)人效用。效用理論有著深厚而豐富的歷史淵源,但本文對(duì)效用理論的認(rèn)識(shí)并不多見(jiàn)。Silver 和 Sutton 都是 RL 領(lǐng)域的大牛,但對(duì)我而言,這篇論文給我的感覺(jué)很糟糕。」
還有網(wǎng)友認(rèn)為這是重新包裝進(jìn)化論:
如此優(yōu)秀的兩位計(jì)算機(jī)科學(xué)家這是在重新包裝進(jìn)化論?這里的實(shí)際意義是什么?如果有足夠的時(shí)間和復(fù)雜性,進(jìn)化(獎(jiǎng)勵(lì)信號(hào))可以發(fā)明智能。這有什么意義?智能需要從獎(jiǎng)勵(lì)中獲得就像是在表述「人會(huì)呼吸」,這似乎是句廢話。
甚至有人質(zhì)疑「?jìng)涫茏鹁吹难芯空吒菀紫萑脒^(guò)度自信」:
還有網(wǎng)友表示:「這篇文章沒(méi)有對(duì)可以做什么和不能做什么設(shè)置任何界限。難道無(wú)需直接分析函數(shù)即可知道在嘗試最大化函數(shù)時(shí)可以或不能出現(xiàn)什么嗎?獎(jiǎng)勵(lì)函數(shù)與獲得這些獎(jiǎng)勵(lì)的系統(tǒng)相結(jié)合,完全確定了 “可出現(xiàn)” 行為的空間,而無(wú)論出現(xiàn)什么,對(duì)它們來(lái)說(shuō)都是智能行為?!?/span>
不過(guò),也有人提出了一個(gè)合理的問(wèn)題:最終目標(biāo)獎(jiǎng)勵(lì)是否會(huì)產(chǎn)生一般的智能,或者是否會(huì)產(chǎn)生一些額外的信號(hào)?純獎(jiǎng)勵(lì)信號(hào)是否會(huì)陷入局部最大值?他們的論點(diǎn)是,對(duì)于一個(gè)非常復(fù)雜的環(huán)境,它不會(huì)。但如果你有一個(gè)足夠復(fù)雜的環(huán)境,模型有足夠的參數(shù),并且你不會(huì)陷入局部最大值,那么一旦系統(tǒng)解決了問(wèn)題中的瑣碎,簡(jiǎn)單的部分,唯一的方法是提高性能,創(chuàng)建更通用的解決方案,即變得更智能。
推薦閱讀
CPVT:一個(gè)卷積就可以隱式編碼位置信息
SOTA模型Swin Transformer是如何煉成的!
谷歌AI用30億數(shù)據(jù)訓(xùn)練了一個(gè)20億參數(shù)Vision Transformer模型,在ImageNet上達(dá)到新的SOTA!
DETR:基于 Transformers 的目標(biāo)檢測(cè)
目標(biāo)跟蹤入門篇-相關(guān)濾波
SOTA模型Swin Transformer是如何煉成的!
MoCo V3:我并不是你想的那樣!
Transformer在語(yǔ)義分割上的應(yīng)用
"未來(lái)"的經(jīng)典之作ViT:transformer is all you need!
PVT:可用于密集任務(wù)backbone的金字塔視覺(jué)transformer!
漲點(diǎn)神器FixRes:兩次超越ImageNet數(shù)據(jù)集上的SOTA
Transformer為何能闖入CV界秒殺CNN?
不妨試試MoCo,來(lái)替換ImageNet上pretrain模型!
機(jī)器學(xué)習(xí)算法工程師
一個(gè)用心的公眾號(hào)
