公開反駁!數(shù)據(jù)科學家直指DeepMind,“強化學習無法實現(xiàn)通用人工智能”

編審:寇建超
Silver 等人認為,簡單的獎勵是豐富環(huán)境中的代理人開發(fā)多屬性智能的全部需要,而這種多屬性智能正是實現(xiàn)通用人工智能所需的全部。
但很顯然,并不是所有人都同意這一觀點。
(來源:VentureBeat)
值得一提的是,Roitblat 也是 Algorithms Are Not Enough: How to Create Artificial General Intelligence 一書的作者。

產(chǎn)生智能的前提存在誤導

Silver 等人更進一步,還提出它足以達到智能,特別是足以解釋通用人工智能。Silver 等人的論點可以歸納為以下三個命題:
獎勵最大化足以產(chǎn)生智能?!蔼剟钭畲蠡耐ㄓ媚繕俗阋则?qū)動表現(xiàn)出自然和人工智能中所研究的大多數(shù)(如果不是全部)能力的行為。”
智力是實現(xiàn)目標的能力。“智力可以被理解為實現(xiàn)目標的靈活能力?!?/span>
成功是通過最大化獎勵來衡量的。“因此,成功是通過最大化獎勵來衡量的?!?/span>

引用一位 18 世紀法國作家 Voltaire 的話說,他的博士 Pangloss 在 Candide 中曾這樣說:"請注意,鼻子的形成是為了承受眼鏡,因此我們有了眼鏡。" 一定有一個問題可以通過任何特征來解決,在這種情況下,他聲稱鼻子的形成只是為了讓眼鏡可以被托起。Pangloss 還表示:"可以證明......事物不可能不是本來的樣子;因為一切都是為了一個目的而創(chuàng)造的,一切都必然是為了最好的目的。"

智能的誘發(fā)存在多種影響因素
而 Roitblat 的觀點是:對 Silver 等人來說,這個目的就是一個解決問題的方法,而智能的學習正是為了這個目的,但我們不一定知道這個目的是什么,也不知道是什么環(huán)境特征誘發(fā)了它,但一定有什么東西。
Gould 和 Lewontin (1979) 很好地利用 Pangloss 博士批評他們所謂的進化生物學中的 “適應(yīng)主義者( adaptationist )” 或“過分樂觀者( Panglossian )”范式。適應(yīng)主義的核心原則是,任何特征都必須有一個適應(yīng)性的解釋。
他們指出,威尼斯圣馬可大教堂的高裝飾拱門(兩個拱門相交處近似三角形形狀)是一個建筑特征,源于選擇設(shè)計四個拱門的大教堂,而不是建筑設(shè)計的驅(qū)動力。拱門的選擇決定了壁爐的位置,而不是壁爐的位置決定拱門。一旦建筑師選擇了拱門,拱肩是必要的,而且可以進行裝飾。Gould 和 Lewontin 說:“每個扇形拱頂都必須有一系列沿拱頂中線的開放空間,即扇形兩側(cè)在支柱之間相交的地方。由于這些空間必須存在,所以它們經(jīng)常被用來達到巧妙的裝飾效果?!?/span>

Gould 和 Lewontin 給出了另一個例子,對阿茲臺克人祭祀同類相食的適應(yīng)性解釋。阿茲特克人從事活人祭祀。從適應(yīng)主義的角度解釋是,祭祀制度是解決肉類長期短缺問題的方法。受害者的四肢經(jīng)常被社區(qū)中的某些地位高的成員吃掉。這種 “解釋” 認為,構(gòu)成這一精心設(shè)計的儀式性謀殺的神話、象征和傳統(tǒng)系統(tǒng)是對肉的需求的結(jié)果,而事實可能恰恰相反。每一位新國王都必須超越他的上一任,為更多的人獻上越來越精致的祭品。這種做法似乎使阿茲特克帝國的經(jīng)濟資源日益緊張。其他蛋白質(zhì)來源很容易獲得,只有某些已經(jīng)擁有足夠食物的特權(quán)人士才會吃犧牲的受害者的某些部分。如果目標是讓饑餓的人吃到肉,那么人們會期望他們能夠更有效地利用受害者,并更廣泛地傳播食物來源。對肉的需求不太可能成為人類犧牲的原因;相反,它似乎是其他文化習俗的結(jié)果,這些習俗實際上對阿茲特克文明的生存不適應(yīng)。
引用 Silver 等人迄今為止的論點,如果目標是成為富人,那么只要積累大量的金錢就足夠了。用積累金錢就可以用成為富人的目標來解釋,成為富人的定義是積累了大量的金錢。強化學習沒有解釋一個人如何去積累金錢或為什么這應(yīng)該是一個目標。他們認為,這些都是由環(huán)境決定的。
Silver 等人認為,如果一個智能體可以不斷調(diào)整其行為以提高其累積獎勵,那么其環(huán)境反復要求的任何能力最終都必須在智能體的行為中產(chǎn)生。
在Silver 等人在自然智能和通用人工智能之間進行了類比,并指出 “動物的經(jīng)驗流足夠豐富和多樣的,它可能需要一種靈活的能力來實現(xiàn)各種各樣的子目標(例如覓食、戰(zhàn)斗或逃跑),以便成功地最大化其整體獎勵(例如饑餓或繁殖)。類似地,如果一個人工智能代理的經(jīng)驗流足夠豐富,那么許多目標(例如電池壽命或生存)可能隱含地需要實現(xiàn)同樣廣泛的子目標的能力,因此獎勵的最大化應(yīng)該足以產(chǎn)生一種通用的人工智能?!?br style="text-align: start;white-space: normal;caret-color: rgb(0, 0, 0);color: rgb(0, 0, 0);">
Roitblat 反駁道,只靠獎勵本身其實是不夠的,至少環(huán)境也發(fā)揮了作用。但適應(yīng)的內(nèi)容遠不止這些。適應(yīng)需要一個變異性的來源,從中可以選擇出某些特征。進化生物學中這種變異的主要來源是突變和重組。任何生物體的繁殖都涉及到將基因從父母那里復制到孩子身上。復制的過程并不完美,并且會出現(xiàn)錯誤。其中許多錯誤是致命的,但也有一些不是,然后可用于自然選擇。在有性繁殖的物種中,每一個親本都貢獻了其基因的一個副本(以及任何潛在的錯誤),這兩個副本允許通過重組產(chǎn)生額外的變異性,一些來自一個親本的基因,一些來自另一個親本的基因傳遞給下一代。

獎勵是選擇。僅此而已,這是不夠的。正如 Dawkins 所指出的,進化獎勵是將特定基因傳遞給下一代。獎勵是在基因?qū)用妫皇窃谏矬w或物種層面。任何能增加基因從一代傳給下一代的機會的東西,都是對這種獎賞的調(diào)解,但請注意,基因本身并沒有能力成為智能。
除了獎勵和環(huán)境,其他因素也在進化和強化學習中發(fā)揮著作用。獎勵只能從現(xiàn)有的原材料中進行選擇。如果我們將一只老鼠扔進一個洞穴,它就不會像蝙蝠一樣學會飛行和使用聲納。積累足夠的突變需要多代甚至數(shù)百萬年的時間,即便如此,也不能保證它能進化出與蝙蝠一樣的解決洞穴問題的方法。強化學習是一個純粹的選擇性過程。強化學習是提高行動概率的過程,這些行動共同構(gòu)成了處理某種環(huán)境的政策。這些行動必須已經(jīng)存在,才能被選中。至少就目前而言,這些行動是由進化中的基因和人工智能中的程序設(shè)計師提供的。
針對這一問題,Silver 等人在論文中也提到,在不同的環(huán)境中實現(xiàn)不同的獎勵最大化可能會導致不同的、強大的智能形式,每一種智能都會表現(xiàn)出自己令人印象深刻的、但又無法比擬的一系列能力。一個好的獎勵最大化的代理將利用其環(huán)境中存在的任何元素,但某種形式的智能的出現(xiàn)并不以它們的具體內(nèi)容為前提。

當 Rumelhart 和 McClelland 建立他們的過去式學習者時,同樣未被承認的幸運選擇發(fā)生了。他們選擇的表征恰好反映了他們希望他們的神經(jīng)網(wǎng)絡(luò)能夠?qū)W習的信息。這不是單純依靠一般學習機制的 “白板”。Silver 等人在題為 “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play” 的論文中指出,在開發(fā) AlphaZero 時也很 "幸運",他們在本文中提到了這一點。他們在提出這一主張的同時,對 AlphaZero 進行了更詳細的說明。
他們的結(jié)果表明,一個通用的強化學習算法可以在沒有特定領(lǐng)域的人類知識或數(shù)據(jù)的情況下學習“白板”,同一算法在多個領(lǐng)域的成功學習證明了這一點,在多個具有挑戰(zhàn)性的游戲中表現(xiàn)出了超人的表現(xiàn)。
他們還指出,AlphaZero 用深度神經(jīng)網(wǎng)絡(luò)、通用強化學習算法和通用樹形搜索算法取代了傳統(tǒng)游戲程序中使用的手工知識和特定領(lǐng)域的增強功能。
他們不包括明確的針對游戲的計算指令,但確實包括了人類對解決問題的重大貢獻。例如,他們的模型包括一個 "神經(jīng)網(wǎng)絡(luò) fθ(s),[它]將棋盤位置 s 作為輸入,并輸出一個移動概率矢量"。換句話說,他們并不期望計算機知道它在玩游戲,或者游戲是通過輪流進行的,或者它不能只是把圍棋棋子堆成一堆或把棋盤扔在地上。他們還提供了許多其他的約束條件,例如,讓機器與自己對弈。他們使用的樹狀表示法曾經(jīng)是代表游戲玩法的巨大創(chuàng)新。樹的分支對應(yīng)于可能的移動范圍,沒有其他操作是可能的。計算機還被提供了一種使用蒙特卡洛樹形搜索算法搜索樹的方法,并且提供了游戲的規(guī)則。

在沒有約束的情況下,獎勵并不能解釋任何東西。AlphaZero 不是所有種類學習的模型,當然也不是通用智能的模型。
Silver 等人將一般智能視為一個定量問題。"通用智能,即人類和其他動物所擁有的那種智能,可以被定義為在不同背景下靈活地實現(xiàn)各種目標的能力。"
需要多大的靈活性?多大范圍的目標?如果我們有一臺電腦,可以交替地下圍棋、跳棋和國際象棋,這仍然不構(gòu)成通用智能。即使我們增加了另一種游戲,即象棋,我們?nèi)匀粨碛型耆嗤挠嬎銠C,它仍然可以通過找到一個模型來工作,該模型“以棋盤位置 s 作為輸入并輸出移動概率向量”。計算機完全沒有能力接受任何其他的 "想法" 或解決任何無法以這種特定方式表示的任何問題。
通用人工智能中的 "通用" 不是以它可以解決不同問題的數(shù)量為特征,而是以解決多種類型問題的能力為特征。一個通用智能代理必須能夠自主地制定自己的表述,它必須創(chuàng)造自己的方法來解決問題,選擇自己的目標、表征、方法等等。到目前為止,這都是人類設(shè)計師的職權(quán)范圍,他們將問題簡化為計算機可以通過調(diào)整模型參數(shù)解決的形式。除非我們能夠消除對人類構(gòu)建問題的依賴,否則我們無法實現(xiàn)通用智能。強化學習,作為一個選擇性的過程,無法做到這一點。
正如行為主義和認知主義之間的對抗,以及反向傳播是否足以學習語言學的過去式轉(zhuǎn)換的問題一樣,這些簡單的學習機制只有在我們忽略了其他往往未被承認的限制因素所帶來的沉重負擔時才顯得充分。獎勵在可用的替代方案中進行選擇,但它們無法創(chuàng)造這些替代物。只要我們不仔細觀察這些現(xiàn)象,只要我們假設(shè)一定有某種獎勵能強化某種行動,行為主義的獎勵就能發(fā)揮作用。善于事后“解釋”任何觀察到的行為,但在實驗室之外,它們無助于預(yù)測哪些行動即將發(fā)生。這些現(xiàn)象與獎勵是一致的,但如果認為它們是由獎勵引起的,那就錯了。
Roitblat 在 Algorithms Are Not Enough: How to Create Artificial General Intelligence 一書中解釋了為什么所有當前包括強化學習在內(nèi)的人工智能算法,都需要仔細制定人類創(chuàng)建的問題和表示。他表示,一旦建立了模型及其內(nèi)在表示,優(yōu)化或強化就可以指導其進化,但這并不意味著強化就足夠了。同樣,Roitblat 補充說,該論文沒有就如何定義強化學習的獎勵、動作和其他元素提出任何建議。與 Silver 等人的說法相反,他認為獎勵是不夠的。
參考資料:
https://venturebeat.com/2021/07/10/building-artificial-intelligence-reward-is-not-enough/
https://www.sciencedirect.com/science/article/pii/S0004370221000862
https://mp.weixin.qq.com/s/5M1kuNp9z83yJkjKTE9m3g

評論
圖片
表情
