天堂视频免费在线观看,亚洲国产日韩在线,日韩三级片免费,大鸡吧视频在线观看,男操女视频网站,亚洲无吗中文字幕,51操逼,亚洲激情无码视频

來源：AI科技評論

編譯：王曄

校對：維克多

人類已經(jīng)證明，大腦中的神經(jīng)系統(tǒng)擁有為不斷適應(yīng)外界環(huán)境的變化而改變自身結(jié)構(gòu)的能力。大腦內(nèi)部的突觸、神經(jīng)元之間的連接可以由于學(xué)習(xí)和經(jīng)驗的影響建立新的連接。

相應(yīng)的，感官替代（sensory substitution）這一天賦也存在人類技能樹之中，例如有些天生失明的人能夠通過將圖像轉(zhuǎn)換成聲音學(xué)會感知人體輪廓形狀的能力。

如果讓AI擁有這種能力，它也能像蝙蝠和海豚一樣，能夠利用其耳朵通過聲音和回聲來‘看’周圍的世界一樣。

近日，來自谷歌大腦的一篇題為“The Sensory Neuron as a Transformer: Permutation-Invariant Neural Networks for Reinforcement Learning”的論文證明了強化學(xué)習(xí)擁有這種“感官替代”的能力。

論文地址：https://arxiv.org/pdf/2109.02869.pdf

具體而言，作者在論文中設(shè)計了一系列強化學(xué)習(xí)系統(tǒng)，其能夠?qū)碜原h(huán)境的每種感覺輸入（sensory inputs）到不相同，卻具有一定聯(lián)系的神經(jīng)網(wǎng)絡(luò)中，值得一提的是，這些神經(jīng)網(wǎng)絡(luò)之間沒有固定的關(guān)系。研究表明，這些感覺網(wǎng)絡(luò)可以通過訓(xùn)練來整合本地收到的信息，并且通過注意機制的交流，可以集體達成一個全局一致的方案。

此外，即使在一個事件中，輸入順序被隨機地排列多次，該系統(tǒng)仍然可以執(zhí)行其任務(wù)。

證明過程

現(xiàn)代深度學(xué)習(xí)系統(tǒng)通常無法適應(yīng)感覺輸入的隨機重新排序，除非對模型進行重新訓(xùn)練或者用戶為模型糾正輸入的順序。然而，meta-learning這項技術(shù)，可以幫助模型適應(yīng)這種變化。例如adaptive weights、Hebbian-learning和model-based等方法。

在論文中，作者研究的agents都有一個共同的特點：在執(zhí)行任務(wù)時被用來處理感覺輸入，并將輸入突然隨機重新進行排序。受到與細胞自動機相關(guān)的自組織神經(jīng)網(wǎng)絡(luò)的最新發(fā)展的啟發(fā)，作者在實驗中將每個感覺輸入（可以是連續(xù)控制環(huán)境中的單個狀態(tài)，或者是視覺環(huán)境中的一塊像素）輸入一個單獨的神經(jīng)網(wǎng)絡(luò)模塊，該模塊在一段時間內(nèi)只整合來自這個特定感覺輸入通道的信息。

在本地接收信息的同時，這些單獨的感覺神經(jīng)網(wǎng)絡(luò)模塊也不斷地廣播輸出信息。參考Set Transformer架構(gòu)，一個注意力機制將這些信息結(jié)合起來，形成一個全局的潛代碼（global latent code），然后將其轉(zhuǎn)換為agent的行動空間。注意力機制可以被看作是神經(jīng)網(wǎng)絡(luò)適應(yīng)性加權(quán)的一種形式，在這種情況下，允許任意數(shù)量的感覺輸入以任何隨機順序被處理。

實驗中，作者發(fā)現(xiàn)每個單獨的感覺神經(jīng)網(wǎng)絡(luò)模塊，雖然只能接收到局部信息，但仍能共同產(chǎn)生一個全局一致的策略，而且這樣的系統(tǒng)可以被訓(xùn)練來執(zhí)行幾個流行的強化學(xué)習(xí)（RL）環(huán)境中的任務(wù)。此外，作者設(shè)計的系統(tǒng)能夠以任何隨機排列的順序利用不同數(shù)量的感覺輸入通道，即使在一個episode中順序再次被重新排列。

如上圖pong agent，即使在給它一個小的屏幕子集（30%），以一個重新排列的順序，也能繼續(xù)工作。

另一方面，鼓勵系統(tǒng)學(xué)習(xí)的置換不變的觀測空間的連貫性表示，會使 policies更加穩(wěn)健，泛化性更強。研究表明，在沒有額外訓(xùn)練的情況下，即使加入含有噪聲或冗余信息的其它輸入通道，系統(tǒng)也能繼續(xù)運作。在視覺環(huán)境中，即使只給它一小部分從屏幕上隨機選擇的區(qū)塊，而在測試時，如果給它更多的區(qū)塊，系統(tǒng)可以利用額外的信息來表現(xiàn)得更好。

作者還證明，盡管在單一的固定背景上進行訓(xùn)練，系統(tǒng)還是能夠推廣到具有不同背景圖像的視覺環(huán)境。最后，為了使訓(xùn)練更加實用，作者提出了一個行為克?。╞ehavioral cloning）方案，將用現(xiàn)有方法訓(xùn)練的策略轉(zhuǎn)換成具有理想特性的置換不變的策略。

圖注：方法概述

上圖的AttentionNeuron 是一個獨立的層，其中每個感覺神經(jīng)元只能訪問“無序觀察（unordered observations）”的一部分。結(jié)合agent的前一步動作，每個神經(jīng)元使用共享函數(shù)，然后獨立生成信息。

圖注：符號列表

在上述表格中，作者還提供了我們的模型中用于不同強化學(xué)習(xí)環(huán)境的維度，以使讀者了解系統(tǒng)中每一部分。

圖注：CartPoleSwingUpHarder中的置換不變agent

在上述演示中，用戶可以隨時重新排列5個輸入的順序，并觀察agent如何適應(yīng)輸入的新順序。

演示地址：https://attentionneuron.github.io/

圖注：車桿測試

作者報告了每個實驗的1000個測試事件的平均得分和標(biāo)準(zhǔn)偏差。agent只在有5個感覺輸入的環(huán)境中進行訓(xùn)練。

圖注：置換不變的輸出

當(dāng)作者按原樣輸入傳感器陣列（頂部）或隨機重新排列陣列（底部）時，Attention Neuron層的輸出（16維全局潛代碼）不會改變。黃色代表較高的數(shù)值，而藍色代表較低的數(shù)值。

圖注：處理未指定數(shù)量的額外噪聲通道

在沒有額外訓(xùn)練的情況下，agent接收15個按重新排列后順序排列的輸入信號，其中10個是純高斯噪聲（σ=0.1），另外5個是來自環(huán)境的實際觀察結(jié)果。像先前的演示一樣，用戶可以對15個輸入的順序進行重新排列，并觀察agent如何適應(yīng)新的輸入順序。

圖注：注意力神經(jīng)元層的輸出在測試情節(jié)中的二維嵌入

作者在圖中突出了幾個有代表性的組，并展示了它們的抽樣輸入。每個組我們顯示3個相應(yīng)的輸入（行），并對每個輸入進行解堆以顯示時間維度（列）。

CarRacing的基本任務(wù)（左），修改后的洗屏任務(wù)（右）。

作者的agent只在這個環(huán)境中訓(xùn)練。如上圖所示，右邊的屏幕是agent觀察到的，左邊的是人類的視覺觀察到的。人類會發(fā)現(xiàn)用重新排列觀察的方式駕駛是非常困難的，因為人類沒有經(jīng)常接觸到這樣的任務(wù)，就像前面提到的 "倒騎自行車 "的例子。

討論以及未來

在這項工作中，作者研究了深度學(xué)習(xí)agents的特性，這些agents可以把它們的觀察作為一個任意排序的、可變長度的感覺輸入列表。通過獨立地處理每個輸入流，并使用注意力整合處理后的信息。即使觀測的順序在一個episode中被隨機地改變了多次，而且沒有進行訓(xùn)練，agents仍然可以執(zhí)行任務(wù)。我們在下表中報告了每個環(huán)境的性能對比結(jié)果。

在展開的工作中重新梳理觀測結(jié)果

在每個episode中，作者每隔t step重新打亂順序觀察。CartPole任務(wù)差異較大，因此對它測試了1000次。其他任務(wù)，報告了100次測試的平均值和標(biāo)準(zhǔn)偏差。除了Atari Pong，所有環(huán)境都有每集1000 step的硬性限制。在Atari Pong中，雖然不存在一集的最大長度，但觀察到，每個episode通常持續(xù)2500 step左右。

通過打亂agent排序，甚至是不完整的觀測信息，可以驅(qū)動它解釋每個局部感覺輸入的意義以及它們與全局的關(guān)系，這在目前的許多應(yīng)用中都有實際用途。例如，當(dāng)被應(yīng)用于機器人時，可以避免由于交叉布線或復(fù)雜的動態(tài)輸入-輸出映射而產(chǎn)生的錯誤。類似于CartPole實驗的設(shè)置，加上額外的噪聲通道，可以使一個收到成千上萬的噪聲輸入通道的系統(tǒng)識別出具有相關(guān)信息的小的通道子集。

局限性在于，對于視覺環(huán)境，patch size的選擇會影響性能和計算的復(fù)雜性。作者發(fā)現(xiàn)6x6像素的patch size在任務(wù)中很有效，4x4像素的patch size在某種程度上也可發(fā)揮效用，但單個像素的觀察卻不能發(fā)揮作用。小的patch size也會產(chǎn)生一個大的注意力矩陣，除非使用近似值，否則計算成本可能會過高。

另一個限制是，排列組合不變的特性只適用于輸入，而不適用于輸出。雖然觀測結(jié)果的排序可以以再次打亂，但行動的排序卻不能。為了使置換不變的輸出發(fā)揮作用，每個環(huán)節(jié)都需要來自環(huán)境的反饋以便學(xué)習(xí)自身和環(huán)境之間的關(guān)系，包括獎勵信息。

一個頗為有趣的未來研究方向是使行動層也具有相同的屬性，并將每個運動神經(jīng)元建模為一個使用注意力連接的模塊。有了作者的方法，就有可能訓(xùn)練一個具有任意數(shù)量的agent，或者用一個單一的被提供了一個獎勵信號作為反饋的policy控制具有不同形態(tài)的機器人。此外，在這項工作中，作者設(shè)計的方法接受以前的行動作為反饋信號。然而，反饋信號并不局限于行動。作者表示，其期待看到未來的工作包括環(huán)境獎勵等信號，不僅能適應(yīng)觀察到的環(huán)境變化，還能適應(yīng)自身的變化，以訓(xùn)練置換不變的 meta-learning agents。

谷歌大腦新研究：強化學(xué)習(xí)如何學(xué)會用聲音來觀察？

谷歌大腦新研究：強化學(xué)習(xí)如何學(xué)會用聲音來觀察？