編輯:桃子 好困 袁榭 拉燕
【新智元導(dǎo)讀】2022年2月24日凌晨,在Meta AI實(shí)驗(yàn)室討論會(huì)上,小扎親自帶隊(duì)公布了多項(xiàng)技術(shù)內(nèi)容:語(yǔ)音生成元宇宙場(chǎng)景的Builder Bot、讓AI趕上人類(lèi)智慧的「世界模型」、超級(jí)AI助手CAIRaoke等等。
「Builder Bot,帶我去海邊轉(zhuǎn)轉(zhuǎn)。」小扎一句話(huà),陽(yáng)光沙灘,蔚藍(lán)大海,一縷云彩就出現(xiàn)了。要知道,這些都是人工智能生成的(all AI-generated)。Meta的首席執(zhí)行官扎克伯格在今天「用人工智能構(gòu)建元宇宙」的討論會(huì)上,首次展示了用人工智能系統(tǒng)Builder Bot創(chuàng)建虛擬空間的過(guò)程。只要你一句話(huà),它便可以生成或者導(dǎo)入你想要的虛擬世界。自從2021年11月31日,F(xiàn)acebook改名Meta后,市值被抹去了5000億美元,可見(jiàn)全力奔向元宇宙的代價(jià)可不小。第四季度財(cái)報(bào)公布后,Meta市值一夜蒸發(fā)2000多億美元。不管怎么說(shuō),現(xiàn)在Meta市值排名也算是回歸前十。Builder Bot:讓你說(shuō)話(huà)有分量
從「帶我們?nèi)ズ_叀归_(kāi)始,小扎的一系列語(yǔ)言命令,讓AI在其周?chē)徊讲降貏?chuàng)建了一個(gè)海邊的卡通3D景觀(guān)。演示中還創(chuàng)建了公園、海中島嶼、椰子樹(shù)、桌子、飲品等等。更炫酷的是,Builder Bot還可以播放熱帶等各種音樂(lè)。會(huì)上,小扎并沒(méi)有具體說(shuō)明Builder Bot究竟是基于有限人工創(chuàng)建的模型庫(kù),還是AI對(duì)任何內(nèi)容能夠?qū)崿F(xiàn)自動(dòng)生成。作為人工智能項(xiàng)目CAIRaoke的一部分,Builder Bot的研發(fā)最終是為了可以吸引更多的人進(jìn)入Meta的元宇宙社交平臺(tái)Horizon。它還可以推進(jìn)創(chuàng)造性人工智能技術(shù)前進(jìn),為機(jī)器生成的藝術(shù)提供動(dòng)力。目前,許多科技公司的人工智能項(xiàng)目已經(jīng)演示了基于文本描述進(jìn)行圖像生成,包括OpenAI的 DALL-E、英偉達(dá)的GauGAN2和VQGAN+CLIP,以及更易訪(fǎng)問(wèn)的應(yīng)用程序,如Dream by Wombo。但是,目前這些項(xiàng)目?jī)H能生成2D圖像,而且還不帶附件,而3D對(duì)象生成還處于研究階段。正如Meta在演示中所描述的那樣,Builder Bot可以通過(guò)使用語(yǔ)音來(lái)生成3D對(duì)象,而Meta更加雄心勃勃的目標(biāo)是交互。扎克伯格表示,「你將能夠創(chuàng)造微妙的世界,用你的聲音探索并與他人分享經(jīng)驗(yàn)。」目前,Builder Bot目前還在測(cè)試中,暫時(shí)還未開(kāi)放,因?yàn)镸eta也不知道當(dāng)前系統(tǒng)的局限性在哪。如果用戶(hù)要求提供不適當(dāng)?shù)膬?nèi)容,或者人工智能的訓(xùn)練再現(xiàn)了人類(lèi)對(duì)世界的偏見(jiàn)和刻板印象,那么人工智能會(huì)帶來(lái)許多問(wèn)題。此外,扎克伯格承認(rèn),「如果用戶(hù)想要?jiǎng)?chuàng)建一個(gè)理想當(dāng)然的事物,可能還真做不到。復(fù)雜的交互性帶來(lái)了重大挑戰(zhàn)。」因此,這次會(huì)議上Meta公布了關(guān)于構(gòu)建元宇宙的人工智能計(jì)劃,其中就包括通用語(yǔ)言翻譯系統(tǒng)、對(duì)話(huà)AI系統(tǒng)CAIRaoke,人工智能推薦系統(tǒng)TorchRec等。此外,小扎介紹Meta還大力投資自監(jiān)督學(xué)習(xí)(SSL) ,將類(lèi)人認(rèn)知構(gòu)建到人工智能系統(tǒng)中。并不是說(shuō)需要喂大量標(biāo)記好的數(shù)據(jù)來(lái)訓(xùn)練人工智能,而是輸入原始數(shù)據(jù),然后要求預(yù)測(cè)缺失的部分,讓AI學(xué)會(huì)如何構(gòu)建抽象表示。在了解這些AI項(xiàng)目之前,不如先聽(tīng)聽(tīng)圖靈獎(jiǎng)得主Yann LeCun對(duì)當(dāng)前人工智能的看法吧。
LeCun的愿景:讓AI像人一樣學(xué)習(xí)和推理
盡管AI研究最近取得了顯著進(jìn)展,但距離創(chuàng)造出能像人類(lèi)一樣思考和學(xué)習(xí)的機(jī)器,還有很長(zhǎng)的路要走。正如Meta AI首席人工智能科學(xué)家Yann LeCun所指出的,一個(gè)從未坐在方向盤(pán)后的少年可以在大約20小時(shí)內(nèi)學(xué)會(huì)駕駛,而當(dāng)今最好的智能駕駛系統(tǒng)AI需要數(shù)百萬(wàn)或數(shù)十億條帶標(biāo)簽的訓(xùn)練數(shù)據(jù)和數(shù)百萬(wàn)次在虛擬環(huán)境中的強(qiáng)化學(xué)習(xí)試驗(yàn)。即便如此,它們也達(dá)不到與人類(lèi)同等可靠的汽車(chē)駕駛能力。構(gòu)建接近人類(lèi)智能的AI需要什么??僅僅堆更多數(shù)據(jù)和更大模型就能搞定嗎?2022年2月24日Meta AI實(shí)驗(yàn)室新聞發(fā)布會(huì)中,LeCun為構(gòu)建人類(lèi)智能級(jí)別的AI勾畫(huà)出另一種愿景。LeCun提出,AI學(xué)習(xí)「世界模型」(世界如何運(yùn)作的內(nèi)部模型)的能力可能是關(guān)鍵。LeCun提到了人類(lèi)和動(dòng)物的學(xué)習(xí)模式:「我常捫心自問(wèn),人類(lèi)和動(dòng)物使用了哪些我們無(wú)法在機(jī)器學(xué)習(xí)中復(fù)制的方法。人類(lèi)和非人類(lèi)動(dòng)物學(xué)習(xí)大量關(guān)于世界如何運(yùn)作的背景知識(shí)的方式,是觀(guān)察,以及用獨(dú)立于任務(wù)、無(wú)人監(jiān)督方式進(jìn)行的少量互動(dòng)。可以假定,這種積累的知識(shí)可能構(gòu)成了通常被稱(chēng)為常識(shí)的基礎(chǔ)。」常識(shí)可以被視為世界模型的集合,可以指導(dǎo)智能體何種行為可能、何種行為合理、何種行為不可能。這使人類(lèi)能夠在不熟悉的情況中有效地預(yù)先計(jì)劃。例如,一名少年司機(jī)以前可能從未在雪地上駕駛,但他預(yù)知雪地會(huì)很滑、如果車(chē)開(kāi)得太猛將會(huì)失控打滑。常識(shí)性知識(shí)讓智能動(dòng)物不僅可以預(yù)測(cè)未來(lái)事件的結(jié)果,還可以在時(shí)間或空間上填補(bǔ)缺失的信息。當(dāng)司機(jī)聽(tīng)到附近有金屬撞擊聲時(shí),即使沒(méi)有看到撞車(chē)現(xiàn)場(chǎng),他也能立即知道車(chē)禍發(fā)生。LeCun稱(chēng):「我認(rèn)為機(jī)器學(xué)習(xí)缺失的是人類(lèi)和動(dòng)物如何學(xué)習(xí)世界模型,即學(xué)習(xí)世界如何運(yùn)作的能力」。他引述了Bengio提到的首次到英國(guó)的人如何學(xué)習(xí)左側(cè)駕駛的例子,「物理法則不會(huì)改變」,例如汽車(chē)方向盤(pán)怎么打,這就是個(gè)「世界模型」的例子。人類(lèi)、動(dòng)物和智能系統(tǒng)使用世界模型的想法,可以追溯到數(shù)十年前的心理學(xué)、機(jī)械控制和機(jī)器人等學(xué)科。LeCun提出,當(dāng)今人工智能最重要的挑戰(zhàn)之一是設(shè)計(jì)學(xué)習(xí)范式和架構(gòu),使機(jī)器能夠以自監(jiān)督的方式學(xué)習(xí)世界模型,然后用這些模型進(jìn)行預(yù)測(cè)、推理和計(jì)劃。他的提議重新組合了認(rèn)知科學(xué)、系統(tǒng)神經(jīng)科學(xué)、最優(yōu)化機(jī)械控制、強(qiáng)化學(xué)習(xí)和「?jìng)鹘y(tǒng)」人工智能等各個(gè)學(xué)科中的各種觀(guān)點(diǎn),并將它們與機(jī)器學(xué)習(xí)中的新概念相結(jié)合,如自監(jiān)督學(xué)習(xí)和聯(lián)合-嵌入式架構(gòu)。LeCun提出了一個(gè)由六個(gè)獨(dú)立模塊組成的架構(gòu)。在每個(gè)模塊中,都可以很容易地計(jì)算目標(biāo)函數(shù)相對(duì)于其自身輸入的梯度估計(jì),并將梯度信息傳遞給上游模塊。1. 配置器模塊負(fù)責(zé)控制任務(wù)的執(zhí)行。
?
配置器模塊會(huì)為特定的任務(wù)預(yù)先配置感知模塊、世界模型、代價(jià)和行為者,并調(diào)節(jié)這些模塊中的參數(shù)。
?
2. 感知模塊負(fù)責(zé)接收來(lái)自傳感器的信號(hào)并估計(jì)世界的當(dāng)前狀態(tài)。
?
對(duì)于一個(gè)特定任務(wù)來(lái)說(shuō),系統(tǒng)所感知到的世界狀態(tài)只有一小部分是有用的。而通過(guò)與配置器模塊的配合,感知模塊可以提取與當(dāng)前任務(wù)有關(guān)的信息。
?
3. 世界模型模塊的作用有兩點(diǎn):(1)補(bǔ)全感知模塊沒(méi)有提供的信息;(2)預(yù)測(cè)合理的未來(lái)狀態(tài)。
?
世界模型是一種與當(dāng)前任務(wù)相關(guān)的世界模擬器,也是模型中最復(fù)雜的部分。它不僅可以預(yù)測(cè)世界的自然演變,也可以預(yù)測(cè)由行為者模塊在一系列動(dòng)作之后所產(chǎn)生的未來(lái)世界狀態(tài)。
由于世界充滿(mǎn)了不確定性,該模型必須能夠涵蓋多種可能的預(yù)測(cè)。4. 代價(jià)模塊負(fù)責(zé)計(jì)算一個(gè)單一的標(biāo)量輸出,并預(yù)測(cè)智能體的不適程度。
?
代價(jià)模塊由兩個(gè)子模塊組成:(1)內(nèi)在代價(jià),用于直接計(jì)算(如對(duì)智能體的損害,違反硬編碼的行為約束等),是不可訓(xùn)練的;(2)評(píng)價(jià)者,負(fù)責(zé)預(yù)測(cè)內(nèi)在代價(jià)的未來(lái)值,是一個(gè)可訓(xùn)練的模塊。
?
智能體的最終目標(biāo)是在長(zhǎng)期內(nèi)使內(nèi)在代價(jià)最小化。此外,代價(jià)的梯度可以通過(guò)其他模塊反向傳播,用于規(guī)劃、推理或?qū)W習(xí)。
?
5. 行為者模塊負(fù)責(zé)提供動(dòng)作序列的建議。
?
行為者可以找到一個(gè)使未來(lái)代價(jià)最小化的最佳動(dòng)作序列,并執(zhí)行第一個(gè)動(dòng)作,其方式類(lèi)似于經(jīng)典的最優(yōu)控制。
?
6.短期記憶模塊負(fù)責(zé)跟蹤當(dāng)前和預(yù)測(cè)的世界狀態(tài),以及相關(guān)代價(jià)。
?
世界模型和自監(jiān)督訓(xùn)練
?
該架構(gòu)的核心是預(yù)測(cè)世界模型。而建構(gòu)它的關(guān)鍵挑戰(zhàn),是如何能使其呈現(xiàn)多種可能性的預(yù)測(cè)。
現(xiàn)實(shí)世界并不是完全可以單一預(yù)測(cè)的,特定情況的演變有多種可能途徑,并且狀況的許多細(xì)節(jié)與當(dāng)下任務(wù)無(wú)關(guān)。人類(lèi)司機(jī)可能需要預(yù)測(cè)駕駛時(shí)自己周?chē)钠?chē)會(huì)做什么,但不需要預(yù)測(cè)道路附近樹(shù)木中單個(gè)葉子的詳細(xì)位置。世界模型如何學(xué)習(xí)現(xiàn)實(shí)世界的抽象表示,從而保留關(guān)鍵細(xì)節(jié)、忽略不相關(guān)細(xì)節(jié),且能在抽象表示的空間中進(jìn)行預(yù)測(cè)?解決方案的關(guān)鍵要素是「聯(lián)合嵌入式可預(yù)測(cè)架構(gòu)」?(JEPA)。JEPA能捕獲兩個(gè)輸入數(shù)據(jù)x和y之間的依賴(lài)關(guān)系。例如,x可以是一段視頻,y可以是視頻的下一段。輸入數(shù)據(jù)x和y被饋送到可訓(xùn)練的編碼器,這些編碼器提取它們的抽象表示,即sx和sy。訓(xùn)練預(yù)測(cè)器模塊,以從sx預(yù)測(cè)sy。預(yù)測(cè)器可以使用潛在變量z來(lái)表示sy中存在但sx中不存在的信息。JEPA以?xún)煞N方式處理預(yù)測(cè)中的不確定性:(1)編碼器可能會(huì)拋棄關(guān)于y的難以預(yù)測(cè)信息,(2)當(dāng)潛在變量z在一個(gè)集合上有變化時(shí),將導(dǎo)致在另一個(gè)可能性集合上的預(yù)測(cè)結(jié)果有變化。JEPA如何訓(xùn)練?直到晚近,唯一的途徑是使用對(duì)比方法,即提供足夠多的兼容x和y的示例、兼容x但不兼容y的示例、不兼容x但兼容y的示例。但是當(dāng)抽象表示達(dá)到高維時(shí),此方法不切實(shí)際。過(guò)去兩年出現(xiàn)了另一種訓(xùn)練策略:正則化方法。當(dāng)應(yīng)用于JEPA時(shí),該方法使用四個(gè)準(zhǔn)則:- 使關(guān)于x的表示,最大程度地提供關(guān)于x的信息
- 使關(guān)于y的表示,最大程度地提供關(guān)于y的信息
- 從關(guān)于x的表示中,最大程度地預(yù)測(cè)關(guān)于y的呈現(xiàn)
- 使預(yù)測(cè)器調(diào)用來(lái)自潛在變量的盡可能少的信息,來(lái)表示預(yù)測(cè)中的不確定性。
這些準(zhǔn)則可以通過(guò)各種方式轉(zhuǎn)化為可微的代價(jià)函數(shù)。其中一種方式是VICReg方法,它是「方差、不變性、協(xié)方差正則化」(Variance, Invariance, Covariance Regularization)的縮寫(xiě)。在VICReg中,x和y表示的信息內(nèi)容最大化方式,是將其分量的方差保持在閾值之上,并使這些分量盡可能地相互獨(dú)立。同時(shí),此方法試圖讓y的表示可以從x的表示中預(yù)測(cè)。此外,潛在變量的信息內(nèi)容,被使其離散、低維、稀疏或噪聲化的方式最小化。JEPA的妙處,在于它自然地產(chǎn)生了關(guān)于輸入信息的抽象表示,這些抽象表示消除了不相關(guān)的細(xì)節(jié),基于其可以執(zhí)行預(yù)測(cè)。這使得JEPA可以相互堆疊,用來(lái)學(xué)習(xí)具有更高層次的、能藉以執(zhí)行更長(zhǎng)期預(yù)測(cè)的抽象表示。例如,一個(gè)場(chǎng)景可以在高層次上抽象描述為「廚師正在制作法式薄餅」。因此,人類(lèi)智能可以預(yù)測(cè):廚師會(huì)去取面粉、牛奶和雞蛋;混合原料;把面糊舀進(jìn)鍋里;讓面糊油炸;翻轉(zhuǎn)薄餅;重復(fù)以上流程。在低一級(jí)的層次上,人類(lèi)智能可以預(yù)測(cè):舀面糊動(dòng)作,包括勺子舀面糊、倒進(jìn)鍋里、將面糊鋪在鍋面上。這種層級(jí)的攤低可以一直持續(xù)到以毫秒為單位的廚師手部的精確運(yùn)動(dòng)軌跡。在手部軌跡的低層次上,「世界模型」只能在短期內(nèi)做出準(zhǔn)確的預(yù)測(cè)。但在更高的抽象層次上,它可以做出長(zhǎng)期的預(yù)測(cè)。LeCun稱(chēng):「我們應(yīng)該讓機(jī)器通過(guò)觀(guān)察來(lái)學(xué)會(huì)現(xiàn)實(shí)世界中的最基礎(chǔ)定律,這是讓機(jī)器學(xué)習(xí)世界模型的最主要途徑。」多層JEPA可用于在多個(gè)抽象級(jí)別和多個(gè)時(shí)間尺度上執(zhí)行預(yù)測(cè)。訓(xùn)練的主要途徑是被動(dòng)觀(guān)察,輔助途徑是與環(huán)境互動(dòng)。正如嬰兒在出生后頭幾個(gè)月,主要通過(guò)觀(guān)察來(lái)了解世界是如何運(yùn)作的。她了解到世界是三維的、有些物體排在其他物體的前面、當(dāng)一個(gè)物體被遮擋時(shí)它仍然存在。最終,在大約9個(gè)月大的時(shí)候,嬰兒學(xué)會(huì)了直觀(guān)的物理學(xué)——例如,不受支撐的物體會(huì)因重力而落下。多層JEPA有望通過(guò)類(lèi)似的觀(guān)看視頻、與環(huán)境交互等方式,來(lái)了解世界是如何運(yùn)作的。通過(guò)自訓(xùn)練來(lái)預(yù)測(cè)視頻中會(huì)發(fā)生什么,它將產(chǎn)生世界的分層級(jí)表示。通過(guò)在現(xiàn)實(shí)世界上采取行動(dòng)并觀(guān)察結(jié)果,「世界模型」將學(xué)會(huì)預(yù)測(cè)其行動(dòng)的后果,這將使其能夠進(jìn)行推理和計(jì)劃。有了分層JEPA作為世界模型的適當(dāng)訓(xùn)練,智能體就可以對(duì)復(fù)雜的動(dòng)作進(jìn)行分層規(guī)劃,并將復(fù)雜的任務(wù)分解成一系列不那么復(fù)雜和抽象的子任務(wù),一直到效應(yīng)器上的低級(jí)動(dòng)作。首先,感知模塊提取世界狀態(tài)的層次表示,s1[0]=Enc1(x),s2[0]=Enc2(s[0])。接著,多次應(yīng)用第二層的預(yù)測(cè)器,以預(yù)測(cè)未來(lái)的狀態(tài),并給同一層的行為者提出抽象的動(dòng)作序列。然后,行為者優(yōu)化第二層動(dòng)作序列,以使總代價(jià)最小化,C(s2[4])。這個(gè)過(guò)程會(huì)重復(fù)對(duì)第二層的潛變量進(jìn)行多次繪制,從而產(chǎn)生不同的高層方案。不過(guò),由此產(chǎn)生的高層次動(dòng)作并不構(gòu)成真正的動(dòng)作,而只是定義了低層次狀態(tài)序列必須滿(mǎn)足的約束條件,進(jìn)而構(gòu)成真正子目標(biāo)。整個(gè)過(guò)程在低層重復(fù):運(yùn)行低層預(yù)測(cè)器,優(yōu)化低層動(dòng)作序列以最小化來(lái)自上層的中間代價(jià),并對(duì)低層潛變量的多次繪制。一旦這個(gè)過(guò)程完成,智能體就把第一個(gè)低層次的動(dòng)作輸出給效應(yīng)器,整個(gè)情景也就可以重復(fù)進(jìn)行。如果能成功建立一個(gè)這樣的模型,那么所有的模塊都將是可微的。如此一來(lái),整個(gè)動(dòng)作的優(yōu)化過(guò)程就可以用基于梯度的方式進(jìn)行。顯然,LeCun的愿景需要更加深入的探索,其中最有趣也最困難的就是實(shí)例化世界模型的架構(gòu)和訓(xùn)練程序的細(xì)節(jié)。?
「萬(wàn)能」語(yǔ)音翻譯系統(tǒng)
雖然訓(xùn)練世界模型可能會(huì)是未來(lái)幾十年內(nèi)讓AI實(shí)現(xiàn)真正進(jìn)步的主要挑戰(zhàn)。不過(guò),讓全世界所有人都能用自己的語(yǔ)言互相交流,似乎已經(jīng)「勝利在望」了。為了自己的元宇宙大局,Meta推出了一款堪稱(chēng)「萬(wàn)能」的翻譯軟件。小扎表示,「能用任何語(yǔ)言和任何人溝通,是所有人一直都有的夢(mèng)想。現(xiàn)在,AI可以幫我們實(shí)現(xiàn)這個(gè)夢(mèng)想。」盡管英語(yǔ)、漢語(yǔ)、西班牙語(yǔ)這類(lèi)語(yǔ)言目前的翻譯軟件已經(jīng)做得不錯(cuò)了,但還有差不多20%的世界語(yǔ)言沒(méi)有被包括進(jìn)去。這類(lèi)語(yǔ)言的語(yǔ)料庫(kù)一般不太好獲得,或者有時(shí)候壓根就沒(méi)有標(biāo)準(zhǔn)的書(shū)寫(xiě)系統(tǒng)。Meta將通過(guò)新的機(jī)器學(xué)習(xí)技巧來(lái)克服這些困難。首先,Meta將會(huì)搭建一個(gè)可以使用較少訓(xùn)練樣本的AI模型。其次,Meta的這款通用翻譯語(yǔ)音翻譯系統(tǒng)不需要文字作為中介,而是實(shí)時(shí)進(jìn)行翻譯。大部分翻譯軟件都會(huì)利用到文字作為中介。從用戶(hù)的角度來(lái)說(shuō),移除語(yǔ)言障礙可以讓幾十億人用想用的語(yǔ)言上網(wǎng),獲得各類(lèi)信息,還可以徹底改變所有人溝通和交往的方式。從Meta自身來(lái)講,這項(xiàng)技術(shù)的問(wèn)世也可以幫助公司在世界范圍內(nèi)推廣產(chǎn)品,擴(kuò)大在全球范圍內(nèi)的影響力。這項(xiàng)技術(shù)會(huì)在未來(lái)成為AR和VR的關(guān)鍵技術(shù)。翻譯軟件的底層技術(shù)存在著一些問(wèn)題——機(jī)器學(xué)習(xí)往往會(huì)忽略說(shuō)話(huà)者之前的一些細(xì)微差別。比如性別方面的差異和偏見(jiàn)。另外,還有一些母語(yǔ)是非通用語(yǔ)言的人表示,「會(huì)擔(dān)心大公司掌握翻譯軟件會(huì)讓他們失去對(duì)本土語(yǔ)言和文化的控制」。因此,盡管這款通用翻譯軟件的前景真的很誘人,但Meta要在實(shí)現(xiàn)技術(shù)的同時(shí),向人們證明,作為一家有擔(dān)當(dāng)?shù)墓荆梢怨降貞?yīng)用他們的技術(shù)和研究成果。
試想一下,如果和AI語(yǔ)音助手交流就像很人說(shuō)話(huà)一樣自如會(huì)是什么場(chǎng)景。就像,鋼鐵俠的智能AI助手賈維斯一樣。最近,Meta推出了一款A(yù)I語(yǔ)音助手——CAIRaoke項(xiàng)目。這是一款端對(duì)端的神經(jīng)模型,可以支持更加個(gè)性化、符合語(yǔ)境的對(duì)話(huà),很像人和人之間的日常交流。小扎甚至表示,CAIRaoke項(xiàng)目將是Meta的未來(lái)的核心。設(shè)計(jì)出更會(huì)聊天的AI助手的困難主要集中在以下四個(gè)方面。自然語(yǔ)言理解(NLU)、對(duì)話(huà)狀態(tài)跟蹤(DST)、對(duì)話(huà)策略管理(DT)以及自然語(yǔ)言生成(NLG)。這些系統(tǒng)必須被連接到一切,這就使得優(yōu)化不那么容易,不能更好地適應(yīng)新的或是不熟悉的任務(wù),還會(huì)高度依賴(lài)勞動(dòng)密集型注釋數(shù)據(jù)集。而CAIRRaoke設(shè)計(jì)出的模型就可以讓人們更自如的和AI助手對(duì)話(huà),可以再次提起之前對(duì)話(huà)中提到過(guò)的內(nèi)容,改變?cè)掝},或是說(shuō)一點(diǎn)需要細(xì)膩把握才能正確理解的內(nèi)容。甚至還可以用手勢(shì)或者別的新方式和AI助手進(jìn)行互動(dòng)。目前,Portal已經(jīng)使用了這項(xiàng)技術(shù),用戶(hù)可以輕松設(shè)置一個(gè)備忘錄。??? : 給六點(diǎn)半加一個(gè)備忘錄。? : 早上六點(diǎn)半還是晚上六點(diǎn)半?? : 好的。晚上六點(diǎn)半去買(mǎi)雞蛋的備忘錄已經(jīng)設(shè)置好了~為了提升對(duì)話(huà)AI的性能,就要全局的了解問(wèn)題究竟在哪。很多人在看到最近自然語(yǔ)言理解的一些進(jìn)步,比如BART和GPT-3,會(huì)覺(jué)得AI已經(jīng)可以理解和生成類(lèi)人的文本了。但其實(shí)沒(méi)那么容易。為了解釋為什么還不行,首先得能區(qū)分用于理解的AI和用于互動(dòng)的AI。前者已經(jīng)被充分研究過(guò),得到了充分的發(fā)展。出色的交互式AI需要穩(wěn)定的理解式AI打基礎(chǔ)。但是很多人覺(jué)得交互是一個(gè)工程問(wèn)題,而不是人工智能的問(wèn)題。然而,正是這種固有觀(guān)念,導(dǎo)致對(duì)話(huà)式AI缺少了靈活性。這也就是為什么現(xiàn)有的AI語(yǔ)音助手并不能讓你很輕松地制定一個(gè)假期計(jì)劃。由此可知,不僅僅要給AI提供準(zhǔn)確、實(shí)時(shí)的信息和知識(shí),還要讓AI可以應(yīng)付多模式的、多領(lǐng)域的對(duì)話(huà),而不是一套僵硬的對(duì)話(huà)模板。傳統(tǒng)的方法中,在涉及新領(lǐng)域時(shí),在訓(xùn)練之前需要循序漸進(jìn)地構(gòu)建、調(diào)整每一個(gè)模塊。換句話(huà)說(shuō),只有NLU和DST每天都變化,訓(xùn)練DP才能更有效率。這種互相依賴(lài)的特點(diǎn)會(huì)拖慢整體的節(jié)奏。不同于上面提到的要使用NLU、DST、DT、NLG的模型,CAIRaoke使用的神經(jīng)網(wǎng)絡(luò)根本不用傳統(tǒng)的對(duì)話(huà)流。端對(duì)端的技術(shù)的應(yīng)用,讓CAIRaoke只需要一套訓(xùn)練數(shù)據(jù)集,就可以把這種依賴(lài)性轉(zhuǎn)移到上游的模塊去,使得之后的訓(xùn)練速度、開(kāi)發(fā)速度大幅提高。技術(shù)人員就可以費(fèi)更少的精力和數(shù)據(jù)量來(lái)調(diào)整模型。Meta相信,未來(lái)CAIRaoke在應(yīng)用到AR和VR領(lǐng)域以后,它會(huì)是一項(xiàng)劃時(shí)代的技術(shù),就像鋼鐵俠那樣。此外,Meta 今天還宣布了為開(kāi)源的PyTorch機(jī)器學(xué)習(xí)框架構(gòu)建最先進(jìn)的推薦系統(tǒng)庫(kù)TorchRec。總的來(lái)說(shuō),創(chuàng)造能夠像人類(lèi)一樣有效學(xué)習(xí)和理解的機(jī)器是一項(xiàng)長(zhǎng)期的科學(xué)努力,而且還不能保證成功。不過(guò),基礎(chǔ)研究最終會(huì)讓我們產(chǎn)生對(duì)思想和機(jī)器更深入的理解,并帶來(lái)有利于每個(gè)使用人工智能的人的進(jìn)步。
參考資料:
https://www.facebook.com/watch/live/?ref=watch_permalink&v=1170892023445972
https://ai.facebook.com/blog/teaching-ai-to-translate-100s-of-spoken-and-written-languages-in-real-time
https://ai.facebook.com/blog/project-cairaoke/
https://ai.facebook.com/blog/yann-lecun-advances-in-ai-research/