圖靈獎得主Yann LeCun:AI要獲得常識,自監(jiān)督學(xué)習(xí)是那把鑰匙

新智元報道
新智元報道
來源:Facebook AI
編輯:LQ
【新智元導(dǎo)讀】Facebook AI發(fā)布了一篇Yann LeCun和研究科學(xué)家Ishan Misra合寫的文章:《自監(jiān)督學(xué)習(xí):智能的暗物質(zhì)》,文章把「常識」描述為人工智能的「暗物質(zhì)」,還介紹了:自監(jiān)督學(xué)習(xí)是最有希望賦予AI類常識的途徑。
從嬰兒時期的「物體恒存」開始,我們知道跟我們玩躲貓貓的大人其實并沒有消失,他們就藏在某個地方,只是被某個東西擋住了。

「你是想告訴我,咱們玩躲貓貓的時候其實你哪也沒去?」
我們也知道因為「地心引力」,蘋果只會從上往下落而不會從下往上升。
在習(xí)得了無數(shù)類似的概念后,我們形成了對這個世界的廣義預(yù)測模型,在隨后的成長和閱歷中,通過不斷嘗試并觀察這些概念的應(yīng)用效果,我們不斷建立假設(shè),解釋我們的行為如何改變這個世界。這就構(gòu)成了我們的常識。
常識是構(gòu)成人類和動物智能的主體。
有了常識,人類可以快速學(xué)習(xí)很多新的東西:幾張奶牛的圖片就可以讓小孩子認(rèn)識「奶牛」這種動物;有了常識,有的人可以在20個小時內(nèi)學(xué)會開車。
但是,人工智能卻做不到,學(xué)習(xí)了幾張奶牛的圖片后,把奶牛換個地方,它可能就認(rèn)不出了;把人類幾千個小時的學(xué)車數(shù)據(jù)輸?shù)阶詈玫腁I系統(tǒng)里,它仍然不能實現(xiàn)完全自主駕駛。
因為它沒有常識。
常識是人工智能的暗物質(zhì)。
LeCun在最新的一篇文章里這樣描述。

近年來,人工智能取得了巨大的進(jìn)步,人工智能系統(tǒng)可以從大量精心標(biāo)記的數(shù)據(jù)中學(xué)習(xí)。
這種「監(jiān)督學(xué)習(xí)」在訓(xùn)練專門的模型方面性能極好,在它們訓(xùn)練的任務(wù)上往往性能表現(xiàn)極高。
但是,只靠監(jiān)督學(xué)習(xí),人工智能是走不遠(yuǎn)的。
由目前的監(jiān)督學(xué)習(xí)再往前發(fā)展遇到了瓶頸,如何在標(biāo)記數(shù)據(jù)不充分的情況下學(xué)習(xí)新技能,還能完成多項任務(wù)?
現(xiàn)實世界中,我們又不可能標(biāo)記所有的東西,而且有些任務(wù)標(biāo)記數(shù)據(jù)不充分,比如訓(xùn)練資源匱乏的語言翻譯系統(tǒng)。
如果人工智能能夠在訓(xùn)練數(shù)據(jù)集之外獲得對現(xiàn)實世界更加細(xì)致深入的理解,那它將會更接近人類智能水平。
然而,對于人類理所當(dāng)然的常識,對人工智能來說卻一直是一大挑戰(zhàn)。
那么如何讓人工智能獲得「類常識」呢?

LeCun和Ishan Misra在這篇文章中表示,自監(jiān)督學(xué)習(xí)(SSL)是最有可能讓人工智能獲得背景知識和類常識的方法之一。

Facebook研究科學(xué)家Ishan Misra
自監(jiān)督學(xué)習(xí)
自監(jiān)督學(xué)習(xí)
自監(jiān)督學(xué)習(xí)使人工智能系統(tǒng)能夠從海量數(shù)據(jù)中學(xué)習(xí),這對于識別和理解更微妙、更少見的世界表征模式非常重要。
自監(jiān)督學(xué)習(xí)在推進(jìn)NLP方面一直都很成功,包括 Collobert-Weston 2008模型、 Word2Vec、 GloVE、 fastText,以及最近的BERT、RoBERTa、XLM-R 等。以這種方式預(yù)先訓(xùn)練的系統(tǒng)比單獨以監(jiān)督的方式訓(xùn)練的系統(tǒng)性能更高。
Facebook最新的研究項目SEER利用SwAV和其他方法對10億個隨機未標(biāo)記圖像進(jìn)行大型網(wǎng)絡(luò)預(yù)訓(xùn)練,在多種視覺任務(wù)中都獲得了最高精度。
這一進(jìn)展表明,自監(jiān)督學(xué)習(xí)可以勝任復(fù)雜的CV任務(wù),以及現(xiàn)實世界場景。

研究人員通過Instagram的公開的10億張圖片進(jìn)行模型訓(xùn)練
這篇文章還將重點介紹在不確定性存在的情況下用于預(yù)測的基于能量的模型、聯(lián)合嵌入方法以及用于人工智能系統(tǒng)中自監(jiān)督學(xué)習(xí)和推理的延遲可變架構(gòu)等一些最前途的新方向。
自監(jiān)督學(xué)習(xí)是一種預(yù)測學(xué)習(xí)
自監(jiān)督學(xué)習(xí)是一種預(yù)測學(xué)習(xí)
自監(jiān)督學(xué)習(xí)從數(shù)據(jù)本身獲得監(jiān)督信號,通常利用數(shù)據(jù)中的底層結(jié)構(gòu)。自監(jiān)督學(xué)習(xí)的一般技術(shù)是從任何觀察到的或未隱藏的輸入部分預(yù)測任何未觀察到的或隱藏的輸入部分(或特性)。
例如,正如在 NLP 中常見的那樣,我們可以隱藏句子的一部分,并從剩余的單詞中預(yù)測隱藏的單詞。我們也可以從當(dāng)前幀(觀測數(shù)據(jù))中預(yù)測視頻中過去或未來的幀(隱藏數(shù)據(jù))。
由于自監(jiān)督學(xué)習(xí)利用數(shù)據(jù)本身的結(jié)構(gòu),它可以利用各種監(jiān)督信號跨越共同發(fā)生的模式(如視頻和音頻)和跨越大型數(shù)據(jù)集ーー所有這些都不依賴于標(biāo)簽。

在自監(jiān)督學(xué)習(xí)中,系統(tǒng)被訓(xùn)練為從可見的輸入部分(綠色)預(yù)測隱藏的輸入部分(灰色)
作為SSL監(jiān)督信號的結(jié)果,「自監(jiān)督學(xué)習(xí)」這個術(shù)語比以前的術(shù)語「無監(jiān)督學(xué)習(xí)」更能被人們接受。
無監(jiān)督學(xué)習(xí)是一個定義不清且具有誤導(dǎo)性的術(shù)語,它指的是學(xué)習(xí)根本不需要任何監(jiān)督。
事實上,自監(jiān)督學(xué)習(xí)并不是無監(jiān)督的,因為它使用的反饋信號遠(yuǎn)遠(yuǎn)多于標(biāo)準(zhǔn)的有監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)的方法。
面向語言與視覺的自監(jiān)督學(xué)習(xí)
面向語言與視覺的自監(jiān)督學(xué)習(xí)
自監(jiān)督學(xué)習(xí)對 NLP 有著特別深遠(yuǎn)的影響,允許我們在大型的未標(biāo)記文本數(shù)據(jù)集上訓(xùn)練BERT、 RoBERTa、 XLM-R等模型,然后將這些模型用于下游任務(wù)。
這些模型在自我監(jiān)督階段進(jìn)行預(yù)訓(xùn)練,然后針對特定任務(wù)進(jìn)行微調(diào),例如對文本的主題進(jìn)行分類。在自我監(jiān)督的預(yù)訓(xùn)練階段,系統(tǒng)顯示一個簡短的文本(通常是1000個單詞) ,其中一些單詞被屏蔽或替換。
這個系統(tǒng)被訓(xùn)練來預(yù)測被屏蔽或替換的單詞。在這樣做的過程中,系統(tǒng)學(xué)會了表達(dá)文本的意思,這樣它就可以很好地填寫「正確的」或在上下文中有意義的詞語。
預(yù)測輸入中缺少的部分是 SSL 預(yù)訓(xùn)練的一個較為標(biāo)準(zhǔn)的任務(wù)。要完成「( )在熱帶草原上追逐( )」這樣的句子,系統(tǒng)必須知道獅子或獵豹可以追逐羚羊或角馬,但貓在「廚房」追逐老鼠,而不是在「熱帶草原」。
作為訓(xùn)練的結(jié)果,系統(tǒng)學(xué)會了表達(dá)單詞的意義,單詞的句法角色,以及整個文本的意義。
然而,這些技術(shù)不能輕易地擴展到新的領(lǐng)域,比如 CV. 盡管早期的結(jié)果很有希望,SSL在計算機視覺方面還沒有帶來我們在 NLP 中看到的同樣的改進(jìn)(盡管最終這將會改變)。
其主要原因是,在預(yù)測圖像時要比預(yù)測文字時更難以表示不確定性。當(dāng)缺失的單詞無法被準(zhǔn)確預(yù)測(是「獅子」還是「獵豹」?)系統(tǒng)可以將詞匯表中所有可能的單詞與分?jǐn)?shù)或概率聯(lián)系起來: 「獅子」、「獵豹」和其他一些捕食者的得分最高,而詞匯表中其他單詞的得分都很低。
這種規(guī)模的培訓(xùn)模型還需要一個在運行時間和內(nèi)存方面都很有效的模型架構(gòu),不會在精確性上有所妥協(xié)。
幸運的是,F(xiàn)AIR最近在架構(gòu)設(shè)計領(lǐng)域的一項創(chuàng)新帶來了一個稱為 RegNets 的新模型家族,它完全符合這些需求。
RegNet 模型能夠擴展到數(shù)十億甚至數(shù)萬億個參數(shù),可以進(jìn)行優(yōu)化適應(yīng)不同的運行時間和內(nèi)存限制。
但是我們不知道如何有效地表示不確定性,當(dāng)我們預(yù)測視頻中丟失的幀或者圖像中丟失的補丁時。我們不能列出所有可能的視頻幀,并將其中的每一幀關(guān)聯(lián)一個分?jǐn)?shù),因為它們的數(shù)量是無限的。
雖然這個問題限制了 SSL 在視覺方面的性能改進(jìn),但是新的 SSL 技術(shù),例如 SwAV,正開始在視覺任務(wù)中打破精確記錄。
這在 SEER 系統(tǒng)中得到了最好的證明,該系統(tǒng)使用一個經(jīng)過數(shù)十億例子訓(xùn)練的大型卷積網(wǎng)絡(luò)。
對預(yù)測中的不確定性建模

為了更好地理解這一挑戰(zhàn),我們首先需要理解預(yù)測的不確定性,以及與CV相比,它是如何用自然語言處理建模的。在 NLP 中,預(yù)測丟失的單詞包括計算詞匯表中每個可能的單詞的預(yù)測得分。
雖然詞匯量本身很大,預(yù)測一個缺失的單詞涉及到一些不確定性,但是可以生成一個詞匯表中所有可能的單詞的列表,以及該單詞在該位置出現(xiàn)的概率估計。
典型的機器學(xué)習(xí)系統(tǒng)可以將預(yù)測作為一個分類問題來處理,并使用一個巨大的所謂 softmax 層來計算每個結(jié)果的得分,這一層將原始得分轉(zhuǎn)換為一個可能詞的概率分布。
使用這種技術(shù),預(yù)測的不確定性表現(xiàn)為對所有可能結(jié)果的概率分布,前提是可能結(jié)果的數(shù)量是有限的。
另一方面,在 CV 中,類似的任務(wù)是預(yù)測視頻中的「缺失」幀、圖像中的缺失補丁或語音信號中的缺失片段,這涉及到對高維連續(xù)物體的預(yù)測,而不是離散的結(jié)果。有無數(shù)可能的視頻幀可以合理地跟隨給定的視頻剪輯。
不可能顯式地表示所有可能的視頻幀并將預(yù)測分?jǐn)?shù)與它們關(guān)聯(lián)起來。事實上,我們可能永遠(yuǎn)沒有技術(shù)來表示高維連續(xù)空間上合適的概率分布,例如所有可能的視頻幀的集合。
這似乎是一個棘手的問題。
自監(jiān)督方法的統(tǒng)一觀點
自監(jiān)督方法的統(tǒng)一觀點
有一種方法是可以在基于能量的模型(EBM)的統(tǒng)一框架內(nèi)考慮 SSL。EBM是一個可訓(xùn)練的系統(tǒng),給定兩個輸入,x 和 y,告訴我們它們之間是多么不兼容。
例如,x 可以是一個短視頻片段,y 可以是另一個視頻片段。機器會告訴我們 y 在多大程度上是 x 的好延續(xù),為了表示 x 和 y 之間的不兼容性,機器產(chǎn)生一個單一的數(shù)字,稱為能量。如果能量低,則認(rèn)為 x 和 y 是相容的; 如果能量高,則認(rèn)為它們是不相容的。

基于能量的模型(EBM)測量觀測值 x 和預(yù)測值 y 之間的相容性。如果 x 和 y 是相容的,那么能量就是一個小數(shù); 如果 x 和 y 是不相容的,那么能量就是一個大數(shù)
訓(xùn)練一個能量模型包括兩個部分: (1)向它展示兼容的 x 和 y 的例子,并訓(xùn)練它產(chǎn)生較低的能量,(2)找到一種方法,以確保對于一個特定的 x,與 x 不兼容的 y 值產(chǎn)生比與 x 兼容的 y 值更高的能量。第一部分是簡單的,難的是第二部分。
對于圖像識別,我們的模型采用兩幅圖像,x 和 y 作為輸入。如果 x 和 y 是同一圖像的輕微變形版本,則模型被訓(xùn)練為在其輸出上產(chǎn)生低能量。
例如,x 可以是一張汽車的照片,y 可以是同一輛汽車的照片,這張照片是在一天中不同的時間從一個稍微不同的位置拍攝的,因此 y 中的汽車是移動的,旋轉(zhuǎn)的,大的,小的,并且顯示出與 x 中的汽車稍微不同的顏色和陰影。
聯(lián)合嵌入,孿生神經(jīng)網(wǎng)絡(luò)
聯(lián)合嵌入,孿生神經(jīng)網(wǎng)絡(luò)
一個特別適合這樣做的深度學(xué)習(xí)架構(gòu)是所謂的孿生神經(jīng)網(wǎng)絡(luò)或聯(lián)合嵌入架構(gòu)。這個想法可以追溯到20世紀(jì)90年代早期和21世紀(jì)中期Geoff Hinton實驗室和Yann LeCun團隊的論文。
在相當(dāng)長的一段時間里,它都被忽視,但自2019年底以來,它迎來了復(fù)興。聯(lián)合嵌入體系結(jié)構(gòu)由同一網(wǎng)絡(luò)的兩個相同(或幾乎相同)副本組成。一個網(wǎng)絡(luò)輸入 x,另一個網(wǎng)絡(luò)輸入y。
網(wǎng)絡(luò)產(chǎn)生稱為嵌入的輸出向量,代表 x 和 y。第三個模塊,在頭部連接網(wǎng)絡(luò),計算一個能量作為兩個嵌入向量之間的距離。當(dāng)模型顯示同一圖像的變形版本時,網(wǎng)絡(luò)的參數(shù)可以很容易地調(diào)整,使得它們的輸出更加接近。
這將確保網(wǎng)絡(luò)將產(chǎn)生幾乎相同的表示(或嵌入)的對象,無論該對象的特定視圖是什么。

聯(lián)合嵌入結(jié)構(gòu)。位于頂部的函數(shù) c 產(chǎn)生一個標(biāo)量能量,用于測量由具有相同參數(shù)的兩個同卵雙生網(wǎng)絡(luò)產(chǎn)生的表示向量(嵌入)之間的距離(w)。當(dāng) x 和 y 是同一圖像的不同版本時,系統(tǒng)被訓(xùn)練為產(chǎn)生低能量,這迫使模型為兩幅圖像產(chǎn)生相似的嵌入向量。困難的部分是訓(xùn)練模型,以便為不同的圖像產(chǎn)生高能量(即不同的嵌入)。
難點在于當(dāng) x 和 y 是不同的圖像時,確保網(wǎng)絡(luò)產(chǎn)生高能量,即不同的嵌入向量。如果沒有特定的方法,這兩個網(wǎng)絡(luò)會忽略它們的輸入,且總是產(chǎn)生相同的輸出嵌入。
這種現(xiàn)象被稱為坍縮。當(dāng)坍縮發(fā)生時,不匹配的 x 和 y 的能量并不比匹配的 x 和 y 的能量高。
有兩類技術(shù)可以避免坍縮: 對比方法和正則化方法。
基于能量的對比 SSL
基于能量的對比 SSL
對比方法的基本思想是構(gòu)造不相容的 x 和 y 對,并調(diào)整模型的參數(shù)使得相應(yīng)的輸出能量較大。

用對比方法訓(xùn)練能量模型,包括同時從訓(xùn)練集中壓縮兼容(x,y)對的能量(用藍(lán)點表示) ,同時壓縮以綠點表示的精心選擇的(x,y)對的能量(用綠點表示)。在這個簡單的例子中,x 和 y 都是標(biāo)量,但在實際情況中,x 和 y 可能是一個具有數(shù)百萬維度的圖像或視頻。找出不相容的x-y對,從而以適當(dāng)?shù)姆绞剿茉炷芰?,從計算上講是具有挑戰(zhàn)且昂貴的。
通過遮蓋或替換某些輸入詞來訓(xùn)練 NLP 系統(tǒng)的方法屬于對比法的范疇。但是它們沒有采用聯(lián)合嵌入結(jié)構(gòu)。
相反,它們使用一種預(yù)測結(jié)構(gòu),在這種結(jié)構(gòu)中,模型直接為 y 生成預(yù)測。一開始是一段完整的文本 y,然后破壞它,例如通過遮蓋一些詞來生成觀察 x。
破壞的輸入會被輸入到一個大型神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,來重現(xiàn)原始文本 y。將一個沒有破壞的文本,重建為自身,這時為低重建錯誤;而將一個破壞的文本重建,這時或得到一個較大的重建錯誤。
如果將重建錯誤解釋為能量,它將具有所期望的特性: 正常的文本,能量較低;被破壞的文本,能量較高。
訓(xùn)練一個模型,對一個被損壞的輸入進(jìn)行恢復(fù),這項技術(shù)被稱為去噪自動編碼器。
雖然這個想法最早可以追溯到20世紀(jì)80年代,但2008年蒙特利爾大學(xué)Pascal Vincent等人重新提出這個模型,隨后由Collobert 和 Weston把它引入到 NLP 當(dāng)中,后通過谷歌發(fā)表的 BERT 論文流行起來。

掩碼語言模型是去噪自動編碼器的一個實例,本身就是對比自監(jiān)督學(xué)習(xí)的一個實例。變量 y 是一個文本片段; x 是文本中某些單詞被屏蔽的版本。網(wǎng)絡(luò)經(jīng)過訓(xùn)練可以重構(gòu)未被破壞的文本
正如我們前面指出的,這種類型的預(yù)測架構(gòu)只能對給定的輸入產(chǎn)生單個預(yù)測。因為模型必須能夠預(yù)測多種可能的結(jié)果,所以預(yù)測不是一組單詞,而是一系列詞匯表中每個缺失單詞位置的得分。
但是我們不能對圖像使用這個技巧,因為我們不能列舉所有可能的圖像。這個問題有解決辦法嗎?簡短的回答是否定的。
在這個方向上有很多有趣的想法,但是他們還沒有產(chǎn)生和聯(lián)合嵌入結(jié)構(gòu)一樣好的結(jié)果。一個有趣的途徑是潛變量預(yù)測架構(gòu)。

一種潛變量預(yù)測結(jié)構(gòu)。給定一個觀測值 x,該模型必須能夠產(chǎn)生一組由圖中 s 形帶狀符號的多重兼容預(yù)測。由于潛變量 z 在一個集合中變化,由一個灰色正方形表示,輸出隨著一組合理的預(yù)測而變化
隱變量預(yù)測模型包含一個額外的輸入變量(z)。它被稱為latent,因為它的值從來沒有被觀察到。
在一個訓(xùn)練好的模型中,當(dāng)隱變量在給定集合中變化時,輸出預(yù)測會隨著與輸入 x 相容的合理預(yù)測集合的變化而變化。
但是對比方法有一個主要的問題: 訓(xùn)練它們效率很低。在像圖像這樣的高維空間中,有許多方式可以使一個圖像與另一個圖像不同。
找到一組能夠涵蓋它們與給定圖像的所有不同方面的對比圖像幾乎是不可能的任務(wù)。
套用列夫 · 托爾斯泰的《安娜 · 卡列尼娜》的一句名言: 「幸福的家庭都是相似的,不幸的家庭各有各的不幸?!惯@似乎適用于任何一類高維物體。
如果可以確保不相容對的能量高于相容對的能量,而不明確地增加許多不相容對的能量,那會怎樣?
基于能量的非對比 SSL
基于能量的非對比 SSL
應(yīng)用于聯(lián)合嵌入體系結(jié)構(gòu)的非對比方法可能是目前 SSL 領(lǐng)域最熱門的研究課題。這個領(lǐng)域還有很多沒有被探索,但是看起來很有前途。
聯(lián)合嵌入的非對比方法包括 DeeperCluster、 ClusterFit、 MoCo-v2、 SwAV、 SimSiam、 Barlow Twins、 DeepMind 的 BYOL 等。
他們使用了各種技巧,比如為一組相似的圖像計算虛擬目標(biāo)嵌入(DeeperCluster、 SwAV、 simsim) ,或者通過架構(gòu)或參數(shù)向量(BYOL、 MoCo)使兩個聯(lián)合嵌入架構(gòu)略有不同。Barlow Twins 試圖使嵌入向量的各個分量之間的冗余最小化。
從長遠(yuǎn)來看,或許一個更好的選擇是設(shè)計出帶有隱變量預(yù)測模型的非對比方法。主要的障礙是,他們需要一種方法,以盡量減少潛在變量的能力。
隱變量可以改變的集合的體積限制了低能量輸出的體積。通過最小化這個體積,人們自動地以正確的方式形成能量。
這種方法的一個成功例子是變分自動編碼器(VAE) ,其中隱變量被「模糊」,這限制了它的能力。但是 VAE 還沒有被證明能夠?qū)ο掠蔚囊曈X任務(wù)產(chǎn)生良好的表示。
另一個成功的例子是稀疏建模,但它的應(yīng)用僅限于簡單的體系結(jié)構(gòu)。似乎沒有一個完美的方法可以限制隱變量的容量。
未來幾年的挑戰(zhàn)可能是為基于能量的隱變量模型設(shè)計非對比方法,成功地生成圖像、視頻、語音和其他信號的良好表現(xiàn),并在下游監(jiān)控任務(wù)中產(chǎn)生最佳表現(xiàn),而不需要大量的標(biāo)記數(shù)據(jù)。
推進(jìn)視覺自監(jiān)督學(xué)習(xí)
推進(jìn)視覺自監(jiān)督學(xué)習(xí)
最近,我們創(chuàng)建并開源了一個新的十億參數(shù)的自我監(jiān)督 CV 模型 SEER,已被證明能夠有效地處理復(fù)雜的高維圖像數(shù)據(jù)。
它基于適用于卷積網(wǎng)絡(luò)體系結(jié)構(gòu)(ConvNet)的 SwAV 方法,可以從大量的隨機圖像中訓(xùn)練而不需要任何元數(shù)據(jù)或注釋。ConvNet 足夠大,可以從這些龐大而復(fù)雜的數(shù)據(jù)中捕獲并學(xué)習(xí)每一個可視化概念。
在對10億張隨機的、未標(biāo)記的和未策劃的公共 Instagram 圖片進(jìn)行預(yù)訓(xùn)練,并監(jiān)督對ImageNet進(jìn)行微調(diào)之后,SEER 的表現(xiàn)超過了最先進(jìn)的、最先進(jìn)的自我監(jiān)督系統(tǒng),在ImageNet上最高準(zhǔn)確率達(dá)到了84.2% .
這些結(jié)果表明,我們可以將自監(jiān)督學(xué)習(xí)范式遷移到計算機視覺當(dāng)中。
在 Facebook 上使用自監(jiān)督學(xué)習(xí)
在 Facebook 上使用自監(jiān)督學(xué)習(xí)
在 Facebook,我們不僅通過基礎(chǔ)的、開放的科學(xué)研究,在許多領(lǐng)域推進(jìn)自監(jiān)督學(xué)習(xí)技術(shù),而且我們還將這項前沿工作應(yīng)用于生產(chǎn),以快速提高我們產(chǎn)品中內(nèi)容理解系統(tǒng)的準(zhǔn)確性,保證人們在我們的平臺上的安全。
自監(jiān)督研究,就像我們預(yù)訓(xùn)練的語言模型 XLM 一樣,正在加速今天 Facebook 上的一些重要應(yīng)用,包括主動偵測仇恨言論。
我們已經(jīng)部署了 XLM-R,這個模型利用了我們的 RoBERTa 架構(gòu),來改進(jìn)我們在 Facebook 和 Instagram 上的多語言仇恨言論分類器。這將能夠檢測仇恨言論,即使在培訓(xùn)數(shù)據(jù)很少的語言中也是如此。
近年來自監(jiān)督的進(jìn)步讓我們深受鼓舞,盡管這種方法幫助我們揭開人工智能的暗物質(zhì)的面紗還有很長的路要走。自監(jiān)督是通往人類智力水平的道路上的一個步驟,但是在這個步驟背后肯定還有許多步驟。長期的進(jìn)展將是累積的。
這就是為什么我們致力于與更廣泛的人工智能社區(qū)合作,以實現(xiàn)我們的目標(biāo),有朝一日,建造具有人類智能水平的機器。我們的研究已經(jīng)公開發(fā)表在頂級會議上。我們組織了研討會,發(fā)布了庫,以幫助加速這一領(lǐng)域的研究。
參考資料:

