SIGIR2020|圖靈獎(jiǎng)得主Hinton主題演講:無監(jiān)督對比學(xué)習(xí)將是神經(jīng)網(wǎng)絡(luò)的未來

??新智元報(bào)道??
??新智元報(bào)道??
來源:SIGIR
編輯:白峰
【新智元導(dǎo)讀】7月27日上午,第43屆國際信息檢索大會(huì)(SIGIR 2020)線上開啟,圖靈獎(jiǎng)得主Geoffrey Hinton作了主題演講,今天我們就跟隨Hinton一起走進(jìn)「神經(jīng)網(wǎng)絡(luò)的新時(shí)代」。?
人工神經(jīng)網(wǎng)絡(luò)一直懸而未決的問題是如何像大腦一樣有效地進(jìn)行無監(jiān)督學(xué)習(xí)。
?
當(dāng)前有兩種主要的無監(jiān)督學(xué)習(xí)方法。
?
第一種方法,以BERT和變分自編碼為代表,使用深度神經(jīng)網(wǎng)絡(luò)來重建其輸入。
?
第二種方法,是Becker和Hinton在1992年提出的,通過訓(xùn)練一個(gè)深層神經(jīng)網(wǎng)絡(luò)的兩個(gè)副本,以相同圖像的兩種不同剪裁作為輸入,產(chǎn)生具有高度互信息的輸出向量。設(shè)計(jì)此方法的目的是使表示形式免受無關(guān)細(xì)節(jié)的束縛。
?
Becker和Hinton使用的優(yōu)化互信息的方法也存在缺陷,后面Pacannaro和Hinton雖然用另一個(gè)方法替換了它也沒能完全解決,但Hinton在本次演講中提出了一個(gè)新的思路。
?
BERT在語言任務(wù)如魚得水,但在視覺領(lǐng)域行不通
BERT在語言任務(wù)如魚得水,但在視覺領(lǐng)域行不通
?
本次SIGIR大會(huì)上,Hinton首先回顧了自編碼器。
自編碼器是一種利用反向傳播算法使得輸出值等于輸入值的神經(jīng)網(wǎng)絡(luò),它將原始數(shù)據(jù)壓縮成潛在的空間表征,然后通過這種表征來重構(gòu)輸出。
?? ? ? ?
? ? ? ?
作為自編碼器的典型代表BERT為例,它將句子中的每個(gè)詞都表示為一種嵌入向量,L+1層通過對比相鄰的其他詞學(xué)到比L層更好的表征,這個(gè)更好的表征主要得益于注意力機(jī)制。
?
在到達(dá)最后一個(gè)激活層softmax之前,詞的表征已經(jīng)非常好了,只需要fine-tune,就能輕松遷移到其他自然語言相關(guān)的任務(wù)。
? ? ? ?
?
「上下文信息是最好的老師」。Hinton舉例,「She scromed him with the frying pan」,即使我們沒見過「scromed」,通過下文的平底鍋,也能大概猜測出「scromed」的意思,拿個(gè)平底鍋能干啥好事呢?
?
Hinton認(rèn)為在視覺領(lǐng)域也是如此,同一批圖片的上下文表示,可以提供很強(qiáng)的相關(guān)語義信息。
?
但是BERT這樣的編碼方式對于圖像來說是有問題的,因?yàn)榫W(wǎng)絡(luò)的最深層需要對圖像的精細(xì)細(xì)節(jié)進(jìn)行編碼。
?? ? ? ?
??
過去20年,為什么有的研究人員認(rèn)為訓(xùn)練深度自編碼器如此困難?Hinton覺得主要有三個(gè)原因:
?
沒有采用正確的神經(jīng)元,修正的線性單元比sigmoid和tanh更合適。
初始化權(quán)重做的不好,導(dǎo)致反向傳播時(shí)的梯度消失或爆炸。
硬件算力不足。
?? ? ??
1750億參數(shù)的GPT3,簡直了!
? ? ? ?
? ?
無監(jiān)督對比學(xué)習(xí)才是神經(jīng)網(wǎng)絡(luò)的未來
無監(jiān)督對比學(xué)習(xí)才是神經(jīng)網(wǎng)絡(luò)的未來
?
人類大腦有10^14個(gè)神經(jīng)元連接,而人的一生只有10^9秒,因此人類僅靠監(jiān)督學(xué)習(xí)是無法完成所有神經(jīng)元訓(xùn)練的,我們的深度學(xué)習(xí)模型也是如此,只用監(jiān)督學(xué)習(xí)無法取得更新的進(jìn)展,要將無監(jiān)督學(xué)習(xí)融入進(jìn)來。
?? ? ? ?
? ?
當(dāng)前無監(jiān)督學(xué)習(xí)方法過度關(guān)注數(shù)據(jù)的重構(gòu)損失(Reconstructive Loss),而忽略了數(shù)據(jù)間關(guān)聯(lián)關(guān)系的捕捉?;诖耍岢隽讼乱淮窠?jīng)網(wǎng)絡(luò)模型的構(gòu)想,提出利用對比損失函數(shù)(Contrastive Loss)建模樣本間的局部關(guān)系、增強(qiáng)數(shù)據(jù)間表達(dá)的一致性的解決思路。
?? ? ? ?
? ? ??
最后,Hinton展示了自己這一構(gòu)想的最新實(shí)現(xiàn)SimCLR。
? ? ? ?
? ? ? ?
SimCLR是一個(gè)簡單的視覺表示對比學(xué)習(xí)框架,它不僅比以前的類似工作更出色,而且也更簡單。
?
它首先學(xué)習(xí)未標(biāo)記數(shù)據(jù)集上圖像的一般表示,然后可以使用少量標(biāo)記圖像對其進(jìn)行微調(diào),就能實(shí)現(xiàn)特定領(lǐng)域的分類任務(wù)。
?
SimCLR可以通過同時(shí)最大化同一圖像的不同變換視圖之間的一致性以及最小化不同圖像的變換視圖之間的一致性來學(xué)習(xí)通用表示。利用這一對比目標(biāo)更新神經(jīng)網(wǎng)絡(luò)的參數(shù),使得相應(yīng)視圖的表示相互「吸引」,而非對應(yīng)視圖的表示相互「排斥」。
?? ? ??
盡管SimCLR 很簡單,但是它極大地提高了 ImageNet 上無監(jiān)督和半監(jiān)督學(xué)習(xí)的SOTA效果。基于 SimCLR 訓(xùn)練的線性分類器可以達(dá)到76.5% / 93.2%的 top-1 / top-5的準(zhǔn)確率,而之前的最好的模型準(zhǔn)確率為71.5% / 90.1%。與較小的的監(jiān)督式學(xué)習(xí)模型ResNet-50性能相當(dāng)。
?
Hinton認(rèn)為,SimCLR為代表的無監(jiān)督對比學(xué)習(xí)將開啟神經(jīng)網(wǎng)絡(luò)的新時(shí)代。
