圖靈獎得主 Hinton 和 LeCun 最新演講:深度學習如何繼續(xù)革命?
【新智元導讀】6月23日,圖靈獎得主Geoffrey Hinton和Yann LeCun在ACM FCRC 2019上,分別做了題為《深度學習革命》、《深度學習革命:續(xù)集》的精彩演講,分享自己的真知灼見,一起來看我們的解讀。
深度學習從何而來?又該向哪去?
近日,圖靈獎得主、深度學習巨頭Geoffrey Hinton和Yann LeCun在ACM FCRC 2019上發(fā)表了精彩演講。

官網(wǎng)地址:
https://fcrc.acm.org/about/about-fcrc
二人分別在大會上做了題為《深度學習革命》和《深度學習革命:續(xù)集》的精彩演講。目前視頻已經(jīng)公開:
https://www.youtube.com/watch?v=VsnQf7exv5I
新智元對演講內(nèi)容進行了整理。
Geoffrey Hinton:《深度學習革命》

Geoffrey Hinton
Hinton表示,自從20世紀50年代開始,人工智能存在兩種范式:分別是邏輯啟發(fā)的方法和生物學啟發(fā)的方法。
邏輯啟發(fā)的方法(The logic-inspired approach):智能的本質(zhì)是使用符號規(guī)則來操縱符號表達。 我們應該專注于推理。
生物學啟發(fā)的方法(The biologically-inspired approach):智能的本質(zhì)是學習神經(jīng)網(wǎng)絡中連接的優(yōu)勢。 我們應該專注于學習和感知。
不同的范式便使得最終的目標有所不同。因此,在內(nèi)部表示(internal representation)方面也存在著兩種觀點:
內(nèi)部表示是符號表達式。程序員可以用一種明確的語言把它們交給計算機;可以通過對現(xiàn)有表示應用規(guī)則派生新的表示。
內(nèi)部表示與語言完全不同。它們是神經(jīng)活動的向量(big vectors);它們對神經(jīng)活動的其他載體有直接的因果影響;這些向量是從數(shù)據(jù)中學到的。
由此也導致了兩種讓計算機完成任務的方式。
首先是智能設計:有意識地精確計算出你將如何操縱符號表示來執(zhí)行任務,然后極其詳細地告訴計算機具體要做什么。
其次是學習:向計算機展示大量輸入和所需輸出的例子。讓計算機學習如何使用通用的學習程序?qū)⑤斎胗成涞捷敵觥?/p>
Hinton舉了一個例子:人們花了50年的時間,用符號型人工智能(symbolic AI)來完成的任務就是“看圖說話”。

針對這項任務,人們嘗試了很長時間來編寫相應的代碼,即便采用神經(jīng)網(wǎng)絡的方法依舊嘗試了很長一段時間。最終,這項任務得到很好解決的方法竟然是基于純學習的方法。
因此,對于神經(jīng)網(wǎng)絡而言,存在如下的核心問題:
包含數(shù)百萬權(quán)重和多層非線性神經(jīng)元的大型神經(jīng)網(wǎng)絡是非常強大的計算設備。但神經(jīng)網(wǎng)絡能否從隨機權(quán)重開始,并從訓練數(shù)據(jù)中獲取所有知識,從而學習一項困難的任務(比如物體識別或機器翻譯)?
針對這項問題,前人們付出了不少的努力:



針對如何訓練人工神經(jīng)網(wǎng)絡,Hinton認為分為兩大方法,分別是監(jiān)督訓練和無監(jiān)督訓練。
監(jiān)督訓練:向網(wǎng)絡顯示一個輸入向量,并告訴它正確的輸出;調(diào)整權(quán)重,減少正確輸出與實際輸出之間的差異。
無監(jiān)督訓練:僅向網(wǎng)絡顯示輸入;調(diào)整權(quán)重,以便更好地從隱含神經(jīng)元的活動中重建輸入(或部分輸入)。

而反向傳播(backpropagation algorithm)只是計算權(quán)重變化如何影響輸出錯誤的一種有效方法。不是一次一個地擾動權(quán)重并測量效果,而是使用微積分同時計算所有權(quán)重的誤差梯度。
當有一百萬個權(quán)重時,反向傳播方法要比變異方法效率高出一百萬倍。
然而,反向傳播算法卻又讓人感到失望。
在20世紀90年代,雖然反向傳播算法的效果還算不錯,但并沒有達到人們所期待的那樣——深度網(wǎng)絡訓練非常困難;在中等規(guī)模的數(shù)據(jù)集上,一些其他機器學習方法甚至比反向傳播更有效。
符號型人工智能的研究人員稱,期望在大型深層神經(jīng)網(wǎng)絡中學習困難的任務是愚蠢的,因為這些網(wǎng)絡從隨機連接開始,且沒有先驗知識。
Hinton舉了三個非常荒誕的理論:

而后,深度學習開始被各種拒絕:
2007年:NIPS program committee拒絕了Hinton等人的一篇關于深度學習的論文。因為他們已經(jīng)接收了一篇關于深度學習的論文,而同一主題的兩篇論文就會“顯得過多”。
2009年:一位評審員告訴Yoshua Bengio,有關神經(jīng)網(wǎng)絡的論文在ICML中沒有地位。
2010年:一位CVPR評審員拒絕了Yann LeCun的論文,盡管它擊敗了最先進的論文。 審稿人說它沒有告訴我們?nèi)魏侮P于計算機視覺的信息,因為一切都是“學到的”。
而在2005年至2009年期間,研究人員(在加拿大!)取得了幾項技術(shù)進步,才使反向傳播能夠更好地在前饋網(wǎng)絡中工作。
到了2012年,ImageNet對象識別挑戰(zhàn)賽(ImageNet object recognition challenge)有大約100萬張從網(wǎng)上拍攝的高分辨率訓練圖像。
來自世界各地的領先計算機視覺小組在該數(shù)據(jù)集上嘗試了一些當時最好的計算機視覺方法。其結(jié)果如下:

這次比賽的結(jié)果后,計算機視覺相關的組委會們才突然發(fā)覺原來深度學習是有用的!
Hinton在演講中討論了一種全新的機器翻譯方式。
對于每種語言,我們都有一個編碼器神經(jīng)網(wǎng)絡和一個解碼器神經(jīng)網(wǎng)絡。編碼器按原句中的單詞順序讀取(它最后的隱藏狀態(tài)代表了句子所表達的思想)。而解碼器用目標語言表達思想。
自2014年年以來,神經(jīng)網(wǎng)絡機器翻譯得了很大的發(fā)展。

接下來,Hinton談到了神經(jīng)網(wǎng)絡視覺的未來。
他認為卷積神經(jīng)網(wǎng)絡獲得了巨大的勝利,因為它若是在一個地方能行得通,在其它地方也能使用。但它們識別物體的方式與我們不同,因此是對抗的例子。
人們通過使用對象的坐標系與其部分的坐標系之間的視點不變幾何關系來識別對象。Hinton認為神經(jīng)網(wǎng)絡也能做到這一點(參考鏈接:arxiv.org/abs/1906.06818)。
那么,神經(jīng)網(wǎng)絡的未來又是什么呢?
Hinton認為:
幾乎所有人工神經(jīng)網(wǎng)絡只使用兩個時間尺度:對權(quán)重的緩慢適應和神經(jīng)活動的快速變化。但是突觸在多個不同的時間尺度上適應。它可以使快速權(quán)重(fast weight)進行short-term memory將使神經(jīng)網(wǎng)絡變得更好,可以改善優(yōu)化、可以允許真正的遞歸。
Yann LeCun演講:《深度學習革命:續(xù)集》

Yann LeCun

Jeff剛才提到了監(jiān)督學習,監(jiān)督學習在數(shù)據(jù)量很大時效果很好,可以做語音識別、圖像識別、面部識別、從圖片生成屬性、機器翻譯等。

如果神經(jīng)網(wǎng)絡具有某些特殊架構(gòu),比如Jeff在上世紀八九十年代提出的那些架構(gòu),可以識別手寫文字,效果很好,到上世紀90年代末時,我在貝爾實驗室研發(fā)的這類系統(tǒng)承擔了全美手寫文字識別工作的10%-20%,不僅在技術(shù)上,而且在商業(yè)上也是一個成功。
到后來,整個社群一度幾乎拋棄了神經(jīng)網(wǎng)絡,一方面是因為是缺乏大型數(shù)據(jù)集,還有部分原因是當時編寫的軟件過于復雜,投資很大,還有一部分原因是當時的計算機速度不夠快,不足以運行其他所有應用。

卷積神經(jīng)網(wǎng)絡其實是受到了生物學的啟發(fā),它并不是照搬生物學,但確實從中得到很多啟發(fā),比如視覺皮層的結(jié)構(gòu),以及在學習信號處理時自然而然產(chǎn)生的一些觀點,比如filtering是處理音視頻信號的好辦法,而卷積是filtering的一種方式。這些經(jīng)典理念早在上世紀五六十年代就由Hubel和wiesel等人在神經(jīng)科學領域提出,日本科學家Fukushima在上世紀80年代對其也有貢獻。
我從這些觀點和成果中受到啟發(fā),我發(fā)現(xiàn)可以利用反向傳播訓練神經(jīng)網(wǎng)絡來復現(xiàn)這些現(xiàn)象。卷積網(wǎng)絡的理念是,世界上的物體是由各個部分構(gòu)成的,各個部分由motif構(gòu)成,而motif是由材質(zhì)和邊緣的基本組合,邊緣是由像素的分布構(gòu)成的。如果一個層級系統(tǒng)能夠檢測到有用的像素組合,再依次到邊緣、motif、最后到物體的各個部分,這就是一個目標識別系統(tǒng)。
層級表示不僅適用于視覺目標,也適用于語音、文本等自然信號。我們可以使用卷積網(wǎng)絡識別面部、識別路上的行人。

在上世紀90年代到2010年左右,出現(xiàn)了一段所謂“AI寒冬”,但我們沒有停下腳步,在人臉識別、行人識別,將機器學習用在機器人技術(shù)上,使用卷積網(wǎng)絡標記整個圖像,圖像中的每個像素都會標記為“能”或“不能”被機器人穿越,而且數(shù)據(jù)收集是自動的,無需手動標記。


?幾年之后,我們使用類似的系統(tǒng)完成目標分割任務,整個系統(tǒng)可以實現(xiàn)VGA實時部署,對圖像上的每個像素進行分割。這個系統(tǒng)可以檢測行人、道路、樹木,但當時這個結(jié)果并未馬上得到計算機社群的認可。

最近的視覺識別系統(tǒng)的一個范例是Facebook的“全景特征金字塔網(wǎng)絡”,可以通過多層路徑提取圖像特征,由多層路徑特征生成輸出圖像,其中包含圖像中全部實例和目標的掩模,并輸出分類結(jié)果,告訴你圖像中目標的分類信息。不僅是目標本身的分類,還包括背景、材質(zhì)等分類,比如草地、沙地、樹林等。可以想象,這種系統(tǒng)對于自動駕駛會很有用。
醫(yī)療成像及圖像分割

卷積網(wǎng)絡對于醫(yī)學成像應用也很有幫助。與上面提到的網(wǎng)絡類似,它也分為解碼器部分,負責提取圖像特征,另一部分負責生成輸出圖像,對其進行分割。
神經(jīng)網(wǎng)絡機器翻譯

在翻譯應用上,采用了許多網(wǎng)絡架構(gòu)上的創(chuàng)新,如自注意力機制、輕量卷積、動態(tài)卷積等,實現(xiàn)基于語境的動態(tài)卷積網(wǎng)絡內(nèi)核。在ICML2019上的最新機器翻譯卷積網(wǎng)絡模型,其參數(shù)數(shù)量達到200M至300M,WMT數(shù)據(jù)集上的BLEU得分:英語-德語29.7,英語-法語43.2,漢語-英語24.4。
自動駕駛系統(tǒng)

游戲

無模型強化學習很適合游戲領域應用。現(xiàn)在強化學習領域的一大問題就是數(shù)據(jù)的缺乏,使用強化學習訓練系統(tǒng)需要大量的重復試驗和試錯,要達到人類訓練15分鐘的水平,機器需要大概80小時的實時游戲,對于圍棋來說,要達到超人的水平,機器需要完成大約2000萬盤的自對弈。Deepmind最近的《星際爭霸2》AI則完成了大約200年的游戲時間。

這種海量重復試驗的方式在現(xiàn)實中顯然不可行,如果你想教一個機器人抓取目標,或者教一臺自動駕駛車學會駕駛,如此多的重復次數(shù)是不行的。純粹的強化學習只能適用于虛擬世界,那里的嘗試速度要遠遠快于現(xiàn)實世界。

這就引出了一個問題:為什么人和動物的學習速度這么快?
和自動駕駛系統(tǒng)不同,我們能夠建立直覺上真實的模型,所以不會把車開下懸崖。這是我們掌握的內(nèi)部模型,那么我們是怎么學習這個模型的,如何讓機器學會這個模型?基本上是基于觀察學會的。

動物身上也存在類似的機制。預測是智能的不可或缺的組成部分,當實際情況和預測出現(xiàn)差異時,實際上就是學習的過程。

上圖顯示了嬰兒學習早期概念和語言的過程。嬰兒基本上是通過觀察學習這個世界的,但其中也有一小部分是通過交流。

自監(jiān)督學習:預測與重建
以視頻內(nèi)容預測為例,給定一段視頻數(shù)據(jù),從其中一段視頻內(nèi)容預測另外一段空白處的內(nèi)容。自監(jiān)督學習的典型場景是,事先不公布要空出哪一段內(nèi)容,實際上根本不用真的留出空白,只是讓系統(tǒng)根據(jù)一些限制條件來對輸入進行重建。系統(tǒng)只通過觀察來完成任務,無需外部交互,學習效率更高。

機器在學習過程中被輸入了多少信息?對于純強化學習而言,獲得了一些樣本的部分碎片信息(就像蛋糕上的櫻桃)。對于監(jiān)督學習,每個樣本獲得10-10000bit信息(蛋糕表面的冰層),對于半監(jiān)督學習,每個樣本可獲得數(shù)百萬bit的信息(整個蛋糕內(nèi)部)。

自監(jiān)督學習的必要性
機器學習的未來在與自監(jiān)督和半監(jiān)督學習,而非監(jiān)督學習和純強化學習。自監(jiān)督學習就像填空,在NLP任務上表現(xiàn)很好(實際上是預測句子中缺失的單詞),但在圖像識別和理解任務上就表現(xiàn)一般。

為什么?因為這世界并不全是可預測的。對于視頻預測任務,結(jié)果可能有多重可能,訓練系統(tǒng)做出唯一一種預測的結(jié)果往往會得到唯一“模糊”的結(jié)果,即所有未來結(jié)果的“平均”。這并不是理想的預測。

我們需要利用隱變量來處理不確定性。訓練樣本只是整個可能的輸出集合的表示。

幾百年以來,理論的提出往往伴隨著之后的偉大發(fā)明和創(chuàng)造。深度學習和智能理論在未來會帶來什么?值得我們拭目以待。
全面認識深度學習巨頭
以下是ACM對Hinton和LeCun的官方介紹,讀者若已熟悉,可跳過本部分。
Geoffrey Hinton

Geoffrey Hinton是谷歌副總裁兼Engineering Fellow,向量研究所首席科學顧問、多倫多大學名譽教授。Hinton在劍橋大學獲得實驗心理學學士學位,在愛丁堡大學獲得人工智能博士學位。他是CIFAR的神經(jīng)計算和自適應感知(后來的“機器和大腦學習”)項目的創(chuàng)始主任。
Hinton曾獲加拿大最高榮譽勛章,英國皇家學會會員,美國國家工程院外籍院士,國際人工智能聯(lián)合會議(IJCAI)卓越研究獎,NSERC Herzberg金牌獎,及IEEE James Clerk Maxwell金牌。他還被“連線”雜志選為“2016年度最具影響力100人”之一,并被彭博社選為2017年“改變?nèi)蛏虡I(yè)格局的50人”之一。
Yann LeCun

Yann LeCun是紐約大學Courant數(shù)學科學研究所的Silver教授,F(xiàn)acebook的副總裁兼首席AI科學家。他在英國電子技術(shù)與電子學院(ESIEE)獲得高等英語學士學位,在瑪麗·居里·皮埃爾大學獲計算機科學博士學位。
LeCun是美國國家工程院院士,來自墨西哥IPN和洛桑聯(lián)邦理工學院(EPFL)的榮譽博士,賓夕法尼亞大學Pender獎得主,埃因霍溫技術(shù)大學和飛利浦實驗室Holst獎章獲得者,諾基亞-貝爾實驗室Shannon Luminary獎、IEEE PAMI杰出研究員獎、以及IEEE神經(jīng)網(wǎng)絡先鋒獎。
他被《連線》雜志選為“2016最具影響力人物100人之一”以及“25位創(chuàng)造商業(yè)未來的天才”之一。LeCun是紐約大學數(shù)據(jù)科學中心的創(chuàng)始主任,也是CIFAR學習機器和腦力項目的負責人(與Yoshua Bengio共同擔任)。 此外,LeCun還是人工智能合作伙伴關系委員會的聯(lián)合創(chuàng)始人和前成員之一,該機構(gòu)是研究AI的社會后果的企業(yè)和非營利組織的聯(lián)合體。
