來(lái)源:the gradient
編輯:Emil、Su
【導(dǎo)讀】LeCun的AI啟蒙竟是來(lái)自一本哲學(xué)書(shū)?他曾經(jīng)因?yàn)橛梅ㄕZ(yǔ)寫論文阻礙了機(jī)器學(xué)習(xí)理論發(fā)展?SSL究竟能為世界帶來(lái)什么?在最近的采訪中,他向我們娓娓道來(lái)。
近日,深度學(xué)習(xí)先驅(qū)Yann LeCun接受了Gradient Podcast的采訪,暢談了他在80年代早期的AI研究以SSL的最新發(fā)展。LeCun現(xiàn)任Facebook副總裁兼首席AI科學(xué)家和紐約大學(xué)教授,2018年ACM圖靈獎(jiǎng)得主。他在80年代率先使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像處理,是AI深度學(xué)習(xí)革命的關(guān)鍵人物。
在采訪中,LeCun首先聊到了他的早期求學(xué)和科研歷程。出于對(duì)物理學(xué)的喜愛(ài),LeCun最早選擇了工程學(xué)作為大學(xué)專業(yè),1983年,他從巴黎ESIEE大學(xué)畢業(yè)。
本科時(shí),LeCun逐漸發(fā)現(xiàn)自己對(duì)科研的興趣勝過(guò)普通的工程學(xué),特別是人類以及其他動(dòng)物智慧如何產(chǎn)生的問(wèn)題。至于機(jī)器學(xué)習(xí)(當(dāng)然當(dāng)時(shí)還沒(méi)有這個(gè)學(xué)科),他的靈感則來(lái)自一本哲學(xué)書(shū)籍,書(shū)中介紹了一場(chǎng)上世紀(jì)70年代著名的辯論——語(yǔ)言學(xué)家和心理學(xué)家討論了語(yǔ)言究竟是先天還是后天習(xí)得的。辯論中提到了通過(guò)感知器,讓簡(jiǎn)單的機(jī)器也能夠?qū)W習(xí)復(fù)雜的概念。這個(gè)話題啟發(fā)了LeCun。于是,他開(kāi)始著手研究相關(guān)文獻(xiàn),但是他發(fā)現(xiàn)大多數(shù)發(fā)表的內(nèi)容都集中在上世紀(jì)60年代。
阿瑟·塞繆爾在1959年發(fā)明了機(jī)器學(xué)習(xí)
到了80年代初期,專家系統(tǒng)變得炙手可熱。但LeCun覺(jué)得這類系統(tǒng)不靠譜,那時(shí)關(guān)于機(jī)器學(xué)習(xí)的想法已經(jīng)成型。他自嘲到,「可能是因?yàn)槲覒校蚴前l(fā)現(xiàn)了自己能力有限,所以當(dāng)時(shí)覺(jué)得造一臺(tái)能夠進(jìn)行自我決策的機(jī)器基本是不可能的」。LeCun還對(duì)自我組織系統(tǒng)和神經(jīng)網(wǎng)絡(luò)十分癡迷,但當(dāng)時(shí)世界上進(jìn)行相關(guān)研究的人并不多,且沒(méi)有一個(gè)統(tǒng)一的組織。于是,LeCun和巴黎的一個(gè)小型獨(dú)立實(shí)驗(yàn)室聯(lián)系,開(kāi)始展開(kāi)自己的研究(注:當(dāng)時(shí)的皮埃爾和馬居里大學(xué),今天的索邦大學(xué),LeCun 1987年在那里獲得了計(jì)算機(jī)專業(yè)博士學(xué)位)。
從那時(shí)起,一些新穎的觀點(diǎn)便從眾多簡(jiǎn)單元素的相互碰撞中產(chǎn)生了。「這正如神經(jīng)網(wǎng)絡(luò)做的那樣」。
深度學(xué)習(xí)居然被法語(yǔ)耽誤了?
上世紀(jì)80年代,LeCun開(kāi)始著手研究反向傳播算法。
「在研究中,我意識(shí)到為什么60年代進(jìn)行的神經(jīng)網(wǎng)絡(luò)早期嘗試都失敗了,因?yàn)檠芯克娜藗兌荚谠噲D尋找網(wǎng)絡(luò)運(yùn)行的規(guī)則」。
所以LeCun開(kāi)始研究用多層網(wǎng)絡(luò)來(lái)覆蓋每個(gè)神經(jīng)元,無(wú)論目標(biāo)輸出是什么,這樣的方法更容易計(jì)算出答案來(lái)。從60年代經(jīng)典的優(yōu)化控制算法中,LeCun得到了啟發(fā),建立了反向傳播梯度算法。
1986年,LeCun曾寫過(guò)一篇關(guān)于計(jì)算機(jī)深度學(xué)習(xí)的論文,不過(guò)是用他的母語(yǔ)法語(yǔ)寫的。而且,他后來(lái)的導(dǎo)師Geoffrey Hinton看到這篇論文時(shí),覺(jué)得寫得「十分糟糕」。但不可否認(rèn)的是,這篇論文中已經(jīng)有不少關(guān)于機(jī)器學(xué)習(xí)成熟的理論。
同之前的研究一樣,LeCun展開(kāi)CNN研究的時(shí)候,靈感也來(lái)自于圖書(shū)館。從前人對(duì)于視覺(jué)系統(tǒng)的生物學(xué)研究中,LeCun發(fā)現(xiàn)了圖像的秘密。在博士即將畢業(yè)之前的6個(gè)月,LeCun開(kāi)始與Leo一起開(kāi)始編寫一個(gè)深度學(xué)習(xí)框架。最終他們?cè)?989年發(fā)表論文,通過(guò)使用梯度下降方法訓(xùn)練的CNN進(jìn)行圖像識(shí)別,這成為了日后計(jì)算機(jī)視覺(jué)研究的基礎(chǔ)理論。
「當(dāng)時(shí)還沒(méi)有Python,所以我基本上使用的是自己的語(yǔ)言編寫的代碼」,那時(shí)由于多倫多有更好的研究條件,所以LeCun搬到了多倫多繼續(xù)自己的研究。在多倫多的前六個(gè)月進(jìn)展并不理想,以至于Hinton多次在質(zhì)疑LeCun是不是在「摸魚(yú)」。
LeCun(右)與導(dǎo)師Hinton(中)、Bengio(左)合影「我當(dāng)時(shí)在嘗試手機(jī)一些小數(shù)據(jù)集,簡(jiǎn)而言之,就是用鼠標(biāo)把一個(gè)個(gè)字符連起來(lái)」。然而當(dāng)LeCun去貝爾實(shí)驗(yàn)室時(shí),他被實(shí)驗(yàn)室的一個(gè)包含上千個(gè)樣本的數(shù)據(jù)集震驚到了。「當(dāng)時(shí)我想這太瘋狂了。」在1988年,貝爾實(shí)驗(yàn)室在2個(gè)月內(nèi)做出了最好的結(jié)果。LeCun搭建研究框架,張量引擎,以及一套前端語(yǔ)言,基本的機(jī)器學(xué)習(xí)流程就這樣搭建出來(lái)了。可以說(shuō),后來(lái)的TensorFlow、PyTorch等等都是基于這個(gè)概念打造的。
在視覺(jué)領(lǐng)域應(yīng)用自監(jiān)督學(xué)習(xí)可行嗎?
在談到自監(jiān)督學(xué)習(xí)時(shí),LeCun說(shuō)道在近些年的研究中,它在計(jì)算機(jī)視覺(jué)領(lǐng)域的確產(chǎn)生了許多令人興奮的成果。
當(dāng)然,與基于全球巨大的圖像識(shí)別數(shù)據(jù)集的研究相比,自監(jiān)督學(xué)習(xí)仍然沒(méi)有勝算。但是在語(yǔ)音識(shí)別等其他領(lǐng)域,監(jiān)督學(xué)習(xí)的確帶來(lái)了許多成果。比如,它可以在10分鐘以內(nèi)訓(xùn)練一套語(yǔ)音識(shí)別系統(tǒng)。
之前DeepMind兩位大神David Silver以及Richard Sutton不久前發(fā)表過(guò)驚人言論:通過(guò)獎(jiǎng)勵(lì)最大化結(jié)合強(qiáng)化學(xué)習(xí)就能實(shí)現(xiàn)通用人工智能。
關(guān)于這個(gè)論調(diào)LeCun也在采訪中表明了自己的態(tài)度:「他們的觀點(diǎn)非常可笑,要在現(xiàn)實(shí)世界里進(jìn)行數(shù)千年的訓(xùn)練。我完全不同意這種說(shuō)法,我認(rèn)為這完全是錯(cuò)誤的。所以我們未來(lái)也不打算向那個(gè)方向前進(jìn)」。目前的SSL系統(tǒng)關(guān)鍵問(wèn)題在于現(xiàn)在有一個(gè)監(jiān)督系統(tǒng),你只提供很少的樣本,然后你使用監(jiān)督系統(tǒng)讓機(jī)器學(xué)會(huì)從一個(gè)輸入部分來(lái)對(duì)另一部分進(jìn)行基本的預(yù)測(cè)。比如說(shuō), 提供一幅圖像的左邊和右邊,那系統(tǒng)能否判斷出兩個(gè)部分是來(lái)自于同一圖像呢?又「比如通過(guò)輸入兩段分割的視頻,AI能否自動(dòng)判斷兩個(gè)視頻的邏輯關(guān)系?」所以這就需要機(jī)器了解兩者之間的依賴關(guān)系。「所以在計(jì)算機(jī)視覺(jué)方面,我認(rèn)為最大的挑戰(zhàn)是讓機(jī)器通過(guò)看視頻來(lái)了解這個(gè)世界的運(yùn)作方式」。
「SSL將對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域產(chǎn)生重大影響。」
談及上半年做了哪些工作,LeCun闡述了如何讓機(jī)器進(jìn)行SSL?花一個(gè)小時(shí)讓機(jī)器「隨機(jī)」觀看Instagram上10億張公開(kāi)照片。
也就是說(shuō),這些圖片并未做過(guò)通常用于算法訓(xùn)練的標(biāo)簽和注釋處理。接下來(lái),使用SwAV算法在這些圖像上進(jìn)行預(yù)訓(xùn)練。也就是,利用數(shù)據(jù)集一邊學(xué)習(xí)一邊處理數(shù)據(jù),完成快速分組、物體檢測(cè)等任務(wù)。在這些任務(wù)中,SwAV表現(xiàn)都出奇地好,所以如果你有一個(gè)足夠大的未經(jīng)標(biāo)注的數(shù)據(jù)集,這些技術(shù)將會(huì)給你帶來(lái)SOTA級(jí)的表現(xiàn)。所以SSL未來(lái)也會(huì)為計(jì)算機(jī)視覺(jué)領(lǐng)域帶來(lái)巨大的影響。
這意味著你只需要大量的數(shù)據(jù),而不進(jìn)行人工標(biāo)注,就能進(jìn)行訓(xùn)練。在系統(tǒng)訓(xùn)練時(shí),會(huì)產(chǎn)生平凡解,即不同輸入的圖像產(chǎn)生同樣輸入圖像的問(wèn)題,我們稱之為崩潰(collapse)。那么如何避免訓(xùn)練機(jī)器時(shí)崩潰?LeCun的Facebook AI小組用了一個(gè)非對(duì)比的方法,通過(guò)最大化輸出的交互信息(mutual information )來(lái)避免崩潰。事實(shí)上這個(gè)方法是LeCun的導(dǎo)師Hinton在上世紀(jì)90年代發(fā)明的。例如,假設(shè)有兩個(gè)神經(jīng)網(wǎng)絡(luò)觀察圖像或視頻的兩不同部分,通過(guò)訓(xùn)練讓他們之間的交互信息量足夠大,那么崩潰就不會(huì)發(fā)生。但這個(gè)方法的難點(diǎn)在于如何測(cè)量?jī)蓚€(gè)變量之間的交互信息。雖然交互信息有明確的定義,但是沒(méi)有明確的估計(jì)方法,它類似于一個(gè)概率分布。
所以你需要對(duì)于這個(gè)分布進(jìn)行假設(shè),如果假設(shè)錯(cuò)誤,那么系統(tǒng)肯定不會(huì)輸出理想的結(jié)果。這就是Hinton在90年代遇到的問(wèn)題。
SSL未來(lái)潛力無(wú)限 但實(shí)現(xiàn)通用智能不太可能
當(dāng)然,目前深度學(xué)習(xí)技術(shù)仍然有許多未知理論有待于我們?nèi)ヌ剿鳌eCun給了一個(gè)有意思的比喻。
比如蒸汽機(jī)在17世紀(jì)就發(fā)明了出來(lái),但是熱力動(dòng)力學(xué)基本在100年之后才為我們解釋了蒸汽機(jī)的局限性。
又比如顯微鏡和望遠(yuǎn)鏡同樣也是很早之前就被發(fā)明了出來(lái),但是衍射定律也是在那之后才發(fā)現(xiàn)的。所以深度學(xué)習(xí)也一樣,做研究需要直觀地了解你究竟在做什么,如果你一味地將自己局限在模型中,你將失去接觸許多其他事物的機(jī)會(huì),只是因?yàn)槟悴焕斫馑鼈儭?/span>深度學(xué)習(xí)技術(shù)如今已經(jīng)幾乎滲透進(jìn)每一個(gè)大型互聯(lián)網(wǎng)公司的DNA中,LeCun介紹到,如果沒(méi)有深度學(xué)習(xí),那么Facebook可能立刻會(huì)垮臺(tái)。但與此同時(shí),指望AI達(dá)到通用智能的水平,LeCun認(rèn)為需要重新審視一下通用人工智能的概念。
「在我職業(yè)生涯結(jié)束前,如果AI能夠達(dá)到狗或者牛一樣的智商,那我已經(jīng)十分欣慰了」。「我不太相信通用智能的概念,所以我們必須降低期待。當(dāng)然,不容否認(rèn)的是通用智能是我們的努力方向,比如在自監(jiān)督領(lǐng)域取得突破性進(jìn)展,讓系統(tǒng)來(lái)運(yùn)行世界模型。」
智力的本質(zhì)是能夠基于你的行動(dòng)來(lái)預(yù)測(cè)世界可能發(fā)生的結(jié)果,因?yàn)檫@樣才能夠讓你具備計(jì)劃的能力。
參考資料:
https://thegradientpub.substack.com/p/yann-lecun-on-his-start-in-research
讀者,你好!我們建了微信群方便大家學(xué)習(xí)交流,歡迎掃碼進(jìn)群討論。
微商、廣告請(qǐng)繞道!謝謝合作!