來源:the gradient
編輯:Emil、Su
【新智元導(dǎo)讀】LeCun的AI啟蒙竟是來自一本哲學(xué)書?他曾經(jīng)因?yàn)橛梅ㄕZ寫論文阻礙了機(jī)器學(xué)習(xí)理論發(fā)展?SSL究竟能為世界帶來什么?在最近的采訪中,他向我們娓娓道來。
近日,深度學(xué)習(xí)先驅(qū)Yann LeCun接受了Gradient Podcast的采訪,暢談了他在80年代早期的AI研究以SSL的最新發(fā)展。LeCun現(xiàn)任Facebook副總裁兼首席AI科學(xué)家和紐約大學(xué)教授,2018年ACM圖靈獎得主。他在80年代率先使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像處理,是AI深度學(xué)習(xí)革命的關(guān)鍵人物。
在采訪中,LeCun首先聊到了他的早期求學(xué)和科研歷程。出于對物理學(xué)的喜愛,LeCun最早選擇了工程學(xué)作為大學(xué)專業(yè),1983年,他從巴黎ESIEE大學(xué)畢業(yè)。
本科時,LeCun逐漸發(fā)現(xiàn)自己對科研的興趣勝過普通的工程學(xué),特別是人類以及其他動物智慧如何產(chǎn)生的問題。至于機(jī)器學(xué)習(xí)(當(dāng)然當(dāng)時還沒有這個學(xué)科),他的靈感則來自一本哲學(xué)書籍,書中介紹了一場上世紀(jì)70年代著名的辯論——語言學(xué)家和心理學(xué)家討論了語言究竟是先天還是后天習(xí)得的。辯論中提到了通過感知器,讓簡單的機(jī)器也能夠?qū)W習(xí)復(fù)雜的概念。這個話題啟發(fā)了LeCun。于是,他開始著手研究相關(guān)文獻(xiàn),但是他發(fā)現(xiàn)大多數(shù)發(fā)表的內(nèi)容都集中在上世紀(jì)60年代。
阿瑟·塞繆爾在1959年發(fā)明了機(jī)器學(xué)習(xí)
到了80年代初期,專家系統(tǒng)變得炙手可熱。但LeCun覺得這類系統(tǒng)不靠譜,那時關(guān)于機(jī)器學(xué)習(xí)的想法已經(jīng)成型。他自嘲到,「可能是因?yàn)槲覒校蚴前l(fā)現(xiàn)了自己能力有限,所以當(dāng)時覺得造一臺能夠進(jìn)行自我決策的機(jī)器基本是不可能的」。LeCun還對自我組織系統(tǒng)和神經(jīng)網(wǎng)絡(luò)十分癡迷,但當(dāng)時世界上進(jìn)行相關(guān)研究的人并不多,且沒有一個統(tǒng)一的組織。于是,LeCun和巴黎的一個小型獨(dú)立實(shí)驗(yàn)室聯(lián)系,開始展開自己的研究(注:當(dāng)時的皮埃爾和馬居里大學(xué),今天的索邦大學(xué),LeCun 1987年在那里獲得了計(jì)算機(jī)專業(yè)博士學(xué)位)。
從那時起,一些新穎的觀點(diǎn)便從眾多簡單元素的相互碰撞中產(chǎn)生了。「這正如神經(jīng)網(wǎng)絡(luò)做的那樣」。
上世紀(jì)80年代,LeCun開始著手研究反向傳播算法。
「在研究中,我意識到為什么60年代進(jìn)行的神經(jīng)網(wǎng)絡(luò)早期嘗試都失敗了,因?yàn)檠芯克娜藗兌荚谠噲D尋找網(wǎng)絡(luò)運(yùn)行的規(guī)則」。
所以LeCun開始研究用多層網(wǎng)絡(luò)來覆蓋每個神經(jīng)元,無論目標(biāo)輸出是什么,這樣的方法更容易計(jì)算出答案來。從60年代經(jīng)典的優(yōu)化控制算法中,LeCun得到了啟發(fā),建立了反向傳播梯度算法。
1986年,LeCun曾寫過一篇關(guān)于計(jì)算機(jī)深度學(xué)習(xí)的論文,不過是用他的母語法語寫的。而且,他后來的導(dǎo)師Geoffrey Hinton看到這篇論文時,覺得寫得「十分糟糕」。但不可否認(rèn)的是,這篇論文中已經(jīng)有不少關(guān)于機(jī)器學(xué)習(xí)成熟的理論。
同之前的研究一樣,LeCun展開CNN研究的時候,靈感也來自于圖書館。從前人對于視覺系統(tǒng)的生物學(xué)研究中,LeCun發(fā)現(xiàn)了圖像的秘密。在博士即將畢業(yè)之前的6個月,LeCun開始與Leo一起開始編寫一個深度學(xué)習(xí)框架。最終他們在1989年發(fā)表論文,通過使用梯度下降方法訓(xùn)練的CNN進(jìn)行圖像識別,這成為了日后計(jì)算機(jī)視覺研究的基礎(chǔ)理論。
「當(dāng)時還沒有Python,所以我基本上使用的是自己的語言編寫的代碼」,那時由于多倫多有更好的研究條件,所以LeCun搬到了多倫多繼續(xù)自己的研究。在多倫多的前六個月進(jìn)展并不理想,以至于Hinton多次在質(zhì)疑LeCun是不是在「摸魚」。
LeCun(右)與導(dǎo)師Hinton(中)、Bengio(左)合影「我當(dāng)時在嘗試手機(jī)一些小數(shù)據(jù)集,簡而言之,就是用鼠標(biāo)把一個個字符連起來」。然而當(dāng)LeCun去貝爾實(shí)驗(yàn)室時,他被實(shí)驗(yàn)室的一個包含上千個樣本的數(shù)據(jù)集震驚到了。「當(dāng)時我想這太瘋狂了。」在1988年,貝爾實(shí)驗(yàn)室在2個月內(nèi)做出了最好的結(jié)果。LeCun搭建研究框架,張量引擎,以及一套前端語言,基本的機(jī)器學(xué)習(xí)流程就這樣搭建出來了。可以說,后來的TensorFlow、PyTorch等等都是基于這個概念打造的。
在視覺領(lǐng)域應(yīng)用自監(jiān)督學(xué)習(xí)可行嗎?
在談到自監(jiān)督學(xué)習(xí)時,LeCun說道在近些年的研究中,它在計(jì)算機(jī)視覺領(lǐng)域的確產(chǎn)生了許多令人興奮的成果。
當(dāng)然,與基于全球巨大的圖像識別數(shù)據(jù)集的研究相比,自監(jiān)督學(xué)習(xí)仍然沒有勝算。但是在語音識別等其他領(lǐng)域,監(jiān)督學(xué)習(xí)的確帶來了許多成果。比如,它可以在10分鐘以內(nèi)訓(xùn)練一套語音識別系統(tǒng)。
之前DeepMind兩位大神David Silver以及Richard Sutton不久前發(fā)表過驚人言論:通過獎勵最大化結(jié)合強(qiáng)化學(xué)習(xí)就能實(shí)現(xiàn)通用人工智能。
關(guān)于這個論調(diào)LeCun也在采訪中表明了自己的態(tài)度:「他們的觀點(diǎn)非常可笑,要在現(xiàn)實(shí)世界里進(jìn)行數(shù)千年的訓(xùn)練。我完全不同意這種說法,我認(rèn)為這完全是錯誤的。所以我們未來也不打算向那個方向前進(jìn)」。目前的SSL系統(tǒng)關(guān)鍵問題在于現(xiàn)在有一個監(jiān)督系統(tǒng),你只提供很少的樣本,然后你使用監(jiān)督系統(tǒng)讓機(jī)器學(xué)會從一個輸入部分來對另一部分進(jìn)行基本的預(yù)測。比如說, 提供一幅圖像的左邊和右邊,那系統(tǒng)能否判斷出兩個部分是來自于同一圖像呢?又「比如通過輸入兩段分割的視頻,AI能否自動判斷兩個視頻的邏輯關(guān)系?」所以這就需要機(jī)器了解兩者之間的依賴關(guān)系。「所以在計(jì)算機(jī)視覺方面,我認(rèn)為最大的挑戰(zhàn)是讓機(jī)器通過看視頻來了解這個世界的運(yùn)作方式」。
「SSL將對計(jì)算機(jī)視覺領(lǐng)域產(chǎn)生重大影響。」
談及上半年做了哪些工作,LeCun闡述了如何讓機(jī)器進(jìn)行SSL?花一個小時讓機(jī)器「隨機(jī)」觀看Instagram上10億張公開照片。
也就是說,這些圖片并未做過通常用于算法訓(xùn)練的標(biāo)簽和注釋處理。接下來,使用SwAV算法在這些圖像上進(jìn)行預(yù)訓(xùn)練。也就是,利用數(shù)據(jù)集一邊學(xué)習(xí)一邊處理數(shù)據(jù),完成快速分組、物體檢測等任務(wù)。在這些任務(wù)中,SwAV表現(xiàn)都出奇地好,所以如果你有一個足夠大的未經(jīng)標(biāo)注的數(shù)據(jù)集,這些技術(shù)將會給你帶來SOTA級的表現(xiàn)。所以SSL未來也會為計(jì)算機(jī)視覺領(lǐng)域帶來巨大的影響。
這意味著你只需要大量的數(shù)據(jù),而不進(jìn)行人工標(biāo)注,就能進(jìn)行訓(xùn)練。在系統(tǒng)訓(xùn)練時,會產(chǎn)生平凡解,即不同輸入的圖像產(chǎn)生同樣輸入圖像的問題,我們稱之為崩潰(collapse)。LeCun的Facebook AI小組用了一個非對比的方法,通過最大化輸出的交互信息(mutual information )來避免崩潰。事實(shí)上這個方法是LeCun的導(dǎo)師Hinton在上世紀(jì)90年代發(fā)明的。例如,假設(shè)有兩個神經(jīng)網(wǎng)絡(luò)觀察圖像或視頻的兩不同部分,通過訓(xùn)練讓他們之間的交互信息量足夠大,那么崩潰就不會發(fā)生。但這個方法的難點(diǎn)在于如何測量兩個變量之間的交互信息。雖然交互信息有明確的定義,但是沒有明確的估計(jì)方法,它類似于一個概率分布。
所以你需要對于這個分布進(jìn)行假設(shè),如果假設(shè)錯誤,那么系統(tǒng)肯定不會輸出理想的結(jié)果。這就是Hinton在90年代遇到的問題。
SSL未來潛力無限 但實(shí)現(xiàn)通用智能不太可能
當(dāng)然,目前深度學(xué)習(xí)技術(shù)仍然有許多未知理論有待于我們?nèi)ヌ剿鳌eCun給了一個有意思的比喻。
比如蒸汽機(jī)在17世紀(jì)就發(fā)明了出來,但是熱力動力學(xué)基本在100年之后才為我們解釋了蒸汽機(jī)的局限性。
又比如顯微鏡和望遠(yuǎn)鏡同樣也是很早之前就被發(fā)明了出來,但是衍射定律也是在那之后才發(fā)現(xiàn)的。所以深度學(xué)習(xí)也一樣,做研究需要直觀地了解你究竟在做什么,如果你一味地將自己局限在模型中,你將失去接觸許多其他事物的機(jī)會,只是因?yàn)槟悴焕斫馑鼈儭?/span>深度學(xué)習(xí)技術(shù)如今已經(jīng)幾乎滲透進(jìn)每一個大型互聯(lián)網(wǎng)公司的DNA中,LeCun介紹到,如果沒有深度學(xué)習(xí),那么Facebook可能立刻會垮臺。但與此同時,指望AI達(dá)到通用智能的水平,LeCun認(rèn)為需要重新審視一下通用人工智能的概念。
「在我職業(yè)生涯結(jié)束前,如果AI能夠達(dá)到狗或者牛一樣的智商,那我已經(jīng)十分欣慰了」。「我不太相信通用智能的概念,所以我們必須降低期待。當(dāng)然,不容否認(rèn)的是通用智能是我們的努力方向,比如在自監(jiān)督領(lǐng)域取得突破性進(jìn)展,讓系統(tǒng)來運(yùn)行世界模型。」
智力的本質(zhì)是能夠基于你的行動來預(yù)測世界可能發(fā)生的結(jié)果,因?yàn)檫@樣才能夠讓你具備計(jì)劃的能力。
參考資料:
https://thegradientpub.substack.com/p/yann-lecun-on-his-start-in-research
