圖靈獎(jiǎng)得主Yann LeCun萬字訪談:DNN“史前文明”、煉金術(shù)及新的寒冬

Yann LeCun,現(xiàn)任 Facebook 副總裁兼首席 AI 科學(xué)家,紐約大學(xué)教授,曾在 Facebook 內(nèi)領(lǐng)導(dǎo)開啟了 AI 研究,并領(lǐng)導(dǎo)建設(shè)了紐約大學(xué)的數(shù)據(jù)科學(xué)中心。Yann 以其在上世紀(jì)八九十年代率先將卷積神經(jīng)網(wǎng)絡(luò)(CNNs)用于圖片處理而聞名,被認(rèn)為是對(duì)深度學(xué)習(xí)理論發(fā)展構(gòu)成重大影響的人物之一,也由此獲得了計(jì)算機(jī)領(lǐng)域最高獎(jiǎng)項(xiàng)圖靈獎(jiǎng)。
近日,斯坦福博士生 Andrey Kurenkov 與 Yann LeCun 進(jìn)行了一次深度對(duì)話,主要涉及深度學(xué)習(xí)的發(fā)展歷史、關(guān)鍵問題的解決方案(特別是自監(jiān)督學(xué)習(xí))、Facebook 的 AI 研究,以及對(duì)人工智能未來發(fā)展的一些看法,內(nèi)容非常有啟發(fā)性。作為 Facebook 的首席 AI 科學(xué)家,?Yann?LeCun 希望在自己退休前,能夠看到機(jī)器實(shí)現(xiàn)貓狗級(jí)別的智能。
出于知識(shí)傳播的目的,“數(shù)據(jù)實(shí)戰(zhàn)派”將本次采訪中 Yann LeCun 的主要觀點(diǎn)整理成文,以饗讀者。
深度神經(jīng)網(wǎng)絡(luò)不為人知的“史前文明”
1、在 CNNs 和深度學(xué)習(xí)真正出現(xiàn)之前,您是怎樣注意到 AI 領(lǐng)域,并開始對(duì)它的探索和研究?
Yann LeCun:我一直都對(duì)各種科學(xué)和物理學(xué),尤其天體物理學(xué),抱有興趣。我發(fā)現(xiàn)那些有關(guān)智慧或智能的問題真的很引人入勝,比如智慧是怎樣在人類和動(dòng)物身上出現(xiàn)的。
老實(shí)說,我對(duì)很多問題都很感興趣,但我發(fā)自內(nèi)心地認(rèn)為我更像是個(gè)工程師,我喜歡構(gòu)建各種各樣的東西,所以在上大學(xué)時(shí)我選學(xué)了工程學(xué)。但也正是在我學(xué)習(xí)工程學(xué)期間,我發(fā)現(xiàn)相比常規(guī)的工程學(xué)我更喜歡做科研。比如我經(jīng)常會(huì)思考很多有關(guān)‘智能’的問題,并深信‘學(xué)習(xí)’是‘智能’的關(guān)鍵組成部分。
我當(dāng)時(shí)恰巧讀到了幾本談及機(jī)器學(xué)習(xí)這一概念的書,那會(huì)這類概念還沒有‘機(jī)器學(xué)習(xí)’這個(gè)專有名詞,而我讀的其中一本書其實(shí)也是一本哲學(xué)書。
那本哲學(xué)書主要是關(guān)于發(fā)生在上世紀(jì) 70 年代末的一場辯論,辯題為“人類的語言能力究竟是天生的還是后天培養(yǎng)的”,辯論的雙方為著名語言學(xué)家 Noam Chomsky 和著名發(fā)展心理學(xué)家 Jean Piaget。
Piaget 主張人的語言能力是后天習(xí)得,站在 Piaget 一邊的還有 MIT 的 Seymour Papert,他在論證中提到了感知器(Perceptron)的概念,并認(rèn)為機(jī)器很明顯具備能學(xué)習(xí)復(fù)雜概念的能力。我是通過閱讀這本書,得知了“原來人們以前就有思考過機(jī)器是否能學(xué)習(xí)的問題”,并深深的被這一問題所吸引。
大概是在我大二或者大三的時(shí)候,我開始大量閱讀相關(guān)的書籍和資料,但發(fā)現(xiàn)這一領(lǐng)域內(nèi)的文獻(xiàn)幾乎在上世紀(jì)六十年代末戛然而止了。
Papert 應(yīng)該是要為此負(fù)部分責(zé)任的,畢竟他寫了本書來終結(jié)這一問題。
那本書寫的也蠻好的,書名為?Perceptron??,由 Papert 和 Marvin Minsky 共同撰寫。然后到了上世紀(jì)八十年代初期,邏輯類系統(tǒng)開始在 AI 領(lǐng)域內(nèi)興起,或許是因?yàn)槲冶容^懶,或許是我對(duì)自己的能力和看法太過自信,我當(dāng)時(shí)曾認(rèn)為這是個(gè)錯(cuò)誤的方向,因?yàn)槠渲胁⒉话瑢W(xué)習(xí),而如果沒有學(xué)習(xí),我們又如何能構(gòu)建智能呢,所以,我當(dāng)時(shí)不認(rèn)為人們能通過工程設(shè)計(jì)來設(shè)計(jì)出一個(gè)智能,覺得人工智能更應(yīng)該是一個(gè)機(jī)器不停地在學(xué)習(xí)并自己構(gòu)建自己。
那會(huì)我對(duì)‘自洽系統(tǒng)’類的概念特別感興趣。關(guān)于神經(jīng)網(wǎng)絡(luò),我知道日本有一些相關(guān)的研究,后來我也是在那些研究的基礎(chǔ)上繼續(xù)進(jìn)行研究,但當(dāng)時(shí)我并不知道美國也有一些人在研究此事,比如 Geoff Hinton,Terry Sejnowski,James McClelland 和 David Rumelhart。后來我跟他們都有接觸,并開始了我的畢業(yè)項(xiàng)目,當(dāng)時(shí)找不到能做我項(xiàng)目導(dǎo)師的人,因?yàn)檎l對(duì)這方面的內(nèi)容都沒有懂很多。
那段時(shí)間真的是有點(diǎn)單打獨(dú)斗的感覺,而這也是我 AI 領(lǐng)域研究的起點(diǎn)。
2、所以,你是從 AI 領(lǐng)域最早的發(fā)展里程碑之一——Perceptron 的概念中受到啟發(fā),并在上世紀(jì)八十年代發(fā)現(xiàn)沒人在做‘學(xué)習(xí)機(jī)器’的情況下,想要試一試看行不行?
Yann LeCun:當(dāng)時(shí),我跟巴黎的一個(gè)小的獨(dú)立實(shí)驗(yàn)室取得了聯(lián)系,那個(gè)實(shí)驗(yàn)室并非一個(gè)正規(guī)的實(shí)驗(yàn)室,而是一群在大學(xué)里有職位的人聚在一起,構(gòu)思一種他們稱為automaton networks(自動(dòng)機(jī)網(wǎng)絡(luò))的設(shè)想的場所。
自動(dòng)機(jī)網(wǎng)絡(luò),指的是能由大量基本構(gòu)成單位間的交互導(dǎo)致復(fù)雜現(xiàn)象的概念,與我們現(xiàn)在所熟知的神經(jīng)網(wǎng)絡(luò)異曲同工。而因?yàn)槲覀兌紝?duì)‘學(xué)習(xí)機(jī)器’有著濃厚的興趣,所以他們幫我推薦了一些研究生學(xué)院之類的資源。
3、這些是在上世紀(jì)八十年代發(fā)生的事。八十年代末時(shí)Backpropogation 興起,在你畢業(yè)時(shí),這對(duì)你來說是一件正在發(fā)生的事嗎,還是你其實(shí)也參與到了其中?
Yann LeCun:是的,我是其中的一份子,我很早就意識(shí)到了關(guān)于學(xué)習(xí)機(jī)器的探討在上世紀(jì)六十年代停止的原因,人們在尋找多層網(wǎng)絡(luò)的構(gòu)建準(zhǔn)則,而他們最終徒勞而歸,但我當(dāng)時(shí)在某種意義上算是找到了這么一個(gè)“準(zhǔn)則”在現(xiàn)在以“Target Prop”的名字被熟知,主要是說為每個(gè)運(yùn)算節(jié)點(diǎn)逆流虛擬運(yùn)算目標(biāo)(Virtual Target)。由此,我們便可能構(gòu)建一個(gè)多層網(wǎng)絡(luò)。
比如,對(duì)于網(wǎng)絡(luò)內(nèi)的每個(gè)運(yùn)算節(jié)點(diǎn)的結(jié)果,都可以通過解決“如果我想讓最終結(jié)果是這樣的,之前的運(yùn)算節(jié)點(diǎn)應(yīng)該取什么值”這一問題來獲得,也就是從我們想要的結(jié)果出發(fā),一層層地將運(yùn)算目標(biāo)逆流回每個(gè)運(yùn)算節(jié)點(diǎn),構(gòu)建運(yùn)算網(wǎng)絡(luò)。我自己構(gòu)建了這么一個(gè)網(wǎng)絡(luò),但那時(shí)的電腦還不能快速地運(yùn)算乘法,所以這個(gè)網(wǎng)絡(luò)由二元運(yùn)算節(jié)點(diǎn)構(gòu)成,僅處理加法運(yùn)算。
不過我意識(shí)到,如果網(wǎng)絡(luò)內(nèi)的過程是連續(xù)的,我們就能逆流梯度而不是運(yùn)算目標(biāo)了,于是我將這一想法與經(jīng)典算法里的一些理論聯(lián)系了起來,比如上世紀(jì)六十年代的優(yōu)化控制論(optimal control)。
而在我能有時(shí)間去將這種聯(lián)系付諸實(shí)踐并發(fā)表前,記得是 1985 年,在我剛發(fā)表了我的 Target Prop 算法那會(huì),我遇到了 Geoff Hinton。他告訴我他也在做同樣的事。
Geoff Hinton 能看到我的論文,是因?yàn)樗诜▏鴧⒓右粋€(gè)會(huì)議,我們?cè)谀抢镆娏嗣?,他告訴了我他正在做什么。他給我介紹他最近的工作內(nèi)容的過程中,我經(jīng)常能在他還沒說完一個(gè)句子前,就幫他補(bǔ)全那個(gè)句子。我也因此受到了一些‘說教’,但也是由于我們的這次交談,他后來為我提供了一個(gè)博士后機(jī)會(huì)。
4、蠻有趣的,我記得在我了解深度學(xué)習(xí)發(fā)展史的過程中,還驚訝于你在?1986?年發(fā)表那篇著名的?Backpropogation?算法前,就已經(jīng)發(fā)表過在原理上類似的東西(Target Prop?算法),我記得是以法文發(fā)表的,感覺這可能是為何那篇論文并不怎么為人所知的原因。
Yann LeCun:是的,當(dāng)時(shí)?Geoff Hinton?所在的那個(gè)會(huì)議是講法語的。我的那篇?Target Prop?算法的論文寫得很爛,很多部分都還很‘外行’,但它包含了‘逆流’的概念。
我于 1986 年發(fā)表第二篇論文(Backpropogation 算法)時(shí),正好是在Rumelhart,Hinton 和 Williams 的那篇論文發(fā)表之前,但對(duì)的,我當(dāng)時(shí)在那次會(huì)議上通過跟時(shí) Geof f交談得知了他正在做的事。
5、所以,盡管那篇?Target Prop?算法的論文并不是很為人所知,它幫你與時(shí)?Geoff?建立了聯(lián)系,然后你們及其他許多人在后來推動(dòng)了深度學(xué)習(xí)的發(fā)展。既然我們已經(jīng)談到這了,我還有一個(gè)想提的話題。記得最早關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的論文應(yīng)該是上世紀(jì)八十年代末出現(xiàn)的,那么,卷積神經(jīng)網(wǎng)絡(luò)這一概念最早是什么時(shí)候進(jìn)入你腦海的?因?yàn)槟銖陌耸甏跗诰陀辛恕?/span>認(rèn)知元(Cognitron)”的概念。
Yann LeCun:其實(shí)還蠻早的,當(dāng)時(shí)我將大量的空閑時(shí)間都用在了‘泡圖書館’上,閱讀了大量上世紀(jì)六十年代關(guān)于 AI 的文獻(xiàn),也讀了一些計(jì)算神經(jīng)科學(xué)和理論神經(jīng)科學(xué)的資料,比如 Eric Kandel 在合成適應(yīng)(synthetic adaptation)上和 Hubel 及 Wiesel 在建筑視覺皮層(architectural visual cortex)上的研究。
從神經(jīng)科學(xué)的研究中我了解到了認(rèn)知元的概念,然后,我覺得在信號(hào)處理中這一概念也應(yīng)該能通用才對(duì),比如“信號(hào)過濾(Filtering)”就是一個(gè)卷積過程。
所以,如果我們想構(gòu)建一個(gè)能‘感知’的神經(jīng)網(wǎng)絡(luò),尤其是能‘感知視覺’的那種,這種構(gòu)建網(wǎng)絡(luò)所需的基礎(chǔ)計(jì)算單元間的關(guān)聯(lián)性,即在生物學(xué)中有所體現(xiàn),也在數(shù)據(jù)處理中有所體現(xiàn),同時(shí)也是基于圖像信息本身的強(qiáng)局部相關(guān)性。而由于在統(tǒng)計(jì)學(xué)上數(shù)據(jù)都是差不多的,這種關(guān)聯(lián)性隨后也引出了各計(jì)算單元‘等比重’的概念。
這一在神經(jīng)認(rèn)知系統(tǒng)學(xué)里非常為人所熟知的概念,也在一篇早期的 Target Prop 算法論文中有被提及,記得應(yīng)該是 Geoff Hinton 關(guān)于 TC 問題的一篇論文,里面呈現(xiàn)了關(guān)于這一概念的簡單示例。
Geoff 同時(shí)也進(jìn)行了一些與 TNN(可以看作是一種與時(shí)間掛鉤的 CNN)有關(guān)的工作。在這里領(lǐng)域里有很多想法都涌現(xiàn)了出來,人們都在思考該怎么實(shí)現(xiàn)這么一種網(wǎng)絡(luò)。
我博士畢業(yè)的約六個(gè)月前,那會(huì)我還在寫我的博士畢業(yè)論文,我遇見了當(dāng)時(shí)也正在修完他的工程學(xué)學(xué)位的 Leon Bottou,并發(fā)現(xiàn)他同樣也想進(jìn)行一些與神經(jīng)網(wǎng)絡(luò)有關(guān)的工作。我們于是一起搭建了一個(gè)神經(jīng)網(wǎng)絡(luò)模擬器,這個(gè)模擬器現(xiàn)在應(yīng)該算是一個(gè)深度學(xué)習(xí)框架。
2000 年的時(shí)候,我們把這一系統(tǒng)命名為了 Lush 并開了源,它本質(zhì)上是一個(gè)基于神經(jīng)網(wǎng)絡(luò)的數(shù)值預(yù)測引擎,雖然不是第一個(gè),但它后來演變成了一個(gè) Tensor 引擎。
我們是用一種前端語言寫的這個(gè)程序,其實(shí)算是 Lisp 語言的解析器,因?yàn)楫?dāng)時(shí)像 Python 什么的這種還沒出現(xiàn),我們只能自己寫一個(gè)語言出來。這個(gè)項(xiàng)目是在我博士畢業(yè)前開始的,然后我搬到了多倫多并完成了這個(gè)項(xiàng)目。
我最初想進(jìn)行這個(gè)項(xiàng)目的原因是,我想構(gòu)建一個(gè)條件網(wǎng)絡(luò)(Conditional Net),我在我的博士論文中就已經(jīng)談到了這一概念。在這個(gè)網(wǎng)絡(luò)被搭出來后,我有了一個(gè)有局部關(guān)聯(lián)性的網(wǎng)絡(luò),但其運(yùn)算節(jié)點(diǎn)的比重還不是相關(guān)的,所以它還不能算是一個(gè)能實(shí)現(xiàn) Target Prop 的架構(gòu),但我當(dāng)時(shí)想做的是實(shí)現(xiàn)一個(gè) Target Prop 的架構(gòu),能實(shí)現(xiàn)循環(huán)網(wǎng)絡(luò)(Recurrent Net)和條件網(wǎng)絡(luò),并最終實(shí)現(xiàn) Shadow Weights。
我搬到多倫多后又在這個(gè)項(xiàng)目上忙了 6 個(gè)月,然后靠著這個(gè)網(wǎng)絡(luò)實(shí)現(xiàn)了第一個(gè)條件網(wǎng)絡(luò),并在一個(gè)我自己收集的小數(shù)據(jù)集上進(jìn)行了測試。后來在 1988 年底,在我加入貝爾實(shí)驗(yàn)室后不久,我在那里的一個(gè)包含數(shù)千個(gè)樣本的數(shù)據(jù)集上也進(jìn)行了測試,那在當(dāng)時(shí)來說真的是很大的一個(gè)數(shù)據(jù)集了,然后在兩個(gè)月內(nèi)我就得到了當(dāng)時(shí)無人能比的結(jié)果?!?/span>
6、所以,你當(dāng)時(shí)沒有現(xiàn)在這些方便的庫和工具,可以說是需要自己搭一個(gè)PyTorch?和?TensorFlow?
Yann LeCun:對(duì),其實(shí)意外的是,現(xiàn)在的許多庫都可以算是我當(dāng)時(shí)自己寫的那些東西的后代或衍生,比如?Torch,PyTorch,TensorFlow,Caffe 和 Caffe2??梢哉f現(xiàn)在的這些庫中有很多都有受到我當(dāng)時(shí)寫的東西的啟發(fā)。
我那會(huì)一直有這種想法,就是如果能把對(duì)象(Objects)在一張圖上連起來,那么就能通過在這張圖上倒著往回推自動(dòng)微分(automatic differentiation),而這張圖的背后則是一個(gè) Tensor 引擎。如此操作,再將這個(gè)流程在項(xiàng)目中標(biāo)準(zhǔn)化,我們就得到了一個(gè)能調(diào)控網(wǎng)絡(luò)的前端語言。
深度學(xué)習(xí)的正在進(jìn)行時(shí)
1、對(duì)于當(dāng)下深度學(xué)習(xí)領(lǐng)域內(nèi)正在發(fā)生的事,我想討論自監(jiān)督學(xué)習(xí),這也是你之前有大量討論過的一個(gè)概念。你在 2019 年跟 Lex Fridman 的一次訪談中有說,自監(jiān)督學(xué)習(xí)目前雖然能在線性規(guī)劃中能起作用,但在計(jì)算機(jī)視覺領(lǐng)域還不行。所以,現(xiàn)在你覺得自監(jiān)督學(xué)習(xí)能在計(jì)算機(jī)視覺領(lǐng)域發(fā)揮些作用了嗎?
Yann LeCun:現(xiàn)在,自監(jiān)督學(xué)習(xí)確實(shí)能在計(jì)算機(jī)視覺領(lǐng)域里起到一些作用了。我的意思是,當(dāng)下在計(jì)算機(jī)視覺領(lǐng)域內(nèi)的自監(jiān)督學(xué)習(xí)應(yīng)用的發(fā)展上,有很多有趣的進(jìn)展正在發(fā)生。雖然目前在計(jì)算機(jī)視覺領(lǐng)域里,自監(jiān)督學(xué)習(xí)能生成的結(jié)果,還遠(yuǎn)比不上有監(jiān)督學(xué)習(xí)能生成的結(jié)果。
但這主要是因?yàn)?/span>,在圖像識(shí)別領(lǐng)域,我們有龐大的有標(biāo)記的數(shù)據(jù)集,而在一些其它的領(lǐng)域里,比如語音識(shí)別,自監(jiān)督學(xué)習(xí)已經(jīng)能發(fā)揮決定性的作用,比如用一段只有?10?分鐘長的有標(biāo)記的語音數(shù)據(jù)就訓(xùn)練出一個(gè)語音識(shí)別系統(tǒng)。
但話說回來,將自監(jiān)督學(xué)習(xí)用于計(jì)算機(jī)視覺領(lǐng)域的最大挑戰(zhàn),應(yīng)該還是我們要如何讓算法能通過自己看視頻來自己學(xué)習(xí)。”
2、發(fā)展自監(jiān)督學(xué)習(xí)的趨勢確實(shí)還是很明顯的,可能未來所有的算法都會(huì)通過這種方式進(jìn)行預(yù)訓(xùn)練,記得有幾篇 2020 年的論文就探討了這個(gè)可能。請(qǐng)您再回顧一下您是怎么定義自監(jiān)督學(xué)習(xí)的,以及為什么您認(rèn)為這個(gè)方向很有前途?
Yann LeCun:我在過去的五六年里就這個(gè)話題做了很多講座。但簡單來說,如果是用強(qiáng)化學(xué)習(xí)來訓(xùn)練一個(gè)系統(tǒng),你只需要偶爾給機(jī)器一些反饋就行,而且這種反饋一般是以單個(gè)標(biāo)量值的形式體現(xiàn)的。
從這個(gè)思路想的話,任何一個(gè)純強(qiáng)化學(xué)習(xí)過程的復(fù)雜度都是高的嚇人的,我們可能需要數(shù)萬年的實(shí)時(shí)訓(xùn)練才能讓算法學(xué)會(huì)一個(gè)東西,這在實(shí)際應(yīng)用上是不現(xiàn)實(shí)的。
我知道最近有一篇由 DeepMind 那邊有分量的人撰寫的論文,而且 AlphaGo 的 David Silver 也曾公開表示說‘光是理論上自監(jiān)督學(xué)習(xí)能為我們帶來的獎(jiǎng)勵(lì),就已經(jīng)足夠我們相信這一方向的前景了’,但我完全不這么認(rèn)為,我認(rèn)為這樣的想法真的是大錯(cuò)特錯(cuò),但現(xiàn)在看訪談的進(jìn)度可能還不是時(shí)候深入討論這一點(diǎn)。
當(dāng)前在有監(jiān)督學(xué)習(xí)中,我們只用給算法每個(gè)樣本一點(diǎn)點(diǎn)數(shù)據(jù)就行,而無監(jiān)督學(xué)習(xí)也會(huì)涉及有監(jiān)督學(xué)習(xí),但是用有監(jiān)督學(xué)習(xí)來讓算法學(xué)習(xí)如何從‘部分輸入’推測輸入的其它部分。這種推測也并非重構(gòu),因?yàn)樗腔趯?duì)輸入的不同部分之間的聯(lián)系進(jìn)行建模來實(shí)現(xiàn)的。
舉例來說,我可以喂給算法一張圖片的左半邊和一張圖片的右半邊,然后算法能告訴我這兩個(gè)半張圖是否能組成一張圖。還比如一個(gè)視頻,我可以給算法該視頻的初始部分,然后再給它一個(gè)后續(xù)部分,讓它判斷這個(gè)后續(xù)部分是否與前面的初始部分匹配。
如果一個(gè)算法能做到這些,那說明它已經(jīng)抓住了分析對(duì)象之間的依存性,而如果它能在視頻中看到一段不符合物理定律的運(yùn)動(dòng)軌跡,它能反饋出說那段軌跡不符合物理定律,這便是自監(jiān)督學(xué)習(xí)的基礎(chǔ)概念。其實(shí)就是以某種方式使用有監(jiān)督學(xué)習(xí),然后再讓算法能從輸入的部分信息判斷剩余的輸入信息。
因此,直到約一年前那會(huì),或許還比這更早一些,我還是個(gè)生成模型(Generative Models)的忠實(shí)擁護(hù)者,這里我并不是指那些概率模型,而是那些真的能根據(jù)部分信息生成預(yù)測剩余信息的模型。
就比如剛才舉過的視頻分析的例子,你喂給算法一個(gè)片段,它能返回下一幀或者下幾幀的圖像。但在計(jì)算下幾幀的圖像時(shí),有太多的可能都能與初始給定的片段相匹配,所以這里的問題在于該如何處理預(yù)測中的不確定性。
符合邏輯的表述不確定性的方法,是將可信的預(yù)測集合參數(shù)化為一個(gè)潛變量,而當(dāng)我們改變這個(gè)潛變量時(shí),輸出就會(huì)在一個(gè)相應(yīng)的集合上發(fā)生變化。
這種方式實(shí)際上表示的是預(yù)測的集合,而非某單個(gè)預(yù)測結(jié)果。舉圖像分析例子來說,這就好比是先喂給算法一個(gè)圖像,然后再喂給它這張圖像被扭曲后的版本,然后訓(xùn)練它從扭曲版推測原版,我們會(huì)需要通過一個(gè)能預(yù)測扭曲版本的編碼器來運(yùn)行這個(gè)算法,而如果我們喂給它除扭曲參數(shù)外的其它更多參數(shù),它的表現(xiàn)可能也會(huì)有所提升,但事實(shí)證明這種方法的實(shí)際效果很不理想。
事實(shí)上,自動(dòng)編碼器、GANs,人們嘗試了許多方法試圖來尋找更好的表示圖片信息的方式,但結(jié)果都不是很理想,或者說不夠理想。
真正有效的方法是我和 Geoff 在上世紀(jì)九十年代初研究的東西,叫聯(lián)合嵌入(Joint Embedding)或公制繪圖(Metric Drawing)。
這種方法基本上就是你先準(zhǔn)備兩個(gè)神經(jīng)網(wǎng)絡(luò),然后給它‘舉個(gè)例子’,就是喂給它需要觀察的信息和需要預(yù)測的信息,然后訓(xùn)練算法到能告訴你這兩段信息是否兼容,也就是能生成一個(gè)預(yù)測信息。這還是簡單的部分,難的部分是要確保它們對(duì)不同的輸入能產(chǎn)生不同的輸出。
有一種情況的專用名詞是Collapse(崩潰),常規(guī) Collapse 或者信息性Collapse,呈現(xiàn)出來就是兩個(gè)神經(jīng)網(wǎng)絡(luò)會(huì)直接忽視你的輸入,不停地輸出一樣的東西。但該怎樣避免這一情況其實(shí)也很明顯。
有兩種方法能解決這個(gè)問題。
我在 1992 和 1993 年提出的一個(gè)方法是一篇關(guān)于 Siamese networks 的論文,這種方法基本上就是要求要有負(fù)的樣本,然后我們給神經(jīng)網(wǎng)絡(luò)展示兩張標(biāo)記為不相似的圖像,再以某種函數(shù)將兩個(gè)輸出向量推開。
Geoff Hinton 也提出了類似的想法,但他使用的是兩個(gè)輸出間信息上的一些度量,記得應(yīng)該是他和 Becker 于上世紀(jì)九十年代初在 Nature 上發(fā)表的一篇論文,還挺有意思的。但后來這種想法漸漸被人遺忘了,知道 2000 年中旬那會(huì)才又被重新翻了出來。重新把它翻出來的人也是我和 Geoff,但我們當(dāng)時(shí)因?yàn)橐恍┰虿]有溝通我們?cè)谶@方面上的工作,當(dāng)時(shí)正好也是深度學(xué)習(xí)重新被人們拎出來的邊緣,所以重新再過一遍那個(gè)想法應(yīng)該是個(gè)好主意。
到了現(xiàn)在,一大堆不同的算法在過去的幾年里被人們提了出來,其中就有名為對(duì)比性聯(lián)合嵌入(Contrastive Joint Embedding)的方法,基于給算法兩張標(biāo)記為相似的圖像,以及兩張標(biāo)記為不相似的圖像,記得提出這種方法的一個(gè)研究小組還是 Geoff 在谷歌的團(tuán)隊(duì),好像是叫 SimCLR。對(duì),然后除了他們,還有其它很多人,F(xiàn)acebook,Pearl,MoCo,MoCo V2,Simsiam 等等。
但這種方法仍是一種基于對(duì)比的方法,個(gè)人來說我不喜歡它,因?yàn)樗鼪]法應(yīng)對(duì)高維運(yùn)算,原因是你很難在高維運(yùn)算中將兩個(gè)輸出向量推開?!?/span>
3、所以,基本上這種方法的問題在于,我們有正向反饋的正數(shù)對(duì),也有負(fù)向反饋的負(fù)數(shù)對(duì),但負(fù)數(shù)對(duì)的組合可以有很多種?
Yann LeCun:對(duì),有很多方法能讓圖像彼此不同。而且即使是嵌入(Embedded)類方法,一個(gè)空間怎樣都會(huì)有一個(gè)具有維度的組成部分。因此,拿 SimCLR 來說,它就需要很長時(shí)間來訓(xùn)練,同時(shí)你還得輔以各種如 negative mining 的技巧。
所以后來有一些更好的方案冒了出來,有的純粹是偶然,有的是有些人的直覺更好。舉例來說,我們可以有一個(gè)預(yù)測器(Predictor),但兩個(gè)神經(jīng)網(wǎng)絡(luò)的權(quán)重并不是均分的,而是通過使用運(yùn)算的指數(shù)速度作為參數(shù)讓其中一個(gè)變?yōu)榱硪粋€(gè)的‘慢速’版本。記得有好多人都發(fā)了論文,DeepMind ,BYOL 和 Bring Your Own Latent?;旧暇褪钦f我們不用非要負(fù)樣本了,不通過對(duì)比性的方法也能確保算法對(duì)不同的輸入能產(chǎn)生不同的輸出。
4、最近還有很多關(guān)于深度學(xué)習(xí)正在變成煉金術(shù)的討論,你之前在這方面的很多言論都很有意思,可有什么新想法?
Yann LeCun:記得這個(gè)話題是由 Eddie Rahimi 幾年前在 Net Nerds 的一次演講所引發(fā)的,當(dāng)時(shí)他們贏得了 Test of Time 獎(jiǎng),聲稱深度學(xué)習(xí)是煉金術(shù),機(jī)器學(xué)習(xí)中除深度學(xué)習(xí)外的其他方法才在理論上更合理,更容易理解。
當(dāng)時(shí)我真的是有點(diǎn)被這種說法給激怒了,所以后來我跟他在各種社交平臺(tái)上都有所交流,這些交流我個(gè)人認(rèn)為也都是非常有趣和有建設(shè)性的交流和討論。
我的論點(diǎn)是,歷史上有很多技術(shù)發(fā)展快于理論的例子,因?yàn)槭聦?shí)上,人們通過理論來真正設(shè)計(jì)出一個(gè)什么有用的東西的情況是非常罕見的,更多的情況是一些東西在工程或者實(shí)踐上率先發(fā)生了,然后相關(guān)的科學(xué)才想去尋找一個(gè)理論來解釋它。
關(guān)于這個(gè),最好的例子應(yīng)該就是蒸汽機(jī)了。蒸汽機(jī)在 16 世紀(jì)末以各種各樣的形式被發(fā)明了出來,然后在接下來的一個(gè)世紀(jì)內(nèi)得到了發(fā)展,而用于解釋蒸汽機(jī)工作原理的熱力學(xué)則是直到 19 世紀(jì)初才逐漸變成我們今天所熟知的那個(gè)版本,這么看來的話,熱力學(xué)這個(gè)理論實(shí)際上是花了大概一個(gè)世紀(jì)才追上了技術(shù)的腳步,解釋了熱力發(fā)動(dòng)機(jī)的原理和局限。
這種例子在光學(xué)里也有,比如望遠(yuǎn)鏡和顯微鏡就是在牛頓發(fā)現(xiàn)衍射定律前被發(fā)明出來的,而實(shí)際上發(fā)現(xiàn)衍射定律的人也并不是牛頓,而是Snailor,甚至也有人說阿拉伯世界在中世紀(jì)時(shí)也有類似的工作,但只是其表述方法有所不同。
總的來說,技術(shù)比理論先行,然后人們因?yàn)楹闷娌湃ヌ剿鞅澈笤淼睦訉?shí)在是太多太多了。在人們探索原理的過程中,那些通用的理論才被提了出來。
熱力學(xué)和生物學(xué)就是所有東西的基礎(chǔ),類似那種科學(xué)里的科學(xué)。
所以,我想說的是,對(duì)于智能來說,什么才算是這種科學(xué)里的科學(xué)呢?另外,支持人工智能和自然智能的這種科學(xué)里的科學(xué)是否又一樣呢?這個(gè)問題對(duì)于人工設(shè)計(jì)出來的學(xué)習(xí)過程和自然形成的學(xué)習(xí)過程也同樣適用。答案是否會(huì)是經(jīng)典的統(tǒng)計(jì)學(xué)習(xí)理論呢,還是一些與學(xué)習(xí)有關(guān)的理論呢,還是其他的什么東西?
5、這其實(shí)是個(gè)很難的問題。我覺得,我們一直想造出來一些能用的東西,比,如我們其實(shí)已經(jīng)在深度學(xué)習(xí)領(lǐng)域這么做了好多年,沒人真的期待說神經(jīng)網(wǎng)絡(luò)背后有什么真正決定性的支撐理論?
Yann LeCun:也不能這么說,我們中有些人還是有這種愿景和期待的。
6、嗯對(duì),但之前也沒有關(guān)于為什么神經(jīng)網(wǎng)絡(luò)配上龐大的隨機(jī)數(shù)據(jù)集就能起作用,與此相關(guān)的理論也是最近才出現(xiàn),或者說最近才開始出現(xiàn)。
Yann LeCun:現(xiàn)在肯定是已經(jīng)出現(xiàn)了。其實(shí)我們?cè)缭谏鲜兰o(jì)九十年代初就已經(jīng)知道了,只是當(dāng)時(shí)沒法真正的把它們以理論的形式真正寫出來,但就這種現(xiàn)象來說,比如任何統(tǒng)計(jì)學(xué)教科書都會(huì)告訴你,讓訓(xùn)練網(wǎng)絡(luò)變大是屬于過度參數(shù)化一個(gè)模型,根本不會(huì)起作用的,但在實(shí)踐中卻是,網(wǎng)絡(luò)做的越大模型表現(xiàn)越好。
還有一種教科書里的說法是如果你你有一個(gè) non-convex subjective function(非凸性的主體函數(shù)),那它永遠(yuǎn)也不會(huì)收斂,但事實(shí)上我們并不能確定這件事,而解決這個(gè)問題辦法也是整一個(gè)更大的網(wǎng)絡(luò)出來。
后來事實(shí)也證明,網(wǎng)絡(luò)變大以后,局部最小值就不再是個(gè)問題了,系統(tǒng)總能找到一個(gè)最小值,雖然每次輸出的結(jié)果不同,但由于它們本質(zhì)上是一樣的,所以我們也并不在乎。
人們開始嘗試在理論上去理解這些現(xiàn)象,比如雙重下降(double descent),就是你不斷增加一個(gè)很小的神經(jīng)網(wǎng)絡(luò)的大小,總有一個(gè)點(diǎn)的測試誤差不會(huì)變的更大,但這只是網(wǎng)絡(luò)的大小正好與它所需解決的問題相匹配了,而如果我們有一個(gè)比需要大小大得多的神經(jīng)網(wǎng)絡(luò),它不會(huì)對(duì)其他模型起作用,而范化誤差(generalization error)也會(huì)下降。所以,大小是把雙刃劍,而這與平常所有統(tǒng)計(jì)教科書里的內(nèi)容都不符。
但這又是為什么呢?
我們直到最近才知道了其中的一些原因,很多人都選擇不信,而這則體現(xiàn)了一些對(duì)啟發(fā)式看待問題的方法非常重要的東西,那就是,能在理論上理解你在做什么是非常重要的,但能從直覺上理解你正在做的事要更為重要。
如果你限制自己僅用那些你在理論上能理解的模型,那基本上就是限制了自己,只是因?yàn)槟氵€不能在理論上理解就不去碰很多東西,而我認(rèn)為這基本上與自取滅亡無異。
所以,我們不應(yīng)該只是因?yàn)橛械臇|西理論上還解釋不了,或者我們還理解不了就不做了。當(dāng)然這種想法也會(huì)有一些不適用的時(shí)候,但那都是些非常普遍的道理。
上世紀(jì)九十年代中旬到 2010 年初的機(jī)器學(xué)習(xí)領(lǐng)域基本就是這樣的,教科書上說過度參數(shù)化不會(huì)起作用,非凸函數(shù)不會(huì)起作用,但就像我所有的理論最后所證明的那樣,它們就是能起作用。
當(dāng)然,我們也要注意方法的簡潔性,就是你不能隨便整一些亂七八糟的東西,然后發(fā)現(xiàn)結(jié)果有了 0.2% 的提升就覺得“哦,我發(fā)了一個(gè)新方法”,這種程度的修修補(bǔ)補(bǔ)過多就不好了,結(jié)果就是你真的會(huì)變成個(gè)煉金術(shù)從業(yè)者。
新的寒冬已經(jīng)不太可能降臨?
1、現(xiàn)在,我們意識(shí)到了深度學(xué)習(xí)是可行的,并且它在各個(gè)領(lǐng)域里的表現(xiàn)也都越來越好了,比如計(jì)算機(jī)視覺領(lǐng)域里的無監(jiān)督學(xué)習(xí)應(yīng)用。您作為 Facebook AI 研究所(FAIR)的主任,我很好奇,在學(xué)術(shù)研究之外,您覺得深度學(xué)習(xí)最令人興奮的是什么?
Yann LeCun:首先要做一個(gè)更正,我已經(jīng)不是 FAIR 的主任了,我現(xiàn)在是首席科學(xué)家,這意味著我不需要管理別人,能將時(shí)間都用在做自己的研究上,當(dāng)然,我也會(huì)給公司里的各種團(tuán)隊(duì)提供各種研究項(xiàng)目上的建議,但我并不需要實(shí)際管理什么東西。
我當(dāng) FAIR 的主任當(dāng)了三年半,強(qiáng)烈感受到的就是‘時(shí)間在流逝’,因?yàn)槲疫€有很多想去研究的想法和東西,但 FAIR 的管理工作真的讓我沒有時(shí)間去做研究,這也是我換工作的一個(gè)決定性原因。
另一個(gè)主要原因其實(shí)也是因?yàn)槲艺娴牟簧瞄L管理,我真的不想把生命和時(shí)間浪費(fèi)在管理上,這種工作還是讓適合的人來做比較好。
所以,現(xiàn)在 FAIR 的主任是 Joelle Pineau 和 Antoine Bordes,他們倆實(shí)際上是在分別領(lǐng)導(dǎo) FAIR 的兩個(gè)獨(dú)立部分,這是因?yàn)?FAIR 其實(shí)最近進(jìn)行了一次重組,分成了一個(gè)實(shí)驗(yàn)室部分,負(fù)責(zé)進(jìn)行一些非??蒲蓄愋偷难芯浚€有一個(gè)叫 FAIR XL 的部分,更多進(jìn)行一些指定的工作。
實(shí)際上,我們很多的那種大項(xiàng)目都不一定是要以最終被應(yīng)用為導(dǎo)向的,那都是些‘野心勃勃’的項(xiàng)目,需要很多資源的支持。
Facebook 在 FAIR 外其實(shí)還有一個(gè)叫“Facebook 應(yīng)用 AI 研究所”的組織,他們更注重于說 AI 應(yīng)該怎樣在 Facebook 內(nèi)部被應(yīng)用起來。
而且在 Facebook AI 中也還有另外兩個(gè)團(tuán)隊(duì),一個(gè)是 AI Experience(AI 體驗(yàn))團(tuán)隊(duì),它基本上就是以 AI 技術(shù)為主導(dǎo)提出各種新的想法,設(shè)計(jì)各種新的產(chǎn)品,另一個(gè)是Responsible AI(負(fù)責(zé)任的 AI)團(tuán)隊(duì),主要負(fù)責(zé)確保我們的AI工具是安全的、是公平的。
所以 Facebook 與 AI 相關(guān)的組織其實(shí)是由這四個(gè)分部構(gòu)成的,一共大概一千多人,F(xiàn)AIR 本身僅有四五百人。
近年深度學(xué)習(xí)在 Facebook 里的應(yīng)用可以說是突飛猛進(jìn),已經(jīng)變成了公司不可分割的一部分,因?yàn)槿绻阃蝗话焉疃葘W(xué)習(xí)抽出來,不讓用了,F(xiàn)acebook 這個(gè)公司基本上也就要運(yùn)作不下去了。
這個(gè)現(xiàn)象還是很有意思的,谷歌,YouTube 等等,大家現(xiàn)在都是這樣,以深度學(xué)習(xí)為主導(dǎo),所有的內(nèi)容和新聞推送都要被算法過一遍,分類垃圾郵件,翻譯,OCR(光符識(shí)別,Optical Character Recognition)等等?;旧线@些都是在靠深度學(xué)習(xí)在做了。
建立在深度學(xué)習(xí)之上的還有很多其他東西,但其本質(zhì)依然是深度學(xué)習(xí)的使用,比如在 Facebook 和 Instagram上,你需要識(shí)別一張圖片或者一段視頻是不是一個(gè)恐怖組織或者極端組織的宣傳內(nèi)容,比如一些斬首視頻和圖片,你不想這些信息被傳播,所以當(dāng)算法沒能識(shí)別出的時(shí)候,我們就會(huì)在發(fā)現(xiàn)時(shí)人工給這些視頻或圖片做標(biāo)記,讓算法能在以后識(shí)別出這種它以前不知道的模式。
Facebook 內(nèi)其實(shí)是有大量資源都導(dǎo)向了這方面的工作的,而這也正是外界因?yàn)椴恢溃猿3V肛?zé) Facebook 說 Facebook 沒有做的那些它應(yīng)該做的事。
這都是些很難解決的問題,而 AI,深度學(xué)習(xí),正在幫我們解決它們。雖然我們達(dá)不到一個(gè)完美的程度,但對(duì)比之前我們?cè)谶@些方面真的已經(jīng)取得了很大的進(jìn)步,比如檢測識(shí)別仇恨言論。
三年前,還不是所有的仇恨言論都能被識(shí)別出來。那會(huì)我們已經(jīng)有了一個(gè)檢測系統(tǒng),算法會(huì)識(shí)別出來或者把它標(biāo)記為需要人工識(shí)別,但有的根本識(shí)別不出來的就這樣被放過去了,然后用戶會(huì)對(duì)那些之前沒能識(shí)別出來的內(nèi)容進(jìn)行標(biāo)記,標(biāo)記的內(nèi)容再返回進(jìn)行人工判斷。
三年前僅有約 20% 到 25% 的內(nèi)容能在審核中被自動(dòng)識(shí)別出來,現(xiàn)在這一數(shù)字已經(jīng)是差不多 97.5%了。而這都是得益于深度學(xué)習(xí)技術(shù)和應(yīng)用的進(jìn)步。
2、是的,雖然現(xiàn)在人們還在說,可能每過一段時(shí)間 AI 領(lǐng)域就會(huì)迎來一次寒冬,但從目前谷歌和 Facebook 等非常依賴深度學(xué)習(xí)的情況來看,應(yīng)該是不太可能了?
Yann LeCun:對(duì),確實(shí)是,雖然沒準(zhǔn)會(huì)有那種特別短的“冬天”,但也不是說對(duì)所有人來說都是這樣,比如對(duì)于那些知道自己在做什么,并且沒有宣稱過荒謬的AI說法的人來看,肯定不是這樣。
而對(duì)于那些宣稱說,“哦,通用人工智能馬上就要出現(xiàn)了……五年內(nèi)我們就能實(shí)現(xiàn)真正的人工智能”,或者“真正的人工智能現(xiàn)在已經(jīng)是個(gè)算法問題,我們只需擴(kuò)大訓(xùn)練網(wǎng)絡(luò)的規(guī)模就行”的人來說,就肯定會(huì)是一個(gè)“寒冬”。
就我個(gè)人來說,我并不喜歡 AGI 這個(gè)詞,它或許根本就不存在。
事實(shí)上,在我退休前,如果我們能實(shí)現(xiàn)貓狗那樣的智能我就已經(jīng)很滿足了,而人類水平的智能在那之后也還有很長的一段路要走,因?yàn)槿说闹橇κ菍9バ苑浅?qiáng)的,所以我并不相信所謂的那種通用的、普適智能的概念。
3、但目前來說,我們還是在往那個(gè)方向前進(jìn)。
Yann LeCun:對(duì),但我們現(xiàn)在真的需要在無監(jiān)督學(xué)習(xí)上有些突破,比如讓算法有能力去運(yùn)行跟貼近真實(shí)世界的東西。
智能的本質(zhì)就是一種預(yù)測能力,特別是預(yù)測即將會(huì)發(fā)生什么,然后以此為起點(diǎn),根據(jù)你不同的行為會(huì)有什么樣不同的結(jié)果,來計(jì)劃你要做什么。
所以,如果能讓算法也做到這一點(diǎn),我們將向?qū)崿F(xiàn)某種程度上的智能邁進(jìn)一大步,造出有一些常識(shí)的系統(tǒng),能擁有接近貓和狗的那種水平的智能?!?/span>
(主持人:沒準(zhǔn)又是一個(gè)十年,誰知道呢,不過很高興能知曉,您作為 Facebook 的首席 AI 科學(xué)家正在努力工作以實(shí)現(xiàn)貓狗級(jí)別的智能,非常期待 FAIR 近期和未來要發(fā)布的成果,很感謝您能參加這次訪談。)
往期精彩回顧 本站qq群554839127,加入微信群請(qǐng)掃碼:
