特斯拉AI總監(jiān):我復(fù)現(xiàn)了LeCun 33年前的神經(jīng)網(wǎng)絡(luò),發(fā)現(xiàn)和現(xiàn)在區(qū)別不大
點(diǎn)擊上方“視學(xué)算法”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達(dá)
導(dǎo)讀
?最近,特斯拉 AI 高級總監(jiān) Andrej Karpathy 做了一件很有趣的事情,他把 Yann LeCun 等人 1989 年的一篇論文復(fù)現(xiàn)了一遍。一是為了好玩,二是為了看看這 33 年間,深度學(xué)習(xí)領(lǐng)域到底發(fā)生了哪些有趣的變化,當(dāng)年的 LeCun 到底被什么卡了脖子。此外,他還展望了一下 2055 年的人將如何看待今天的深度學(xué)習(xí)研究。




eval: split train. loss 2.5e-3. error 0.14%. misses: 10eval: split test . loss 1.8e-2. error 5.00%. misses: 102
eval: split train. loss 4.073383e-03. error 0.62%. misses: 45eval: split test . loss 2.838382e-02. error 4.09%. misses: 82
eval: split train. loss 4.073383e-03. error 0.62%. misses: 45eval: split test . loss 2.838382e-02. error 4.09%. misses: 82
eval: split train. loss 9.536698e-06. error 0.00%. misses: 0eval: split test . loss 9.536698e-06. error 4.38%. misses: 87
eval: split train. loss 0.000000e+00. error 0.00%. misses: 0eval: split test . loss 0.000000e+00. error 3.59%. misses: 72
eval: split train. loss 8.780676e-04. error 1.70%. misses: 123eval: split test . loss 8.780676e-04. error 2.19%. misses: 43
eval: split train. loss 2.601336e-03. error 1.47%. misses: 106eval: split test . loss 2.601336e-03. error 1.59%. misses: 32

eval: split train. loss 4.073383e-03. error 0.62%. misses: 45eval: split test . loss 2.838382e-02. error 4.09%. misses: 82
eval: split train. loss 1.305315e-02. error 2.03%. misses: 60eval: split test . loss 1.943992e-02. error 2.74%. misses: 54
eval: split train. loss 3.238392e-04. error 1.07%. misses: 31eval: split test . loss 3.238392e-04. error 1.25%. misses: 24
首先,33 年來的宏觀層面沒有太大變化。我們?nèi)匀辉诮⒂缮窠?jīng)元層構(gòu)成的可微神經(jīng)網(wǎng)絡(luò)體系架構(gòu),并使用反向傳播和隨機(jī)梯度下降對它們進(jìn)行端到端優(yōu)化。一切讀起來都非常熟悉,只是 1989 年的網(wǎng)絡(luò)更小。
以今天的標(biāo)準(zhǔn)來看,1989 年的數(shù)據(jù)集還是個「嬰兒」: 訓(xùn)練集只有 7291 張 16x16 的灰度圖像。今天的視覺數(shù)據(jù)集通常包含來自網(wǎng)絡(luò)的幾億張高分辨率彩色圖像(谷歌有 JFT-300M,OpenAI CLIP 是在 400M 張圖上訓(xùn)練的),而且會增長到幾十億張的規(guī)模。每張圖像包含的像素信息增長了 1000 倍(384 * 384 * 3/(16 * 16)),圖像數(shù)量增長了 100,000 倍(1e9/1e4) ,粗略計算的話,像素數(shù)據(jù)輸入增長了 100,000,000 倍以上。
那時的神經(jīng)網(wǎng)絡(luò)也是一個「嬰兒」:它大約有 9760 個參數(shù)、64K MACs 和 1K activations。當(dāng)前(視覺)神經(jīng)網(wǎng)絡(luò)的規(guī)模達(dá)到了幾十億參數(shù),而自然語言模型可以達(dá)到數(shù)萬億參數(shù)。
當(dāng)年,一個 SOTA 分類器在工作站上訓(xùn)練需要 3 天,現(xiàn)在如果是在無風(fēng)扇筆記本電腦上訓(xùn)練只需要 90 秒(3000 倍加速),如果切換到 full-batch 優(yōu)化并使用 GPU,速度還能提升百倍以上。
事實上,我能夠通過微調(diào)模型、增強(qiáng)、損失函數(shù),以及基于現(xiàn)代創(chuàng)新的優(yōu)化,將錯誤率降低 60% ,同時保持?jǐn)?shù)據(jù)集和模型測試時間不變。
僅僅通過擴(kuò)大數(shù)據(jù)集就可以獲得適度的收益。
進(jìn)一步的重大收益可能必須來自一個更大的模型,這將需要更多的計算和額外的研究與開發(fā),以幫助穩(wěn)定規(guī)模不斷擴(kuò)大的訓(xùn)練。如果我被傳送到 1989 年,而且沒有一臺更大的計算機(jī),我將無法進(jìn)一步改進(jìn)系統(tǒng)。
2055 年的神經(jīng)網(wǎng)絡(luò)在宏觀層面上基本上與 2022 年的神經(jīng)網(wǎng)絡(luò)相同,只是規(guī)模更大。
我們今天的數(shù)據(jù)集和模型看起來像個笑話,2055 年的二者規(guī)模都大約有 10,000,000 倍。
一個人可以在一分鐘內(nèi)訓(xùn)練 2022 個 SOTA 模型,而且是在他們的個人電腦上作為一個周末娛樂項目來訓(xùn)練。
今天的模型并不是最優(yōu)化的,只是改變了模型的一些細(xì)節(jié)、損失函數(shù)、增強(qiáng)或者可以將誤差降低一半的優(yōu)化器。
我們的數(shù)據(jù)集太小了,通過擴(kuò)大數(shù)據(jù)集可以獲得適度的收益。
如果不擴(kuò)大計算機(jī)基礎(chǔ)設(shè)施和投資相應(yīng)規(guī)模的高效訓(xùn)練模式的研發(fā),就不可能取得進(jìn)一步的收益。

點(diǎn)個在看 paper不斷!
