<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          伯克利團隊重磅論文:神經網絡沒有免費午餐

          共 1764字,需瀏覽 4分鐘

           ·

          2021-11-19 07:18


          大數據文摘授權轉載自數據實戰(zhàn)派

          作者:劉媛媛


          雖然我們還缺乏對機器智能基本理論的理解,但機器學習研究仍然以瘋狂的速度推進。


          現在的大多數機器學習論文,都專注于推進不同領域的新技術和新方法,例如自然語言處理和計算機視覺。


          機器學習中的一些主要問題仍未得到解答,比如如何理解神經網絡是怎么進行學習的?如何去量化知識泛化?


          對此,不斷有研究者提出一些新的想法來挑戰(zhàn)以往對 ML 基礎理論的常規(guī)理解。伯克利人工智能研究所(BAIR)最近發(fā)表的一篇開創(chuàng)性論文 Neural Tangent Kernel Eigenvalues Accurately Predict Generalization 是其中一個重要嘗試(“數據實戰(zhàn)派”后臺回復“DL”可獲得論文地址)。


          該論文提出了一種新的泛化理論。


          對泛化的理解仍然是現代機器學習中最大的謎團之一。為什么神經網絡學習的函數可以很好地泛化到看不見的數據?從經典 ML 的角度來看,神經網絡的高性能令人驚訝,因為它們被過度參數化,以至于它們可以很容易地表示無數泛化能力差的函數。


          團隊轉而考慮以下定量問題:給定網絡架構、目標函數和n個隨機示例的訓練集,能否有效地預測網絡學習函數 的泛化性能?與之相應的理論不僅可以解釋為什么神經網絡可以很好地概括某些函數,而且還可以告訴我們給定架構非常適合哪些函數類,甚至可能讓我們從第一原則中為給定問題選擇最佳架構,如以及作為解決一系列其他深度學習之謎的通用框架。


          事實證明這是可能的。


          在 BAIR 最近的論文中,他們推導出了一個第一性原理理論,它允許人們對神經網絡泛化做出準確的預測(至少在某些情況下)。


          BAIR 研究人員在他們的論文中解決了以下陳述中所描述的泛化基本問題的變體:


          如果提供給定數量的訓練示例,是否可以根據第一原理有效地預測給定網絡架構在學習給定函數時的泛化能力?


          BAIR 團隊依賴于最近在深度學習方面取得的兩項突破來回答這個問題:


          1)無限寬度網絡


          第一個突破是近年來深度學習發(fā)展的最有趣的理論之一——無限寬度網絡理論,該理論表明:由于神經網絡中的隱藏層趨向于無限,因此神經網絡本身的行為采用非常簡單的分析形式。這個想法表明,通過研究理論上的無限神經網絡,可以深入了解有限等價物的泛化。這點類似于傳統(tǒng)微積分中的中心極限定理。


          2)核回歸近似


          第二個突破與第一個突破密切相關,但更具體。深度學習泛化的最新研究表明,利用梯度下降法訓練一個具有均方誤差(MSE)損失函數的寬網絡等效于被稱為核回歸的經典模型。在這種情況下,核代表網絡的“神經切線內核”(NTK),它描述了使用梯度下降訓練時的演化過程。研究表明核回歸(以 NTK 為內核)的 MSE 近似值可以準確預測網絡學習任意函數的 MSE。


          這項研究中,BAIR 提出的泛化性第一原理最大的貢獻是可學習性的概念。


          可學習性的思想是量化目標函數和學習函數之間的近似值。這聽起來與 MSE 相似,但可學習性表現出與 MSE 完全不同的特性,這使得它更適合后續(xù)的模型。


          在下圖中,展示了用不同的訓練大小去訓練四種不同神經網絡(不同顏色分別代表不同神經網絡)的結果。曲線代表理論預測,點代表真實性能。我們可以看到可學習性指標的一致性要好很多。


          圖丨對于四種不同的網絡架構(具有一個或四個隱藏層的全連接),所有特征函數的總學習能力等于訓練集的大小。彩色組件顯示單個特征函數的學習能力。對于使用網絡 NTK(每對中的左側條)的內核回歸,總和恰好是訓練集大小,而實際訓練的網絡(每對中的右側條)總和近似于訓練集大小。


          BAIR 研究的結果遠非結論性的,而表明了盡管神經網絡在難以捉摸這個特質上“臭名昭著”,但人們仍然希望了解它們何時以及為何能正常工作。


          就像在其他科學領域一樣,人們仍然可以找到簡單的規(guī)則來管理這些看似復雜的系統(tǒng)。在真正理解深度學習之前,還有更多的工作要做,比如該理論只適用于 MSE 損失,除了最簡單的情況之外,NTK 特征系統(tǒng)在所有情況下都是未知的。



          點「在看」的人都變好看了哦!
          瀏覽 37
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  囯产精品久久久久久久久久乐趣播 | 欧美一级特黄A片免费看视频小说 | 大香蕉伊人操 | 波多野结衣群交 | 欧美性猛交XXXXX按摩欧美 |