<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          機(jī)器學(xué)習(xí)三個時代的計算趨勢

          共 1713字,需瀏覽 4分鐘

           ·

          2022-04-25 18:56

          點(diǎn)擊下方卡片,關(guān)注“新機(jī)器視覺”公眾號

          重磅干貨,第一時間送達(dá)

          作者 | Annu Kumari
          譯者 | Phoenix
          策劃 | 凌敏
          轉(zhuǎn)自 | AI前線
          決定現(xiàn)代機(jī)器學(xué)習(xí)發(fā)展的三個基礎(chǔ)是計算、數(shù)據(jù)和算法進(jìn)化 (ML,機(jī)器學(xué)習(xí)),本文著眼于最易量化的元素的趨勢。

          在 2010 年之前,訓(xùn)練計算的發(fā)展與摩爾定律同步,每兩年一翻;自 2010 年代初,引入深度學(xué)習(xí)以來,訓(xùn)練計算的速度已經(jīng)加快,大約每六個月增加一倍;2015 年末,出現(xiàn)了一種新的趨勢。

          基于這些觀察,機(jī)器學(xué)習(xí)的計算歷史被劃分為三個時代——前深度學(xué)習(xí)時代深度學(xué)習(xí)時代大規(guī)模時代。本文總結(jié)了用于訓(xùn)練高級機(jī)器學(xué)習(xí)系統(tǒng)快速增長的計算需求。

          趨? 勢

          比較是在一個由 123 個里程碑式的機(jī)器學(xué)習(xí)系統(tǒng)組成的數(shù)據(jù)集上進(jìn)行的,并標(biāo)注了訓(xùn)練它們所需的計算量。在深度學(xué)習(xí)起步之前,有一段進(jìn)展緩慢的時間,這種趨勢在 2010 年加速,此后一直沒有放緩。另外,在 2015 年和 2016 年,出現(xiàn)了大規(guī)模模型的新趨勢,以比上一個時代快兩個數(shù)量級的速度擴(kuò)張。

          來源: https://arxiv.org/pdf/2202.05924.pdf

          過渡到深度學(xué)習(xí)

          在深度學(xué)習(xí)出現(xiàn)之前和之后,人們注意到了兩種不同的趨勢機(jī)制。

          此前,訓(xùn)練機(jī)器學(xué)習(xí)算法所需的算力是每 17 至 29 個月翻一番。之后,整體趨勢加快速,每 4 到 9 個月翻一番。

          根據(jù)摩爾定律,晶體管密度每兩年翻一番(Moore,1965 年),通常簡化為計算性能每兩年翻一番——基本上符合前深度學(xué)習(xí)時代的趨勢。目前尚不清楚深度學(xué)習(xí)時代何時開始,從前深度學(xué)習(xí)到深度學(xué)習(xí)時代的過渡沒有明顯的間斷。此外,無論深度學(xué)習(xí)時代始于 2010 年還是 2012 年,結(jié)果幾乎都不會改變。

          來源:https://arxiv.org/pdf/2202.05924.pdf

          大規(guī)模深度時代的趨勢

          數(shù)據(jù)顯示,大規(guī)模型模型的新趨勢始于 2015-2016 年,這種新趨勢始于 2015 年底的 AlphaGo,一直持續(xù)到現(xiàn)在,大規(guī)模模型是由大公司訓(xùn)練的,更高的訓(xùn)練預(yù)算可能是打破先前的趨勢的原因。

          另外,常規(guī)規(guī)模模型受歡迎的程度并未受到影響,這一趨勢在 2016 年之前和之后是相同的速度,每 5 到 6 個月翻一番,如下表所示。大規(guī)模模型的計算量增加的趨勢明顯放緩,每 9 到 10 個月翻一番。由于這些模型的數(shù)據(jù)有限,明顯放緩可能是噪聲的結(jié)果。

          這一發(fā)現(xiàn)與 Amodei & Hernandez (2018) 和 Lyzhov (2021) 形成對比,前者發(fā)現(xiàn) 2012 年至 2018 年的倍增期為 3.4 個月,后者發(fā)現(xiàn) 2018 年至 2020 年的倍增期超過 2 年。以前的評估無法區(qū)分這兩個獨(dú)立的模式,因為大規(guī)模的趨勢是最近才發(fā)展起來的。

          來源:https://arxiv.org/pdf/2202.05924.pdf

          結(jié)? 論

          研究結(jié)果與早期研究一致,這顯示了訓(xùn)練計算更適度的規(guī)模。1952 年到 2010 年有 18 個月的倍增時間,2010 年到 2022 年有 6 個月的倍增時間,從 2015 年末到 2022 年的大規(guī)模新趨勢,快了 2 到 3 個數(shù)量級,倍增時間為 10 個月。

          總而言之,在前深度學(xué)習(xí)時代,計算進(jìn)展緩慢,隨著 2010 年進(jìn)入深度學(xué)習(xí)時代,這種趨勢加速了。在 2015 年底,企業(yè)開始生產(chǎn)優(yōu)于趨勢的大規(guī)模模型,如 AlphaGo,標(biāo)志著大規(guī)模時代的開始。然而,這并不能確定區(qū)分大規(guī)模和常規(guī)規(guī)模的模型而形成模式。

          在計算機(jī)教學(xué)中,硬件基礎(chǔ)設(shè)施和工程師的作用越來越大,凸顯了兩者的戰(zhàn)略必要性。獲得巨大的計算預(yù)算或計算集群,以及應(yīng)用它們的專業(yè)知識,已經(jīng)成為前沿機(jī)器學(xué)習(xí)研究的代名詞。

          原文鏈接:

          https://www.marktechpost.com/2022/03/18/this-research-paper-explain-the-compute-trends-across-three-eras-of-machine-learning



          本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。

          —THE END—
          瀏覽 43
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  免费国产视频 | 天天激情五月 | 操婷婷视频在线观看网站 | 亚洲AV无码乱码在线观小说 | 夜夜人妻国产香蕉 |