<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          我們真的需要模型壓縮嗎?

          共 3251字,需瀏覽 7分鐘

           ·

          2021-04-25 11:33

          前言

          在這篇文章中,我們將探索從頭開(kāi)始訓(xùn)練小型模型所涉及的困難。我們將討論模型壓縮為何起作用,以及兩種進(jìn)行內(nèi)存有效訓(xùn)練的方法:過(guò)量參數(shù)的界限和更好的優(yōu)化方法,這些方法可以減少或消除事后模型壓縮。最后我們將總結(jié)未來(lái)的研究方向。

           

          Appropriately-Parameterized Models


          參數(shù)模型--既沒(méi)有過(guò)量參數(shù)也沒(méi)有參數(shù)的模型,是具有合適數(shù)量的參數(shù)以表示任務(wù)的理想解決方案的模型。


          我們通常不會(huì)在深度學(xué)習(xí)范式中訓(xùn)練適參數(shù)模型。這是因?yàn)閷?duì)于給定的數(shù)據(jù)集,通常不知道使用多少參數(shù)量合適。即使知道了解決方案,眾所周知,使用梯度下降法訓(xùn)練適參數(shù)模型也很困難


          相反,訓(xùn)練程序通常看起來(lái)像這樣

           

          1. 我們會(huì)訓(xùn)練一個(gè)過(guò)參數(shù)化的模型。這些模型通常具有比訓(xùn)練樣本數(shù)量更多的參數(shù)。


          2. 各種正則化技術(shù)(隱式或其他)用于約束優(yōu)化,以偏向于簡(jiǎn)單解決方案而不是過(guò)度擬合。


          3. 模型壓縮通過(guò)消除冗余來(lái)提取嵌入在較大模型中的簡(jiǎn)單模型,使內(nèi)存和時(shí)間效率更接近理想的適量參數(shù)模型。




           

          極端的過(guò)度參數(shù)化使訓(xùn)練變得更加容易。 但是,由于模型被過(guò)度參數(shù)化,因此它們可以存儲(chǔ)數(shù)據(jù),而不是學(xué)習(xí)數(shù)據(jù)中的有用模式,因此需要進(jìn)行正則化。 然后,模型壓縮利用這種簡(jiǎn)單性僅保留解決方案實(shí)際需要的參數(shù)。


          由于我們的目標(biāo)是使用更少的GPU內(nèi)存來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),因此我們可以提出一些明顯的問(wèn)題


          1. 為什么需要過(guò)度參數(shù)化? 需要多少過(guò)參數(shù)化?

          2. 我們可以通過(guò)使用更智能的優(yōu)化方法來(lái)減少過(guò)度參數(shù)化嗎?




          接下來(lái)的兩個(gè)部分將依次解決這些問(wèn)題。


          Over-parameterization Bounds


          為什么需要超量參數(shù)?通過(guò)充分超量參數(shù)的神經(jīng)網(wǎng)絡(luò),我們可以使優(yōu)化landscape有效凸出。 etc(2019)、HaeffeleVidal(2017)在一些簡(jiǎn)單情況下對(duì)此進(jìn)行了數(shù)學(xué)證明,給出了必要的過(guò)參數(shù)化量,在多項(xiàng)式時(shí)間內(nèi)實(shí)現(xiàn)0訓(xùn)練損失。有效地,過(guò)度參數(shù)化是為了增加內(nèi)存使用量而犧牲了計(jì)算難易度。


          這些界限通常被認(rèn)為是寬松的。 這意味著盡管我們可以預(yù)測(cè)出足夠數(shù)量的參數(shù)來(lái)完美擬合某些數(shù)據(jù),但我們?nèi)匀徊恢酪昝罃M合數(shù)據(jù)所需的最小參數(shù)數(shù)量。 嚴(yán)格的界限可能取決于從優(yōu)化過(guò)程(SGDGD,Adam與其他)到體系結(jié)構(gòu)的所有方面。計(jì)算嚴(yán)格邊界甚至比訓(xùn)練所有可能的候選網(wǎng)絡(luò)在計(jì)算上更加棘手。


          但是,在這方面肯定還有改進(jìn)的余地。嚴(yán)格的過(guò)度參數(shù)化范圍將使我們可以訓(xùn)練較小的網(wǎng)絡(luò),而無(wú)需在架構(gòu)上進(jìn)行網(wǎng)格搜索,也不必?fù)?dān)心更大的網(wǎng)絡(luò)可能為我們帶來(lái)更好的性能。 證明是否可以擴(kuò)展到recurrent models, transformers,按batch norm訓(xùn)練的模型等仍然存在問(wèn)題。


          上面忽略了提及不同的體系結(jié)構(gòu)可能具有不同的過(guò)參數(shù)化范圍的情況。 那么,一種合理的方法是使用具有較低過(guò)參數(shù)化范圍的不同體系結(jié)構(gòu)。 一些有趣的“efficient transformers包括ReformerALBERT,Sparse TransformersSRU。

           

          Better Optimization Techniques


          從經(jīng)驗(yàn)上講,很難對(duì)參數(shù)正確的模型進(jìn)行訓(xùn)練。 用梯度下降訓(xùn)練適當(dāng)大小的模型通常會(huì)嚴(yán)重失敗。 該模型將無(wú)法收斂以適合訓(xùn)練數(shù)據(jù),更不用說(shuō)泛化了。這部分由神經(jīng)網(wǎng)絡(luò)的優(yōu)化環(huán)境的非凸性/ non-friendliness來(lái)部分解釋,但是訓(xùn)練適量參數(shù)化模型的計(jì)算復(fù)雜度的精確表征仍然不完整。

          模型壓縮技術(shù)通過(guò)闡明過(guò)參數(shù)化模型趨于收斂的解的類型,為我們提供了有關(guān)如何訓(xùn)練適當(dāng)參數(shù)化模型的提示。 模型壓縮的類型很多,每種模型都利用一種不同類型的“簡(jiǎn)單性”,這種“簡(jiǎn)單性”往往在訓(xùn)練有素的神經(jīng)網(wǎng)絡(luò)中發(fā)現(xiàn):

          • 許多權(quán)重接近零(修剪)

          • 權(quán)重矩陣低秩(權(quán)重分解)

          • 權(quán)重只用幾位來(lái)表示(量化)

          • 層通常會(huì)學(xué)習(xí)類似的功能(權(quán)重共享)

           

          這些“簡(jiǎn)單性”中的每一個(gè)都是由于訓(xùn)練過(guò)程中的正則化(隱式或其他)或訓(xùn)練數(shù)據(jù)的質(zhì)量而引起的。當(dāng)我們知道我們正在尋找具有這些特性的解決方案時(shí),它為改進(jìn)我們的優(yōu)化技術(shù)開(kāi)辟了令人振奮的新方向。

           

          Sparse Networks from Scratch


          權(quán)重修剪可能是最成功的壓縮方法示例,可以將壓縮方法轉(zhuǎn)變?yōu)閮?yōu)化方法。 經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)通常具有許多權(quán)重(30-95%),它們接近于0??梢詣h除這些權(quán)重而不會(huì)影響神經(jīng)網(wǎng)絡(luò)的輸出。

           

          我們是否可以通過(guò)從一開(kāi)始就訓(xùn)練稀疏神經(jīng)網(wǎng)絡(luò)來(lái)減少GPU使用,而不是事后修剪呢?有一陣子,我們認(rèn)為答案是否定的。稀疏的網(wǎng)絡(luò)很難訓(xùn)練;優(yōu)化環(huán)境非常不凸且不友好。

          然而,FrankelCarbin(2018)朝著這個(gè)方向邁出了第一步。他們發(fā)現(xiàn)他們可以從頭開(kāi)始重新訓(xùn)練修剪的網(wǎng)絡(luò),但前提是必須將其重新初始化為在密集訓(xùn)練期間使用的相同初始化。他們對(duì)此的解釋是the Lottery Ticket Hypothesis:密集網(wǎng)絡(luò)實(shí)際上是許多適量參數(shù)化的稀疏模型的并行隨機(jī)初始化組合。 碰巧得到了幸運(yùn)的初始化并收斂于解決方案。

          最近,DettmersZettlemoyer(2019),Mostafa(2019),和Evci 等人(2019),指明可以從頭開(kāi)始訓(xùn)練適當(dāng)參數(shù)化的稀疏網(wǎng)絡(luò),從而大大減少了訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需的GPU內(nèi)存量。重要的不是初始化,而是探索模型的稀疏子空間的能力。Lee等人的類似工作(2018),嘗試通過(guò)對(duì)數(shù)據(jù)進(jìn)行一次傳遞來(lái)快速找到合適的稀疏架構(gòu)。

          我相信,其他類型的模型壓縮可能會(huì)重復(fù)這種模式。 一般而言,模式是:

          1. 模型壓縮方法揭示了訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)中的一些常見(jiàn)冗余。

          2. 研究了造成這種冗余的歸納偏差/正則化。

          3. 從訓(xùn)練開(kāi)始,就創(chuàng)建了一種巧妙的優(yōu)化算法來(lái)訓(xùn)練沒(méi)有這種冗余的網(wǎng)絡(luò)。




           

          下表列出了其他類型的模型壓縮,以及為使模型更接近訓(xùn)練的開(kāi)始而付出的努力16(成功水平各不相同)

           

           

          Future Directions


          我們真的需要模型壓縮嗎? 這篇文章的標(biāo)題具有挑釁性,但想法并非如此:通過(guò)收緊過(guò)度參數(shù)化的界限并改善我們的優(yōu)化方法,我們可以減少或消除對(duì)事后模型壓縮的需求。 顯然,在我們有一個(gè)明確的答案之前,仍有許多懸而未決的問(wèn)題需要回答。 以下是我希望在未來(lái)幾年完成的一些工作。

          超量參數(shù)方面

          • 我們可以通過(guò)窺視數(shù)據(jù)質(zhì)量(使用低資源計(jì)算)來(lái)獲得更緊密的界限嗎?

          • 如果我們使用巧妙的優(yōu)化技巧(如Rigged Lottery13),超參數(shù)化界限會(huì)如何變化?

          • 我們可以得到強(qiáng)化學(xué)習(xí)環(huán)境的過(guò)度參數(shù)化界限嗎?

          • 我們可以將這些范圍擴(kuò)展到其他常用的體系結(jié)構(gòu)(RNN,Transformers)嗎?

           

          優(yōu)化方面

          • 我們沒(méi)有利用的經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)中還有其他冗余嗎?

          • 使這些變得可行:

            從頭開(kāi)始訓(xùn)練量化的神經(jīng)網(wǎng)絡(luò)。

            從頭開(kāi)始使用低秩矩陣訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

          • 弄清楚為什么知識(shí)蒸餾可以改善優(yōu)化。如果可能的話,使用類似的想法進(jìn)行優(yōu)化,同時(shí)使用更少的GPU內(nèi)存。

           

          正則化方面

          • 哪些類型的正則化會(huì)導(dǎo)致哪些類型的模型冗余? 

          • 修剪和重新訓(xùn)練與L0正則化有何關(guān)系?哪些隱式正則化導(dǎo)致可修剪性?

          • 哪些類型的正則化可以量化?


          原文鏈接:

          http://mitchgordon.me/machine/learning/2020/01/13/do-we-really-need-model-compression.html#fn:lottery-general



          ?------------------------------------------------


          雙一流高校研究生團(tuán)隊(duì)創(chuàng)建

          專注于計(jì)算機(jī)視覺(jué)原創(chuàng)并分享相關(guān)知識(shí)?

          聞道有先后,術(shù)業(yè)有專攻,如是而已╮(╯_╰)╭


          瀏覽 64
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩一中文字幕 | 国产精品久久久久久久久毛毛 | 免费日逼网站 | 久久久久久 豆花视频 | 黄色一节片 |