我們真的需要模型壓縮嗎?
前言
Appropriately-Parameterized Models

我們會(huì)訓(xùn)練一個(gè)過(guò)參數(shù)化的模型。這些模型通常具有比訓(xùn)練樣本數(shù)量更多的參數(shù)。
各種正則化技術(shù)(隱式或其他)用于約束優(yōu)化,以偏向于“簡(jiǎn)單解決方案”而不是過(guò)度擬合。
模型壓縮通過(guò)消除冗余來(lái)提取嵌入在較大模型中的“簡(jiǎn)單”模型,使內(nèi)存和時(shí)間效率更接近理想的適量參數(shù)的模型。
為什么需要過(guò)度參數(shù)化? 需要多少過(guò)參數(shù)化?
我們可以通過(guò)使用更智能的優(yōu)化方法來(lái)減少過(guò)度參數(shù)化嗎?
Over-parameterization Bounds
Better Optimization Techniques
許多權(quán)重接近零(修剪)
權(quán)重矩陣低秩(權(quán)重分解)
權(quán)重只用幾位來(lái)表示(量化)
層通常會(huì)學(xué)習(xí)類似的功能(權(quán)重共享)
Sparse Networks from Scratch


模型壓縮方法揭示了訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)中的一些常見(jiàn)冗余。
研究了造成這種冗余的歸納偏差/正則化。
從訓(xùn)練開(kāi)始,就創(chuàng)建了一種巧妙的優(yōu)化算法來(lái)訓(xùn)練沒(méi)有這種冗余的網(wǎng)絡(luò)。

Future Directions
超量參數(shù)方面
我們可以通過(guò)窺視數(shù)據(jù)質(zhì)量(使用低資源計(jì)算)來(lái)獲得更緊密的界限嗎?
如果我們使用巧妙的優(yōu)化技巧(如Rigged Lottery13),超參數(shù)化界限會(huì)如何變化?
我們可以得到強(qiáng)化學(xué)習(xí)環(huán)境的過(guò)度參數(shù)化界限嗎?
我們可以將這些范圍擴(kuò)展到其他常用的體系結(jié)構(gòu)(RNN,Transformers)嗎?
優(yōu)化方面
我們沒(méi)有利用的經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)中還有其他冗余嗎?
使這些變得可行:
從頭開(kāi)始訓(xùn)練量化的神經(jīng)網(wǎng)絡(luò)。
從頭開(kāi)始使用低秩矩陣訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
弄清楚為什么知識(shí)蒸餾可以改善優(yōu)化。如果可能的話,使用類似的想法進(jìn)行優(yōu)化,同時(shí)使用更少的GPU內(nèi)存。
正則化方面
哪些類型的正則化會(huì)導(dǎo)致哪些類型的模型冗余?
修剪和重新訓(xùn)練與L0正則化有何關(guān)系?哪些隱式正則化導(dǎo)致可修剪性?
哪些類型的正則化可以量化?
原文鏈接:
http://mitchgordon.me/machine/learning/2020/01/13/do-we-really-need-model-compression.html#fn:lottery-general
?------------------------------------------------
雙一流高校研究生團(tuán)隊(duì)創(chuàng)建
專注于計(jì)算機(jī)視覺(jué)原創(chuàng)并分享相關(guān)知識(shí)?
聞道有先后,術(shù)業(yè)有專攻,如是而已╮(╯_╰)╭
