做爱视频网站免费,欧美性爱AAA,天堂网2024,大鸡吧av网站,免费网站观看www在线观看,人人爱天天操,免费一级A片奶好大,18 网站视频

前言

在這篇文章中，我們將探索從頭開(kāi)始訓(xùn)練小型模型所涉及的困難。我們將討論模型壓縮為何起作用，以及兩種進(jìn)行內(nèi)存有效訓(xùn)練的方法：過(guò)量參數(shù)的界限和更好的優(yōu)化方法，這些方法可以減少或消除事后模型壓縮。最后我們將總結(jié)未來(lái)的研究方向。

Appropriately-Parameterized Models

適量參數(shù)的模型--既沒(méi)有過(guò)量參數(shù)也沒(méi)有欠參數(shù)的模型，而是具有合適數(shù)量的參數(shù)以表示任務(wù)的理想解決方案的模型。

我們通常不會(huì)在深度學(xué)習(xí)范式中訓(xùn)練適量參數(shù)的模型。這是因?yàn)閷?duì)于給定的數(shù)據(jù)集，通常不知道使用多少參數(shù)量合適。即使知道了解決方案，眾所周知，使用梯度下降法訓(xùn)練適量參數(shù)的模型也很困難。

相反，訓(xùn)練程序通常看起來(lái)像這樣：

我們會(huì)訓(xùn)練一個(gè)過(guò)參數(shù)化的模型。這些模型通常具有比訓(xùn)練樣本數(shù)量更多的參數(shù)。
各種正則化技術(shù)（隱式或其他）用于約束優(yōu)化，以偏向于“簡(jiǎn)單解決方案”而不是過(guò)度擬合。
模型壓縮通過(guò)消除冗余來(lái)提取嵌入在較大模型中的“簡(jiǎn)單”模型，使內(nèi)存和時(shí)間效率更接近理想的適量參數(shù)的模型。

極端的過(guò)度參數(shù)化使訓(xùn)練變得更加容易。但是，由于模型被過(guò)度參數(shù)化，因此它們可以存儲(chǔ)數(shù)據(jù)，而不是學(xué)習(xí)數(shù)據(jù)中的有用模式，因此需要進(jìn)行正則化。然后，模型壓縮利用這種簡(jiǎn)單性僅保留解決方案實(shí)際需要的參數(shù)。

由于我們的目標(biāo)是使用更少的GPU內(nèi)存來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)，因此我們可以提出一些明顯的問(wèn)題：

為什么需要過(guò)度參數(shù)化？需要多少過(guò)參數(shù)化？
我們可以通過(guò)使用更智能的優(yōu)化方法來(lái)減少過(guò)度參數(shù)化嗎？

接下來(lái)的兩個(gè)部分將依次解決這些問(wèn)題。

Over-parameterization Bounds

為什么需要超量參數(shù)？通過(guò)充分超量參數(shù)的神經(jīng)網(wǎng)絡(luò)，我們可以使優(yōu)化的landscape有效凸出。杜etc(2019)、Haeffele和Vidal(2017)在一些簡(jiǎn)單情況下對(duì)此進(jìn)行了數(shù)學(xué)證明，給出了必要的過(guò)參數(shù)化量，能在多項(xiàng)式時(shí)間內(nèi)實(shí)現(xiàn)0訓(xùn)練損失。有效地，過(guò)度參數(shù)化是為了增加內(nèi)存使用量而犧牲了計(jì)算難易度。

這些界限通常被認(rèn)為是寬松的。這意味著盡管我們可以預(yù)測(cè)出足夠數(shù)量的參數(shù)來(lái)完美擬合某些數(shù)據(jù)，但我們?nèi)匀徊恢酪昝罃M合數(shù)據(jù)所需的最小參數(shù)數(shù)量。嚴(yán)格的界限可能取決于從優(yōu)化過(guò)程（SGD與GD，Adam與其他）到體系結(jié)構(gòu)的所有方面。計(jì)算嚴(yán)格邊界甚至比訓(xùn)練所有可能的候選網(wǎng)絡(luò)在計(jì)算上更加棘手。

但是，在這方面肯定還有改進(jìn)的余地。嚴(yán)格的過(guò)度參數(shù)化范圍將使我們可以訓(xùn)練較小的網(wǎng)絡(luò)，而無(wú)需在架構(gòu)上進(jìn)行網(wǎng)格搜索，也不必?fù)?dān)心更大的網(wǎng)絡(luò)可能為我們帶來(lái)更好的性能。證明是否可以擴(kuò)展到recurrent models, transformers，按batch norm訓(xùn)練的模型等仍然存在問(wèn)題。

上面忽略了提及不同的體系結(jié)構(gòu)可能具有不同的過(guò)參數(shù)化范圍的情況。那么，一種合理的方法是使用具有較低過(guò)參數(shù)化范圍的不同體系結(jié)構(gòu)。一些有趣的“efficient transformers”包括Reformer，ALBERT，Sparse Transformers和SRU。

Better Optimization Techniques

從經(jīng)驗(yàn)上講，很難對(duì)參數(shù)正確的模型進(jìn)行訓(xùn)練。用梯度下降訓(xùn)練適當(dāng)大小的模型通常會(huì)嚴(yán)重失敗。該模型將無(wú)法收斂以適合訓(xùn)練數(shù)據(jù)，更不用說(shuō)泛化了。這部分由神經(jīng)網(wǎng)絡(luò)的優(yōu)化環(huán)境的非凸性/ non-friendliness來(lái)部分解釋，但是訓(xùn)練適量參數(shù)化模型的計(jì)算復(fù)雜度的精確表征仍然不完整。

模型壓縮技術(shù)通過(guò)闡明過(guò)參數(shù)化模型趨于收斂的解的類型，為我們提供了有關(guān)如何訓(xùn)練適當(dāng)參數(shù)化模型的提示。模型壓縮的類型很多，每種模型都利用一種不同類型的“簡(jiǎn)單性”，這種“簡(jiǎn)單性”往往在訓(xùn)練有素的神經(jīng)網(wǎng)絡(luò)中發(fā)現(xiàn)：

許多權(quán)重接近零（修剪）
權(quán)重矩陣低秩（權(quán)重分解）
權(quán)重只用幾位來(lái)表示（量化）
層通常會(huì)學(xué)習(xí)類似的功能（權(quán)重共享）

這些“簡(jiǎn)單性”中的每一個(gè)都是由于訓(xùn)練過(guò)程中的正則化（隱式或其他）或訓(xùn)練數(shù)據(jù)的質(zhì)量而引起的。當(dāng)我們知道我們正在尋找具有這些特性的解決方案時(shí)，它為改進(jìn)我們的優(yōu)化技術(shù)開(kāi)辟了令人振奮的新方向。

Sparse Networks from Scratch

權(quán)重修剪可能是最成功的壓縮方法示例，可以將壓縮方法轉(zhuǎn)變?yōu)閮?yōu)化方法。經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)通常具有許多權(quán)重（30-95％），它們接近于0?？梢詣h除這些權(quán)重而不會(huì)影響神經(jīng)網(wǎng)絡(luò)的輸出。

我們是否可以通過(guò)從一開(kāi)始就訓(xùn)練稀疏神經(jīng)網(wǎng)絡(luò)來(lái)減少GPU使用，而不是事后修剪呢？有一陣子，我們認(rèn)為答案是否定的。稀疏的網(wǎng)絡(luò)很難訓(xùn)練；優(yōu)化環(huán)境非常不凸且不友好。

然而，Frankel和Carbin(2018)朝著這個(gè)方向邁出了第一步。他們發(fā)現(xiàn)他們可以從頭開(kāi)始重新訓(xùn)練修剪的網(wǎng)絡(luò)，但前提是必須將其重新初始化為在密集訓(xùn)練期間使用的相同初始化。他們對(duì)此的解釋是the Lottery Ticket Hypothesis：密集網(wǎng)絡(luò)實(shí)際上是許多適量參數(shù)化的稀疏模型的并行隨機(jī)初始化組合。碰巧得到了幸運(yùn)的初始化并收斂于解決方案。

最近，Dettmers和Zettlemoyer(2019)，Mostafa(2019)，和Evci 等人(2019)，指明可以從頭開(kāi)始訓(xùn)練適當(dāng)參數(shù)化的稀疏網(wǎng)絡(luò)，從而大大減少了訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需的GPU內(nèi)存量。重要的不是初始化，而是探索模型的稀疏子空間的能力。Lee等人的類似工作(2018)，嘗試通過(guò)對(duì)數(shù)據(jù)進(jìn)行一次傳遞來(lái)快速找到合適的稀疏架構(gòu)。

我相信，其他類型的模型壓縮可能會(huì)重復(fù)這種模式。一般而言，模式是:

模型壓縮方法揭示了訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)中的一些常見(jiàn)冗余。
研究了造成這種冗余的歸納偏差/正則化。
從訓(xùn)練開(kāi)始，就創(chuàng)建了一種巧妙的優(yōu)化算法來(lái)訓(xùn)練沒(méi)有這種冗余的網(wǎng)絡(luò)。

下表列出了其他類型的模型壓縮，以及為使模型更接近訓(xùn)練的開(kāi)始而付出的努力16（成功水平各不相同）

Future Directions

我們真的需要模型壓縮嗎？這篇文章的標(biāo)題具有挑釁性，但想法并非如此：通過(guò)收緊過(guò)度參數(shù)化的界限并改善我們的優(yōu)化方法，我們可以減少或消除對(duì)事后模型壓縮的需求。顯然，在我們有一個(gè)明確的答案之前，仍有許多懸而未決的問(wèn)題需要回答。以下是我希望在未來(lái)幾年完成的一些工作。

超量參數(shù)方面

我們可以通過(guò)窺視數(shù)據(jù)質(zhì)量（使用低資源計(jì)算）來(lái)獲得更緊密的界限嗎？
如果我們使用巧妙的優(yōu)化技巧（如Rigged Lottery13），超參數(shù)化界限會(huì)如何變化？
我們可以得到強(qiáng)化學(xué)習(xí)環(huán)境的過(guò)度參數(shù)化界限嗎？
我們可以將這些范圍擴(kuò)展到其他常用的體系結(jié)構(gòu)（RNN，Transformers）嗎？

優(yōu)化方面

我們沒(méi)有利用的經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)中還有其他冗余嗎？
使這些變得可行：
從頭開(kāi)始訓(xùn)練量化的神經(jīng)網(wǎng)絡(luò)。
從頭開(kāi)始使用低秩矩陣訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
弄清楚為什么知識(shí)蒸餾可以改善優(yōu)化。如果可能的話，使用類似的想法進(jìn)行優(yōu)化，同時(shí)使用更少的GPU內(nèi)存。

正則化方面

哪些類型的正則化會(huì)導(dǎo)致哪些類型的模型冗余？
修剪和重新訓(xùn)練與L0正則化有何關(guān)系？哪些隱式正則化導(dǎo)致可修剪性？
哪些類型的正則化可以量化？

原文鏈接：

http://mitchgordon.me/machine/learning/2020/01/13/do-we-really-need-model-compression.html#fn:lottery-general

?------------------------------------------------

雙一流高校研究生團(tuán)隊(duì)創(chuàng)建

專注于計(jì)算機(jī)視覺(jué)原創(chuàng)并分享相關(guān)知識(shí)?

聞道有先后，術(shù)業(yè)有專攻，如是而已╮(╯_╰)╭

我們真的需要模型壓縮嗎？

Appropriately-Parameterized Models

Over-parameterization Bounds

Better Optimization Techniques

Sparse Networks from Scratch

Future Directions

我們真的需要模型壓縮嗎？