<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          梯度下降算法綜述!

          共 11362字,需瀏覽 23分鐘

           ·

          2021-12-28 22:52

          轉(zhuǎn)自:狗熊會(huì)? 作者:亓顥博
          今天要和大家分享的是梯度下降算法的綜述,我們將結(jié)合2016年的一篇梯度下降算法的綜述文章An overview of gradient descent optimization algorithms進(jìn)行介紹并在此基礎(chǔ)上進(jìn)行一定的分析和補(bǔ)充。

          背景介紹

          梯度下降算法最經(jīng)典的優(yōu)化算法之一,在最優(yōu)化領(lǐng)域占據(jù)十分重要的地位。它最早被柯西[Cauchy, 1847]首先提出,是最基礎(chǔ)的一階優(yōu)化算法。假設(shè)我們的目標(biāo)尋找光滑目標(biāo)函數(shù)的極小值點(diǎn),其中是模型的參數(shù)。梯度下降算法的更新公式為
          其中,表示算法在第次迭代中得到的數(shù)值解,表示目標(biāo)函數(shù)關(guān)于參數(shù)的一階導(dǎo)數(shù)(即梯度),超參數(shù)稱(chēng)為步長(zhǎng)(step size)或?qū)W習(xí)率(learning rate)。所謂梯度下降,就是沿著目標(biāo)函數(shù)的負(fù)梯度方向(當(dāng)前點(diǎn)目標(biāo)函數(shù)值下降趨勢(shì)最大的方向)前進(jìn)搜索極小值點(diǎn),走多遠(yuǎn)由學(xué)習(xí)率參數(shù)決定,見(jiàn)圖1。由于在極小值點(diǎn)處梯度為0,因此直覺(jué)上梯度下降算法最終會(huì)停在梯度為0的點(diǎn),而這個(gè)點(diǎn)在一定假設(shè)條件下就是極小值點(diǎn)。由此,產(chǎn)生了一系列和梯度下降算法相關(guān)的理論問(wèn)題,如收斂速率(convergence rate)、學(xué)習(xí)率的選取以及如何加速算法的收斂等[Curry, 1944, Nemirovski et al., 2009, Rakhlin et al., 2012, Chen et al., 2016, Toulis and Airoldi, 2017, Gitman et al., 2019]。

          圖1:梯度下降算法示意圖

          隨著近年來(lái)深度學(xué)習(xí)領(lǐng)域的蓬勃興起,梯度類(lèi)算法成為了優(yōu)化神經(jīng)網(wǎng)絡(luò)的最重要的方法。各種深度學(xué)習(xí)的框架(如Caffe, Keras, TensorFlow and PyTorch)中,均支持各種各樣的梯度類(lèi)優(yōu)化器。梯度類(lèi)方法在深度學(xué)習(xí)中如此重要的主要原因是深度神經(jīng)網(wǎng)絡(luò)中數(shù)以百萬(wàn)、千萬(wàn)級(jí)別的待優(yōu)化參數(shù)使得諸如牛頓法和擬牛頓法等高階優(yōu)化方法不再可行,而梯度類(lèi)方法借助GPU計(jì)算資源的支持可以進(jìn)行高效的運(yùn)算。然而天下沒(méi)有免費(fèi)的午餐,當(dāng)我們使用一階優(yōu)化算法獲取其計(jì)算可行性上的好處時(shí),付出的代價(jià)便是一階算法較慢的收斂速率。尤其是當(dāng)目標(biāo)函數(shù)接近病態(tài)系統(tǒng)時(shí),梯度類(lèi)算法的收斂速度會(huì)變得更加緩慢。除此之外,由于深度神經(jīng)網(wǎng)絡(luò)的損失函數(shù)極其復(fù)雜且非凸,梯度類(lèi)算法優(yōu)化得到的模型參數(shù)的性質(zhì)未知,依賴(lài)于算法的參數(shù)選取和初值的選取。因此,目前深度學(xué)習(xí)中的梯度類(lèi)算法實(shí)際上是某種意義上的黑箱算法,其可解釋性仍然面臨著巨大挑戰(zhàn)。

          梯度下降算法的變體

          在第一部分的背景介紹中,我們將稱(chēng)為目標(biāo)函數(shù),這里的是一個(gè)確定的函數(shù)形式,例如. 在實(shí)際的機(jī)器學(xué)習(xí)問(wèn)題中,我們往往考慮隨機(jī)優(yōu)化問(wèn)題。具體來(lái)說(shuō),假設(shè)服從某一分布,給定損失,其中是我們感興趣的參數(shù)。參數(shù)的真值滿(mǎn)足如下的等式:
          由于分布是未知的,上述優(yōu)化問(wèn)題無(wú)法直接被計(jì)算。假設(shè)我們獲取了一組觀測(cè)樣本(往往假設(shè)獨(dú)立同分布),那么我們轉(zhuǎn)而考慮風(fēng)險(xiǎn)極小化問(wèn)題:
          此時(shí)通常被稱(chēng)為損失函數(shù),例如平方損失、交叉熵?fù)p失等等。本身是的一個(gè)估計(jì)量,而我們的通過(guò)算法尋找的其實(shí)是。相比較于確定性目標(biāo)函數(shù),這里的損失函數(shù)引入了一個(gè)新的超參數(shù),即樣本量。而計(jì)算梯度時(shí)使用的樣本量不同,帶來(lái)了不同的梯度下降算法。

          批量梯度下降

          批量梯度下降(Batch gradient descent, BGD),某些文獻(xiàn)中也稱(chēng)為(Full gradient, FG),其本質(zhì)就是使用全樣本數(shù)據(jù)計(jì)算梯度。假設(shè)參數(shù),全樣本為,則BGD算法單次迭代的復(fù)雜度約為。BGD算法的優(yōu)缺點(diǎn)十分鮮明。其主要優(yōu)點(diǎn)在于理論性質(zhì)良好,保證能夠找到極小值點(diǎn)。如果損失函數(shù)是凸(強(qiáng)凸)函數(shù),BGD算法能以次線(xiàn)性(線(xiàn)性)的收斂速率找到全局極小值點(diǎn)。缺點(diǎn)則是,當(dāng)樣本量很大時(shí)計(jì)算效率很低。例如計(jì)算機(jī)視覺(jué)中的ImageNet[Deng et al., 2009] 數(shù)據(jù)集,訓(xùn)練樣本量超過(guò)一百萬(wàn),即使忽略的影響也是非常巨大的計(jì)算成本。此外,BGD算法由于要使用全樣本數(shù)據(jù),也不適用于在線(xiàn)學(xué)習(xí)(Online learning)的情形。

          隨機(jī)梯度下降

          隨機(jī)梯度下降(Stochastic gradient descent, SGD)與BGD不同,SGD每次更新時(shí)僅僅是用一個(gè)樣本來(lái)計(jì)算梯度,因此SGD算法單次迭代的復(fù)雜度約為,與BGD相比計(jì)算效率大大提升,而且SGD適用于在線(xiàn)學(xué)習(xí)的情形,來(lái)一個(gè)樣本就可以通過(guò)SGD更新一次。SGD付出的代價(jià)在于它在梯度中引入了額外的方差。盡管在給定全樣本的條件下,單個(gè)樣本計(jì)算的梯度是全樣本的無(wú)偏估計(jì),但是單個(gè)樣本梯度方向很難和全樣本方向一致,因此SGD的更新是極其波動(dòng)的。在常數(shù)學(xué)習(xí)率下,SGD算法即使在損失函數(shù)為凸(強(qiáng)凸)函數(shù)的條件下也不能準(zhǔn)確找到極小值點(diǎn),最終的解和極小值點(diǎn)之間的距離受到學(xué)習(xí)率和梯度方差上界的影響。

          小批量梯度下降

          小批量梯度下降(Mini-batch gradient descent, MGD)可以看做是BGD和SGD的一種折中的選擇,它也是目前在深度學(xué)習(xí)中實(shí)際上使用最為廣泛的梯度下降算法,許多文章中所指的SGD實(shí)際上為MGD算法。每次更新時(shí)使用樣本量為batch size, ?的樣本來(lái)計(jì)算梯度,因此MGD算法單次迭代的復(fù)雜度約為,與BGD相比計(jì)算效率有所提升,同時(shí)引入的梯度噪聲方差小于SGD,穩(wěn)定性更好。當(dāng)然MGD算法也有自己的問(wèn)題,它引入了新的超參數(shù)。在實(shí)際深度學(xué)習(xí)任務(wù)中,學(xué)者發(fā)現(xiàn)的選取不僅影響算法的收斂效率,同樣影響最終的外樣本精度。一般而言的取值范圍在之間。最后,我們給出三種使用不同樣本量的梯度下降算法的對(duì)比示意圖。

          圖2:三種梯度下降算法的對(duì)比示意圖

          梯度下降算法的改進(jìn)算法

          如前所說(shuō),梯度下降算法作為一階算法有其固有的局限性,僅僅使用損失函數(shù)的一階信息進(jìn)行更新是比較“短視”的做法,在病態(tài)系統(tǒng)下收斂速度極為緩慢。學(xué)者們也提出了一系列方法來(lái)加速梯度下降算法,主要的思路是對(duì)梯度下降法的兩個(gè)主要組成部分進(jìn)行修改,即更新方向和學(xué)習(xí)率。我們接下來(lái)主要介紹其中幾種十分重要的算法。請(qǐng)注意,以下算法原始版本均是在非隨機(jī)優(yōu)化或BGD的條件下討論的,但是在實(shí)際深度學(xué)習(xí)的應(yīng)用中往往是使用了MGD的版本,我們?cè)谙挛牡慕榻B中并不區(qū)分這些細(xì)節(jié)。

          動(dòng)量梯度下降

          動(dòng)量梯度下降(Gradient Descent with Momentum)法 [Polyak, 1964, Ning, 1999],也被稱(chēng)為重球(Heavy Ball, HB)方法,是對(duì)梯度下降算法的經(jīng)典改進(jìn)算法,其更新公式如下:

          其中被稱(chēng)為動(dòng)量參數(shù),文獻(xiàn)中的推薦值為0.9。它的核心思想是對(duì)梯度下降的更新方向進(jìn)行調(diào)整,考慮使用歷史梯度信息的指數(shù)加權(quán)平均作為參數(shù)更新的方向。動(dòng)量梯度下降算法主要帶來(lái)了兩個(gè)方面的改進(jìn):(1) 加速梯度下降算法。動(dòng)量一詞源于物理學(xué),我們可以很形象的理解為物體沿山坡下滑的過(guò)程中的任意時(shí)刻的速度可以分解為當(dāng)前位置的坡度下降的方向(當(dāng)前梯度方向)和物體的慣性(歷史速度方向)的矢量和。因此當(dāng)我們考慮歷史梯度信息后,梯度下降算法會(huì)下降得更快;(2) 抑制震蕩。梯度下降算法會(huì)受到損失函數(shù)海森矩陣的條件數(shù)(海森矩陣的最大特征根與最小特征根的比值)的影響 [Sutton, 1986],條件數(shù)越大海森矩陣的病態(tài)程度越高,此時(shí)梯度方向?qū)?shù)空間的某些方向極度敏感,我們能夠觀察到參數(shù)的更新路徑震蕩劇烈。動(dòng)量梯度下降法能夠累計(jì)在正確前進(jìn)方向的梯度,并且抵消部分敏感方向的震蕩幅度。在理論研究方面,可以證明動(dòng)量梯度下降法主要是修正了海森矩陣條件數(shù)的影響,即將最優(yōu)收縮系數(shù)中的變?yōu)榱?span style="cursor:pointer;">,從而加速收斂。

          Nesterov動(dòng)量梯度

          Nesterov動(dòng)量梯度(Nesterov accelerated gradient, NAG)方法 [Nesterov, 1983],是動(dòng)量梯度下降法的改進(jìn)版本,其更新公式如下:

          其中動(dòng)量參數(shù)的推薦值仍為0.9。NAG考慮的是一個(gè)更加“聰明”的小球,它并不是短視地考慮當(dāng)前時(shí)刻的梯度,而是超前考慮未來(lái)時(shí)刻的梯度,即按照動(dòng)量方向前進(jìn)至處的梯度。當(dāng)梯度方向發(fā)生變化時(shí),動(dòng)量梯度的糾正機(jī)制往往需要累積幾步,而NAG能夠更早的進(jìn)行糾正。這種超前的思路使得NAG能夠進(jìn)一步抑制震蕩,從而加速收斂。當(dāng)損失函數(shù)為凸函數(shù)時(shí),可以證明NAG算法的收斂速率由提升為

          圖3:動(dòng)量梯度下降與NAG的對(duì)比示意圖

          AdaGrad

          AdaGrad[Duchi et al., 2011]從學(xué)習(xí)率的角度考慮加速梯度下降算法,傳統(tǒng)的梯度下降算法之所以受制于病態(tài)系統(tǒng)的影響,歸根結(jié)底是因?yàn)樗械膮?shù)共享了相同的學(xué)習(xí)率。為保證算法收斂,學(xué)習(xí)率受制于海森矩陣特征值較大的參數(shù)方向而變得很小,導(dǎo)致其他方向更新步長(zhǎng)過(guò)小優(yōu)化緩慢。如果我們能夠給每個(gè)參數(shù)賦予不同的學(xué)習(xí)率,那么就有可能極大地加速梯度下降算法的收斂。同時(shí),AdaGrad能夠在迭代過(guò)程中自動(dòng)調(diào)整參數(shù)的學(xué)習(xí)率,這被稱(chēng)為自適應(yīng)學(xué)習(xí)率(Adaptive learning rate)方法。其更新公式如下:
          這里表示對(duì)應(yīng)元素相乘,根號(hào)也是作用在向量的每一個(gè)元素上,是為了保證除法的數(shù)值穩(wěn)定性添加的小量。可以看到AdaGrad記錄了歷史梯度的逐元素累積平方和,并使用該累積和的平方根的逆作為學(xué)習(xí)率權(quán)重。AdaGrad的主要貢獻(xiàn)在于可以進(jìn)行學(xué)習(xí)率的自適應(yīng)調(diào)整,同時(shí)對(duì)梯度下降法略有加速。但是它也有很明顯的缺點(diǎn),更新公式的分母是所有歷史信息的求和,因此會(huì)隨著迭代變得越來(lái)越大,從而使得學(xué)習(xí)率衰減過(guò)快。AdaGrad算法在實(shí)際操作中往往會(huì)出現(xiàn)算法找到極小值點(diǎn)之前提前停止的情況。

          AdaDelta

          AdaDelta[Zeiler, 2012]是AdaGrad的延伸和改進(jìn)版本,它主要是為了解決Adagrad中歷史梯度累積平方和單調(diào)遞增的問(wèn)題。AdaDelta不再使用全部歷史信息,而是提出使用某個(gè)固定窗寬內(nèi)的歷史梯度信息計(jì)算累計(jì)平方和。由于計(jì)算固定窗寬內(nèi)的梯度累積平方和需要存儲(chǔ)個(gè)歷史梯度平方的信息,AdaDelta轉(zhuǎn)而使用指數(shù)加權(quán)的方式累積歷史信息:
          其中指數(shù)加權(quán)參數(shù)的推薦值為0.9。進(jìn)而有迭代公式:
          作者在文章中指出,之前的梯度類(lèi)算法(包括原始梯度下降、動(dòng)量梯度下降和AdaGrad)更新公式中參數(shù)的單位并沒(méi)有一致。這里具體是指,各自有自己的單位和尺度,在之前的算法里并沒(méi)有考慮這個(gè)問(wèn)題。作者考慮修正這個(gè)問(wèn)題,因此AdaDelta最終的更新公式變?yōu)椋?/section>
          可以看到,分子使用保證了單位的一致性,同時(shí)代替了學(xué)習(xí)率的作用。因此,AdaDelta算法不再需要設(shè)定學(xué)習(xí)率

          RMSprop

          RMSprop[Tieleman and Hinton, 2012]和AdaDelta的思路十分相似,兩個(gè)算法同年分別被Hinton和Zeiler提出,有趣的是Hinton正是Zeiler的導(dǎo)師。RMSprop最早出現(xiàn)在Hinton在Coursera的課程中,這一算法成果并未發(fā)表。其更新公式與第一階段的AdaDelta一致:

          其中指數(shù)加權(quán)參數(shù)的推薦值為0.9,學(xué)習(xí)率的推薦值為0.001。

          Adam

          自適應(yīng)矩估計(jì)算法(Adaptive Moment Estimation, Adam)[Kingma and Ba, 2015]是將搜索方向和學(xué)習(xí)率結(jié)合在一起考慮的改進(jìn)算法,其原論文引用量為ICLR官方引用最高的文章。Adam的思路非常清晰:搜索方向上,借鑒動(dòng)量梯度下降法使用梯度的指數(shù)加權(quán);學(xué)習(xí)率上,借鑒RMSprop使用自適應(yīng)學(xué)習(xí)率調(diào)整。所謂矩估計(jì),則是修正采用指數(shù)加權(quán)帶來(lái)的偏差。其更新公式具體如下:

          作者推薦參數(shù)的取值為,以及小量。在實(shí)際應(yīng)用中,Adam的收斂速度通常優(yōu)于其他梯度類(lèi)優(yōu)化算法,這也是Adam十分受歡迎的一大原因。相比于之前的算法,Adam需要記錄兩個(gè)歷史信息,這使得Adam和AdaDelta一樣,需要多儲(chǔ)存一個(gè)長(zhǎng)度為的向量。

          AdaMax 與 Nadam

          我們?cè)谶@一小節(jié)簡(jiǎn)要介紹一下Adam的兩個(gè)重要變體:AdaMax與Nadam。AdaMax是Adam作者在原論文后面自行提出的拓展。其主要思路就是保持搜索方向保持不變,調(diào)整自適應(yīng)學(xué)習(xí)率的權(quán)重,從逐元素2范數(shù)推廣到逐元素范數(shù),甚至是無(wú)窮范數(shù):
          對(duì)于無(wú)窮范數(shù)的情形,作者建議不再對(duì)進(jìn)行糾偏。

          Nadam[Dozat, 2016]則是將Adam中關(guān)于搜索方向的部分改為使用Nesterov動(dòng)量。在引入其更新公式之前,我們首先給出NAG的等價(jià)更新形式。

          可以看到,NAG得到等價(jià)形式與動(dòng)量梯度下降法的區(qū)別僅僅在最后一步,動(dòng)量梯度下降法參數(shù)的更新量為,而NAG中則是。回顧Adam的更新公式(忽略的部分):
          仿照NAG的等價(jià)形式,我們將上述等式中的替換為 即可得到Nadam的更新公式:

          一些可視化結(jié)果

          我們展示兩幅圖片來(lái)對(duì)比不同的優(yōu)化算法的表現(xiàn),如圖4所示。

          圖4:梯度下降算法的可視化結(jié)果

          圖4-(a)展示的是六種梯度下降改進(jìn)算法在Beale函數(shù)的函數(shù)曲面的優(yōu)化路徑。等高線(xiàn)由紅變藍(lán)的過(guò)程表示函數(shù)值由大到小,最小值點(diǎn)在圖中由五角星標(biāo)出。所有的算法均從同一點(diǎn)出發(fā),可以看到自適應(yīng)學(xué)習(xí)率類(lèi)的算法(AdaGrad, AdaDelta和RMSprop)的優(yōu)化路徑直接走向了右邊的極小值點(diǎn),但是動(dòng)量梯度法(綠色曲線(xiàn))和NAG(紫色曲線(xiàn))均是先走到了另一處狹長(zhǎng)的區(qū)域,再轉(zhuǎn)向極小值點(diǎn),且NAG的糾正速度快于動(dòng)量梯度法。

          圖4-(b)展示的是六種梯度下降改進(jìn)算法在鞍點(diǎn)附近的優(yōu)化路徑。所謂鞍點(diǎn)就是,滿(mǎn)足一階條件等于0但是海森矩陣的特征值有正有負(fù)的點(diǎn)。由于梯度下降算法僅僅考慮一階條件,理論上會(huì)受到鞍點(diǎn)的困擾。可以看到,SGD(紅色曲線(xiàn))在鞍點(diǎn)處停止,動(dòng)量梯度法(綠色曲線(xiàn))和NAG(紫色曲線(xiàn))在鞍點(diǎn)處停留一會(huì)后逐漸脫離鞍點(diǎn),而三種自適應(yīng)學(xué)習(xí)率算法則能夠快速擺脫鞍點(diǎn)。

          梯度類(lèi)算法相關(guān)研究

          并行SGD和分布式SGD

          在當(dāng)今無(wú)處不在的大數(shù)據(jù)時(shí)代,數(shù)據(jù)的分布方式和使用方式都不再像原來(lái)一樣單一。與之對(duì)應(yīng)的,當(dāng)數(shù)據(jù)仍然保存在本地,學(xué)者們開(kāi)始研究如何在單機(jī)上實(shí)現(xiàn)并行SGD[Niu et al., 2011]來(lái)進(jìn)行加速;當(dāng)數(shù)據(jù)分散地保存在不同的節(jié)點(diǎn),如何實(shí)現(xiàn)分布式SGD[Jeffrey Dean and Ng., 2012, Mcmahan and Streeter, 2014, Sixin Zhang and LeCun, 2015];更進(jìn)一步地,對(duì)于數(shù)據(jù)節(jié)點(diǎn)十分龐大而又需要保護(hù)用戶(hù)隱私的時(shí)代,聯(lián)邦學(xué)習(xí)(Federated Learning)版本的SGD[H. Brendan McMahan and y Arcas, 2016]同樣也是學(xué)者們關(guān)注的問(wèn)題。由于篇幅原因,我們不在這里進(jìn)行展開(kāi)。

          梯度類(lèi)算法的訓(xùn)練策略

          除了算法層面的改進(jìn),與算法相配套的訓(xùn)練策略或者其他技術(shù)同樣對(duì)訓(xùn)練模型有很大的影響。例如:

          • 數(shù)據(jù)打亂和課程式學(xué)習(xí). 有學(xué)者指出避免讓數(shù)據(jù)以固定單一的方式進(jìn)入模型訓(xùn)練能夠提升模型的泛化能力,因此在深度學(xué)習(xí)模型的訓(xùn)練中人們?cè)诿恳淮伪闅v全樣本后都會(huì)進(jìn)行數(shù)據(jù)打亂(Shuffling)。另一方面,有學(xué)者指出讓數(shù)據(jù)以某種有意義的順序參與模型訓(xùn)練能夠使模型更快收斂且表現(xiàn)不錯(cuò),這樣的方法被稱(chēng)為課程式學(xué)習(xí)(Curriculum Learning)[Yoshua Bengio and Weston, 2009].
          • 批量歸一化. 批量歸一化(Batch normalization)[Ioffe and Szegedy, 2015]是卷積神經(jīng)網(wǎng)絡(luò)中經(jīng)常使用的技術(shù),它能夠?qū)γ總€(gè)小批量的數(shù)據(jù)在模型的某些節(jié)點(diǎn)進(jìn)行歸一化。大量實(shí)驗(yàn)表明,這種技術(shù)能夠加速梯度類(lèi)算法的收斂、讓梯度類(lèi)算法使用更大的初始學(xué)習(xí)率以及減少參數(shù)初始化的影響。
          • 早停. 通過(guò)監(jiān)控驗(yàn)證集的精度指標(biāo)來(lái)決定是否要提前終止算法訓(xùn)練。
          • 梯度噪聲. [Neelakantan et al., 2015]提出在梯度上增加獨(dú)立的高斯噪聲,來(lái)幫助梯度類(lèi)算法增加穩(wěn)健性。他們猜測(cè),增加的梯度噪聲能夠幫助算法跳過(guò)局部鞍點(diǎn)和次優(yōu)的極小值點(diǎn)。

          梯度類(lèi)算法仍然面臨的挑戰(zhàn)

          盡管我們已經(jīng)介紹了非常多的梯度類(lèi)算法的改進(jìn)算法,但是梯度類(lèi)算法仍然面臨著許多挑戰(zhàn)。

          • 選擇合適的學(xué)習(xí)率是非常困難的事情。盡管在傳統(tǒng)的優(yōu)化領(lǐng)域和我們之前提到的自適應(yīng)學(xué)習(xí)率算法提供了很多解決這個(gè)問(wèn)題的方法。在深度模型的訓(xùn)練中,這些已有的方法仍然會(huì)遇到問(wèn)題,因此這仍是一個(gè)需要小心考慮和諸多嘗試的問(wèn)題。
          • 盡管梯度下降算法在理論上有許多性質(zhì)和結(jié)論,但實(shí)際得到神經(jīng)網(wǎng)絡(luò)往往不滿(mǎn)足已有結(jié)論的前提假設(shè)。在我們優(yōu)化超高維非凸的損失函數(shù)時(shí),如何保證算法不被鞍點(diǎn) [Zeiler, 2014]、平坦區(qū)域所困擾,依然是十分挑戰(zhàn)的問(wèn)題。
          • 對(duì)于超高維得到損失函數(shù),梯度類(lèi)算法表現(xiàn)地像黑箱優(yōu)化器,目前上沒(méi)有特別好的方法對(duì)這種超高維優(yōu)化進(jìn)行可視化分析。

          參考文獻(xiàn)

          Augustin-Louis Cauchy. Mode grale pour la rlution des systs d’ations simultan. Comptes rendus des sces de l’ Acade des sciences de Paris, pages 536–538, 10 1847.

          Xi Chen, Jason D Lee, Xin T Tong, and Yichen Zhang. Statistical inference for model parameters in stochastic gradient descent. arXiv preprint arXiv:1610.08637, 2016.

          Haskell B. Curry. The method of steepest descent for non-linear minimization problems. Quarterly of Applied Mathematics, pages 258–261, 2 1944.

          Jia Deng, Wei Dong, Richard Socher, Li Jia Li, and Fei Fei Li. Imagenet: A large-scale hierarchical image database. In IEEE Conference on Computer Vision and Pattern Recognition, 2009.

          Timothy Dozat. Incorporating nesterov momentum into adam. ICLR Workshop, 2016.

          John Duchi, Elad Hazan, and Yoram Singer. Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research, 12(7):257–269, 2011.

          Igor Gitman, Hunter Lang, Pengchuan Zhang, and Lin Xiao. Understanding the role of momentum in stochastic gradient methods. In Proceedings of 33rd Conference and Workshop on Neural Information Processing Systems, 2019.

          Daniel Ramage Seth Hampson H. Brendan McMahan, Eider Moore and Blaise Aguera y Arcas. Communication-efficient learning of deep networks from decentralized data. In International Conference on Machine Learning (ICML), 2016.

          Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In Proceedings of the 32nd annual international conference on machine learning, 2015.

          Rajat Monga Kai Chen Matthieu Devin Quoc V. Le Mark Z. Mao Marc Aurelio Ranzato Andrew Senior Paul Tucker Ke Yang Jeffrey Dean, Greg S. Corrado and Andrew Y. Ng. Large scale distributed deep networks. In Neural Information Processing Systems Conference (NIPS 2012), pages 1–11, 2012.

          Diederik P. Kingma and Jimmy Lei Ba. Adam: A method for stochastic optimization. In International Conference on Learning Representations, pages 1–13, 2015.

          H. Brendan Mcmahan and Matthew Streeter. Delay-tolerant algorithms for asynchronous distributed online learning. In Neural Information Processing Systems Conference (NIPS 2014), pages 1–9, 2014.

          A. Neelakantan, L. Vilnis, Q. V. Le, I. Sutskever, and J. Martens. Adding gradient noise improves learning for very deep networks. arXiv preprint arXiv:1511.06807., 2015.

          Arkadii S. Nemirovski, Anatoli Juditsky, Guanghui Lan, Shapiro, and A. Robust stochastic approximation approach to stochastic programming. SIAM Journal on Optimization, 19(4):1574–1609, 2009.

          Y. E. Nesterov. A method for solving the convex programming problem with convergence rate o(1/ ). Dok- l.akad.nauk Sssr, 269, 1983.

          Q. Ning. On the momentum term in gradient descent learning algorithms. Neural Netw, 12(1):145–151, 1999.

          F. Niu, B. Recht, C. Re, and S. J. Wright. Hogwild!: A lock-free approach to parallelizing stochastic gradient descent. In Neural Information Processing Systems Conference (NIPS 2011), pages 1–22, 2011.

          B. T. Polyak. Some methods of speeding up the convergence of iteration methods. Ussr Computational Mathe- matics Mathematical Physics, 4(5):1–17, 1964.

          A. Rakhlin, O. Shamir, and K. Sridharan. Making gradient descent optimal for strongly convex stochastic optimization. In International Conference on Machine Learning, 2012.

          Anna Choromanska Sixin Zhang and Yann LeCun. Deep learning with elastic averaging sgd. In Neural Information Processing Systems Conference (NIPS 2015), pages 1–9, 2015.

          R.S. Sutton. Twoproblemswith backpropagationand other steepest-descent learning proceduresfor networks. proc cognitive sci soc, 1986.

          T. Tieleman and G. Hinton. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural Networks for Machine Learning, pages 26–31, 2012.

          Panos Toulis and Edoardo M. Airoldi. Asymptotic and finite-sample properties of estimators based on stochastic gradients. Eprint Arxiv, 45(4):1694–1727, 2017.

          Ronan Collobert Yoshua Bengio, Jme Louradour and Jason Weston. Curriculum learning. In Proceedings of the 26th annual international conference on machine learning, pages 41–48, 2009.

          Matthew D. Zeiler. Adadelta: An adaptive learning rate method. arXiv preprint arXiv:1212.5701, 2012.

          Matthew D. Zeiler. Identifying and attacking the saddle point problem in high-dimensional nonconvex optimization. arXiv preprint arXiv:1406.2572, 2014.

          - END -

          瀏覽 217
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美色视频日本免费 | 欧美性爱淫秽视频 | 精产国品一区二区区别 | 一级A片黄片 | 在线播放 神尾舞视频 |