国产成人在线视频免费,靠逼视频网站在线观看,日本欧洲久久精品视频,老司机你懂的在线观看,国产内射婷婷,福利黄片,日韩一级片免费,俺也去官网

1梯度下降

我們以所有方法中最基本、最差的（原因后文敘述）的梯度下降法來開始我們對優(yōu)化方法的學(xué)習(xí)。

問題:

\min_w f(w)

迭代式:

w_{k+1} = w_k - \gamma_k \nabla f(w_k)

其中,

是第次迭代后的更新值,
是第次迭代前的初始值,
是步長,
是的梯度。

這里假設(shè)函數(shù) 是連續(xù)且可導(dǎo)的。我們的目標(biāo)是找到優(yōu)化方程的最低點（谷）。但是，實際到最低谷的方法是未知的。我們只能局部地看, 因此梯度的負方向就是我們知道的最好的信息。向那個方法移動一小步將向最小值靠近。我們每移動一小步便重新計算梯度并且再向其相反方向移動一小步，直到我們到達最低谷。因此本質(zhì)上來講，梯度下降法所作的一切就是沿著下降地最急劇的方向（負梯度）。

迭代更新式中的參數(shù) 叫做步長?？偟膩碚f，我們不知道最佳的步長值; 所以我們必須嘗試不同的值。

標(biāo)準的方式是嘗試一串呈對數(shù)比例的值然后使用最好的值。這里可能會出現(xiàn)一些不同的情況。上面這張圖描繪了一元二次函數(shù)的情況。如果學(xué)習(xí)率太小，那么我們將穩(wěn)定地向最小值前進。但是，這可能會比理想狀態(tài)更費時。

想得到一個步長值可以直接得到最小值是非常困難的（或者不可能的）。一個比較理想的想法是得到一個比理想步長稍大一點的步長。實際中，這樣收斂最快。但是如果我們使用過大的學(xué)習(xí)率，那么將會迭代至離最小值很遠導(dǎo)致不收斂。在實際中，我們想使用稍小于不收斂的學(xué)習(xí)率。

2隨機梯度下降

在隨機梯度下降中，我們用梯度向量的隨機估計替換實際的梯度向量。專門針對神經(jīng)網(wǎng)絡(luò)，隨機估計是指單個數(shù)據(jù)點（單個實例）的損耗梯度。

令表示第個實例的網(wǎng)絡(luò)損失。

f_i = l(x_i, y_i, w)

最終我們想最小化的函數(shù)是 ,表示所有實例的總損失。

f = \frac{1}{n}\sum_i^n f_i

在SGD中，我們根據(jù) 上的梯度（而不是總損失 $f$ 上的梯度）更新權(quán)重。

\begin{aligned} w_{k+1} &= w_k - \gamma_k \nabla f_i(w_k) & \quad\text{(i隨機選擇統(tǒng)一)} \end{aligned}

如果是隨機選擇的, 那么是一個有噪聲但無偏的的估計量, 其表達式為:

\mathbb{E}[\nabla f_i(w_k)] = \nabla f(w_k)

結(jié)果，SGD 的預(yù)期第步與完全梯度下降的第步相同：

\mathbb{E}[w_{k+1}] = w_k - \gamma_k \mathbb{E}[\nabla f_i(w_k)] = w_k - \gamma_k \nabla f(w_k)

因此，任何 SGD 更新都與預(yù)期的批次更新相同。但是，SGD 不僅具有噪聲的更快的梯度下降。除了更快之外，SGD 還可以比全批次梯度下降獲得更好的結(jié)果。SGD 中的噪聲可以幫助我們避免淺的局部最小值，并找到更好的（較深）最小值。這種現(xiàn)象稱為退火.

總的來說，隨機梯度下降的優(yōu)點如下:

1、跨實例有很多冗余信息，SGD 可以防止很多此類冗余計算。
2、在初期,與梯度中的信息相比，噪聲較小。因此，SGD 的一步和 GD 的一步實際上一樣好 .
3、退火 - SGD 更新中的噪聲可阻止收斂到壞的（淺）局部最小值。
4、隨機梯度下降計算的成本大大降低（因為您無需遍歷所有數(shù)據(jù)點）。

Ξ小批次處理

在小批次處理中，我們考慮多個隨機選擇的實例上的損失，而不是僅計算一個實例上的損失。這樣可以減少步進更新中的噪聲。

w_{k+1} = w_k - \gamma_k \frac{1}{|B_i|} \sum_{j \in B_i}\nabla f_j(w_k)

通常，我們可以通過使用小型批處理而不是單個實例來更好地利用我們的硬件。例如，當(dāng)我們使用單實例訓(xùn)練時，GPU使用率很低。分布式網(wǎng)絡(luò)訓(xùn)練技術(shù)將大型微型批處理在群集的機器之間進行分割，然后匯總生成的梯度。Facebook 最近使用分布式訓(xùn)練在一個小時內(nèi)對 ImageNet 數(shù)據(jù)上的網(wǎng)絡(luò)進行了訓(xùn)練。

重要的是要注意，梯度下降絕對不能用于全尺寸批次。如果您想以完整的批次大小進行訓(xùn)練，請使用一種稱為 LBFGS 的優(yōu)化技術(shù)。PyTorch 和 SciPy 都提供了該技術(shù)的實現(xiàn)。

3動量

在動量中, 我們有兩個迭代 ( 和 )，而不僅僅是一個。更新式如下:

\begin{aligned} p_{k+1} &= \hat{\beta_k}p_k + \nabla f_i(w_k) \\ w_{k+1} &= w_k - \gamma_kp_{k+1} \\ \end{aligned}

稱作 SGD 動量。在每個更新步驟中，我們將動量的舊值減去系數(shù) （0到1之間的值），然后將其添加到動量的舊值?？梢詫? 視為梯度的平均值。最后，我們向新動量的方向移動。

替代形式: 隨機重球法

\begin{aligned} w_{k+1} &= w_k - \gamma_k \nabla f_i(w_k) + \beta_k(w_k - w_{k-1}) & 0 \leq \beta < 1 \end{aligned}

該形式在數(shù)學(xué)上與先前的形式等價。在這里，下一步是上一步的方向（）和新的負梯度的組合。

Ξ直觀

SGD 動量類似于物理學(xué)中的動量概念。優(yōu)化過程就像一個沉重的球滾下山坡，動量使球保持與已經(jīng)移動的方向相同的方向，梯度可以認為是沿其他方向推動球的力。

Source:distill.pub^[1]

動量并沒有使行進方向發(fā)生巨大變化（如左圖所示），而是產(chǎn)生了適度的變化。動量可減輕僅使用SGD時常見的振蕩。

參數(shù)稱為阻尼因子。必須大于零，因為如果它等于零，那么你只是在進行梯度下降；它也必須小于 1，否則一切都會崩潰。的值較小會導(dǎo)致方向更改更快。對于較大的值，轉(zhuǎn)向需要更長的時間。

Ξ實用指南

動量必須總是與隨機梯度下降一起使用。 = 0.9 或者 0.99 基本上效果會很好。

當(dāng)增加動量參數(shù)以保持收斂時，通常需要減小步長參數(shù)。如果從 0.9 變?yōu)?0.99，則學(xué)習(xí)率必須降低10倍。

Ξ為什么動量有用？

加速

以下是涅斯捷羅夫動量的更新規(guī)則。

p_{k+1} = \hat{\beta_k}p_k + \nabla f_i(w_k)

w_{k+1} = w_k - \gamma_k(\nabla f_i(w_k) +\hat{\beta_k}p_{k+1})

使用涅斯捷羅夫動量，如果你非常仔細地選擇常數(shù)，則可以加快收斂速度。但這僅適用于凸問題，不適用于神經(jīng)網(wǎng)絡(luò)。

許多人說，正常的動量也是一種加速的方法。但實際上，它僅對二次方加速。此外，由于 SGD 帶有噪音，加速不適用于 SGD，因此不適用于 SGD。因此，盡管 Momentum SGD 有一些加速作用，但僅憑它并不能很好地解釋該技術(shù)的高性能。

噪聲平滑

可能一個更實際和更可能動量效果很好的原因是噪聲平滑。動量均衡了梯度。這是我們用于每個步驟更新的漸變的平均值。從理論上講，為了使 SGD 能夠正常工作，我們應(yīng)該對所有步驟進行平均。

\bar w_k = \frac{1}{K} \sum_{k=1}^K w_k

SGD 具有動量的優(yōu)點在于，不再需要進行平均。動量為優(yōu)化過程增加了平滑度，從而使每次更新都很好地接近解。使用 SGD，你需要平均所有的更新，然后朝這個方向前進一步。

加速和噪聲平滑都有助于提高動量性能。

使用 SGD，在求解初期取得良好的進展，但是當(dāng)?shù)竭_函數(shù)最低區(qū)域（谷底）時，會在此反彈。如果我們調(diào)整學(xué)習(xí)率，我們的反彈速度將會變慢。有了動量，就會使步伐變得平穩(wěn)，以至于沒有反彈發(fā)生。

課程主頁

https://atcold.github.io/pytorch-Deep-Learning/

?參考資料?

[1]

distill.pub: https://distill.pub/2017/momentum/

[2]

原文: https://atcold.github.io/pytorch-Deep-Learning/zh/week05/05-1/

紐約大學(xué)課程: 深度學(xué)習(xí)中的優(yōu)化工具