欧美精品三级片在线,草榴一区二区三区,青春草在线无码,日韩高清一级免费,亚洲AV无码成人精品区欧洲,HEZ-502搭讪绝品人妻系列,亚洲成人电影一区,色婷婷国产视频

作者：Matrix.小澤直樹

來源：https://zhuanlan.zhihu.com/p/463812174

最近在看李沐的實(shí)用機(jī)器學(xué)習(xí)課程，講到regression問題的loss的時(shí)候有彈幕問：“為什么要平方？”

如果是幾年前學(xué)生問我這個(gè)問題，我會(huì)回答：“因?yàn)樽龌貧w的時(shí)候的我們的殘差有正有負(fù)，取個(gè)平方求和以后可以很簡(jiǎn)單的衡量模型的好壞。同時(shí)因?yàn)槠椒胶笕菀浊髮?dǎo)數(shù)，比取絕對(duì)值還要分情況討論好用?！?br>

但是經(jīng)過了幾年的科研以后，我覺得這樣的回答太過于經(jīng)驗(yàn)性了，一定會(huì)有什么更有道理的解釋，于是在知乎上搜了搜。

《CC思SS：回歸模型中的代價(jià)函數(shù)應(yīng)該用MSE還是MAE^[1]》這篇文章中提到MSE對(duì)于偏差比較大的數(shù)據(jù)懲罰得比較多，但是會(huì)被outlier影響，同時(shí)MSE的優(yōu)化目標(biāo)是平均值，而MAE的優(yōu)化目標(biāo)是中位數(shù)。即如果我們的數(shù)據(jù)集足夠大，對(duì)于同一個(gè)x會(huì)有多個(gè)y，MSE的目標(biāo)是盡可能讓我們的預(yù)測(cè)值接近這些y的平均值。同時(shí)這篇文章還提到在做gradient descent的時(shí)候，MSE的梯度可以在越接近最小值的地方越平緩，這樣不容易步子扯大了。而MAE的梯度一直不變，得手動(dòng)調(diào)整learning rate。

《在回歸問題中，為何對(duì)MSE損失的最小化等效于最大似然估計(jì)？^[2]》而這個(gè)問題里有人提到“根據(jù)中心極限定理，誤差服從正態(tài)分布，此時(shí)使得樣本似然函數(shù)最大等價(jià)于使得MSE最小。” 這段話引起了我的興趣，在查閱了一些英文資料以后發(fā)現(xiàn)這是來自于花書的結(jié)論（Ian的《Deep Learning》）。

以下解釋來源于花書（5.5）和[這篇博客]^[3]

要弄懂為什么回歸問題要用MSE，首先要先明白什么是極大似然估計(jì)MLE（Maximum Likelihood Estimation）。

極大似然估計(jì)MLE

用一個(gè)一維的數(shù)據(jù)來講解MLE的過程，假設(shè)我們有一組數(shù)據(jù)，我們假設(shè)它服從正態(tài)分布，我們的目的是：找到一組正態(tài)分布的均值和方差，使得在這套正態(tài)分布的均值方差下，我們觀測(cè)到這批數(shù)據(jù)的概率最大。

手上的數(shù)據(jù)

關(guān)于這組數(shù)據(jù)，我們先胡亂地猜測(cè)一下它符合的正態(tài)分布如下：

胡亂猜測(cè)的正態(tài)分布

對(duì)于這個(gè)正態(tài)分布，我們可以計(jì)算每個(gè)點(diǎn)出現(xiàn)的概率：。其中和是這個(gè)正態(tài)分布的均值和方差，是第條數(shù)據(jù)，我們把每條數(shù)據(jù)出現(xiàn)的概率相乘，得到了“在這套正態(tài)分布的均值方差下，我們觀測(cè)到這批數(shù)據(jù)的概率”。

同樣的，我們可以猜測(cè)另一種正態(tài)分布：

另一種猜測(cè)的正態(tài)分布

同樣的，我們可以計(jì)算“在這套正態(tài)分布的均值方差下，我們觀測(cè)到這批數(shù)據(jù)的概率”。

最后，我們?cè)谶@群待選的均值和方差中，選出那個(gè)能使我們觀測(cè)到這批數(shù)據(jù)的概率最大的均值和方差。也就是我們?cè)谧?/span>

回歸問題

現(xiàn)在我們?cè)倏椿貧w問題，對(duì)于回歸問題來說，我們的目標(biāo)不是去找一個(gè)x的正態(tài)分布了。對(duì)于一個(gè)回歸問題，我們以最簡(jiǎn)單的線性回歸舉例。對(duì)于一個(gè)回歸問題，我們的目標(biāo)是，其中和是模型的參數(shù)，而是噪聲，我們假設(shè)噪聲符合正態(tài)分布。

那么我們的其實(shí)也可以看成符合正態(tài)分布（并不是嚴(yán)謹(jǐn)?shù)膶懛ǎ? ，其中其實(shí)就是模型的預(yù)測(cè)值，也就是說。

正態(tài)分布的probability density function是，帶入得到。

那么也就是說，如果我們想最大化我們觀測(cè)到的的情況的話，我們應(yīng)該最大化上面這個(gè)pdf的連乘結(jié)果。注意到這個(gè)值由一個(gè)常數(shù)乘上一個(gè) 的次方項(xiàng)，優(yōu)化的時(shí)候常數(shù)項(xiàng)可以忽略。

于是我們的目標(biāo)變成了，這里出現(xiàn)了連乘，又出現(xiàn)了的次方項(xiàng)，很正常的想到取log，于是變成了，忽略常數(shù)項(xiàng)，稍微整理一下得到。

于是我們就證明了，我們?cè)谧鼍€性回歸的時(shí)候，我們?nèi)绻僭O(shè)我們的噪聲符合高斯分布，那么我們的目標(biāo)函數(shù)就是MSE。

總結(jié)

很多時(shí)候，一些基礎(chǔ)知識(shí)可能會(huì)影響你對(duì)一個(gè)模型結(jié)果表現(xiàn)的理解，如果對(duì)這種基礎(chǔ)知識(shí)沒有概念的話，深度學(xué)習(xí)就變成了瞎調(diào)模型瞎調(diào)參數(shù)了。[另一篇博客][4]就提到了，在做super resolution的時(shí)候，如果用MSE，做出來的圖片會(huì)非常的模糊，就是因?yàn)镸SE是基于高斯分布假設(shè)，最后的結(jié)果會(huì)盡可能地靠近高斯分布最高的地方，使得結(jié)果不會(huì)太sharp。以后還是得適時(shí)提高深度學(xué)習(xí)的理論基礎(chǔ)。

參考資料

REFERENCE

[1] CC思SS：回歸模型中的代價(jià)函數(shù)應(yīng)該用MSE還是MAE
https://zhuanlan.zhihu.com/p/45790146

[2] 在回歸問題中，為何對(duì)MSE損失的最小化等效于最大似然估計(jì)？
https://www.zhihu.com/question/426901520

[3] https://link.zhihu.com/?target=https%3A//towardsdatascience.com/where-does-mean-squared-error-mse-come-from-2002bbbd7806

[4] https://link.zhihu.com/?target=https%3A//towardsdatascience.com/mse-is-cross-entropy-at-heart-maximum-likelihood-estimation-explained-181a29450a0b

   可能是全網(wǎng)最全的速查表：Python Numpy Pandas Matplotlib 機(jī)器學(xué)習(xí) ChatGPT等

  

   ChatGPT 系列研究報(bào)告（50個(gè)PDF），建了一個(gè)資料分享微信群

  

   搭建完美的技術(shù)寫作環(huán)境，第1-8章

   數(shù)據(jù)分析入門：統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)總結(jié)

為什么回歸問題用 MSE？