為什么回歸問題用 MSE?

來源:機(jī)器學(xué)習(xí)算法那些事 本文約1700字,建議閱讀9分鐘 很多時(shí)候,一些基礎(chǔ)知識(shí)可能會(huì)影響你對一個(gè)模型結(jié)果表現(xiàn)的理解。
極大似然估計(jì)MLE


胡亂猜測的正態(tài)分布
對于這個(gè)正態(tài)分布,我們可以計(jì)算每個(gè)點(diǎn)出現(xiàn)的概率: 。其中 和 是這個(gè)正態(tài)分布的均值和方差, 是第 條數(shù)據(jù),我們把每條數(shù)據(jù)出現(xiàn)的概率相乘,得到了“在這套正態(tài)分布的均值方差下,我們觀測到這批數(shù)據(jù)的概率”。
同樣的,我們可以猜測另一種正態(tài)分布:

另一種猜測的正態(tài)分布
同樣的,我們可以計(jì)算“在這套正態(tài)分布的均值方差下,我們觀測到這批數(shù)據(jù)的概率”。
最后,我們在這群待選的均值和方差中,選出那個(gè)能使我們觀測到這批數(shù)據(jù)的概率最大的均值和方差。也就是我們在做
回歸問題
現(xiàn)在我們再看回歸問題,對于回歸問題來說,我們的目標(biāo)不是去找一個(gè)x的正態(tài)分布了。對于一個(gè)回歸問題,我們以最簡單的線性回歸舉例。對于一個(gè)回歸問題,我們的目標(biāo)是 ,其中 和 是模型的參數(shù),而 是噪聲,我們假設(shè)噪聲符合正態(tài)分布 。
那么我們的 其實(shí)也可以看成符合正態(tài)分布(并不是嚴(yán)謹(jǐn)?shù)膶懛ǎ?nbsp; ,其中 其實(shí)就是模型的預(yù)測值,也就是說 。
正態(tài)分布的probability density function是 ,帶入得到
那么也就是說,如果我們想最大化我們觀測到的 的情況的話,我們應(yīng)該最大化上面這個(gè)pdf的連乘結(jié)果。注意到這個(gè)值由一個(gè)常數(shù)乘上一個(gè) 的次方項(xiàng),優(yōu)化的時(shí)候常數(shù)項(xiàng)可以忽略。
于是我們的目標(biāo)變成了
于是我們就證明了,我們在做線性回歸的時(shí)候,我們?nèi)绻僭O(shè)我們的噪聲符合高斯分布,那么我們的目標(biāo)函數(shù)就是MSE。
總結(jié)
[1] CC思SS:回歸模型中的代價(jià)函數(shù)應(yīng)該用MSE還是MAE
https://zhuanlan.zhihu.com/p/45790146
[2] 在回歸問題中,為何對MSE損失的最小化等效于最大似然估計(jì)?
https://www.zhihu.com/question/426901520
[3] https://link.zhihu.com/?target=https%3A//towardsdatascience.com/where-does-mean-squared-error-mse-come-from-2002bbbd7806
[4] https://link.zhihu.com/?target=https%3A//towardsdatascience.com/mse-is-cross-entropy-at-heart-maximum-likelihood-estimation-explained-181a29450a0b
編輯:黃繼彥
