為什么回歸問題用 MSE?
共 6366字,需瀏覽 13分鐘
·
2024-04-18 14:22
最近在看李沐的實(shí)用機(jī)器學(xué)習(xí)課程,講到regression問題的loss的時(shí)候有彈幕問:“為什么要平方?”
如果是幾年前學(xué)生問我這個(gè)問題,我會(huì)回答:“因?yàn)樽龌貧w的時(shí)候的我們的殘差有正有負(fù),取個(gè)平方求和以后可以很簡(jiǎn)單的衡量模型的好壞。同時(shí)因?yàn)槠椒胶笕菀浊髮?dǎo)數(shù),比取絕對(duì)值還要分情況討論好用?!?br>
但是經(jīng)過了幾年的科研以后,我覺得這樣的回答太過于經(jīng)驗(yàn)性了,一定會(huì)有什么更有道理的解釋,于是在知乎上搜了搜。
《CC思SS:回歸模型中的代價(jià)函數(shù)應(yīng)該用MSE還是MAE[1]》 這篇文章中提到MSE對(duì)于偏差比較大的數(shù)據(jù)懲罰得比較多,但是會(huì)被outlier影響,同時(shí)MSE的優(yōu)化目標(biāo)是平均值,而MAE的優(yōu)化目標(biāo)是中位數(shù)。即如果我們的數(shù)據(jù)集足夠大,對(duì)于同一個(gè)x會(huì)有多個(gè)y,MSE的目標(biāo)是盡可能讓我們的預(yù)測(cè)值接近這些y的平均值。同時(shí)這篇文章還提到在做gradient descent的時(shí)候,MSE的梯度可以在越接近最小值的地方越平緩,這樣不容易步子扯大了。而MAE的梯度一直不變,得手動(dòng)調(diào)整learning rate。
《在回歸問題中,為何對(duì)MSE損失的最小化等效于最大似然估計(jì)?[2]》而這個(gè)問題里有人提到“根據(jù)中心極限定理,誤差服從正態(tài)分布,此時(shí)使得樣本似然函數(shù)最大等價(jià)于使得MSE最小。” 這段話引起了我的興趣,在查閱了一些英文資料以后發(fā)現(xiàn)這是來自于花書的結(jié)論(Ian的《Deep Learning》)。
以下解釋來源于花書(5.5)和[這篇博客][3]
要弄懂為什么回歸問題要用MSE,首先要先明白什么是極大似然估計(jì)MLE(Maximum Likelihood Estimation)。
極大似然估計(jì)MLE
用一個(gè)一維的數(shù)據(jù)來講解MLE的過程,假設(shè)我們有一組數(shù)據(jù),我們假設(shè)它服從正態(tài)分布,我們的目的是:找到一組正態(tài)分布的均值和方差,使得在這套正態(tài)分布的均值方差下,我們觀測(cè)到這批數(shù)據(jù)的概率最大。
手上的數(shù)據(jù)
關(guān)于這組數(shù)據(jù),我們先胡亂地猜測(cè)一下它符合的正態(tài)分布如下:
胡亂猜測(cè)的正態(tài)分布
對(duì)于這個(gè)正態(tài)分布,我們可以計(jì)算每個(gè)點(diǎn)出現(xiàn)的概率: 。其中 和 是這個(gè)正態(tài)分布的均值和方差, 是第 條數(shù)據(jù),我們把每條數(shù)據(jù)出現(xiàn)的概率相乘,得到了“在這套正態(tài)分布的均值方差下,我們觀測(cè)到這批數(shù)據(jù)的概率”。
同樣的,我們可以猜測(cè)另一種正態(tài)分布:
另一種猜測(cè)的正態(tài)分布
同樣的,我們可以計(jì)算“在這套正態(tài)分布的均值方差下,我們觀測(cè)到這批數(shù)據(jù)的概率”。
最后,我們?cè)谶@群待選的均值和方差中,選出那個(gè)能使我們觀測(cè)到這批數(shù)據(jù)的概率最大的均值和方差。也就是我們?cè)谧?/span>
回歸問題
現(xiàn)在我們?cè)倏椿貧w問題,對(duì)于回歸問題來說,我們的目標(biāo)不是去找一個(gè)x的正態(tài)分布了。對(duì)于一個(gè)回歸問題,我們以最簡(jiǎn)單的線性回歸舉例。對(duì)于一個(gè)回歸問題,我們的目標(biāo)是 ,其中 和 是模型的參數(shù),而 是噪聲,我們假設(shè)噪聲符合正態(tài)分布 。
那么我們的 其實(shí)也可以看成符合正態(tài)分布(并不是嚴(yán)謹(jǐn)?shù)膶懛ǎ? ,其中 其實(shí)就是模型的預(yù)測(cè)值,也就是說 。
正態(tài)分布的probability density function是 ,帶入得到
那么也就是說,如果我們想最大化我們觀測(cè)到的 的情況的話,我們應(yīng)該最大化上面這個(gè)pdf的連乘結(jié)果。注意到這個(gè)值由一個(gè)常數(shù)乘上一個(gè) 的次方項(xiàng),優(yōu)化的時(shí)候常數(shù)項(xiàng)可以忽略。
于是我們的目標(biāo)變成了
于是我們就證明了,我們?cè)谧鼍€性回歸的時(shí)候,我們?nèi)绻僭O(shè)我們的噪聲符合高斯分布,那么我們的目標(biāo)函數(shù)就是MSE。
總結(jié)
很多時(shí)候,一些基礎(chǔ)知識(shí)可能會(huì)影響你對(duì)一個(gè)模型結(jié)果表現(xiàn)的理解,如果對(duì)這種基礎(chǔ)知識(shí)沒有概念的話,深度學(xué)習(xí)就變成了瞎調(diào)模型瞎調(diào)參數(shù)了。[另一篇博客][4]就提到了,在做super resolution的時(shí)候,如果用MSE,做出來的圖片會(huì)非常的模糊,就是因?yàn)镸SE是基于高斯分布假設(shè),最后的結(jié)果會(huì)盡可能地靠近高斯分布最高的地方,使得結(jié)果不會(huì)太sharp。以后還是得適時(shí)提高深度學(xué)習(xí)的理論基礎(chǔ)。
參考資料
REFERENCE
