<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          為什么回歸問題用 MSE?

          共 2357字,需瀏覽 5分鐘

           ·

          2022-08-25 10:56

          來源:機(jī)器學(xué)習(xí)算法那些事
          本文約1700,建議閱讀9分鐘

          很多時(shí)候,一些基礎(chǔ)知識(shí)可能會(huì)影響你對一個(gè)模型結(jié)果表現(xiàn)的理解。


          最近在看李沐的實(shí)用機(jī)器學(xué)習(xí)課程,講到regression問題的loss的時(shí)候有彈幕問:“為什么要平方?”

          如果是幾年前學(xué)生問我這個(gè)問題,我會(huì)回答:“因?yàn)樽龌貧w的時(shí)候的我們的殘差有正有負(fù),取個(gè)平方求和以后可以很簡單的衡量模型的好壞。同時(shí)因?yàn)槠椒胶笕菀浊髮?dǎo)數(shù),比取絕對值還要分情況討論好用?!?br style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;visibility: visible;">


          但是經(jīng)過了幾年的科研以后,我覺得這樣的回答太過于經(jīng)驗(yàn)性了,一定會(huì)有什么更有道理的解釋,于是在知乎上搜了搜。

          《CC思SS:回歸模型中的代價(jià)函數(shù)應(yīng)該用MSE還是MAE[1]》 這篇文章中提到MSE對于偏差比較大的數(shù)據(jù)懲罰得比較多,但是會(huì)被outlier影響,同時(shí)MSE的優(yōu)化目標(biāo)是平均值,而MAE的優(yōu)化目標(biāo)是中位數(shù)。即如果我們的數(shù)據(jù)集足夠大,對于同一個(gè)x會(huì)有多個(gè)y,MSE的目標(biāo)是盡可能讓我們的預(yù)測值接近這些y的平均值。同時(shí)這篇文章還提到在做gradient descent的時(shí)候,MSE的梯度可以在越接近最小值的地方越平緩,這樣不容易步子扯大了。而MAE的梯度一直不變,得手動(dòng)調(diào)整learning rate。

          《在回歸問題中,為何對MSE損失的最小化等效于最大似然估計(jì)?[2]》而這個(gè)問題里有人提到“根據(jù)中心極限定理,誤差服從正態(tài)分布,此時(shí)使得樣本似然函數(shù)最大等價(jià)于使得MSE最小。” 這段話引起了我的興趣,在查閱了一些英文資料以后發(fā)現(xiàn)這是來自于花書的結(jié)論(Ian的《Deep Learning》)。

          以下解釋來源于花書(5.5)和[這篇博客][3]

          要弄懂為什么回歸問題要用MSE,首先要先明白什么是極大似然估計(jì)MLE(Maximum Likelihood Estimation)。

          極大似然估計(jì)MLE

          用一個(gè)一維的數(shù)據(jù)來講解MLE的過程,假設(shè)我們有一組數(shù)據(jù),我們假設(shè)它服從正態(tài)分布,我們的目的是:找到一組正態(tài)分布的均值和方差,使得在這套正態(tài)分布的均值方差下,我們觀測到這批數(shù)據(jù)的概率最大。



          手上的數(shù)據(jù)

          關(guān)于這組數(shù)據(jù),我們先胡亂地猜測一下它符合的正態(tài)分布如下:



          胡亂猜測的正態(tài)分布


          對于這個(gè)正態(tài)分布,我們可以計(jì)算每個(gè)點(diǎn)出現(xiàn)的概率: 。其中  和  是這個(gè)正態(tài)分布的均值和方差, 是第 條數(shù)據(jù),我們把每條數(shù)據(jù)出現(xiàn)的概率相乘,得到了“在這套正態(tài)分布的均值方差下,我們觀測到這批數(shù)據(jù)的概率”。


          同樣的,我們可以猜測另一種正態(tài)分布:



          另一種猜測的正態(tài)分布


          同樣的,我們可以計(jì)算“在這套正態(tài)分布的均值方差下,我們觀測到這批數(shù)據(jù)的概率”。


          最后,我們在這群待選的均值和方差中,選出那個(gè)能使我們觀測到這批數(shù)據(jù)的概率最大的均值和方差。也就是我們在做


          回歸問題

          現(xiàn)在我們再看回歸問題,對于回歸問題來說,我們的目標(biāo)不是去找一個(gè)x的正態(tài)分布了。對于一個(gè)回歸問題,我們以最簡單的線性回歸舉例。對于一個(gè)回歸問題,我們的目標(biāo)是 ,其中  和  是模型的參數(shù),而 是噪聲,我們假設(shè)噪聲符合正態(tài)分布 。


          那么我們的 其實(shí)也可以看成符合正態(tài)分布(并不是嚴(yán)謹(jǐn)?shù)膶懛ǎ?nbsp; ,其中 其實(shí)就是模型的預(yù)測值,也就是說  。


          正態(tài)分布的probability density function是  ,帶入得到


          那么也就是說,如果我們想最大化我們觀測到的 的情況的話,我們應(yīng)該最大化上面這個(gè)pdf的連乘結(jié)果。注意到這個(gè)值由一個(gè)常數(shù)乘上一個(gè) 的次方項(xiàng),優(yōu)化的時(shí)候常數(shù)項(xiàng)可以忽略。


          于是我們的目標(biāo)變成了 ,這里出現(xiàn)了連乘,又出現(xiàn)了 的次方項(xiàng),很正常的想到取log,于是變成了  ,忽略常數(shù)項(xiàng),稍微整理一下得到  。


          于是我們就證明了,我們在做線性回歸的時(shí)候,我們?nèi)绻僭O(shè)我們的噪聲符合高斯分布,那么我們的目標(biāo)函數(shù)就是MSE。


          總結(jié)

          很多時(shí)候,一些基礎(chǔ)知識(shí)可能會(huì)影響你對一個(gè)模型結(jié)果表現(xiàn)的理解,如果對這種基礎(chǔ)知識(shí)沒有概念的話,深度學(xué)習(xí)就變成了瞎調(diào)模型瞎調(diào)參數(shù)了。[另一篇博客][4]就提到了,在做super resolution的時(shí)候,如果用MSE,做出來的圖片會(huì)非常的模糊,就是因?yàn)镸SE是基于高斯分布假設(shè),最后的結(jié)果會(huì)盡可能地靠近高斯分布最高的地方,使得結(jié)果不會(huì)太sharp。以后還是得適時(shí)提高深度學(xué)習(xí)的理論基礎(chǔ)。


          參考資料 REFERENCE


          [1] CC思SS:回歸模型中的代價(jià)函數(shù)應(yīng)該用MSE還是MAE
          https://zhuanlan.zhihu.com/p/45790146

          [2] 在回歸問題中,為何對MSE損失的最小化等效于最大似然估計(jì)?
          https://www.zhihu.com/question/426901520

          [3] https://link.zhihu.com/?target=https%3A//towardsdatascience.com/where-does-mean-squared-error-mse-come-from-2002bbbd7806

          [4] https://link.zhihu.com/?target=https%3A//towardsdatascience.com/mse-is-cross-entropy-at-heart-maximum-likelihood-estimation-explained-181a29450a0b

          作者:Matrix.小澤直樹

          來源:https://zhuanlan.zhihu.com/p/463812174

          編輯:黃繼彥





          瀏覽 41
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美人与动Zozo禽交大全 | 午夜操操逼 | 成人三级电影大香蕉 | 欧美精品在线自偷自拍 | 亚洲国内精品 |