<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          為什么回歸問題用 MSE?

          共 6366字,需瀏覽 13分鐘

           ·

          2024-04-18 14:22

              
                 

          作者:Matrix.小澤直樹
          來源:https://zhuanlan.zhihu.com/p/463812174


          最近在看李沐的實(shí)用機(jī)器學(xué)習(xí)課程,講到regression問題的loss的時(shí)候有彈幕問:“為什么要平方?”

          如果是幾年前學(xué)生問我這個(gè)問題,我會(huì)回答:“因?yàn)樽龌貧w的時(shí)候的我們的殘差有正有負(fù),取個(gè)平方求和以后可以很簡(jiǎn)單的衡量模型的好壞。同時(shí)因?yàn)槠椒胶笕菀浊髮?dǎo)數(shù),比取絕對(duì)值還要分情況討論好用?!?br>

          但是經(jīng)過了幾年的科研以后,我覺得這樣的回答太過于經(jīng)驗(yàn)性了,一定會(huì)有什么更有道理的解釋,于是在知乎上搜了搜。

          《CC思SS:回歸模型中的代價(jià)函數(shù)應(yīng)該用MSE還是MAE[1]》 這篇文章中提到MSE對(duì)于偏差比較大的數(shù)據(jù)懲罰得比較多,但是會(huì)被outlier影響,同時(shí)MSE的優(yōu)化目標(biāo)是平均值,而MAE的優(yōu)化目標(biāo)是中位數(shù)。即如果我們的數(shù)據(jù)集足夠大,對(duì)于同一個(gè)x會(huì)有多個(gè)y,MSE的目標(biāo)是盡可能讓我們的預(yù)測(cè)值接近這些y的平均值。同時(shí)這篇文章還提到在做gradient descent的時(shí)候,MSE的梯度可以在越接近最小值的地方越平緩,這樣不容易步子扯大了。而MAE的梯度一直不變,得手動(dòng)調(diào)整learning rate。

          《在回歸問題中,為何對(duì)MSE損失的最小化等效于最大似然估計(jì)?[2]》而這個(gè)問題里有人提到“根據(jù)中心極限定理,誤差服從正態(tài)分布,此時(shí)使得樣本似然函數(shù)最大等價(jià)于使得MSE最小。” 這段話引起了我的興趣,在查閱了一些英文資料以后發(fā)現(xiàn)這是來自于花書的結(jié)論(Ian的《Deep Learning》)。

          以下解釋來源于花書(5.5)和[這篇博客][3]

          要弄懂為什么回歸問題要用MSE,首先要先明白什么是極大似然估計(jì)MLE(Maximum Likelihood Estimation)。

          極大似然估計(jì)MLE

          用一個(gè)一維的數(shù)據(jù)來講解MLE的過程,假設(shè)我們有一組數(shù)據(jù),我們假設(shè)它服從正態(tài)分布,我們的目的是:找到一組正態(tài)分布的均值和方差,使得在這套正態(tài)分布的均值方差下,我們觀測(cè)到這批數(shù)據(jù)的概率最大。

          手上的數(shù)據(jù)

          關(guān)于這組數(shù)據(jù),我們先胡亂地猜測(cè)一下它符合的正態(tài)分布如下:

          胡亂猜測(cè)的正態(tài)分布

          對(duì)于這個(gè)正態(tài)分布,我們可以計(jì)算每個(gè)點(diǎn)出現(xiàn)的概率: 。其中 是這個(gè)正態(tài)分布的均值和方差, 是第 條數(shù)據(jù),我們把每條數(shù)據(jù)出現(xiàn)的概率相乘,得到了“在這套正態(tài)分布的均值方差下,我們觀測(cè)到這批數(shù)據(jù)的概率”。

          同樣的,我們可以猜測(cè)另一種正態(tài)分布:

          另一種猜測(cè)的正態(tài)分布

          同樣的,我們可以計(jì)算“在這套正態(tài)分布的均值方差下,我們觀測(cè)到這批數(shù)據(jù)的概率”。

          最后,我們?cè)谶@群待選的均值和方差中,選出那個(gè)能使我們觀測(cè)到這批數(shù)據(jù)的概率最大的均值和方差。也就是我們?cè)谧?/span>

          回歸問題

          現(xiàn)在我們?cè)倏椿貧w問題,對(duì)于回歸問題來說,我們的目標(biāo)不是去找一個(gè)x的正態(tài)分布了。對(duì)于一個(gè)回歸問題,我們以最簡(jiǎn)單的線性回歸舉例。對(duì)于一個(gè)回歸問題,我們的目標(biāo)是 ,其中 是模型的參數(shù),而 是噪聲,我們假設(shè)噪聲符合正態(tài)分布

          那么我們的 其實(shí)也可以看成符合正態(tài)分布(并不是嚴(yán)謹(jǐn)?shù)膶懛ǎ? ,其中 其實(shí)就是模型的預(yù)測(cè)值,也就是說

          正態(tài)分布的probability density function是 ,帶入得到。

          那么也就是說,如果我們想最大化我們觀測(cè)到的 的情況的話,我們應(yīng)該最大化上面這個(gè)pdf的連乘結(jié)果。注意到這個(gè)值由一個(gè)常數(shù)乘上一個(gè) 的次方項(xiàng),優(yōu)化的時(shí)候常數(shù)項(xiàng)可以忽略。

          于是我們的目標(biāo)變成了 ,這里出現(xiàn)了連乘,又出現(xiàn)了 的次方項(xiàng),很正常的想到取log,于是變成了 ,忽略常數(shù)項(xiàng),稍微整理一下得到 。

          于是我們就證明了,我們?cè)谧鼍€性回歸的時(shí)候,我們?nèi)绻僭O(shè)我們的噪聲符合高斯分布,那么我們的目標(biāo)函數(shù)就是MSE。

          總結(jié)

          很多時(shí)候,一些基礎(chǔ)知識(shí)可能會(huì)影響你對(duì)一個(gè)模型結(jié)果表現(xiàn)的理解,如果對(duì)這種基礎(chǔ)知識(shí)沒有概念的話,深度學(xué)習(xí)就變成了瞎調(diào)模型瞎調(diào)參數(shù)了。[另一篇博客][4]就提到了,在做super resolution的時(shí)候,如果用MSE,做出來的圖片會(huì)非常的模糊,就是因?yàn)镸SE是基于高斯分布假設(shè),最后的結(jié)果會(huì)盡可能地靠近高斯分布最高的地方,使得結(jié)果不會(huì)太sharp。以后還是得適時(shí)提高深度學(xué)習(xí)的理論基礎(chǔ)。

          參考資料

          REFERENCE


          [1] CC思SS:回歸模型中的代價(jià)函數(shù)應(yīng)該用MSE還是MAE
          https://zhuanlan.zhihu.com/p/45790146

          [2] 在回歸問題中,為何對(duì)MSE損失的最小化等效于最大似然估計(jì)?
          https://www.zhihu.com/question/426901520

          [3] https://link.zhihu.com/?target=https%3A//towardsdatascience.com/where-does-mean-squared-error-mse-come-from-2002bbbd7806

          [4] https://link.zhihu.com/?target=https%3A//towardsdatascience.com/mse-is-cross-entropy-at-heart-maximum-likelihood-estimation-explained-181a29450a0b

          可能是全網(wǎng)最全的速查表:Python Numpy Pandas Matplotlib 機(jī)器學(xué)習(xí) ChatGPT等
          ChatGPT 系列研究報(bào)告(50個(gè)PDF),建了一個(gè)資料分享微信群
          搭建完美的技術(shù)寫作環(huán)境,第1-8章
          數(shù)據(jù)分析入門:統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)總結(jié)

          瀏覽 135
          10點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          10點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲一区豆花视频 | 欧美在线黄色 | 麻豆国产91 在线播放 | 亚洲天堂视频在线播放 | 免费插逼视频 |