<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          為什么回歸問題用MSE?

          共 2482字,需瀏覽 5分鐘

           ·

          2022-07-08 18:15

          作者:Matrix.小澤直樹
          來源:https://zhuanlan.zhihu.com/p/463812174


          最近在看李沐的實(shí)用機(jī)器學(xué)習(xí)課程,講到regression問題的loss的時(shí)候有彈幕問:“為什么要平方?”

          如果是幾年前學(xué)生問我這個(gè)問題,我會(huì)回答:“因?yàn)樽龌貧w的時(shí)候的我們的殘差有正有負(fù),取個(gè)平方求和以后可以很簡(jiǎn)單的衡量模型的好壞。同時(shí)因?yàn)槠椒胶笕菀浊髮?dǎo)數(shù),比取絕對(duì)值還要分情況討論好用。”

          但是經(jīng)過了幾年的科研以后,我覺得這樣的回答太過于經(jīng)驗(yàn)性了,一定會(huì)有什么更有道理的解釋,于是在知乎上搜了搜。
          《CC思SS:回歸模型中的代價(jià)函數(shù)應(yīng)該用MSE還是MAE[1]》 這篇文章中提到MSE對(duì)于偏差比較大的數(shù)據(jù)懲罰得比較多,但是會(huì)被outlier影響,同時(shí)MSE的優(yōu)化目標(biāo)是平均值,而MAE的優(yōu)化目標(biāo)是中位數(shù)。即如果我們的數(shù)據(jù)集足夠大,對(duì)于同一個(gè)x會(huì)有多個(gè)y,MSE的目標(biāo)是盡可能讓我們的預(yù)測(cè)值接近這些y的平均值。同時(shí)這篇文章還提到在做gradient descent的時(shí)候,MSE的梯度可以在越接近最小值的地方越平緩,這樣不容易步子扯大了。而MAE的梯度一直不變,得手動(dòng)調(diào)整learning rate。
          《在回歸問題中,為何對(duì)MSE損失的最小化等效于最大似然估計(jì)?[2]》而這個(gè)問題里有人提到“根據(jù)中心極限定理,誤差服從正態(tài)分布,此時(shí)使得樣本似然函數(shù)最大等價(jià)于使得MSE最小?!?這段話引起了我的興趣,在查閱了一些英文資料以后發(fā)現(xiàn)這是來自于花書的結(jié)論(Ian的《Deep Learning》)。
          以下解釋來源于花書(5.5)和[這篇博客][3]
          要弄懂為什么回歸問題要用MSE,首先要先明白什么是極大似然估計(jì)MLE(Maximum Likelihood Estimation)。

          極大似然估計(jì)MLE

          用一個(gè)一維的數(shù)據(jù)來講解MLE的過程,假設(shè)我們有一組數(shù)據(jù),我們假設(shè)它服從正態(tài)分布,我們的目的是:找到一組正態(tài)分布的均值和方差,使得在這套正態(tài)分布的均值方差下,我們觀測(cè)到這批數(shù)據(jù)的概率最大。
          手上的數(shù)據(jù)
          關(guān)于這組數(shù)據(jù),我們先胡亂地猜測(cè)一下它符合的正態(tài)分布如下:
          胡亂猜測(cè)的正態(tài)分布
          對(duì)于這個(gè)正態(tài)分布,我們可以計(jì)算每個(gè)點(diǎn)出現(xiàn)的概率: 。其中 是這個(gè)正態(tài)分布的均值和方差, 是第 條數(shù)據(jù),我們把每條數(shù)據(jù)出現(xiàn)的概率相乘,得到了“在這套正態(tài)分布的均值方差下,我們觀測(cè)到這批數(shù)據(jù)的概率”。
          同樣的,我們可以猜測(cè)另一種正態(tài)分布:
          另一種猜測(cè)的正態(tài)分布
          同樣的,我們可以計(jì)算“在這套正態(tài)分布的均值方差下,我們觀測(cè)到這批數(shù)據(jù)的概率”。
          最后,我們?cè)谶@群待選的均值和方差中,選出那個(gè)能使我們觀測(cè)到這批數(shù)據(jù)的概率最大的均值和方差。也就是我們?cè)谧?/span>

          回歸問題

          現(xiàn)在我們?cè)倏椿貧w問題,對(duì)于回歸問題來說,我們的目標(biāo)不是去找一個(gè)x的正態(tài)分布了。對(duì)于一個(gè)回歸問題,我們以最簡(jiǎn)單的線性回歸舉例。對(duì)于一個(gè)回歸問題,我們的目標(biāo)是 ,其中 是模型的參數(shù),而 是噪聲,我們假設(shè)噪聲符合正態(tài)分布 。
          那么我們的 其實(shí)也可以看成符合正態(tài)分布(并不是嚴(yán)謹(jǐn)?shù)膶懛ǎ? ,其中 其實(shí)就是模型的預(yù)測(cè)值,也就是說 。
          正態(tài)分布的probability density function是 ,帶入得到。
          那么也就是說,如果我們想最大化我們觀測(cè)到的 的情況的話,我們應(yīng)該最大化上面這個(gè)pdf的連乘結(jié)果。注意到這個(gè)值由一個(gè)常數(shù)乘上一個(gè) 的次方項(xiàng),優(yōu)化的時(shí)候常數(shù)項(xiàng)可以忽略。
          于是我們的目標(biāo)變成了 ,這里出現(xiàn)了連乘,又出現(xiàn)了 的次方項(xiàng),很正常的想到取log,于是變成了 ,忽略常數(shù)項(xiàng),稍微整理一下得到 。
          于是我們就證明了,我們?cè)谧鼍€性回歸的時(shí)候,我們?nèi)绻僭O(shè)我們的噪聲符合高斯分布,那么我們的目標(biāo)函數(shù)就是MSE。

          總結(jié)

          很多時(shí)候,一些基礎(chǔ)知識(shí)可能會(huì)影響你對(duì)一個(gè)模型結(jié)果表現(xiàn)的理解,如果對(duì)這種基礎(chǔ)知識(shí)沒有概念的話,深度學(xué)習(xí)就變成了瞎調(diào)模型瞎調(diào)參數(shù)了。[另一篇博客][4]就提到了,在做super resolution的時(shí)候,如果用MSE,做出來的圖片會(huì)非常的模糊,就是因?yàn)镸SE是基于高斯分布假設(shè),最后的結(jié)果會(huì)盡可能地靠近高斯分布最高的地方,使得結(jié)果不會(huì)太sharp。以后還是得適時(shí)提高深度學(xué)習(xí)的理論基礎(chǔ)。

          參考資料

          REFERENCE

          [1] CC思SS:回歸模型中的代價(jià)函數(shù)應(yīng)該用MSE還是MAE
          https://zhuanlan.zhihu.com/p/45790146

          [2] 在回歸問題中,為何對(duì)MSE損失的最小化等效于最大似然估計(jì)?
          https://www.zhihu.com/question/426901520

          [3] https://link.zhihu.com/?target=https%3A//towardsdatascience.com/where-does-mean-squared-error-mse-come-from-2002bbbd7806

          [4] https://link.zhihu.com/?target=https%3A//towardsdatascience.com/mse-is-cross-entropy-at-heart-maximum-likelihood-estimation-explained-181a29450a0b



          猜您喜歡:

           戳我,查看GAN的系列專輯~!
          一頓午飯外賣,成為CV視覺前沿弄潮兒!
          CVPR 2022 | 25+方向、最新50篇GAN論文
           ICCV 2021 | 35個(gè)主題GAN論文匯總
          超110篇!CVPR 2021最全GAN論文梳理
          超100篇!CVPR 2020最全GAN論文梳理


          拆解組新的GAN:解耦表征MixNMatch

          StarGAN第2版:多域多樣性圖像生成


          附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版

          附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》

          附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享


          《基于深度學(xué)習(xí)的表面缺陷檢測(cè)方法綜述》

          《零樣本圖像分類綜述: 十年進(jìn)展》

          《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》


          瀏覽 50
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  操逼网站在线视频 | 大香蕉伊在线观看视频 | 欧美性大战久久久久XXX | 色婷婷国产精品综合在线观看 | 中文字幕有码无码人妻aV蜜桃 |