<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          AI 面試高頻問(wèn)題: 為什么二分類(lèi)不用 MSE 損失函數(shù)?

          共 1940字,需瀏覽 4分鐘

           ·

          2020-08-31 12:48

          ?由于微信改了推送規(guī)則,請(qǐng)加星標(biāo),多點(diǎn)贊和在看,以便第一時(shí)間收到推送。?

          ?機(jī)器學(xué)習(xí)與數(shù)學(xué)


          對(duì)于二分類(lèi)問(wèn)題,損失函數(shù)不采用均方誤差(Mean Squared Error,MSE)至少可以從兩個(gè)角度來(lái)分析。

          1從數(shù)據(jù)分布角度

          首先,使用 MSE 意味著假設(shè)數(shù)據(jù)采樣誤差是遵循正態(tài)分布的。用貝葉斯門(mén)派的觀點(diǎn)來(lái)看,意味著作了高斯先驗(yàn)的假設(shè)。實(shí)際上,可以分為兩類(lèi)(即二分類(lèi))的數(shù)據(jù)集是遵循伯努利分布。

          如果假設(shè)誤差遵循正態(tài)分布,并使用最大似然估計(jì)(Maximum Likelihood Estimation,MLE),我們將得出 MSE 正是用于優(yōu)化模型的損失函數(shù)。

          首先,正態(tài)/高斯分布 由兩個(gè)參數(shù) 定義,

          ? 正態(tài)分布示例。

          訓(xùn)練數(shù)據(jù) 包括特征 和實(shí)際觀測(cè)值 。簡(jiǎn)單來(lái)說(shuō),每當(dāng)我們采樣數(shù)據(jù)時(shí),觀測(cè)值有時(shí)會(huì)與真實(shí)值相匹配,有時(shí)觀測(cè)值會(huì)因某些誤差而失真。我們假設(shè)所有觀測(cè)到的數(shù)據(jù)都帶有一定的誤差(即 ,并且誤差遵循均值為 ,方差未知的正態(tài)分布。

          我們可以這樣來(lái)看,實(shí)際觀測(cè)值 通常圍繞待預(yù)測(cè)的目標(biāo)值 呈正態(tài)分布。

          ? 觀測(cè)值相對(duì)目標(biāo)值呈正態(tài)分布。

          因此,每個(gè)觀測(cè)值 可以由如下正態(tài)分布定義,

          假設(shè)數(shù)據(jù)是獨(dú)立同分布的,因此使用最大似然估計(jì)時(shí),只要最大化所有觀測(cè)值誤差正態(tài)分布的乘積。即似然函數(shù)為,

          為了簡(jiǎn)化公式,可以采用似然函數(shù)的自然對(duì)數(shù),

          上式倒數(shù)第二行的第一項(xiàng)是獨(dú)立于 ,因此可以直接省略掉。而最大化一個(gè)函數(shù)等價(jià)于最小化該函數(shù)的負(fù)值,可得,

          由于方差 也不依賴(lài)于 ,因此可以忽略它,甚至也可以忽略 ,但是也可以保留它,因?yàn)樗梢韵羟髮?dǎo)后多出來(lái)的 2。

          最后,我們可以通過(guò) 是樣本數(shù)量)縮放負(fù)對(duì)數(shù)似然函數(shù),以獲得所謂的均方誤差損失函數(shù),

          以上是通過(guò) MLE 得到 MSE 的推導(dǎo)過(guò)程。這是想說(shuō)明,使用 MSE 損失函數(shù)的背景假設(shè)是數(shù)據(jù)誤差遵循高斯分布。實(shí)際上,二分類(lèi)問(wèn)題并不符合這個(gè)假設(shè)。

          2從優(yōu)化角度

          其次,MSE 函數(shù)對(duì)于二分類(lèi)問(wèn)題來(lái)說(shuō)是非凸的。簡(jiǎn)而言之,如果使用 MSE 損失函數(shù)訓(xùn)練二分類(lèi)模型,則不能保證將損失函數(shù)最小化。這是因?yàn)?MSE 函數(shù)期望實(shí)數(shù)輸入在范圍 中,而二分類(lèi)模型通過(guò) Sigmoid 函數(shù)輸出范圍為 的概率。

          當(dāng)將一個(gè)無(wú)界的值傳遞給 MSE 函數(shù)時(shí),在目標(biāo)值 處有一個(gè)明確最小值的情況下,會(huì)形成一條漂亮的 U 形(凸)曲線。另一方面,當(dāng)將來(lái)自 Sigmoid 等函數(shù)的有界值傳遞給 MSE 函數(shù)時(shí),可能會(huì)導(dǎo)致結(jié)果并不是凸的。

          ? 當(dāng)與 Sigmoid/Logistic 函數(shù)復(fù)合時(shí),MSE 會(huì)呈現(xiàn)非凸性。

          看上面右邊的圖,函數(shù)的一側(cè)是凹的,而另一側(cè)是凸的,沒(méi)有明確的最小值點(diǎn)。因此,如果在初始化二分類(lèi)神經(jīng)網(wǎng)絡(luò)權(quán)重時(shí),權(quán)值萬(wàn)一設(shè)置得很大,使其落在 MSE 凹的那一側(cè)(如下圖紅色標(biāo)記的點(diǎn)),由于梯度幾乎為 ,損失函數(shù)梯度下降法將不起作用,因此網(wǎng)絡(luò)權(quán)重可能得不到更新或改善得非常緩慢。這也是訓(xùn)練時(shí)應(yīng)采用小值來(lái)初始化神經(jīng)網(wǎng)絡(luò)的原因之一。

          ? 當(dāng)使用 Sigmoid/Logistic 函數(shù)的輸出時(shí),MSE 函數(shù)的一側(cè)是凸的,而另一側(cè)是凹的。

          為什么是這樣呢?讓我們把 Sigmoid 函數(shù)代進(jìn)去看看,

          此時(shí)求導(dǎo)會(huì)多一個(gè)因子,就是 函數(shù)的導(dǎo)數(shù)。我們直接看一下這個(gè)導(dǎo)數(shù)的函數(shù)曲線。如下圖所示,是不是兩側(cè)很大范圍幾乎是 呢。

          說(shuō)句題外話(huà),當(dāng)我們進(jìn)行線性回歸(即通過(guò)直線擬合數(shù)據(jù))時(shí),選用 MSE 作為損失函數(shù)是一個(gè)不錯(cuò)的選擇。在沒(méi)有關(guān)于數(shù)據(jù)的分布知識(shí)的情況下,假設(shè)高斯分布通常是可行的。

          3有更好選擇

          假如沒(méi)有更好的選擇,那么在權(quán)重初始化方面做做工作,MSE 也能湊合著用。但實(shí)際上,確實(shí)存在更好的選擇,那就是交叉熵。戳這里可以溫習(xí)一下本號(hào)關(guān)于交叉熵的圖解介紹。至于為什么交叉熵在這個(gè)問(wèn)題上好使,且聽(tīng)下回分解。

          ?參考資料?

          [1]

          正態(tài)分布: https://en.wikipedia.org/wiki/Normal_distribution

          [2]

          Sigmoid: https://en.wikipedia.org/wiki/Sigmoid_function

          [3]

          Rafay Khan: https://towardsdatascience.com/why-using-mean-squared-error-mse-cost-function-for-binary-classification-is-a-bad-idea-933089e90df7


          瀏覽 408
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  婷婷视频免费毛片在线观看 | www.黄色片 | 一区二区豆花视频 | 操屄123 | 欧美精品久久久 |