<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          根據(jù)標(biāo)簽分布來選擇損失函數(shù)

          共 2920字,需瀏覽 6分鐘

           ·

          2020-12-07 18:29

          ↑ 點(diǎn)擊藍(lán)字?關(guān)注極市平臺(tái)

          作者丨馬東什么@知乎
          來源丨h(huán)ttps://zhuanlan.zhihu.com/p/304462034
          編輯丨極市平臺(tái)

          極市導(dǎo)讀

          ?

          作者從兩個(gè)經(jīng)典的面試問題出發(fā),以常見的二分類問題和回歸問題為例,通過回答問題的方式解釋了mse和二元交叉熵相關(guān)知識(shí)。?>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿

          首先回到經(jīng)典的面試問題:

          為什么線性回歸使用mse作為損失函數(shù)?

          為什么邏輯回歸二分類常用二元交叉熵作為損失函數(shù)?

          熟悉lgb、xgb或者是sklearn中的各類回歸模型包括了線性回歸,tweedie回歸等等應(yīng)該都比較熟悉,我們?cè)谀P偷目蚣苤驴梢赃x擇不同的損失函數(shù),以lightgbm為例:

          針對(duì)于回歸問題有非常多的備選損失函數(shù),那么這些損失函數(shù)什么時(shí)候用,為什么?

          回到基本面試問題,首先我們需要知道的是,使用特定損失函數(shù)的前提是我們對(duì)標(biāo)簽的分布進(jìn)行了某種假設(shè),在這種假設(shè)的前提下通過極大似然法推出所有樣本構(gòu)成的極大似然公式,然后再使用凸優(yōu)化的方法比如常見的梯度下降法進(jìn)行求解

          以常見的二分類問題和回歸問題為例:

          二分類問題的常見假設(shè)就是標(biāo)簽服從伯努利分布:

          伯努利分布是一個(gè)離散型機(jī)率分布。試驗(yàn)成功,隨機(jī)變量取值為1;試驗(yàn)失敗,隨機(jī)變量取值為0。成功機(jī)率為p,失敗機(jī)率為q =1-p,N次試驗(yàn)后,成功期望為N*p,方差為N*p*(1-p) ,所以伯努利分布又稱兩點(diǎn)分布。

          觀察到的數(shù)據(jù)為D1,D2,D3,...,DN,極大似然的目標(biāo):

          聯(lián)合分布難計(jì)算,我們因此引入一個(gè)假設(shè),獨(dú)立同分布(i.i.d.)(機(jī)器學(xué)習(xí)的基本假設(shè)),目標(biāo)公式改變?yōu)椋?br>

          將函數(shù)取對(duì)數(shù),函數(shù)的極值點(diǎn)不會(huì)改變,公式變?yōu)椋?br>

          伯努利分布下隨機(jī)變量的最大似然計(jì)算方法,P(X=1)=p,P(X=0)=1-p:

          這樣就得到了我們熟悉的二元交叉熵的公式了,注意,二元交叉熵的名字有很多,有的地方把它叫l(wèi)ogloss的類別數(shù)為2的特例之類的balabala,記住一個(gè)名字能辨別同義不同名就行了。

          然后是經(jīng)典的回歸的mse的損失函數(shù),這個(gè)之前寫過了,參考這篇即可:

          馬東什么:線性回歸面經(jīng)總結(jié)——from ???/section>
          https://zhuanlan.zhihu.com/p/66519299
          線性回歸要求因變量服從正態(tài)分布_lyh的專欄-CSDN博客
          https://blog.csdn.net/u010462995/article/details/70847146

          我們?cè)谑褂镁€性回歸的時(shí)候的基本假設(shè)是噪聲服從正態(tài)分布,當(dāng)噪聲符合正態(tài)分布N(0,delta^2)時(shí),因變量則符合正態(tài)分布N(ax(i)+b,delta^2),其中預(yù)測(cè)函數(shù)y=ax(i)+b。這個(gè)結(jié)論可以由正態(tài)分布的概率密度函數(shù)得到。也就是說當(dāng)噪聲符合正態(tài)分布時(shí),其因變量必然也符合正態(tài)分布。因此,我們使用mse的時(shí)候?qū)嶋H上是假設(shè)y服從正態(tài)分布的。

          然而生活中的很多回歸問題并不符合正態(tài)分布,例如典型的奢侈品商城的銷量,用戶到商城中閑逛,大部分用戶基本不買東西,只有少部分用戶會(huì)進(jìn)行購(gòu)買,極少部分用戶會(huì)購(gòu)買大量的奢侈品,因此分布常常是這樣的:

          橫軸代表了銷量取件從小到達(dá)排列,縱軸代表了某個(gè)銷量區(qū)間對(duì)應(yīng)的用戶數(shù)量,這樣的分布情況明顯不符合高斯分布。

          需要注意,從不均衡學(xué)習(xí)的角度來說,當(dāng)正負(fù)樣本數(shù)量相差極大的時(shí)候,

          例如上圖,

          此時(shí),其實(shí)仍舊是滿足二元交叉熵分布的,因此分類問題并不是特別好從基本假設(shè)的角度出發(fā)去思考損失函數(shù)的選擇,更多的是偏工程話的一些解釋,例如典型的不均衡樣本為什么會(huì)影響模型的表現(xiàn),核心原因是少類樣本的數(shù)量太少,模型學(xué)習(xí)不到太多的規(guī)律,但是如果少類樣本的數(shù)量很少,例如1000w:10w這樣的比例,雖然比例上也是不均衡,但是每個(gè)類別的數(shù)量都很多足夠模型充分學(xué)習(xí),實(shí)際應(yīng)用上來看,這種情況基本不需要進(jìn)行不均衡處理,因此嚴(yán)格來說,這種情況不屬于不均衡學(xué)習(xí)的問題,不均衡學(xué)習(xí)針對(duì)的更多是“絕對(duì)不均衡”的問題,即樣本的絕對(duì)數(shù)量很稀少而不是比例。


          回到回歸問題上,在回歸問題的領(lǐng)域基本不會(huì)談?wù)摬痪鈫栴},因?yàn)檫B續(xù)的標(biāo)簽沒有不均衡的概念,取而代之的是標(biāo)簽分布詭異的情況,因此簡(jiǎn)單來說,我們可以把這類標(biāo)簽分布不符合高斯分布從而使得以mse作為損失函數(shù)的模型擬合效果差的問題作為回歸問題中的“不均衡問題”,這類不均衡問題就比較棘手,因?yàn)槟承┣闆r下的標(biāo)簽的分布情況和樣本數(shù)量沒關(guān)系,比如前面說到的奢侈品銷量的問題,就是典型的非高斯分布的形式,這個(gè)時(shí)候,我們就需要使用一些方法來應(yīng)對(duì)這種問題了,和不均衡學(xué)習(xí)類似,我們可以在樣本層面進(jìn)行一些采樣的操作,

          這里,我們可以對(duì)銷量為0的用戶進(jìn)行下采樣,這樣整體分布看起來會(huì)更加復(fù)合高斯分布一點(diǎn),不過這種做法其實(shí)意義不大,因?yàn)槲覀兾磥硪A(yù)測(cè)的樣本的分布被破壞了,即使模型擬合出好的效果也沒用,這就好比我們進(jìn)行電商銷量預(yù)測(cè)的時(shí)候把雙十一的銷量樣本砍掉,會(huì)發(fā)現(xiàn)mse變得很優(yōu)美,但是預(yù)測(cè)的時(shí)候,對(duì)于未來的雙十一的預(yù)測(cè)效果會(huì)特別差。

          因此,更加常見的做法是在標(biāo)簽層面或者損失函數(shù)方面進(jìn)行修正,例如使用對(duì)數(shù)變換或者更大一點(diǎn),使用boxcox變換來使得標(biāo)簽盡量接近高斯分布然后即使用mse:

          比如這個(gè)例子:

          所以有時(shí)候我們會(huì)發(fā)現(xiàn)處理回歸問題的時(shí)候進(jìn)行對(duì)數(shù)變換效果更好了。如果標(biāo)簽存在負(fù)數(shù),則所有的標(biāo)簽加上一個(gè)min_data+1然后進(jìn)行對(duì)數(shù)變換即可,或者直接使用boxcox變換。

          但是在處理電商銷量問題的時(shí)候,我發(fā)現(xiàn)這種方法并不奏效,因?yàn)槿绻麡?biāo)簽分布本身是非?;蔚模赡苣闾幚砹税胩爝€是莫得用,處理完的分布還是畸形的,這個(gè)時(shí)候我們就要考慮使用其它損失函數(shù)來進(jìn)行處理了。

          例如使用tweedie loss、possion loss等損失函數(shù)替代mse,例如:

          這是tweedie分布的典型例子,tweedie loss的實(shí)現(xiàn)并不復(fù)雜,下次處理回歸問題遇到模型效果很差的問題的時(shí)候,可以看一下標(biāo)簽的分布情況,然后考慮選擇使用不同的損失函數(shù)進(jìn)行測(cè)試。

          當(dāng)然,如果懶得看或者看不出來,把損失函數(shù)作為超參數(shù)進(jìn)行調(diào)參也是可以的。


          推薦閱讀




            添加極市小助手微信(ID : cvmart2),備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳),即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群:月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動(dòng)交流~

            △長(zhǎng)按添加極市小助手

            △長(zhǎng)按關(guān)注極市平臺(tái),獲取最新CV干貨

            覺得有用麻煩給個(gè)在看啦~??
            瀏覽 47
            點(diǎn)贊
            評(píng)論
            收藏
            分享

            手機(jī)掃一掃分享

            分享
            舉報(bào)
            評(píng)論
            圖片
            表情
            推薦
            點(diǎn)贊
            評(píng)論
            收藏
            分享

            手機(jī)掃一掃分享

            分享
            舉報(bào)
            <kbd id="afajh"><form id="afajh"></form></kbd>
            <strong id="afajh"><dl id="afajh"></dl></strong>
              <del id="afajh"><form id="afajh"></form></del>
                  1. <th id="afajh"><progress id="afajh"></progress></th>
                    <b id="afajh"><abbr id="afajh"></abbr></b>
                    <th id="afajh"><progress id="afajh"></progress></th>
                    精品婷婷乱码久久久久久蜜桃 | 亚州精品一区 | 蜜桃视频在线无码播放 | 精品久久久麻豆 | 欧美成本人视频 |