<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Tips|對樣本不均衡”一頓操作“

          共 2236字,需瀏覽 5分鐘

           ·

          2021-04-23 23:19

          ↑ 點擊藍(lán)字 關(guān)注極市平臺

          作者丨時晴
          來源丨煉丹筆記
          編輯丨極市平臺

          極市導(dǎo)讀

           

          本文總結(jié)了一些常用的針對樣本不平均問題的解決方法。 >>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿

          樣本不均的問題大家已經(jīng)很常見了,我們總是能看到某一個類目的數(shù)量遠(yuǎn)高于其他類目,舉個例子,曝光轉(zhuǎn)化數(shù)遠(yuǎn)低于曝光未轉(zhuǎn)化數(shù)。樣本不均嚴(yán)重影響了模型的效果,甚至影響到我們對模型好壞的判斷,因為模型對占比比較高的類目準(zhǔn)確率非常高,對占比很低的類目預(yù)估的偏差特別大,但是由于占比較高的類目對loss/metric影響較大,我們會認(rèn)為得到了一個較優(yōu)的模型。比如像是異常檢測問題,我們直接返回沒有異常,也能得到一個很高的準(zhǔn)確率。

          重采樣

          這個是目前使用頻率最高的方式,可以對“多數(shù)”樣本降采樣,也可以對“少數(shù)”樣本過采樣,如下圖所示:

          重采樣的缺點也比較明顯,過采樣對少數(shù)樣本"過度捕撈",降采樣會丟失大量信息。

          重采樣的方案也有很多,最簡單的就是隨機過采樣/降采樣,使得各個類別的數(shù)量大致相同。還有一些復(fù)雜的采樣方式,比如先對樣本聚類,在需要降采樣的樣本上,按類別進行降采樣,這樣能丟失較少的信息。過采樣的話,可以不用簡單的copy,可以加一點點"噪聲",生成更多的樣本。

          Tomek links

          Tomek連接指的是在空間上"最近"的樣本,但是是不同類別的樣本。刪除這些pair中,占大多數(shù)類別的樣本。通過這種降采樣方式,有利于分類模型的學(xué)習(xí),如下圖所示:

          SMOTE

          這個方法可以給少數(shù)樣本做擴充,SMOTE在樣本空間中少數(shù)樣本隨機挑選一個樣本,計算k個鄰近的樣本,在這些樣本之間插入一些樣本做擴充,反復(fù)這個過程,知道樣本均衡,如下圖所示:

          NearMiss

          這是個降采樣的方法,通過距離計算,刪除掉一些無用的點。

          • NearMiss-1:在多數(shù)類樣本中選擇與最近的3個少數(shù)類樣本的平均距離最小的樣本。
          • NearMiss-2:在多數(shù)類樣本中選擇與最遠(yuǎn)的3個少數(shù)類樣本的平均距離最小的樣本。
          • NearMiss-3:對于每個少數(shù)類樣本,選擇離它最近的給定數(shù)量的多數(shù)類樣本。

          NearMiss-1考慮的是與最近的3個少數(shù)類樣本的平均距離,是局部的;NearMiss-2考慮的是與最遠(yuǎn)的3個少數(shù)類樣本的平均距離,是全局的。NearMiss-1方法得到的多數(shù)類樣本分布也是“不均衡”的,它傾向于在比較集中的少數(shù)類附近找到更多的多數(shù)類樣本,而在孤立的(或者說是離群的)少數(shù)類附近找到更少的多數(shù)類樣本,原因是NearMiss-1方法考慮的局部性質(zhì)和平均距離。NearMiss-3方法則會使得每一個少數(shù)類樣本附近都有足夠多的多數(shù)類樣本,顯然這會使得模型的精確度高、召回率低。

          評估指標(biāo)

          為了避免對模型的誤判,避免使用Accuracy,可以用confusion matrix,precision,recall,f1-score,AUC,ROC等指標(biāo)。

          懲罰項

          對少數(shù)樣本預(yù)測錯誤增大懲罰,是一個比較直接的方式。

          使用多種算法

          模型融合不止能提升效果,也能解決樣本不均的問題,經(jīng)驗上,樹模型對樣本不均的解決幫助很大,特別是隨機森林,Random Forest,XGB,LGB等。因為樹模型作用方式類似于if/else,所以迫使模型對少數(shù)樣本也非常重視。

          正確的使用K-fold

          當(dāng)我們對樣本過采樣時,對過采樣的樣本使用k-fold,那么模型會過擬合我們過采樣的樣本,所以交叉驗證要在過采樣前做。在過采樣過程中,應(yīng)當(dāng)增加些隨機性,避免過擬合。

          使用多種重采樣的訓(xùn)練集

          這種方法可以使用更多的數(shù)據(jù)獲得一個泛化性較強的模型。用所有的少數(shù)樣本,和多種采樣的多數(shù)樣本,構(gòu)建多個模型得到多個模型做融合,可以取得不錯的效果。

          重采樣使用不同rate

          這個方法和上面的方法很類似,嘗試使用各種不同的采樣率,訓(xùn)練不同的模型。

          沒有什么解決樣本不均最好的方法,以上內(nèi)容也沒有枚舉出所有的解決方案,最好的方案就是嘗試使用各種方案。

          還有什么解決樣本不均比較好的方法呢?歡迎大家在文末留言~


          如果覺得有用,就請分享到朋友圈吧!△點擊卡片關(guān)注極市平臺,獲取最新CV干貨



          推薦閱讀


          堪比Focal Loss!解決目標(biāo)檢測中樣本不平衡的無采樣方法

          2020-01-02

          樣本貢獻(xiàn)不均:Focal Loss和 Gradient Harmonizing Mechanism

          2019-04-25

          CVPR19|使用一個特別設(shè)計的損失來處理類別不均衡的數(shù)據(jù)集

          2019-09-21



          # CV技術(shù)社群邀請函 #

          △長按添加極市小助手
          添加極市小助手微信(ID : cvmart2)

          備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)


          即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術(shù)交流群


          每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~


          覺得有用麻煩給個在看啦~  
          瀏覽 58
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美激情亚洲无码 | 大鸡巴操逼免费视频 | 日韩欧美一级黄色电影 | 久久久久无码精品国产91福利 | 12一14女人毛片 |