<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          如何衡量目標檢測模型的優(yōu)劣

          共 3565字,需瀏覽 8分鐘

           ·

          2021-10-10 23:49

          點擊左上方藍字關(guān)注我們



          一個專注于目標檢測與深度學(xué)習(xí)知識分享的公眾號

          編者薦語
          機器學(xué)習(xí)算法的落地從數(shù)據(jù)—>建模—>訓(xùn)練—>評估—>部署,生命周期中的這5個環(huán)節(jié)一樣都不能少,其中算法的評估尤為重要,不同的任務(wù)有其自身的衡量標準,文章帶我們走進目標檢測任務(wù)的各項評價指標,回顧各項衡量標準的優(yōu)劣及使用環(huán)境。


          細數(shù)目標檢測中的評價指標

          計算機視覺中的目標檢測即包含了分類和回歸兩大任務(wù),對于預(yù)測的結(jié)果我們不能憑直覺判斷模型的好壞,而是需要一個量化指標。業(yè)界對模型的性能評估已經(jīng)有很多不同的指標:比如準確率、精確率、召回率、平方誤差、余弦距離、P-R曲線、ROC曲線、AP、mAP、AUC、IOU等等。本文我們從最簡單的準確率說起。


          最簡單的評價指標—準確率

          準確率是分類問題中最簡單的評價指標,表示正確的樣本占總樣本的比例。這里我們會有一個疑問:是不是模型的準確率越高性能就越好呢?


          當然不是。準確率一般是從全局角度評估模型的優(yōu)劣。但是它存在一定的局限性,比如訓(xùn)練階段有1000個樣本,其中999個負樣本,1個正樣本。那么如果我們將所有樣本都預(yù)測成負樣本,準確率可以達到99.9%,從數(shù)據(jù)上看感覺性能很好,但是部署上線后可能大部分正樣本都預(yù)測錯誤,造成用戶體驗的下降。


          原因是由于樣本類別的不平衡導(dǎo)致訓(xùn)練過程雖然準確率很高,但是實際效果卻不好,得到誤導(dǎo)性的結(jié)果。如果準確率不能很有效的評估模型性能,那么我們可以采用什么指標來評估呢?


          精確率和召回率一對矛盾共生體

          在日常生活中我們經(jīng)常遇到這樣的情況:比如你去超市買橘子,我們關(guān)心的是挑選的橘子中有多少個是甜的;或者所有甜的橘子中有多少個被你選中了。前者叫做精確率,后者叫做召回率。


          精確率又叫查準率,是指分類正確的正樣本個數(shù)占分類器判定為正樣本的樣本個數(shù)的比例。


          召回率又叫查全率,是指分類正確的正樣本個數(shù)占真正的正樣本個數(shù)的比例。

          這兩個定義有點拗口,具體可以借助下面的混淆矩陣直觀理解(本文圖片來源于網(wǎng)絡(luò),如有侵權(quán)聯(lián)系刪除)


          精準度和召回率是最常見的指標之一,模型的性能需要在兩者之間權(quán)衡。往往為了提供精確率,需要盡量在更有把握時才將待測樣本判定為正樣本,但如此保守的策略也會漏掉很多真值。


          和誰都有關(guān)系的混淆矩陣

          為了可視化算法的性能如何,這里引出一個混淆矩陣的概念,它能夠快速直觀的幫助算法人員分析每個類別的誤分類情況。


          我們經(jīng)常會看到這么幾個簡寫:TP,TN,F(xiàn)P,F(xiàn)N:

          • TP代表真陽性,即正樣本被預(yù)測成正樣本

          • TN代表真陰性,即負樣本被預(yù)測成負樣本

          • FP代表假陽性,即負樣本被預(yù)測成正樣本

          • FN代表假陰性,即正樣本被預(yù)測成負樣本

          這四個簡稱小編以前經(jīng)常會記混,第一個字母表示預(yù)測的對錯True/False,第二個字母表示預(yù)測的結(jié)果Positive/Negative。

          通過這四個統(tǒng)計量可以幫我們構(gòu)建出下圖的矩陣,這里我們是以二分類為例,構(gòu)建2×2的矩陣;如果是K個類別,可以推廣到K×K的矩陣:

          其中每一列代表預(yù)測值,每一行代表實際值。每一行的個數(shù)之和代表該類別的實際個數(shù),所有正確預(yù)測的結(jié)果都在矩陣的對角線上,它可以解決上面提到的正確率指標的局限性,直觀的看出每個類別正確識別的數(shù)量和錯誤識別的數(shù)量。


          混淆矩陣也可以延伸出各個評價指標的表達方式:

          • 準確率 = TP / (TP + TN + FP + FN)

          • 精確率 = TP / (TP + FP)

          • 召回率 = TP / (TP + FN)

          • F1 = 2 × 精確率 × 召回率 / (精確率 + 召回率)

          備注:F1得分是精確率和召回率的調(diào)和平均值。


          上面我們討論的精確率/召回率都是在固定閾值下得到的一個數(shù)值,為了綜合評估一個模型的優(yōu)劣,是否需要在不同的Top N下的觀察P-R兩方面的結(jié)果呢?


          P-R曲線和AP值的用途

          P-R曲線是由精確率和召回率構(gòu)成的一張曲線圖,以召回率作為橫坐標軸,精確率作為縱坐標軸。在某個閾值下,模型將大于該閾值的結(jié)果判定成正樣本,將小于該閾值的結(jié)果判定成負樣本,再結(jié)合真值得到精確率和召回率,即表示P-R曲線上的一個點。如果想要生成一幅P-R曲線圖,通常需要執(zhí)行以下幾步:

          1. 用訓(xùn)練好的模型評估所有測試樣本的得分;

          2. 每一類分別分開統(tǒng)計,并對分類概率值排序;

          3. 從Top-1開始,將第1個置信度作為閾值,當前預(yù)測的為正樣本,其余得分小于該閾值的作為負樣本,統(tǒng)計TP,F(xiàn)P,F(xiàn)N;

          4. 根據(jù)統(tǒng)計值計算當前閾值下的精確度和召回率;

          5. 從Top-1至Top-N重復(fù)步驟3和4;

          6. 將不同閾值下的P-R值繪制成P-R曲線圖;


          通常P-R曲線可以顯示出分類器在查準率與查全率之間的權(quán)衡。在各大刷榜論文中給出的AP值就是指P-R曲線下面的面積。下圖是包含A,B,C三個分類器的P-R曲線圖:

          根據(jù)P-R曲線圖如何評估不同分類器的性能呢?

          分類器C的P-R曲線被分類器A或B的P-R曲線完全包住,則說明分類器A和B的性能優(yōu)于C;


          當A和B兩個分類器的P-R曲線交叉時又該怎么評估性能優(yōu)劣呢?

          一般可以統(tǒng)計A和B曲線下的面積來衡量,該面積又叫做平均精度AP,值越大性能越好。為了更加準確的計算,還可以采用平衡點或者F1 score的方式度量。


          如果用戶場景對模型的性能更偏向于全面性或者精確性怎么辦?

          我們知道F1 score是調(diào)和平均數(shù),認為精確率和召回率重要程度一樣的一個統(tǒng)計平均值。當用戶的業(yè)務(wù)場景本身就需要偏向某一方時,該值就不在適用了。針對用戶的不同偏好,可以在F1的基礎(chǔ)上增加權(quán)重a,即(1 + a×a) P×R / ((a × a × P) + R),權(quán)重a>1時,召回率占比更大,權(quán)重a < 1時,精準率占比更大。


          在P-R曲線中,不管是精確率還是召回率關(guān)注點都在于正樣本的占比,如果在測試集中的正負樣本占比發(fā)生變化后,P-R曲線的統(tǒng)計值就會發(fā)生很大的變化,但是在實際應(yīng)用中,在類別不平衡的數(shù)據(jù)中用戶關(guān)心的也還是正樣本,所以P-R曲線仍然被廣泛應(yīng)用。


          如果有小伙伴非要兼顧正樣本和負樣本,評估分類器的整體水平怎么辦呢?這里我們有另一種曲線——ROC曲線!


          ROC曲線和AUC值的用途

          ROC曲線反映了真陽性率和假陽性率之間的變化關(guān)系。橫軸就是FPR,縱軸就是TPR,然后選擇不同的閾值時,就可以對應(yīng)坐標系中一個點。


          真陽性率即TPR = TP / (TP + FN),表示在所有正樣本中被預(yù)測為正樣本的比例,俗稱命中率。


          假陽性率即FPR = FP / (FP + TN),表示在所有負樣本中被預(yù)測成正樣本的比例,俗稱虛警率。


          如下圖所示:我們主要看正方形的四個頂點(0,0),(0,1),(1,0),(1,1)的含義:

          我們根據(jù)ROC計算的兩個數(shù)學(xué)公式來進一步分析:

          1、(0,0)點表示TPR=0且TFR=0,也就是說TP和FP都是0,換句話說就是給我任何一個樣本,都會被預(yù)測成正樣本。

          2、(1,1)點表示TPR=1且TFR=1,也就是說TP和FP都是1,和(0,0)點的含義剛好相反,給我任何一個樣本,都會被預(yù)測成負樣本。

          3、(0,1)點表示FPR=0且TPR=1,也就是說FP和FN都是0,既沒有把任何一個負樣本預(yù)測成正樣本,也沒有把任何一個正樣本預(yù)測成負樣本,這不是完美嘛!所以曲線越趨近于左上角,預(yù)測結(jié)果越準確。

          4、(1,0)點表示FPR=1且TPR=0,也就是說TP和TN都是0,這簡直是史上運氣最差的分類器,沒有一個正樣本預(yù)測正確,也沒有一個負樣本預(yù)測正確。


          這里計算的ROC仍然是根據(jù)固定閾值進行混淆矩陣的統(tǒng)計最后得到的一個點,曲線的繪制和P-R曲線流程相似,都是根據(jù)測試數(shù)據(jù)的類別置信度進行從高到低的排序,依次將置信度得分作為閾值統(tǒng)計不同區(qū)域時的FPR和TPR。


          被繞進去的小伙伴可以在回到上面重溫混淆矩陣,構(gòu)建一個高性能的分類器我們希望假陽性率越小越好,真陽性率越大越好。相比于P-R曲線,TPR更加關(guān)注正樣本,F(xiàn)PR更加關(guān)注負樣本,所以是一種對正負樣本更加均衡的評估方式。


          ROC曲線在數(shù)據(jù)分布發(fā)生變化時表現(xiàn)的平穩(wěn)性,也注定是它的缺陷所在,在模型評估的時候,當正負樣本比例是1:1、1:10、1:100等等,ROC曲線形式都是驚人的相似,而P-R曲線更加明顯的表現(xiàn)出模型之間的優(yōu)劣。


          AP表示P-R曲線下的面積,那么ROC曲線下的面積又有什么物理意義呢?

          ROC曲線下面積越大,該模型越有可能將正樣本排在負樣本前面,表明分類器的性能越好,這個概率值就叫做AUC。


          END



          雙一流大學(xué)研究生團隊創(chuàng)建,專注于目標檢測與深度學(xué)習(xí),希望可以將分享變成一種習(xí)慣!

          瀏覽 68
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  99青草国产精品视频无码一区 | 大香蕉一区二区三区 | 女人十八岁毛片 | 中文无码在线免费播放 | 成人在线黄色视频网站 |