<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          如何衡量目標檢測模型的優(yōu)劣

          共 3896字,需瀏覽 8分鐘

           ·

          2021-10-22 09:47


          點擊下方AI算法與圖像處理”,一起進步!

          重磅干貨,第一時間送達

          作者 | ?愛做菜的煉丹師?
          來源 | CV研習社
          編輯 | 極市平臺

          導讀

          ?

          機器學習算法的落地從數(shù)據(jù)>>建模>>訓練>>評估>>部署,生命周期中的這5個環(huán)節(jié)一樣都不能少,其中算法的評估尤為重要,不同的任務有其自身的衡量標準.

          本文我們走進目標檢測任務的各項評價指標,回顧各項衡量標準的優(yōu)劣及使用環(huán)境。?

          細數(shù)目標檢測中的評價指標

          計算機視覺中的目標檢測即包含了分類和回歸兩大任務,對于預測的結果我們不能憑直覺判斷模型的好壞,而是需要一個量化指標。業(yè)界對模型的性能評估已經(jīng)有很多不同的指標:比如準確率、精確率、召回率、平方誤差、余弦距離、P-R曲線、ROC曲線、AP、mAP、AUC、IOU等等。本文我們從最簡單的準確率說起。

          最簡單的評價指標—準確率

          準確率是分類問題中最簡單的評價指標,表示正確的樣本占總樣本的比例。這里我們會有一個疑問:是不是模型的準確率越高性能就越好呢?

          當然不是。準確率一般是從全局角度評估模型的優(yōu)劣。但是它存在一定的局限性,比如訓練階段有1000個樣本,其中999個負樣本,1個正樣本。那么如果我們將所有樣本都預測成負樣本,準確率可以達到99.9%,從數(shù)據(jù)上看感覺性能很好,但是部署上線后可能大部分正樣本都預測錯誤,造成用戶體驗的下降。

          原因是由于樣本類別的不平衡導致訓練過程雖然準確率很高,但是實際效果卻不好,得到誤導性的結果。如果準確率不能很有效的評估模型性能,那么我們可以采用什么指標來評估呢?

          精確率和召回率一對矛盾共生體

          在日常生活中我們經(jīng)常遇到這樣的情況:比如你去超市買橘子,我們關心的是挑選的橘子中有多少個是甜的;或者所有甜的橘子中有多少個被你選中了。前者叫做精確率,后者叫做召回率。

          精確率又叫查準率,是指分類正確的正樣本個數(shù)占分類器判定為正樣本的樣本個數(shù)的比例。

          召回率又叫查全率,是指分類正確的正樣本個數(shù)占真正的正樣本個數(shù)的比例。

          這兩個定義有點拗口,具體可以借助下面的混淆矩陣直觀理解(本文圖片來源于網(wǎng)絡,如有侵權聯(lián)系刪除)

          精準度和召回率是最常見的指標之一,模型的性能需要在兩者之間權衡。往往為了提供精確率,需要盡量在更有把握時才將待測樣本判定為正樣本,但如此保守的策略也會漏掉很多真值。

          和誰都有關系的混淆矩陣

          為了可視化算法的性能如何,這里引出一個混淆矩陣的概念,它能夠快速直觀的幫助算法人員分析每個類別的誤分類情況。

          我們經(jīng)常會看到這么幾個簡寫:TP,TN,F(xiàn)P,F(xiàn)N:

          • TP代表真陽性,即正樣本被預測成正樣本
          • TN代表真陰性,即負樣本被預測成負樣本
          • FP代表假陽性,即負樣本被預測成正樣本
          • FN代表假陰性,即正樣本被預測成負樣本

          這四個簡稱小編以前經(jīng)常會記混,第一個字母表示預測的對錯True/False,第二個字母表示預測的結果Positive/Negative。

          通過這四個統(tǒng)計量可以幫我們構建出下圖的矩陣,這里我們是以二分類為例,構建2×2的矩陣;如果是K個類別,可以推廣到K×K的矩陣:

          其中每一列代表預測值,每一行代表實際值。每一行的個數(shù)之和代表該類別的實際個數(shù),所有正確預測的結果都在矩陣的對角線上,它可以解決上面提到的正確率指標的局限性,直觀的看出每個類別正確識別的數(shù)量和錯誤識別的數(shù)量。

          混淆矩陣也可以延伸出各個評價指標的表達方式:

          • 準確率 = TP / (TP + TN + FP + FN)
          • 精確率 = TP / (TP + FP)
          • 召回率 = TP / (TP + FN)
          • F1 = 2 × 精確率 × 召回率 / (精確率 + 召回率)

          備注:F1得分是精確率和召回率的調(diào)和平均值。

          上面我們討論的精確率/召回率都是在固定閾值下得到的一個數(shù)值,為了綜合評估一個模型的優(yōu)劣,是否需要在不同的Top N下的觀察P-R兩方面的結果呢?

          P-R 曲線和AP值的用途

          P-R 曲線是由精確率和召回率構成的一張曲線圖,以召回率作為橫坐標軸,精確率作為縱坐標軸。在某個閾值下,模型將大于該閾值的結果判定成正樣本,將小于該閾值的結果判定成負樣本,再結合真值得到精確率和召回率,即表示P-R曲線上的一個點。如果想要生成一幅 P-R 曲線圖,通常需要執(zhí)行以下幾步:

          1. 用訓練好的模型評估所有測試樣本的得分;
          2. 每一類分別分開統(tǒng)計,并對分類概率值排序;
          3. 從Top-1開始,將第1個置信度作為閾值,當前預測的為正樣本,其余得分小于該閾值的作為負樣本,統(tǒng)計TP,F(xiàn)P,F(xiàn)N;
          4. 根據(jù)統(tǒng)計值計算當前閾值下的精確度和召回率;
          5. 從Top-1至Top-N重復步驟3和4;
          6. 將不同閾值下的P-R值繪制成P-R曲線圖;

          通常P-R曲線可以顯示出分類器在查準率與查全率之間的權衡。在各大刷榜論文中給出的AP值就是指P-R曲線下面的面積。下圖是包含A,B,C三個分類器的P-R曲線圖:

          根據(jù)P-R曲線圖如何評估不同分類器的性能呢?

          分類器C的P-R曲線被分類器A或B的P-R曲線完全包住,則說明分類器A和B的性能優(yōu)于C;

          當A和B兩個分類器的P-R曲線交叉時又該怎么評估性能優(yōu)劣呢?

          一般可以統(tǒng)計A和B曲線下的面積來衡量,該面積又叫做平均精度AP,值越大性能越好。為了更加準確的計算,還可以采用平衡點或者F1 score的方式度量。

          如果用戶場景對模型的性能更偏向于全面性或者精確性怎么辦?

          我們知道F1 score是調(diào)和平均數(shù),認為精確率和召回率重要程度一樣的一個統(tǒng)計平均值。當用戶的業(yè)務場景本身就需要偏向某一方時,該值就不在適用了。針對用戶的不同偏好,可以在F1的基礎上增加權重a,即(1 + a×a) P×R / ((a × a × P) + R),權重a>1時,召回率占比更大,權重a < 1時,精準率占比更大。

          在P-R曲線中,不管是精確率還是召回率關注點都在于正樣本的占比,如果在測試集中的正負樣本占比發(fā)生變化后,P-R曲線的統(tǒng)計值就會發(fā)生很大的變化,但是在實際應用中,在類別不平衡的數(shù)據(jù)中用戶關心的也還是正樣本,所以P-R曲線仍然被廣泛應用。

          如果有小伙伴非要兼顧正樣本和負樣本,評估分類器的整體水平怎么辦呢?這里我們有另一種曲線——ROC曲線!

          ROC 曲線和 AUC 值的用途

          ROC曲線反映了真陽性率和假陽性率之間的變化關系。橫軸就是FPR,縱軸就是TPR,然后選擇不同的閾值時,就可以對應坐標系中一個點。

          真陽性率即TPR = TP / (TP + FN),表示在所有正樣本中被預測為正樣本的比例,俗稱命中率。

          假陽性率即FPR = FP / (FP + TN),表示在所有負樣本中被預測成正樣本的比例,俗稱虛警率。

          如下圖所示:我們主要看正方形的四個頂點(0,0),(0,1),(1,0),(1,1)的含義:

          我們根據(jù)ROC計算的兩個數(shù)學公式來進一步分析:

          1. (0,0)點表示TPR=0且TFR=0,也就是說TP和FP都是0,換句話說就是給我任何一個樣本,都會被預測成正樣本。

          2. (1,1)點表示TPR=1且TFR=1,也就是說TP和FP都是1,和(0,0)點的含義剛好相反,給我任何一個樣本,都會被預測成負樣本。

          3. (0,1)點表示FPR=0且TPR=1,也就是說FP和FN都是0,既沒有把任何一個負樣本預測成正樣本,也沒有把任何一個正樣本預測成負樣本,這不是完美嘛!所以曲線越趨近于左上角,預測結果越準確。

          4. (1,0)點表示FPR=1且TPR=0,也就是說TP和TN都是0,這簡直是史上運氣最差的分類器,沒有一個正樣本預測正確,也沒有一個負樣本預測正確。

          這里計算的ROC仍然是根據(jù)固定閾值進行混淆矩陣的統(tǒng)計最后得到的一個點,曲線的繪制和P-R曲線流程相似,都是根據(jù)測試數(shù)據(jù)的類別置信度進行從高到低的排序,依次將置信度得分作為閾值統(tǒng)計不同區(qū)域時的FPR和TPR。

          被繞進去的小伙伴可以在回到上面重溫混淆矩陣,構建一個高性能的分類器我們希望假陽性率越小越好,真陽性率越大越好。相比于P-R曲線,TPR更加關注正樣本,F(xiàn)PR更加關注負樣本,所以是一種對正負樣本更加均衡的評估方式。

          ROC曲線在數(shù)據(jù)分布發(fā)生變化時表現(xiàn)的平穩(wěn)性,也注定是它的缺陷所在,在模型評估的時候,當正負樣本比例是1:1、1:10、1:100等等,ROC曲線形式都是驚人的相似,而P-R曲線更加明顯的表現(xiàn)出模型之間的優(yōu)劣。

          AP表示P-R曲線下的面積,那么ROC曲線下的面積又有什么物理意義呢?

          ROC曲線下面積越大,該模型越有可能將正樣本排在負樣本前面,表明分類器的性能越好,這個概率值就叫做AUC。


          努力分享優(yōu)質(zhì)的計算機視覺相關內(nèi)容,歡迎關注:

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有美顏、三維視覺、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群


          個人微信(如果沒有備注不拉群!
          請注明:地區(qū)+學校/企業(yè)+研究方向+昵稱



          下載1:何愷明頂會分享


          AI算法與圖像處理」公眾號后臺回復:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結分析


          下載2:終身受益的編程指南:Google編程風格指南


          AI算法與圖像處理」公眾號后臺回復:c++,即可下載。歷經(jīng)十年考驗,最權威的編程規(guī)范!



          下載3 CVPR2021

          AI算法與圖像處公眾號后臺回復:CVPR即可下載1467篇CVPR?2020論文 和 CVPR 2021 最新論文



          瀏覽 61
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本免费成人A | 人人干人人摸 | 骚逼a v| 欧美性爱中文 | 操逼网首页123 |