機器學(xué)習(xí)基礎(chǔ):別 亂 用 AUC
點擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達(dá)

難得的好文。
目前普遍認(rèn)為接收器工作特性(Receiver Operating Characteristic,ROC)曲線下的面積 ——AUC 是評估分類模型準(zhǔn)確性的標(biāo)準(zhǔn)方法。它避免了在閾值選擇過程中假定的主觀性,當(dāng)連續(xù)的概率得到的分?jǐn)?shù)被轉(zhuǎn)換為二分類標(biāo)簽時,通過總結(jié)整體模型表現(xiàn),其衡量模型區(qū)分正負(fù)樣本的性能優(yōu)于通過閾值來判斷的其他方法(比如準(zhǔn)確率、召回率等)。在這篇手稿中,我們回顧了這一度量的一些特點,并將其作為模型結(jié)果的準(zhǔn)確性的比較度量,對其可靠性提出了質(zhì)疑。我們不建議使用 AUC 出于五個原因:
(1) 忽略了預(yù)測的概率值和模型的擬合優(yōu)度;(舉個例子,假設(shè)某個模型對 “1” 類樣本輸出的概率都是 0.51,對 “0” 類樣本輸出的概率均為 0.49,此時 AUC 是 1,但是二元交叉熵非常大,因為預(yù)測結(jié)果和真實標(biāo)簽之間的誤差太大);根據(jù) auc 的公式我們可以知道 auc 對于具體的概率值不敏感,它的計算過程事先會把概率值轉(zhuǎn)化為 rank 排序,所以 auc 永遠(yuǎn)只對排序敏感對具體的概率指不敏感:
舉個例子,假設(shè)有 10000 個樣本,5000 個正樣本,5000 個負(fù)樣本,此時我們對 5000 個正樣本的預(yù)測概率為 0.2,對 5000 個負(fù)樣本的預(yù)測概率為 0.3,此時 auc 為 1,但是模型的擬合優(yōu)度非常差,二元交叉熵慘不忍睹,看起來完全就是沒有擬合完全的情況。
(2) AUC 反應(yīng)了太過籠統(tǒng)的信息。無法反應(yīng)召回率、精確率等在實際業(yè)務(wù)中經(jīng)常關(guān)心的指標(biāo)
看了原文,大意就是,比如我們在安全監(jiān)測中,對查全率非??粗?,對查準(zhǔn)率倒是無所謂,反正盡量把恐怖分子查出來,即使錯誤檢查了很多正常人也只是浪費點時間而已而恐怖事件相比不值一提,但是 auc 反應(yīng)的是模型對正負(fù)樣本的區(qū)分能力,在一些情況下無法滿足建模的真實需求。
(3) 對 FPR 和 TPR 兩種錯誤的代價同等看待;這一點和第二點雷同,基本的意思就是當(dāng)用戶對不同類別的預(yù)測準(zhǔn)確率有不同程度的需求時,auc 不能很好的滿足這個需求。
(4) 它沒有給出模型誤差的空間分布信息(我們不知道模型預(yù)測錯誤的具體情況,比如哪一類預(yù)測的錯誤多,比如整體錯誤的分布情況等等,舉個例子,我們通過對不同類別錯誤預(yù)測的概率和真實標(biāo)簽的誤差進行畫圖可以了解到模型對哪一類樣本預(yù)測錯誤率高對哪一類樣本預(yù)測的精度高,從而有針對的對特征工程、樣本權(quán)重等進行優(yōu)化,但是 auc 無法反應(yīng)這類信息),AUC 只關(guān)注正負(fù)樣本之間的排序,并不關(guān)心正樣本內(nèi)部,或者負(fù)樣本內(nèi)部的排序,這樣我們也無法衡量樣本對于好壞客戶的好壞程度的刻畫能力;
(5) 最重要的一點,AUC 的 misleading 的問題:

如圖,modelA 和 modelB 的 ROC 曲線下面積 AUC 是相等的,但是兩個模型在不同區(qū)域的預(yù)測能力是不相同的,所以我們不能單純根據(jù) AUC 的大小來判斷模型的好壞。
好消息!
小白學(xué)視覺知識星球
開始面向外開放啦??????
下載1:OpenCV-Contrib擴展模塊中文版教程 在「小白學(xué)視覺」公眾號后臺回復(fù):擴展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。 下載2:Python視覺實戰(zhàn)項目52講 在「小白學(xué)視覺」公眾號后臺回復(fù):Python視覺實戰(zhàn)項目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學(xué)校計算機視覺。 下載3:OpenCV實戰(zhàn)項目20講 在「小白學(xué)視覺」公眾號后臺回復(fù):OpenCV實戰(zhàn)項目20講,即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學(xué)習(xí)進階。 交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

