<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          在不平衡數(shù)據(jù)上使用AUPRC替代ROC-AUC

          共 2895字,需瀏覽 6分鐘

           ·

          2022-06-26 23:45


          來源:DeepHub IMBA

          本文約2000字,建議閱讀7分鐘

          盡管 ROC-AUC 包含了許多有用的評(píng)估信息,但它并不是一個(gè)萬能的衡量標(biāo)準(zhǔn)。


          ROC曲線和曲線下面積AUC被廣泛用于評(píng)估二元分類器的性能。但是有時(shí),基于精確召回曲線下面積 (AUPRC) 的測量來評(píng)估不平衡數(shù)據(jù)的分類卻更為合適。

          本文將詳細(xì)比較這兩種測量方法,并說明在AUPRC數(shù)據(jù)不平衡的情況下衡量性能時(shí)的優(yōu)勢。

          預(yù)備知識(shí)——計(jì)算曲線


          我假設(shè)您熟悉準(zhǔn)確率和召回率以及混淆矩陣的元素(TP、FN、FP、TN)這些基本知識(shí)。如果你不熟悉可以搜索我們以前的文章。

          現(xiàn)在,讓我們快速回顧一下 ROC 曲線和 PRC 的計(jì)算。

          假設(shè)我們有一個(gè)二元分類器來預(yù)測概率。給定一個(gè)新的例子,它輸出正類的概率。我們?nèi)∫粋€(gè)包含 3 個(gè)正例和 2 個(gè)負(fù)例的測試集,計(jì)算分類器的預(yù)測概率——在下圖中按降序?qū)λ鼈冞M(jìn)行排序。在相鄰的預(yù)測之間,放置一個(gè)閾值并計(jì)算相應(yīng)的評(píng)估度量,TPR(相當(dāng)于Recall)、FPR和Precision。每個(gè)閾值代表一個(gè)二元分類器,其預(yù)測對(duì)其上方的點(diǎn)為正,對(duì)其下方的點(diǎn)為負(fù)——評(píng)估度量是針對(duì)該分類器計(jì)算的。

          圖 1:在給定概率和基本事實(shí)的情況下,計(jì)算 ROC 曲線和 PRC。這些點(diǎn)按正類概率排序(最高概率在頂部),綠色和紅色分別代表正標(biāo)簽或負(fù)標(biāo)簽

          我們可以繪制 ROC 曲線和 PRC:

          圖 2:根據(jù)圖 1 中描述的數(shù)據(jù)繪制 ROC 曲線和 PRC

          計(jì)算每條曲線下的面積很簡單——這些面積如圖 2 所示。AUPRC 也稱為平均精度 (AP),這是一個(gè)來自信息檢索領(lǐng)域的術(shù)語(稍后會(huì)詳細(xì)介紹)。

          在 sklearn 中,我們可以使用 sklearn.metrics.roc_auc_score 和 sklearn.metrics.average_precision_score。

          比較 ROC-AUC 和 AUPRC


          讓我們直接跳到結(jié)果,然后討論實(shí)驗(yàn)。

          在圖 3 中(下圖),我們看到兩個(gè)強(qiáng)大的模型(高 AUC),它們的 AUC 分?jǐn)?shù)差異很小,橙色模型略好一些。

          圖 3:兩個(gè)看似相似的模型,其中橙色的模型(“其他模型”)顯示出輕微的優(yōu)勢。
          然而,在圖 4 中(下圖),情況完全不同——藍(lán)色模型要強(qiáng)得多

          圖 4:兩種模型,其中藍(lán)色具有顯著優(yōu)勢

          這是為什么呢? 在回答這些問題之前,讓我們描述一下我們的實(shí)驗(yàn)。

          這里的關(guān)鍵是類標(biāo)簽的分布:

          • 20個(gè)正例
          • 2000個(gè)負(fù)例

          這是一個(gè)嚴(yán)重的不平衡的數(shù)據(jù)集。我們的兩個(gè)模型是使用這些數(shù)據(jù)進(jìn)行的預(yù)測。第一個(gè)模型在其前 20 個(gè)預(yù)測中找到 80% 的正確值·,第二 個(gè)模型在其前 60 個(gè)預(yù)測中找到 80% 的正確值·,如下圖 5 所示。其余的正確預(yù)測平均分布在剩下的樣本中。

          圖 5:圖 3 和圖 4 中考慮的模型的前 100 個(gè)預(yù)測

          換句話說,模型之間的區(qū)別在于它們發(fā)現(xiàn)正確值的速度有多“快”。讓我們看看為什么這是一個(gè)重要的屬性,以及為什么 ROC-AUC 無法捕捉到它。

          解釋差異


          ROC 曲線的 x 軸是 FPR。在給定不平衡數(shù)據(jù)的情況下,與召回率的變化相比,F(xiàn)PR 的變化是緩慢的。這個(gè)因素導(dǎo)致了上面差異的產(chǎn)生。

          在解釋之前,我們要強(qiáng)調(diào)的是這里是不平衡的數(shù)據(jù)集。查看 100 個(gè)示例后考慮 FPR,可能會(huì)看到最多 100 最少 80 個(gè) 的負(fù)例(誤報(bào)),因此 FPR 在區(qū)間 [0.04, 0.05] 內(nèi)。相比之下,我們的模型在 100 個(gè)示例中已經(jīng)實(shí)現(xiàn)了 80% 的召回率,召回率幾乎沒有提高空間,這會(huì)導(dǎo)致 AUC 很高。

          另一方面,對(duì)于PRC來說,獲得誤報(bào)會(huì)產(chǎn)生顯著影響,因?yàn)槊看挝覀兛吹揭粋€(gè)誤報(bào)時(shí),精度都會(huì)大大降低。因此,“其他模型”表現(xiàn)不佳。但是為什么這里使用精度呢?

          對(duì)于欺詐檢測、疾病識(shí)別和YouTube視頻推薦等任務(wù)。它們有著類似的數(shù)據(jù)不平衡的本質(zhì),因?yàn)檎龢颖竞苌佟H绻覀兡P偷挠脩裟芨斓卣业剿麄冃枰Y(jié)果就能節(jié)省很多時(shí)間。也就是說,正樣本的分?jǐn)?shù)是關(guān)鍵。而AUPRC正好捕獲了這一需求,而ROC-AUC沒有做到這一點(diǎn)。

          ROC-AUC 具有很好的概率解釋([2] 中提到了其他等效解釋,[4] 或 [5] 中提供了證明)。


          ROC-AUC 是“均勻抽取的隨機(jī)正例比均勻抽取的隨機(jī)負(fù)例得分更高的概率”。

          對(duì)于上述嚴(yán)重的數(shù)據(jù)不平衡的數(shù)據(jù)集,當(dāng)我們統(tǒng)一繪制一個(gè)隨機(jī)負(fù)樣本時(shí),因?yàn)閿?shù)據(jù)的不平衡,負(fù)樣本更容易收集,所以我們無法確認(rèn)這個(gè)負(fù)樣本的有效性,但是得分確實(shí)很高。但是當(dāng)我們統(tǒng)一繪制一個(gè)隨機(jī)正樣本時(shí),這個(gè)分?jǐn)?shù)對(duì)我們很重要,但是分?jǐn)?shù)卻很低,即上述概率會(huì)很高。

          對(duì)于不平衡的數(shù)據(jù)我們高興取得的是,正例(數(shù)據(jù)量少的)是如何得分的而不是負(fù)例(數(shù)據(jù)量大的),ROC-AUC 不區(qū)分這些,但 AUPRC 卻很敏感。

          對(duì)不平衡數(shù)據(jù)的分類可能被視為一個(gè)積極的檢索任務(wù)(例如,Web 文檔檢索),在這種情況下我們只關(guān)心來自我們的分類器(或排名器)的前 K 個(gè)預(yù)測。測量 top-K 預(yù)測通常使用平均精度 (AUPRC) 來完成,因?yàn)樗窃u(píng)估通用檢索系統(tǒng)的最先進(jìn)的測量方法 [3]。因此如果你發(fā)現(xiàn)你的不平衡任務(wù)類似于檢索任務(wù),強(qiáng)烈建議考慮 AUPRC。


          總結(jié)


          盡管 ROC-AUC 包含了許多有用的評(píng)估信息,但它并不是一個(gè)萬能的衡量標(biāo)準(zhǔn)。我們使用 ROC-AUC 的概率解釋進(jìn)行了實(shí)驗(yàn)來支持這一主張并提供了理論依據(jù)。AUPRC 在處理數(shù)據(jù)不平衡時(shí)可以為我們提供更多信息。

          總體而言,ROC 在評(píng)估通用分類時(shí)很有用,而 AUPRC 在對(duì)罕見事件進(jìn)行分類時(shí)是更好的方法。

          如果你對(duì)本文的計(jì)算感興趣,請(qǐng)看作者提供的源代碼:
          https://github.com/1danielr/rocauc-auprc

          引用:
          Davis, Jesse, and Mark Goadrich. “The relationship between Precision-Recall and ROC curves.” ICML. 2006.
          https://stats.stackexchange.com/questions/132777/what-does-auc-stand-for-and-what-is-it
          Buckley, Chris, and Ellen M. Voorhees. “Evaluating evaluation measure stability.” ACM SIGIR Forum. 2017.
          https://stats.stackexchange.com/questions/180638/how-to-derive-the-probabilistic-interpretation-of-the-auc
          https://stats.stackexchange.com/questions/190216/why-is-roc-auc-equivalent-to-the-probability-that-two-randomly-selected-samples

          作者:Daniel Rosenberg

          編輯:黃繼彥





          瀏覽 19
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  婷婷五月丁香色 | 影音先锋女人av资源站 | 青青草蜜桃 | 无码中文字幕第一页 | 大桥末久做爱视频 |