<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          AI模型性能上不去?這真的不怪我,ImageNet等數(shù)據(jù)集每100個標(biāo)簽就錯3個!

          共 3176字,需瀏覽 7分鐘

           ·

          2021-03-31 19:25

          作者 | 貝爽、陳彩嫻
          編輯 | 青暮
          標(biāo)簽錯誤會破壞基準(zhǔn)的穩(wěn)定性,然而,令人沒想到的是,大多數(shù)機(jī)器學(xué)習(xí)中使用的10個主流基準(zhǔn)測試集普遍存在標(biāo)簽錯誤。比如,把“獅子”標(biāo)記成“猴子”,把“青蛙”標(biāo)記成“貓”。
          眾所周知,機(jī)器學(xué)習(xí)數(shù)據(jù)集的標(biāo)記并不是完全正確的,但是目前還沒有系統(tǒng)的研究來量化機(jī)器學(xué)習(xí)數(shù)據(jù)集是否存在大量錯誤。MIT和亞馬遜的研究人員近期就嘗試了這項研究。
          機(jī)器學(xué)習(xí)數(shù)據(jù)集包括訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,在以往的研究中,我們主要關(guān)注訓(xùn)練數(shù)據(jù)是否存在系統(tǒng)誤差,而忽視了被引用最多的測試數(shù)據(jù)集。這些測試集是我們用來衡量機(jī)器學(xué)習(xí)進(jìn)展的基準(zhǔn)。
          在這項研究中,MIT和亞馬遜的研究人員通過算法識別驗證了10個常用的測試集中確實存在普遍的標(biāo)簽錯誤,并進(jìn)一步確定了它們?nèi)绾斡绊慚L基準(zhǔn)的穩(wěn)定性。這10個數(shù)據(jù)集包括:MNIST、CIFAR-10、CIFAR-100、Caltech-256、ImageNet、QuickDraw、20news、IMDB、Amazon、AudioSet,它們不僅涉及圖像數(shù)據(jù)集,還包括了文本、音頻數(shù)據(jù)集。比如AudioSet是音頻數(shù)據(jù)集,20news、IMDB和Amazon是文本數(shù)據(jù)集。
          下圖就展示了一些被錯誤標(biāo)記的樣本。比如在CIFAR-10中的一張“青蛙”的圖片被標(biāo)記成了“貓”。
          圖像數(shù)據(jù)集的標(biāo)簽錯誤示例
          所有10個ML數(shù)據(jù)集上的所有標(biāo)簽錯誤演示如下:
          在這個網(wǎng)站里,可以通過選擇數(shù)據(jù)集和特定類別來查看被錯誤標(biāo)記的數(shù)據(jù)。網(wǎng)站中相當(dāng)詳盡地列出了所有他們找到的標(biāo)簽錯誤,可謂是像素級找茬了。
          相關(guān)鏈接:https://labelerrors.com/
          比如,當(dāng)選中ImageNet和Tiger Cat時,我們能看到ImageNet將老虎標(biāo)記成了虎貓。
          虎貓的真實模樣:
          研究人員將相關(guān)成果發(fā)表在論文“Pervasive Label Errors in Test Sets Destabilize ML Benchmarks”上,我們接下來簡單介紹一下論文的主要內(nèi)容。
           
          1

          主要發(fā)現(xiàn)

          (1)ML測試集中的錯誤有多普遍?

          研究人員估計10個數(shù)據(jù)集的平均錯誤率為3.4%,例如2916個標(biāo)簽錯誤在ImageNet中占比6%;39萬個標(biāo)簽錯誤在亞馬遜評論中占比4%。此外,即使在MNIST數(shù)據(jù)集——已被成千上萬的同行評審用于ML研究的基準(zhǔn)測試,在其測試集中也包含了15個(人類驗證的)標(biāo)簽錯誤。

          (2)哪個ML數(shù)據(jù)集錯誤最多?

          QuickDraw測試集的錯誤標(biāo)簽達(dá)到了500萬個,約占整個測試集的10%。

          (3)高容量模型更容易過擬合錯誤標(biāo)記數(shù)據(jù)

          高容量/復(fù)雜模型(例如ResNet-50)在含錯誤標(biāo)記的測試數(shù)據(jù)(即傳統(tǒng)測量的數(shù)據(jù))上表現(xiàn)良好,低容量模型(如ResNet-18)在手動更正標(biāo)記的數(shù)據(jù)上有更好的表現(xiàn)。
          這可能是高容量模型在訓(xùn)練時過度擬合訓(xùn)練集的錯誤標(biāo)簽,或在調(diào)整測試集上的超參數(shù)時過度擬合測試集所導(dǎo)致的結(jié)果。

          (4)多少噪聲會破壞ImageNet和CIFAR基準(zhǔn)測試的穩(wěn)定性?

          在含有更正標(biāo)簽的ImageNet上:如果錯誤標(biāo)記的示例僅占6%,那么ResNet-18的性能表現(xiàn)將優(yōu)于ResNet-50。在含有更正標(biāo)簽的CIFAR-10上:如果錯誤標(biāo)記的示例的占比為5%,那么VGG-11的性能表現(xiàn)優(yōu)于VGG-19。
          傳統(tǒng)意義上,ML從業(yè)者需要根據(jù)測試的準(zhǔn)確性來選擇部署模型。通過這項研究,研究者指出,在正確標(biāo)記的測試集上判斷模型可能更有用。因此,研究者提出了幾個建議:
          • 更正測試集標(biāo)簽
          • 測試數(shù)據(jù)集是否受到不穩(wěn)定基準(zhǔn)的影響
          • 考慮對帶有噪聲標(biāo)簽的數(shù)據(jù)集使用更簡單/更小的模型

          2

          研究方法

          那么,這些錯誤是怎么被發(fā)現(xiàn)的呢?主要分為兩個步驟,即算法識別和人工驗證。

          置信學(xué)習(xí)

          在所有10個數(shù)據(jù)集中,研究人員首先通過置信學(xué)習(xí)算法進(jìn)行初步識別標(biāo)簽錯誤(準(zhǔn)確率可達(dá)54%),然后再通過眾包的形式進(jìn)行人工驗證。需要說明的是,由于置信學(xué)習(xí)框架不與特定的數(shù)據(jù)模式或模型耦合,它支持在多種數(shù)據(jù)集中發(fā)現(xiàn)標(biāo)簽錯誤。
          置信學(xué)習(xí)(CL)已成為監(jiān)督學(xué)習(xí)和弱監(jiān)督中的一個子領(lǐng)域,用于:
          • 描述標(biāo)簽噪聲
          • 查找標(biāo)簽錯誤
          • 學(xué)習(xí)噪聲標(biāo)簽
          • 發(fā)現(xiàn)本體論問題
          CL 基于噪聲數(shù)據(jù)剪枝的原理,通過計數(shù)對噪聲進(jìn)行評估,并對實例進(jìn)行排序以進(jìn)行置信訓(xùn)練。
          從上圖可以看出,CL 需要兩個輸入:
          • 樣本外預(yù)測概率(矩陣大?。侯惖臉颖緮?shù))
          • 噪聲標(biāo)簽(矢量長度:示例數(shù))
          出于弱監(jiān)督的目的,CL 包括三個步驟:
          • 估計給定噪聲標(biāo)簽和潛在(未知)未損壞標(biāo)簽的聯(lián)合分布,以充分描述類條件標(biāo)簽噪聲
          • 查找并刪除帶有標(biāo)簽問題的噪音示例
          • 去除訓(xùn)練誤差,通過估計潛在先驗重新加權(quán)實例
          關(guān)于置信學(xué)習(xí)的更多細(xì)節(jié),可以查看這篇博客:
          https://l7.curtisnorthcutt.com/confident-learning
          研究人員曾經(jīng)用置信學(xué)習(xí)在2012 ILSVRC ImageNet訓(xùn)練集中發(fā)現(xiàn)的標(biāo)簽錯誤示例。
          他們發(fā)現(xiàn),這些錯誤可分為以下三類:
          • 多標(biāo)簽圖像(藍(lán)色):圖像中有兩個或兩個以上標(biāo)簽。
          • 本體論問題(綠色):包括“是”或 “有”兩種關(guān)系,在這些情況下,數(shù)據(jù)集應(yīng)該包含其中一類。
          • 標(biāo)簽錯誤(紅色):存在比給定類標(biāo)簽更適合某一示例的類標(biāo)簽。

          人工驗證

          接下來是人工驗證。研究人員基于算法識別的錯誤標(biāo)簽,進(jìn)一步采用眾包平臺Mechanical Turk展開了研究。在三個(Caltech-256、QuickDraw和Amazon Reviews)含大量錯誤標(biāo)簽的數(shù)據(jù)集中,研究人員隨機(jī)檢查了部分樣本(分別是8.6%、0.04%、0.02%),對其它數(shù)據(jù)集則對所有識別到的錯誤標(biāo)簽進(jìn)行檢查,如下表所示。(注意,由于ImageNet測試集不公開,所以這里使用的是ILSVRC 2012 ImageNet驗證集)
          研究者向驗證人員展示了這些錯誤標(biāo)記的數(shù)據(jù),并詢問他們,這些數(shù)據(jù)的標(biāo)記應(yīng)該是:(1)給定標(biāo)簽,(2)CL預(yù)測標(biāo)簽,(3)上述兩個標(biāo)簽都對,(4)兩個標(biāo)簽都不對。
          為了協(xié)助驗證人員,驗證的界面中還展示了原標(biāo)簽類別和CL預(yù)測類別的訓(xùn)練集示例,如下圖所示。
          Mechanical Turk的工作界面顯示了CIFAR-100的一個示例(圖片帶有給定錯誤標(biāo)簽“ cat”)。界面中會展示錯誤類別“cat”的訓(xùn)練集示例,以及CL預(yù)測類別“frog”的訓(xùn)練集示例。
          如下表所示,Mechanical Turk驗證確認(rèn)了普遍存在的標(biāo)記錯誤,并對標(biāo)簽問題的類型進(jìn)行了分類。
          這些修正是否全部都對呢?并不是。在某些案例中,驗證人員也會同意錯誤的標(biāo)簽。由于研究人員只驗證了一小部分?jǐn)?shù)據(jù)集,所以檢測到的錯誤標(biāo)簽可能也只是一小部分。
          最后,研究人員還提供了清洗過的測試集:
          https://github.com/cgnorthcutt/label-errors/tree/main/cleaned_test_sets
          這些清洗版測試集糾正了大部分的標(biāo)簽錯誤。
          研究人員表示,希望未來的基準(zhǔn)測試能夠使用這些改進(jìn)的測試數(shù)據(jù),而不是原來含有錯誤標(biāo)簽的數(shù)據(jù)集。
           
          參考鏈接:
          • https://www.reddit.com/r/MachineLearning/comments/mfsn18/r_pervasive_label_errors_in_test_sets_destabilize/
          • https://l7.curtisnorthcutt.com/label-errors
          • https://l7.curtisnorthcutt.com/confident-learning

          瀏覽 39
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  老骚逼网站 | 五月婷婷综合久久 | av搬运一区二区三区在线观看 | 日日干夜夜操夜夜爽i | 先锋成人AV电影 |