在线观看A片,色开心五月天,A无码片视频,日本黄色片网站视频,久久亚洲国产成人精品性色,伊人青青在线观看视频,青娱乐青青草视频在线观看,三级日本黄色电影在线观看

作者 | 貝爽、陳彩嫻

編輯 | 青暮

標(biāo)簽錯誤會破壞基準(zhǔn)的穩(wěn)定性，然而，令人沒想到的是，大多數(shù)機(jī)器學(xué)習(xí)中使用的10個主流基準(zhǔn)測試集普遍存在標(biāo)簽錯誤。比如，把“獅子”標(biāo)記成“猴子”，把“青蛙”標(biāo)記成“貓”。

眾所周知，機(jī)器學(xué)習(xí)數(shù)據(jù)集的標(biāo)記并不是完全正確的，但是目前還沒有系統(tǒng)的研究來量化機(jī)器學(xué)習(xí)數(shù)據(jù)集是否存在大量錯誤。MIT和亞馬遜的研究人員近期就嘗試了這項研究。

機(jī)器學(xué)習(xí)數(shù)據(jù)集包括訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集，在以往的研究中，我們主要關(guān)注訓(xùn)練數(shù)據(jù)是否存在系統(tǒng)誤差，而忽視了被引用最多的測試數(shù)據(jù)集。這些測試集是我們用來衡量機(jī)器學(xué)習(xí)進(jìn)展的基準(zhǔn)。

在這項研究中，MIT和亞馬遜的研究人員通過算法識別驗證了10個常用的測試集中確實存在普遍的標(biāo)簽錯誤，并進(jìn)一步確定了它們?nèi)绾斡绊慚L基準(zhǔn)的穩(wěn)定性。這10個數(shù)據(jù)集包括：MNIST、CIFAR-10、CIFAR-100、Caltech-256、ImageNet、QuickDraw、20news、IMDB、Amazon、AudioSet，它們不僅涉及圖像數(shù)據(jù)集，還包括了文本、音頻數(shù)據(jù)集。比如AudioSet是音頻數(shù)據(jù)集，20news、IMDB和Amazon是文本數(shù)據(jù)集。

下圖就展示了一些被錯誤標(biāo)記的樣本。比如在CIFAR-10中的一張“青蛙”的圖片被標(biāo)記成了“貓”。

圖像數(shù)據(jù)集的標(biāo)簽錯誤示例

所有10個ML數(shù)據(jù)集上的所有標(biāo)簽錯誤演示如下：

在這個網(wǎng)站里，可以通過選擇數(shù)據(jù)集和特定類別來查看被錯誤標(biāo)記的數(shù)據(jù)。網(wǎng)站中相當(dāng)詳盡地列出了所有他們找到的標(biāo)簽錯誤，可謂是像素級找茬了。

相關(guān)鏈接：https://labelerrors.com/

比如，當(dāng)選中ImageNet和Tiger Cat時，我們能看到ImageNet將老虎標(biāo)記成了虎貓。

虎貓的真實模樣：

研究人員將相關(guān)成果發(fā)表在論文“Pervasive Label Errors in Test Sets Destabilize ML Benchmarks”上，我們接下來簡單介紹一下論文的主要內(nèi)容。

主要發(fā)現(xiàn)

（1）ML測試集中的錯誤有多普遍？

研究人員估計10個數(shù)據(jù)集的平均錯誤率為3.4%，例如2916個標(biāo)簽錯誤在ImageNet中占比6%；39萬個標(biāo)簽錯誤在亞馬遜評論中占比4%。此外，即使在MNIST數(shù)據(jù)集——已被成千上萬的同行評審用于ML研究的基準(zhǔn)測試，在其測試集中也包含了15個（人類驗證的）標(biāo)簽錯誤。

（2）哪個ML數(shù)據(jù)集錯誤最多？

QuickDraw測試集的錯誤標(biāo)簽達(dá)到了500萬個，約占整個測試集的10%。

（3）高容量模型更容易過擬合錯誤標(biāo)記數(shù)據(jù)

高容量/復(fù)雜模型（例如ResNet-50）在含錯誤標(biāo)記的測試數(shù)據(jù)（即傳統(tǒng)測量的數(shù)據(jù)）上表現(xiàn)良好，低容量模型（如ResNet-18）在手動更正標(biāo)記的數(shù)據(jù)上有更好的表現(xiàn)。

這可能是高容量模型在訓(xùn)練時過度擬合訓(xùn)練集的錯誤標(biāo)簽，或在調(diào)整測試集上的超參數(shù)時過度擬合測試集所導(dǎo)致的結(jié)果。

（4）多少噪聲會破壞ImageNet和CIFAR基準(zhǔn)測試的穩(wěn)定性？

在含有更正標(biāo)簽的ImageNet上：如果錯誤標(biāo)記的示例僅占6%，那么ResNet-18的性能表現(xiàn)將優(yōu)于ResNet-50。在含有更正標(biāo)簽的CIFAR-10上：如果錯誤標(biāo)記的示例的占比為5%，那么VGG-11的性能表現(xiàn)優(yōu)于VGG-19。

傳統(tǒng)意義上，ML從業(yè)者需要根據(jù)測試的準(zhǔn)確性來選擇部署模型。通過這項研究，研究者指出，在正確標(biāo)記的測試集上判斷模型可能更有用。因此，研究者提出了幾個建議：

更正測試集標(biāo)簽
測試數(shù)據(jù)集是否受到不穩(wěn)定基準(zhǔn)的影響
考慮對帶有噪聲標(biāo)簽的數(shù)據(jù)集使用更簡單/更小的模型

研究方法

那么，這些錯誤是怎么被發(fā)現(xiàn)的呢？主要分為兩個步驟，即算法識別和人工驗證。

置信學(xué)習(xí)

在所有10個數(shù)據(jù)集中，研究人員首先通過置信學(xué)習(xí)算法進(jìn)行初步識別標(biāo)簽錯誤（準(zhǔn)確率可達(dá)54%），然后再通過眾包的形式進(jìn)行人工驗證。需要說明的是，由于置信學(xué)習(xí)框架不與特定的數(shù)據(jù)模式或模型耦合，它支持在多種數(shù)據(jù)集中發(fā)現(xiàn)標(biāo)簽錯誤。

置信學(xué)習(xí)（CL）已成為監(jiān)督學(xué)習(xí)和弱監(jiān)督中的一個子領(lǐng)域，用于：

描述標(biāo)簽噪聲
查找標(biāo)簽錯誤
學(xué)習(xí)噪聲標(biāo)簽
發(fā)現(xiàn)本體論問題

CL 基于噪聲數(shù)據(jù)剪枝的原理，通過計數(shù)對噪聲進(jìn)行評估，并對實例進(jìn)行排序以進(jìn)行置信訓(xùn)練。

從上圖可以看出，CL 需要兩個輸入：

樣本外預(yù)測概率（矩陣大?。侯惖臉颖緮?shù)）
噪聲標(biāo)簽（矢量長度：示例數(shù)）

出于弱監(jiān)督的目的，CL 包括三個步驟：

估計給定噪聲標(biāo)簽和潛在（未知）未損壞標(biāo)簽的聯(lián)合分布，以充分描述類條件標(biāo)簽噪聲
查找并刪除帶有標(biāo)簽問題的噪音示例
去除訓(xùn)練誤差，通過估計潛在先驗重新加權(quán)實例

關(guān)于置信學(xué)習(xí)的更多細(xì)節(jié)，可以查看這篇博客：

https://l7.curtisnorthcutt.com/confident-learning

研究人員曾經(jīng)用置信學(xué)習(xí)在2012 ILSVRC ImageNet訓(xùn)練集中發(fā)現(xiàn)的標(biāo)簽錯誤示例。

他們發(fā)現(xiàn)，這些錯誤可分為以下三類：

多標(biāo)簽圖像（藍(lán)色）：圖像中有兩個或兩個以上標(biāo)簽。
本體論問題（綠色）：包括“是”或 “有”兩種關(guān)系，在這些情況下，數(shù)據(jù)集應(yīng)該包含其中一類。
標(biāo)簽錯誤（紅色）：存在比給定類標(biāo)簽更適合某一示例的類標(biāo)簽。

人工驗證

接下來是人工驗證。研究人員基于算法識別的錯誤標(biāo)簽，進(jìn)一步采用眾包平臺Mechanical Turk展開了研究。在三個（Caltech-256、QuickDraw和Amazon Reviews）含大量錯誤標(biāo)簽的數(shù)據(jù)集中，研究人員隨機(jī)檢查了部分樣本（分別是8.6%、0.04%、0.02%），對其它數(shù)據(jù)集則對所有識別到的錯誤標(biāo)簽進(jìn)行檢查，如下表所示。（注意，由于ImageNet測試集不公開，所以這里使用的是ILSVRC 2012 ImageNet驗證集）

研究者向驗證人員展示了這些錯誤標(biāo)記的數(shù)據(jù)，并詢問他們，這些數(shù)據(jù)的標(biāo)記應(yīng)該是：（1）給定標(biāo)簽，（2）CL預(yù)測標(biāo)簽，（3）上述兩個標(biāo)簽都對，（4）兩個標(biāo)簽都不對。

為了協(xié)助驗證人員，驗證的界面中還展示了原標(biāo)簽類別和CL預(yù)測類別的訓(xùn)練集示例，如下圖所示。

Mechanical Turk的工作界面顯示了CIFAR-100的一個示例（圖片帶有給定錯誤標(biāo)簽“ cat”）。界面中會展示錯誤類別“cat”的訓(xùn)練集示例，以及CL預(yù)測類別“frog”的訓(xùn)練集示例。

如下表所示，Mechanical Turk驗證確認(rèn)了普遍存在的標(biāo)記錯誤，并對標(biāo)簽問題的類型進(jìn)行了分類。

這些修正是否全部都對呢？并不是。在某些案例中，驗證人員也會同意錯誤的標(biāo)簽。由于研究人員只驗證了一小部分?jǐn)?shù)據(jù)集，所以檢測到的錯誤標(biāo)簽可能也只是一小部分。

最后，研究人員還提供了清洗過的測試集：

https://github.com/cgnorthcutt/label-errors/tree/main/cleaned_test_sets

這些清洗版測試集糾正了大部分的標(biāo)簽錯誤。

研究人員表示，希望未來的基準(zhǔn)測試能夠使用這些改進(jìn)的測試數(shù)據(jù)，而不是原來含有錯誤標(biāo)簽的數(shù)據(jù)集。

參考鏈接：

https://www.reddit.com/r/MachineLearning/comments/mfsn18/r_pervasive_label_errors_in_test_sets_destabilize/
https://l7.curtisnorthcutt.com/label-errors
https://l7.curtisnorthcutt.com/confident-learning

AI模型性能上不去？這真的不怪我，ImageNet等數(shù)據(jù)集每100個標(biāo)簽就錯3個！

（1）ML測試集中的錯誤有多普遍？