AI模型性能上不去?這真的不怪我,ImageNet等數(shù)據(jù)集每100個標(biāo)簽就錯3個!





主要發(fā)現(xiàn)
(1)ML測試集中的錯誤有多普遍?
(2)哪個ML數(shù)據(jù)集錯誤最多?
(3)高容量模型更容易過擬合錯誤標(biāo)記數(shù)據(jù)
(4)多少噪聲會破壞ImageNet和CIFAR基準(zhǔn)測試的穩(wěn)定性?
更正測試集標(biāo)簽 測試數(shù)據(jù)集是否受到不穩(wěn)定基準(zhǔn)的影響 考慮對帶有噪聲標(biāo)簽的數(shù)據(jù)集使用更簡單/更小的模型
研究方法
置信學(xué)習(xí)
描述標(biāo)簽噪聲 查找標(biāo)簽錯誤 學(xué)習(xí)噪聲標(biāo)簽 發(fā)現(xiàn)本體論問題

樣本外預(yù)測概率(矩陣大?。侯惖臉颖緮?shù)) 噪聲標(biāo)簽(矢量長度:示例數(shù))
估計給定噪聲標(biāo)簽和潛在(未知)未損壞標(biāo)簽的聯(lián)合分布,以充分描述類條件標(biāo)簽噪聲 查找并刪除帶有標(biāo)簽問題的噪音示例 去除訓(xùn)練誤差,通過估計潛在先驗重新加權(quán)實例

多標(biāo)簽圖像(藍(lán)色):圖像中有兩個或兩個以上標(biāo)簽。 本體論問題(綠色):包括“是”或 “有”兩種關(guān)系,在這些情況下,數(shù)據(jù)集應(yīng)該包含其中一類。 標(biāo)簽錯誤(紅色):存在比給定類標(biāo)簽更適合某一示例的類標(biāo)簽。
人工驗證




https://www.reddit.com/r/MachineLearning/comments/mfsn18/r_pervasive_label_errors_in_test_sets_destabilize/ https://l7.curtisnorthcutt.com/label-errors https://l7.curtisnorthcutt.com/confident-learning

評論
圖片
表情
