不做調(diào)參俠,重視數(shù)據(jù)及處理能力?吳恩達(dá)發(fā)起的Data-Centric賽事總結(jié)!
賽題名稱:Data-Centric AI Competition
比賽官網(wǎng):https://https-deeplearning-ai.github.io/data-centric-comp/
比賽鏈接:https://worksheets.codalab.org/worksheets/0x7a8721f11e61436e93ac8f76da83f0e6
賽題介紹
在大多數(shù)機(jī)器學(xué)習(xí)比賽中,你被要求在給定固定數(shù)據(jù)集的情況下構(gòu)建一個(gè)高性能模型。然而機(jī)器學(xué)習(xí)已經(jīng)成熟到可以廣泛使用高性能模型架構(gòu),而工程數(shù)據(jù)集的方法卻滯后。
以Data-Centric(數(shù)據(jù)為中心)的AI競賽顛覆了傳統(tǒng)格式,而是要求您在給定固定模型的情況下改進(jìn)數(shù)據(jù)集。
賽題任務(wù)
該數(shù)據(jù)集包含約 3000 張手寫羅馬數(shù)字 1-10 的圖像。您的任務(wù)是通過改進(jìn)數(shù)據(jù)集以及進(jìn)行訓(xùn)練和驗(yàn)證拆分來優(yōu)化模型性能。
優(yōu)勝選手分享
Divakar Roy

博客采訪:https://www.deeplearning.ai/data-centric-ai-competition-divakar-roy/
我已經(jīng)設(shè)置了不同的算法來根據(jù)噪音水平分離噪音。以下是一些具有不同類型噪聲的示例案例:
去除噪聲后,我們只剩下兩組圖像,一組干凈,一組嘈雜。干凈的圖像只有前景(字母),而嘈雜的圖像只有背景(噪音)。
然后我們處理干凈的圖像以裁剪成字母區(qū)域。將裁剪前后清洗后的圖像送入 umap 聚類方法研究其模式,如下圖:

簇根據(jù)它們的真實(shí)標(biāo)簽著色。可以看出,與沒有裁剪相比,聚類更遵循它們的原生標(biāo)簽?zāi)J剑⑶疫€導(dǎo)致標(biāo)簽之間的決策邊界更精確。然后我們處理這些裁剪的圖像以準(zhǔn)備它們進(jìn)行增強(qiáng)。
數(shù)據(jù)增強(qiáng)方法
第一個(gè)增強(qiáng)階段包括相機(jī)失真方法,通過將數(shù)字的規(guī)則 2D 網(wǎng)格映射到傾斜的網(wǎng)格上,我們可以生成獨(dú)特的形狀。

數(shù)據(jù)質(zhì)量評估與清理
我們使用 Imagenet預(yù)訓(xùn)練的ResNet-15 模型作為特征提取,然后送入t-SNE 聚類算法,以獲得可用于各種工作流程的二維數(shù)組。
Innotescus

博客采訪:https://www.deeplearning.ai/data-centric-ai-competition-innotescus/
我們的方法可以分為兩部分:數(shù)據(jù)標(biāo)記和平衡數(shù)據(jù)分布。
識別噪聲圖像
我們從訓(xùn)練集中刪除了噪聲圖像。這些圖像顯然不對應(yīng)于特定類別,并且不利于模型性能。
識別不正確的類
我們糾正了錯(cuò)誤標(biāo)記的數(shù)據(jù)點(diǎn)。人工注釋者容易出錯(cuò),而擁有系統(tǒng)的 QA 或?qū)彶榱鞒逃兄谧R別和消除這些錯(cuò)誤。
識別不明確的數(shù)據(jù)樣本
我們?yōu)椴幻鞔_的數(shù)據(jù)點(diǎn)定義了一致的規(guī)則。例如,在下面顯示的圖像中,如果我們看到兩條垂直線(頂行)之間有明顯的間隙,即使它們成一定角度,我們也將數(shù)據(jù)點(diǎn)視為2類。
如果沒有可識別的差距,我們將數(shù)據(jù)點(diǎn)視為第5類(底行)。預(yù)先定義的規(guī)則幫助我們更客觀地減少歧義。
這個(gè)三步過程將數(shù)據(jù)集減少到總共2,228張圖像,比提供的數(shù)據(jù)集減少了22%。僅此一項(xiàng)就在測試集上產(chǎn)生了73.099%的準(zhǔn)確率,比基準(zhǔn)性能提高了大約9%。
平衡數(shù)據(jù)分布
當(dāng)我們在現(xiàn)實(shí)世界中收集訓(xùn)練數(shù)據(jù)時(shí),總是將隱藏的偏差引入我們的訓(xùn)練數(shù)據(jù)中。有偏見的數(shù)據(jù)會導(dǎo)致學(xué)習(xí)不佳。一種解決方案是減少不明確的數(shù)據(jù)點(diǎn)并確保沿?cái)?shù)據(jù)集中方差的主要維度保持平衡。

重新平衡訓(xùn)練和測試數(shù)據(jù)集
真實(shí)世界的數(shù)據(jù)有很多內(nèi)在的差異。這種差異幾乎總是會導(dǎo)致分布不平衡,尤其是在觀察特定特征或度量時(shí)。當(dāng)增加時(shí),這些偏見會被放大!
我們在本次比賽中的兩個(gè)提交中觀察到了這一點(diǎn)。我們的方法從“更多數(shù)據(jù)”轉(zhuǎn)向“更平衡的數(shù)據(jù)”。
使用嵌入重新平衡子類
我們觀察到的第一個(gè)不平衡是每個(gè)類中的大小寫分布。例如,我們的“清理”數(shù)據(jù)包含 90 張小寫 1 類圖像和 194 張大寫 1 類圖像。

用困難的例子和增強(qiáng)重新平衡邊緣情況
在比賽即將結(jié)束時(shí),我們觀察到驗(yàn)證集中的某些示例一直被錯(cuò)誤分類。我們的目標(biāo)是幫助模型以更高的置信度對這些示例進(jìn)行分類。

我們認(rèn)為,這些錯(cuò)誤分類是由于我們的訓(xùn)練集中“邊緣案例”示例的代表性不足造成的。
Synaptic-AnN

博客采訪:https://www.deeplearning.ai/data-centric-ai-competition-synaptic-ann/ 論文分享:https://www.overleaf.com/read/gxdkymkvwkmy
手動(dòng)數(shù)據(jù)清洗
與大多數(shù)其他競爭對手一樣,我們最初的直覺使我們手動(dòng)篩選數(shù)據(jù)集并刪除任何異常值、嘈雜和模糊的圖像。
這將競爭數(shù)據(jù)集從 2880 張圖像減少到 2613 張圖像。我們將此數(shù)據(jù)集稱為。
生成更多數(shù)據(jù)
由于比賽允許我們在訓(xùn)練集和驗(yàn)證集(我們進(jìn)行了比例95/5 訓(xùn)練-驗(yàn)證劃分)中最多提交 10,000 張圖像,因此我們招募了朋友和家人來幫助我們編寫 4353 個(gè)額外的羅馬數(shù)字。我們稱這個(gè)數(shù)據(jù)集為。
我們讓多人手寫羅馬數(shù)字的原因是因?yàn)槲覀兿MM可能真實(shí)地反映任務(wù)的性質(zhì)。增強(qiáng)以填充其余可能的圖像似乎并不是最好的想法,因?yàn)槲覀兿氪_保 ResNet50 泛化良好。
五種數(shù)據(jù)擴(kuò)增
對于圖像,執(zhí)行了右上、左上、右下、左下和中心裁剪(圖 4)。由于裁剪不當(dāng)而可能導(dǎo)致錯(cuò)誤分類的圖像被丟棄。
長寬比標(biāo)準(zhǔn)化:
所有寬高比或高寬比大于 1.75(在某些情況下大于 1.5)的圖像都被裁剪成最小尺寸的正方形。這確保了將圖像調(diào)整為 32 x 32 時(shí)的圖像質(zhì)量。
自動(dòng)增強(qiáng)
我們探索了使用AutoAugment學(xué)習(xí)增強(qiáng)技術(shù)參數(shù)的可行性,但由于計(jì)算資源有限和數(shù)據(jù)不足,本文在 SVHN 數(shù)據(jù)集上的結(jié)果用于比賽數(shù)據(jù)集。
我們觀察到Solarize和Invert等增強(qiáng)技術(shù)無效,因此將它們從最終的SVHN策略中刪除。是因?yàn)镾VHN 數(shù)據(jù)集是灰度的,并且與數(shù)字表示(外殼板)有關(guān)。我們還探索了其他基于 CIFAR10 和 ImageNet 的自動(dòng)增強(qiáng)策略,但這些策略不如 SVHN 有效。
參與交流
相比較于算法賽,以數(shù)據(jù)為中心的賽事開始成為新趨勢,數(shù)據(jù)本身以及數(shù)據(jù)處理的能力在企業(yè)中也愈發(fā)重要,因此建了相關(guān)交流群,對Data-Centric感興趣的話歡迎加入。延伸閱讀:
