欧美日韩黄色片在线,亚洲无码专区区免费,国产大屁股,亚洲日本色情视频在线,美女逼网站,欧美第一页草草影院,aa视频,翔田千里影音先锋

賽題名稱：Data-Centric AI Competition

比賽官網(wǎng)：https://https-deeplearning-ai.github.io/data-centric-comp/

比賽鏈接：https://worksheets.codalab.org/worksheets/0x7a8721f11e61436e93ac8f76da83f0e6

賽題介紹

在大多數(shù)機(jī)器學(xué)習(xí)比賽中，你被要求在給定固定數(shù)據(jù)集的情況下構(gòu)建一個(gè)高性能模型。然而機(jī)器學(xué)習(xí)已經(jīng)成熟到可以廣泛使用高性能模型架構(gòu)，而工程數(shù)據(jù)集的方法卻滯后。

以Data-Centric（數(shù)據(jù)為中心）的AI競賽顛覆了傳統(tǒng)格式，而是要求您在給定固定模型的情況下改進(jìn)數(shù)據(jù)集。

賽題任務(wù)

該數(shù)據(jù)集包含約 3000 張手寫羅馬數(shù)字 1-10 的圖像。您的任務(wù)是通過改進(jìn)數(shù)據(jù)集以及進(jìn)行訓(xùn)練和驗(yàn)證拆分來優(yōu)化模型性能。

優(yōu)勝選手分享

Divakar Roy

博客采訪：https://www.deeplearning.ai/data-centric-ai-competition-divakar-roy/

我已經(jīng)設(shè)置了不同的算法來根據(jù)噪音水平分離噪音。以下是一些具有不同類型噪聲的示例案例：

去除噪聲后，我們只剩下兩組圖像，一組干凈，一組嘈雜。干凈的圖像只有前景（字母），而嘈雜的圖像只有背景（噪音）。

然后我們處理干凈的圖像以裁剪成字母區(qū)域。將裁剪前后清洗后的圖像送入 umap 聚類方法研究其模式，如下圖：

簇根據(jù)它們的真實(shí)標(biāo)簽著色。可以看出，與沒有裁剪相比，聚類更遵循它們的原生標(biāo)簽?zāi)Ｊ剑⑶疫€導(dǎo)致標(biāo)簽之間的決策邊界更精確。然后我們處理這些裁剪的圖像以準(zhǔn)備它們進(jìn)行增強(qiáng)。

數(shù)據(jù)增強(qiáng)方法

第一個(gè)增強(qiáng)階段包括相機(jī)失真方法，通過將數(shù)字的規(guī)則 2D 網(wǎng)格映射到傾斜的網(wǎng)格上，我們可以生成獨(dú)特的形狀。

數(shù)據(jù)質(zhì)量評估與清理

我們使用 Imagenet預(yù)訓(xùn)練的ResNet-15 模型作為特征提取，然后送入t-SNE 聚類算法，以獲得可用于各種工作流程的二維數(shù)組。

Innotescus

博客采訪：https://www.deeplearning.ai/data-centric-ai-competition-innotescus/

我們的方法可以分為兩部分：數(shù)據(jù)標(biāo)記和平衡數(shù)據(jù)分布。

識別噪聲圖像

我們從訓(xùn)練集中刪除了噪聲圖像。這些圖像顯然不對應(yīng)于特定類別，并且不利于模型性能。

識別不正確的類

我們糾正了錯(cuò)誤標(biāo)記的數(shù)據(jù)點(diǎn)。人工注釋者容易出錯(cuò)，而擁有系統(tǒng)的 QA 或?qū)彶榱鞒逃兄谧R別和消除這些錯(cuò)誤。

識別不明確的數(shù)據(jù)樣本

我們?yōu)椴幻鞔_的數(shù)據(jù)點(diǎn)定義了一致的規(guī)則。例如，在下面顯示的圖像中，如果我們看到兩條垂直線（頂行）之間有明顯的間隙，即使它們成一定角度，我們也將數(shù)據(jù)點(diǎn)視為2類。

如果沒有可識別的差距，我們將數(shù)據(jù)點(diǎn)視為第5類（底行）。預(yù)先定義的規(guī)則幫助我們更客觀地減少歧義。

這個(gè)三步過程將數(shù)據(jù)集減少到總共2,228張圖像，比提供的數(shù)據(jù)集減少了22%。僅此一項(xiàng)就在測試集上產(chǎn)生了73.099%的準(zhǔn)確率，比基準(zhǔn)性能提高了大約9%。

平衡數(shù)據(jù)分布

當(dāng)我們在現(xiàn)實(shí)世界中收集訓(xùn)練數(shù)據(jù)時(shí)，總是將隱藏的偏差引入我們的訓(xùn)練數(shù)據(jù)中。有偏見的數(shù)據(jù)會導(dǎo)致學(xué)習(xí)不佳。一種解決方案是減少不明確的數(shù)據(jù)點(diǎn)并確保沿?cái)?shù)據(jù)集中方差的主要維度保持平衡。

重新平衡訓(xùn)練和測試數(shù)據(jù)集

真實(shí)世界的數(shù)據(jù)有很多內(nèi)在的差異。這種差異幾乎總是會導(dǎo)致分布不平衡，尤其是在觀察特定特征或度量時(shí)。當(dāng)增加時(shí)，這些偏見會被放大！

我們在本次比賽中的兩個(gè)提交中觀察到了這一點(diǎn)。我們的方法從“更多數(shù)據(jù)”轉(zhuǎn)向“更平衡的數(shù)據(jù)”。

使用嵌入重新平衡子類

我們觀察到的第一個(gè)不平衡是每個(gè)類中的大小寫分布。例如，我們的“清理”數(shù)據(jù)包含 90 張小寫 1 類圖像和 194 張大寫 1 類圖像。

用困難的例子和增強(qiáng)重新平衡邊緣情況

在比賽即將結(jié)束時(shí)，我們觀察到驗(yàn)證集中的某些示例一直被錯(cuò)誤分類。我們的目標(biāo)是幫助模型以更高的置信度對這些示例進(jìn)行分類。

我們認(rèn)為，這些錯(cuò)誤分類是由于我們的訓(xùn)練集中“邊緣案例”示例的代表性不足造成的。

Synaptic-AnN

博客采訪：https://www.deeplearning.ai/data-centric-ai-competition-synaptic-ann/
論文分享：https://www.overleaf.com/read/gxdkymkvwkmy

手動(dòng)數(shù)據(jù)清洗

與大多數(shù)其他競爭對手一樣，我們最初的直覺使我們手動(dòng)篩選數(shù)據(jù)集并刪除任何異常值、嘈雜和模糊的圖像。

這將競爭數(shù)據(jù)集從 2880 張圖像減少到 2613 張圖像。我們將此數(shù)據(jù)集稱為。

生成更多數(shù)據(jù)

由于比賽允許我們在訓(xùn)練集和驗(yàn)證集（我們進(jìn)行了比例95/5 訓(xùn)練-驗(yàn)證劃分）中最多提交 10,000 張圖像，因此我們招募了朋友和家人來幫助我們編寫 4353 個(gè)額外的羅馬數(shù)字。我們稱這個(gè)數(shù)據(jù)集為。

我們讓多人手寫羅馬數(shù)字的原因是因?yàn)槲覀兿ＭM可能真實(shí)地反映任務(wù)的性質(zhì)。增強(qiáng)以填充其余可能的圖像似乎并不是最好的想法，因?yàn)槲覀兿氪_保 ResNet50 泛化良好。

五種數(shù)據(jù)擴(kuò)增

對于圖像，執(zhí)行了右上、左上、右下、左下和中心裁剪（圖 4）。由于裁剪不當(dāng)而可能導(dǎo)致錯(cuò)誤分類的圖像被丟棄。

長寬比標(biāo)準(zhǔn)化：

所有寬高比或高寬比大于 1.75（在某些情況下大于 1.5）的圖像都被裁剪成最小尺寸的正方形。這確保了將圖像調(diào)整為 32 x 32 時(shí)的圖像質(zhì)量。

自動(dòng)增強(qiáng)

我們探索了使用AutoAugment學(xué)習(xí)增強(qiáng)技術(shù)參數(shù)的可行性，但由于計(jì)算資源有限和數(shù)據(jù)不足，本文在 SVHN 數(shù)據(jù)集上的結(jié)果用于比賽數(shù)據(jù)集。

我們觀察到Solarize和Invert等增強(qiáng)技術(shù)無效，因此將它們從最終的SVHN策略中刪除。是因?yàn)镾VHN 數(shù)據(jù)集是灰度的，并且與數(shù)字表示（外殼板）有關(guān)。我們還探索了其他基于 CIFAR10 和 ImageNet 的自動(dòng)增強(qiáng)策略，但這些策略不如 SVHN 有效。

參與交流

相比較于算法賽，以數(shù)據(jù)為中心的賽事開始成為新趨勢，數(shù)據(jù)本身以及數(shù)據(jù)處理的能力在企業(yè)中也愈發(fā)重要，因此建了相關(guān)交流群，對Data-Centric感興趣的話歡迎加入。延伸閱讀：

浙大趙俊博：重新審視模型 vs 數(shù)據(jù)這個(gè)問題！
在錯(cuò)誤的數(shù)據(jù)上，刷到 SOTA 又有什么意義？

不做調(diào)參俠，重視數(shù)據(jù)及處理能力？吳恩達(dá)發(fā)起的Data-Centric賽事總結(jié)！