<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          不做調(diào)參俠,重視數(shù)據(jù)及處理能力?吳恩達(dá)發(fā)起的Data-Centric賽事總結(jié)!

          共 2673字,需瀏覽 6分鐘

           ·

          2022-01-19 15:03

          賽題名稱:Data-Centric AI Competition

          比賽官網(wǎng):https://https-deeplearning-ai.github.io/data-centric-comp/

          比賽鏈接:https://worksheets.codalab.org/worksheets/0x7a8721f11e61436e93ac8f76da83f0e6

          賽題介紹

          在大多數(shù)機(jī)器學(xué)習(xí)比賽中,你被要求在給定固定數(shù)據(jù)集的情況下構(gòu)建一個(gè)高性能模型。然而機(jī)器學(xué)習(xí)已經(jīng)成熟到可以廣泛使用高性能模型架構(gòu),而工程數(shù)據(jù)集的方法卻滯后。

          以Data-Centric(數(shù)據(jù)為中心)的AI競賽顛覆了傳統(tǒng)格式,而是要求您在給定固定模型的情況下改進(jìn)數(shù)據(jù)集。

          賽題任務(wù)

          該數(shù)據(jù)集包含約 3000 張手寫羅馬數(shù)字 1-10 的圖像。您的任務(wù)是通過改進(jìn)數(shù)據(jù)集以及進(jìn)行訓(xùn)練和驗(yàn)證拆分來優(yōu)化模型性能。

          優(yōu)勝選手分享

          Divakar Roy

          • 博客采訪:https://www.deeplearning.ai/data-centric-ai-competition-divakar-roy/

          我已經(jīng)設(shè)置了不同的算法來根據(jù)噪音水平分離噪音。以下是一些具有不同類型噪聲的示例案例:

          去除噪聲后,我們只剩下兩組圖像,一組干凈,一組嘈雜。干凈的圖像只有前景(字母),而嘈雜的圖像只有背景(噪音)。

          然后我們處理干凈的圖像以裁剪成字母區(qū)域。將裁剪前后清洗后的圖像送入 umap 聚類方法研究其模式,如下圖:

          簇根據(jù)它們的真實(shí)標(biāo)簽著色。可以看出,與沒有裁剪相比,聚類更遵循它們的原生標(biāo)簽?zāi)J剑⑶疫€導(dǎo)致標(biāo)簽之間的決策邊界更精確。然后我們處理這些裁剪的圖像以準(zhǔn)備它們進(jìn)行增強(qiáng)。

          數(shù)據(jù)增強(qiáng)方法

          第一個(gè)增強(qiáng)階段包括相機(jī)失真方法,通過將數(shù)字的規(guī)則 2D 網(wǎng)格映射到傾斜的網(wǎng)格上,我們可以生成獨(dú)特的形狀。

          數(shù)據(jù)質(zhì)量評估與清理

          我們使用 Imagenet預(yù)訓(xùn)練的ResNet-15 模型作為特征提取,然后送入t-SNE 聚類算法,以獲得可用于各種工作流程的二維數(shù)組。

          Innotescus

          • 博客采訪:https://www.deeplearning.ai/data-centric-ai-competition-innotescus/

          我們的方法可以分為兩部分:數(shù)據(jù)標(biāo)記和平衡數(shù)據(jù)分布。

          識別噪聲圖像

          我們從訓(xùn)練集中刪除了噪聲圖像。這些圖像顯然不對應(yīng)于特定類別,并且不利于模型性能。

          識別不正確的類

          我們糾正了錯(cuò)誤標(biāo)記的數(shù)據(jù)點(diǎn)。人工注釋者容易出錯(cuò),而擁有系統(tǒng)的 QA 或?qū)彶榱鞒逃兄谧R別和消除這些錯(cuò)誤。

          識別不明確的數(shù)據(jù)樣本

          我們?yōu)椴幻鞔_的數(shù)據(jù)點(diǎn)定義了一致的規(guī)則。例如,在下面顯示的圖像中,如果我們看到兩條垂直線(頂行)之間有明顯的間隙,即使它們成一定角度,我們也將數(shù)據(jù)點(diǎn)視為2類。

          如果沒有可識別的差距,我們將數(shù)據(jù)點(diǎn)視為第5類(底行)。預(yù)先定義的規(guī)則幫助我們更客觀地減少歧義。

          這個(gè)三步過程將數(shù)據(jù)集減少到總共2,228張圖像,比提供的數(shù)據(jù)集減少了22%。僅此一項(xiàng)就在測試集上產(chǎn)生了73.099%的準(zhǔn)確率,比基準(zhǔn)性能提高了大約9%。

          平衡數(shù)據(jù)分布

          當(dāng)我們在現(xiàn)實(shí)世界中收集訓(xùn)練數(shù)據(jù)時(shí),總是將隱藏的偏差引入我們的訓(xùn)練數(shù)據(jù)中。有偏見的數(shù)據(jù)會導(dǎo)致學(xué)習(xí)不佳。一種解決方案是減少不明確的數(shù)據(jù)點(diǎn)并確保沿?cái)?shù)據(jù)集中方差的主要維度保持平衡。

          1. 重新平衡訓(xùn)練和測試數(shù)據(jù)集

          真實(shí)世界的數(shù)據(jù)有很多內(nèi)在的差異。這種差異幾乎總是會導(dǎo)致分布不平衡,尤其是在觀察特定特征或度量時(shí)。當(dāng)增加時(shí),這些偏見會被放大!

          我們在本次比賽中的兩個(gè)提交中觀察到了這一點(diǎn)。我們的方法從“更多數(shù)據(jù)”轉(zhuǎn)向“更平衡的數(shù)據(jù)”。

          1. 使用嵌入重新平衡子類

          我們觀察到的第一個(gè)不平衡是每個(gè)類中的大小寫分布。例如,我們的“清理”數(shù)據(jù)包含 90 張小寫 1 類圖像和 194 張大寫 1 類圖像。

          1. 用困難的例子和增強(qiáng)重新平衡邊緣情況

          在比賽即將結(jié)束時(shí),我們觀察到驗(yàn)證集中的某些示例一直被錯(cuò)誤分類。我們的目標(biāo)是幫助模型以更高的置信度對這些示例進(jìn)行分類。

          我們認(rèn)為,這些錯(cuò)誤分類是由于我們的訓(xùn)練集中“邊緣案例”示例的代表性不足造成的。

          Synaptic-AnN

          • 博客采訪:https://www.deeplearning.ai/data-centric-ai-competition-synaptic-ann/
          • 論文分享:https://www.overleaf.com/read/gxdkymkvwkmy

          手動(dòng)數(shù)據(jù)清洗

          與大多數(shù)其他競爭對手一樣,我們最初的直覺使我們手動(dòng)篩選數(shù)據(jù)集并刪除任何異常值、嘈雜和模糊的圖像。

          這將競爭數(shù)據(jù)集從 2880 張圖像減少到 2613 張圖像。我們將此數(shù)據(jù)集稱為。

          生成更多數(shù)據(jù)

          由于比賽允許我們在訓(xùn)練集和驗(yàn)證集(我們進(jìn)行了比例95/5 訓(xùn)練-驗(yàn)證劃分)中最多提交 10,000 張圖像,因此我們招募了朋友和家人來幫助我們編寫 4353 個(gè)額外的羅馬數(shù)字。我們稱這個(gè)數(shù)據(jù)集為

          我們讓多人手寫羅馬數(shù)字的原因是因?yàn)槲覀兿MM可能真實(shí)地反映任務(wù)的性質(zhì)。增強(qiáng)以填充其余可能的圖像似乎并不是最好的想法,因?yàn)槲覀兿氪_保 ResNet50 泛化良好。

          五種數(shù)據(jù)擴(kuò)增

          對于圖像,執(zhí)行了右上、左上、右下、左下和中心裁剪(圖 4)。由于裁剪不當(dāng)而可能導(dǎo)致錯(cuò)誤分類的圖像被丟棄。

          長寬比標(biāo)準(zhǔn)化:

          所有寬高比或高寬比大于 1.75(在某些情況下大于 1.5)的圖像都被裁剪成最小尺寸的正方形。這確保了將圖像調(diào)整為 32 x 32 時(shí)的圖像質(zhì)量。

          自動(dòng)增強(qiáng)

          我們探索了使用AutoAugment學(xué)習(xí)增強(qiáng)技術(shù)參數(shù)的可行性,但由于計(jì)算資源有限和數(shù)據(jù)不足,本文在 SVHN 數(shù)據(jù)集上的結(jié)果用于比賽數(shù)據(jù)集。

          我們觀察到SolarizeInvert等增強(qiáng)技術(shù)無效,因此將它們從最終的SVHN策略中刪除。是因?yàn)镾VHN 數(shù)據(jù)集是灰度的,并且與數(shù)字表示(外殼板)有關(guān)。我們還探索了其他基于 CIFAR10 和 ImageNet 的自動(dòng)增強(qiáng)策略,但這些策略不如 SVHN 有效。

          參與交流

          相比較于算法賽,以數(shù)據(jù)為中心的賽事開始成為新趨勢,數(shù)據(jù)本身以及數(shù)據(jù)處理的能力在企業(yè)中也愈發(fā)重要,因此建了相關(guān)交流群,對Data-Centric感興趣的話歡迎加入。延伸閱讀:

          瀏覽 104
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  99热免费观看 | 男女拍拍拍拍 | 91人妻无码精品一区二区 | 国产精品日韩无码有码 | 手机在线看A片 |