<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          2022華為全球校園AI算法精英賽:季軍方案!

          共 3192字,需瀏覽 7分鐘

           ·

          2022-12-13 10:26

          ?Datawhale干貨?
          作者:鯉魚(yú),西安交通大學(xué),人工智能學(xué)院

          筆者鯉魚(yú),是西安交通大學(xué)人工智能學(xué)院的一名研究生,在2022華為全球校園AI算法精英賽的賽道二取得了季軍的成績(jī)

          初賽階段一直名列A榜的榜首,復(fù)賽前幾天也一直處于A榜榜首。雖然最后一天翻車(chē)了,但每次切換測(cè)試數(shù)據(jù)集都能取得穩(wěn)定的優(yōu)勢(shì),模型的泛化性能應(yīng)該是比較強(qiáng)的,只是可惜最后輸在了一些后處理的trick上,現(xiàn)提供一些思路,僅供參考。

          如需作者完整PPT,可在Datawhale后臺(tái)回復(fù)關(guān)鍵詞? 季軍? 下載。

          5942095cf75d6ea0f114bdf470574c91.webp



          賽題理解

          本次華為全球校園AI算法精英賽的賽道二——車(chē)道渲染數(shù)據(jù)質(zhì)量檢測(cè)賽題。地圖數(shù)據(jù)渲染生成過(guò)程中,部分?jǐn)?shù)據(jù)會(huì)存在諸如缺邊少角,異形道路等缺陷,本賽題旨在探索可靠的高精度質(zhì)檢模型。

          賽事信息:華為全球校園AI算法精英賽-CV賽題

          193008d861bb52a60ef140bc17af4d04.webp問(wèn)題圖片的范圍包括:中心線(xiàn)問(wèn)題、停止線(xiàn)問(wèn)題、引導(dǎo)面問(wèn)題、路肩問(wèn)題、路面問(wèn)題、箭頭問(wèn)題、車(chē)道線(xiàn)問(wèn)題

          整個(gè)問(wèn)題為經(jīng)典的圖像分類(lèi)問(wèn)題,賽題方提供了7種異常類(lèi)別的細(xì)粒度標(biāo)注,所以整體思路可以建模為“二分類(lèi)”或者“多分類(lèi)(8類(lèi):正常類(lèi)別+7個(gè)異常類(lèi)別)”問(wèn)題。

          數(shù)據(jù)分析

          我們統(tǒng)計(jì)了有標(biāo)簽訓(xùn)練集的樣本分步,如圖1所示,可以看出存在以下兩個(gè)特點(diǎn):

          1. 長(zhǎng)尾分布比較明顯,各個(gè)類(lèi)別樣本嚴(yán)重不均衡
          2. 在異常的類(lèi)別中,第6類(lèi)“引導(dǎo)面”的占比最大。(說(shuō)句題外話(huà):本賽題復(fù)賽最后的第一名就是針對(duì)第六類(lèi)單獨(dú)統(tǒng)計(jì)了一些像素值,最后通過(guò)這些像素值的統(tǒng)計(jì)特征將第6類(lèi)摘出來(lái)了,正好第六類(lèi)占比比較大,彎道超車(chē),屬實(shí)佩服????)
          bc57c61a0a45f7fa9d02a68dccc13f98.webp圖1:有標(biāo)簽訓(xùn)練集的樣本分布

          此外,我們還統(tǒng)計(jì)了有標(biāo)注數(shù)據(jù)集的尺寸大小,發(fā)現(xiàn)主要是2400*1080的尺寸,長(zhǎng)寬比懸殊但比較固定,且尺寸較大。我們嘗試過(guò)resize成方形的方式進(jìn)行訓(xùn)練,發(fā)現(xiàn)效果不如等比例縮放來(lái)的好。所以最終我們將長(zhǎng)寬都縮小到了原來(lái)的四分之一,在保證訓(xùn)練效果的同時(shí),也節(jié)省了顯存開(kāi)銷(xiāo)

          0a2cdfd668c2387bc9179bf8a424654f.webp圖2:有標(biāo)簽訓(xùn)練樣本的圖片尺寸統(tǒng)計(jì)

          數(shù)據(jù)增強(qiáng)

          對(duì)于大部分比賽而言,合適的數(shù)據(jù)增強(qiáng)都有奇效,但一般很難吃準(zhǔn)什么增強(qiáng)有效,所以大家只能盲目嘗試。但筆者一直認(rèn)為高端的食材只需要簡(jiǎn)單的烹飪,所以我們只采用了比較基礎(chǔ)的數(shù)據(jù)增強(qiáng)方式(對(duì)比度、水平翻轉(zhuǎn)這些)。這里不太適合做那種幾何變換的數(shù)據(jù)增強(qiáng),否則很容易破壞掉原圖的語(yǔ)義結(jié)構(gòu)。

          當(dāng)然,我們觀(guān)察訓(xùn)練集的標(biāo)注,發(fā)現(xiàn)存在一張照片同屬于多個(gè)異常類(lèi)別這個(gè)問(wèn)題,這表明圖像可能同時(shí)存在多個(gè)異常,所以我們采用mixup的增強(qiáng)方式來(lái)提升模型分辨不同問(wèn)題圖片的能力。

          模型設(shè)計(jì)

          對(duì)于分類(lèi)問(wèn)題來(lái)說(shuō),筆者一直覺(jué)得大道至簡(jiǎn),各種花里胡哨的attention操作有時(shí)候還比不上簡(jiǎn)單純粹的分類(lèi)網(wǎng)絡(luò),只是需要掌握合適的烹飪手法,才能做出美味的佳肴。這里給出了筆者采用的網(wǎng)絡(luò)架構(gòu)。

          bcba3c5848234521e404586d085547b5.webp圖3:網(wǎng)絡(luò)架構(gòu)

          當(dāng)然,由于這個(gè)比賽比較特殊,存在大量的無(wú)標(biāo)注數(shù)據(jù),充分利用大量的無(wú)標(biāo)注數(shù)據(jù)對(duì)模型性能的提升影響很大,所以我們的模型最終采用了三階段的訓(xùn)練方式

          b0c736038dad88877ed602542e04d6a2.webp圖4:模型訓(xùn)練方式

          訓(xùn)練方式如下:

          • Step1:即先通過(guò)有標(biāo)注數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練,然后為大量的無(wú)標(biāo)注數(shù)據(jù)打標(biāo)簽;
          • Step2:接著利用無(wú)標(biāo)注數(shù)據(jù)進(jìn)行半監(jiān)督預(yù)訓(xùn)練;
          • Step3:最后將預(yù)訓(xùn)練模型拿來(lái)初始化監(jiān)督網(wǎng)絡(luò),利用有標(biāo)注數(shù)據(jù)進(jìn)行finetune。

          當(dāng)然,我們也嘗試過(guò)將二三階段合并在一起,但效果不太好。主要是由于無(wú)標(biāo)注數(shù)據(jù)樣本太多,有標(biāo)注數(shù)據(jù)太少,有標(biāo)注數(shù)據(jù)很容易淹沒(méi)在無(wú)標(biāo)注數(shù)據(jù)中。

          當(dāng)然有余力的同學(xué)可以嘗試通過(guò)MAE的方式預(yù)訓(xùn)練一個(gè)模型拿來(lái)初始化,但筆者受限于算力環(huán)境,不太容易訓(xùn)收斂,所以沒(méi)采用這種方式,不過(guò)這也是一個(gè)很好的預(yù)訓(xùn)練方式。

          實(shí)踐證明,合理的利用無(wú)標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練對(duì)泛化性和AUC提升很大。經(jīng)過(guò)分析,發(fā)現(xiàn)主要原因可能在于無(wú)標(biāo)注數(shù)據(jù)的規(guī)模比較大,測(cè)試集的分布更加接近無(wú)標(biāo)注數(shù)據(jù)集的分布,故而利用好無(wú)標(biāo)注數(shù)據(jù)就是一把大殺器。

          記得初賽階段切換過(guò)一次數(shù)據(jù),在原有4000張測(cè)試樣本的基礎(chǔ)上增加了6000張測(cè)試樣本,我們發(fā)現(xiàn)切換數(shù)據(jù)后大家的模型性能都遇到了顯著的下降,這里我們統(tǒng)計(jì)了增加前四千張和增加的六千張的概率分布圖,發(fā)現(xiàn)差異還比較大。

          37ea0f39d62327a13e103aaed25245d1.webp圖5:分布不一致的解決

          通過(guò)我們半監(jiān)督預(yù)訓(xùn)練的方式,增加的六千張的概率分布圖由藍(lán)線(xiàn)變成綠線(xiàn),和紅線(xiàn)更靠近,從而縮小了兩部分的差異,大幅提升了分?jǐn)?shù)。所以模型訓(xùn)練的關(guān)鍵就在于合理地利用無(wú)標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,利用測(cè)試集與無(wú)標(biāo)注數(shù)據(jù)的相似性進(jìn)行調(diào)參煉丹。

          消融實(shí)驗(yàn)

          我們也做了一些消融實(shí)驗(yàn),發(fā)現(xiàn)存在一些特點(diǎn)

          • 二分類(lèi)轉(zhuǎn)8分類(lèi)問(wèn)題,監(jiān)督信號(hào)變強(qiáng),使得模型性能有了較大的提升
          • 半監(jiān)督預(yù)訓(xùn)練,雖然線(xiàn)下分?jǐn)?shù)變化不大,但線(xiàn)上提升巨大,與其他選手拉開(kāi)了差距
          67ed22ce21712677739701310ae7ed82.webp圖6:不同方法線(xiàn)下驗(yàn)證結(jié)果aa5a8bd6f2e8756ac367ceb2828d2be3.webp圖7:初賽與復(fù)賽的分?jǐn)?shù)變化圖

          方案優(yōu)勢(shì)

          綜上所述,我們的方案主要有以下幾方面的優(yōu)勢(shì):

          • 對(duì)于無(wú)標(biāo)注數(shù)據(jù)的高效利用(使用半監(jiān)督標(biāo)注手段對(duì)無(wú)標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注)
          • 多階段建模(創(chuàng)新性的使用半監(jiān)督方式預(yù)訓(xùn)練模型,再利用真實(shí)標(biāo)注進(jìn)行finetune)
          • 較強(qiáng)的模型泛化能力(從初賽開(kāi)始,每一次換數(shù)據(jù)或者切榜都能取得穩(wěn)定優(yōu)勢(shì))

          整理不易, 點(diǎn) 三連

          瀏覽 58
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  www.日本在线播放 | 日韩另类大片 | 国产成人视频 | 粉嫩小泬BBBB免费观看 | 国产黄色毛片电影 |