農(nóng)作物地塊范圍識(shí)別(圖像分割)

向AI轉(zhuǎn)型的程序員都關(guān)注了這個(gè)號(hào)??????
機(jī)器學(xué)習(xí)AI算法工程?? 公眾號(hào):datayx
農(nóng)作物的資產(chǎn)盤(pán)點(diǎn)與精準(zhǔn)產(chǎn)量預(yù)測(cè)是實(shí)現(xiàn)農(nóng)業(yè)精細(xì)化管理的核心環(huán)節(jié)。當(dāng)前,我國(guó)正處于傳統(tǒng)農(nóng)業(yè)向現(xiàn)代農(nóng)業(yè)的加速轉(zhuǎn)型期,伴隨著農(nóng)業(yè)的轉(zhuǎn)型升級(jí),政府宏觀決策、社會(huì)各界對(duì)農(nóng)業(yè)數(shù)據(jù)的需求不斷增加,現(xiàn)有農(nóng)業(yè)統(tǒng)計(jì)信息的時(shí)效性與質(zhì)量,已不足以為市場(chǎng)各主體的有效決策提供科學(xué)依據(jù)。在農(nóng)作物資產(chǎn)盤(pán)點(diǎn)方面,傳統(tǒng)的人工實(shí)地調(diào)查的方式速度慢、勞動(dòng)強(qiáng)度大,數(shù)據(jù)采集質(zhì)量受主觀因素影響大,統(tǒng)計(jì)數(shù)據(jù)有較大的滯后性,亟待探索研究更高效準(zhǔn)確度更高的農(nóng)業(yè)調(diào)查統(tǒng)計(jì)技術(shù)。在產(chǎn)量預(yù)測(cè)方面,及時(shí)準(zhǔn)確地獲取區(qū)域作物單產(chǎn)及其空間分布信息,對(duì)作物進(jìn)行精準(zhǔn)的產(chǎn)能預(yù)測(cè),對(duì)于農(nóng)業(yè)生產(chǎn)安全預(yù)警、農(nóng)產(chǎn)品貿(mào)易流通,以及農(nóng)業(yè)產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化具有重要意義。
本次任務(wù),我們選擇了具有獨(dú)特的地理環(huán)境、氣候條件以及人文特色的貴州省興仁市作為研究區(qū)域,聚焦當(dāng)?shù)氐奶厣珒?yōu)勢(shì)產(chǎn)業(yè)和支柱產(chǎn)業(yè)——薏仁米產(chǎn)業(yè), 以薏仁米作物識(shí)別以及產(chǎn)量預(yù)測(cè)為比賽命題,要求選手開(kāi)發(fā)算法模型,通過(guò)無(wú)人機(jī)航拍的地面影像,探索作物分類(lèi)的精準(zhǔn)算法,識(shí)別薏仁米、玉米、烤煙、人造建筑四大類(lèi)型,提升作物識(shí)別的準(zhǔn)確度,降低對(duì)人工實(shí)地勘察的依賴,提升農(nóng)業(yè)資產(chǎn)盤(pán)點(diǎn)效率,并結(jié)合產(chǎn)量標(biāo)注數(shù)據(jù)預(yù)測(cè)當(dāng)年的薏仁米產(chǎn)量,提升農(nóng)業(yè)精準(zhǔn)管理能力。

評(píng)估指標(biāo)
采用平均交并比(Mean Intersection over Union)作為評(píng)價(jià)標(biāo)準(zhǔn),即求出每一類(lèi)的 IOU 取平均值。IOU 指的是,真實(shí)標(biāo)簽和預(yù)測(cè)結(jié)果的兩塊區(qū)域交集/并集。評(píng)估只考慮“烤煙”,“玉米”,“薏仁米”,“人造建筑”四種類(lèi)型。針對(duì)每種作物所有的預(yù)測(cè)結(jié)果,統(tǒng)計(jì)每個(gè)類(lèi)別的真實(shí)標(biāo)簽和預(yù)測(cè)結(jié)果,根據(jù) Jaccard Index 計(jì)算 IOU,最后取平均。
具體的,針對(duì)4種類(lèi)型圖片分別計(jì)算 TP, FP, and FN;求和得到所有圖片的 TP, FP, and FN;根據(jù) Jaccard Index = TP/(TP+FP+FN),計(jì)算得到 IOU。最后對(duì)所有4個(gè)類(lèi)別的 IOU 取平均,得到最后的 MIOU 作為評(píng)測(cè)結(jié)果。
不同類(lèi)別的標(biāo)簽統(tǒng)計(jì),背景類(lèi)最多,人造建筑最少

和普通的語(yǔ)義分割任務(wù)相比,本次任務(wù)有著以下幾個(gè)特點(diǎn),
一是類(lèi)間差異小,不同種類(lèi)農(nóng)作物之間外觀差異小,
二是物體尺度相差大,要分割的類(lèi)別中農(nóng)作物于人造建筑兩個(gè)類(lèi)別的尺度不同,
三是標(biāo)簽不是非常精細(xì),標(biāo)注存在著不少的噪聲。
全部代碼 獲取方式:
關(guān)注微信公眾號(hào) datayx? 然后回復(fù)?農(nóng)作物?即可獲取。
亞軍方案介紹
總體方案
我們的方案總體流程如下,我們的方案將整個(gè)任務(wù)分成了兩個(gè)分支,一個(gè)分支進(jìn)行農(nóng)作物耕地的分割,一個(gè)分支進(jìn)行人造建筑物的分割,后面我們會(huì)介紹為什么將任務(wù)分成兩個(gè)分支。然后將兩個(gè)分支的預(yù)測(cè)結(jié)果求和得到最終的預(yù)測(cè)結(jié)果。

預(yù)處理
裁剪
我們這次的訓(xùn)練數(shù)據(jù)是無(wú)人機(jī)航拍拼接得到的圖片,分辨率非常大,在復(fù)賽的訓(xùn)練集中,最大的圖片尺寸有55128×49447,無(wú)法直接用于訓(xùn)練,因此我們對(duì)原圖片進(jìn)行了裁剪,將其裁剪成小塊作為訓(xùn)練集,我們的裁剪方法為在原圖上滑動(dòng)進(jìn)行裁剪,右面是我們裁剪的示意圖,裁剪圖片的大小為1600×1600,步距為800,對(duì)于完全透明的地方直接略過(guò),農(nóng)作物的訓(xùn)練集我們?cè)谠瓐D上進(jìn)行裁剪,對(duì)于人造建筑,我們將原圖的分辨率降低16倍后再進(jìn)行裁剪。

數(shù)據(jù)增強(qiáng)
數(shù)據(jù)增強(qiáng)就是使用了一些常規(guī)的數(shù)據(jù)增強(qiáng)方法,旋轉(zhuǎn)、顏色抖動(dòng)、翻轉(zhuǎn)、resize等,還加入了隨機(jī)的模糊操作。
農(nóng)作物分割
農(nóng)作物分割分類(lèi)四個(gè)類(lèi)別,3類(lèi)農(nóng)作物和一類(lèi)背景。使用的是PSPNet的網(wǎng)絡(luò),
替換了backbone,最終使用3×3 resnet101,PPM輸出的feature map經(jīng)多次上采樣回原分辨率。
在初賽的時(shí)候一直使用的是unet的結(jié)構(gòu),發(fā)現(xiàn)結(jié)果不是很好,結(jié)果不太平滑,經(jīng)常有很多孔洞之類(lèi)的,后續(xù)更換了PSPNet大為改善,推測(cè)可能是由于Unet的一些較低級(jí)的特征對(duì)于分割幫助不大并且unet缺乏global context的信息,context的信息在這個(gè)數(shù)據(jù)集中很重要。
模型這里也可以考慮換成deeplab v3+,結(jié)果應(yīng)該會(huì)有一點(diǎn)提升,決賽的幾個(gè)隊(duì)伍中,很多都是使用的deeplab v3+,deeplab的ASPP同樣有融合context信息的作用。
建筑物分割
為什么將建筑物單獨(dú)分割,主要是考慮到建筑物于農(nóng)作物兩個(gè)目標(biāo)尺度相差太多,普通的多尺度方法也無(wú)法解決,我們訓(xùn)練使用的是512×512大小的圖像,導(dǎo)致經(jīng)常圖像中只含有建筑物的一部分,缺乏足夠的信息對(duì)建筑物進(jìn)行判別。
下圖中可以看出,圖中右面在訓(xùn)練集的標(biāo)簽上是屬于建筑物的一部分,可是跟左邊的水泥路十分相似。

解決方法是將建筑物單獨(dú)使用一個(gè)網(wǎng)絡(luò)進(jìn)行分割,并且訓(xùn)練集降低分辨率,最終嘗試將原圖降低16倍分辨率作為建筑物的訓(xùn)練集。
如下圖,單獨(dú)分割后顯著的降低了建筑的錯(cuò)誤。

網(wǎng)絡(luò)使用的是HRNet,HRNet一直保持的高分辨率feature map對(duì)于建筑物的邊界細(xì)節(jié)預(yù)測(cè)較準(zhǔn)確。

訓(xùn)練細(xì)節(jié)
訓(xùn)練使用多分類(lèi)交叉熵?fù)p失函數(shù),不同類(lèi)別根據(jù)數(shù)據(jù)量添加類(lèi)別權(quán)重。
由于訓(xùn)練集中標(biāo)簽有噪聲,如下
導(dǎo)致在訓(xùn)練后期,某些batch的loss值顯著的大于正常值,將這些batch可視化,很多是屬于label標(biāo)記錯(cuò)誤,這些batch對(duì)于網(wǎng)絡(luò)收斂有很大影響,所以設(shè)定閾值,讓其不回傳或者減小這些batch的learning rate。
但是注意這里其實(shí)這些batch顯著大的有一些是一些hard example,比如外觀和農(nóng)作物非常相似的背景或者種植的比較稀疏的農(nóng)作物,大概在這些batch中hard example和label noise半對(duì)半,但是沒(méi)有想到什么比較好的方法來(lái)區(qū)分這兩者,所以采用減小學(xué)習(xí)率的方法。后續(xù)可以考慮尋找一些方法或者特征來(lái)對(duì)label noise和hard example進(jìn)行區(qū)分。
半監(jiān)督
使用模型對(duì)沒(méi)有標(biāo)簽的A榜測(cè)試集預(yù)測(cè)生成偽標(biāo)簽,然后加入訓(xùn)練集,對(duì)網(wǎng)絡(luò)進(jìn)行重新訓(xùn)練,對(duì)結(jié)果提升較大。
半監(jiān)督方法應(yīng)該算是比賽中比較常用的方法,在比賽中也是在A榜的最后一次提交中才使用了半監(jiān)督的方法,單模型結(jié)果達(dá)到了0.788,是出了建筑物單獨(dú)分割以外提升最大的trick了,對(duì)于置信度等參數(shù)也沒(méi)有機(jī)會(huì)進(jìn)行進(jìn)一步的嘗試,感覺(jué)半監(jiān)督還有潛力可以挖掘。
感覺(jué)半監(jiān)督方法在這個(gè)數(shù)據(jù)集中尤為適合,對(duì)于原因也不太明確。
這里看到過(guò)一個(gè)說(shuō)法:“半監(jiān)督帶來(lái)的提升不只是數(shù)據(jù)量帶來(lái)的提升,而是對(duì)于那些數(shù)據(jù)難以精確標(biāo)注的場(chǎng)合,”結(jié)合這次比賽的數(shù)據(jù),雖然是語(yǔ)義分割的比賽,但是label并不是像素級(jí)精度的,標(biāo)注的時(shí)候應(yīng)該使用的是多邊形的標(biāo)注,所以對(duì)于邊界的標(biāo)注很不精細(xì),并且對(duì)于農(nóng)田其實(shí)也很難找到一個(gè)很明確的邊界來(lái)標(biāo)記,感覺(jué)可能符合難以精細(xì)標(biāo)注這個(gè)描述,但是對(duì)于這個(gè)說(shuō)法并沒(méi)有找到相關(guān)的論文,哪位大佬如果有更好的解釋或者相關(guān)的論文推薦,希望不吝賜教。
預(yù)測(cè)
預(yù)測(cè)時(shí)同樣在原圖裁剪進(jìn)行預(yù)測(cè),使用U-net中的overlap策略,沒(méi)有使用其他測(cè)試增強(qiáng)的方法,輸入藍(lán)色框內(nèi)圖片,最終只取黃色框內(nèi)結(jié)果作為最終結(jié)果,放棄周?chē)吘夘A(yù)測(cè)結(jié)果。
最終結(jié)果

冠軍整體方案
1.1 數(shù)據(jù)預(yù)處理
1.1.1 滑窗裁剪
原始數(shù)據(jù)為分辨率幾萬(wàn)的PNG大圖,需對(duì)原始數(shù)據(jù)預(yù)處理,本次比賽中我們采取的是滑窗切割的策略,主要從以下三個(gè)方面考量:
類(lèi)別平衡:過(guò)濾掉mask無(wú)效占比大于7/8的區(qū)域,在背景類(lèi)別比例小于1/3時(shí)減小滑窗步長(zhǎng),增大采樣率;
patch:實(shí)驗(yàn)中沒(méi)有觀察到patch對(duì)模型性能有顯著影響,最后采取策略同時(shí)保留1024和512兩種滑窗大小,分別用來(lái)訓(xùn)練不同的模型,提高模型的差異度,有利于后期模型集成;
速度:決賽時(shí)算法復(fù)現(xiàn)時(shí)間也是一定的成績(jī)考量,建議使用gdal庫(kù),很適合處理遙感大圖的場(chǎng)景。本地比賽中我們直接多進(jìn)程加速opencv,patch為1024時(shí),單張圖5~6min可以切完;
最終采取的切割策略如下:
策略一:以1024x1024的窗口大小,步長(zhǎng)900滑窗,當(dāng)窗口中mask無(wú)效區(qū)域比例大于7/8則跳過(guò),當(dāng)滑動(dòng)窗口中背景類(lèi)比例小于1/3時(shí),增加采樣率,減小步長(zhǎng)為512;
策略二:以1024x1024的窗口大小,步長(zhǎng)512滑窗,當(dāng)滑動(dòng)窗口中無(wú)效mask比例大于1/3則跳過(guò)。
2.2.2 數(shù)據(jù)增強(qiáng)
數(shù)據(jù)增強(qiáng)只做了常規(guī)的數(shù)據(jù)增強(qiáng),如:RandomHorizontalFlip、RandomVerticalFlip、ColorJitter等。由于數(shù)據(jù)采集場(chǎng)景是無(wú)人機(jī)在固定高度采集,所以目標(biāo)尺度較為統(tǒng)一,沒(méi)有嘗試scale的數(shù)據(jù)增強(qiáng)。
2.2 模型選擇
模型上我們隊(duì)伍沒(méi)有做很多的嘗試,下表整理了天池、Kaggle一些分割任務(wù)中大家常用的方案。初賽嘗試過(guò)PSPNet、U-Net等方案,但沒(méi)有調(diào)出比較好的分?jǐn)?shù),復(fù)賽都是基于DeeplabV3+(決賽5個(gè)隊(duì)伍里有4個(gè)用了DeeplabV3plus)backbone為Xception-65、ResNet-101、DenseNet-121。從復(fù)賽A榜分?jǐn)?shù)提交情況,DenseNet-121 backbone 分?jǐn)?shù)略高于另外兩個(gè),但顯存占用太大以及訓(xùn)練時(shí)間太長(zhǎng),在后來(lái)的方案里就舍棄了。本次賽題數(shù)據(jù)場(chǎng)景為大面積農(nóng)田預(yù)測(cè),直接用deeplabV3plus高層特征上采樣就有不錯(cuò)的效果,結(jié)合了底層特征預(yù)測(cè)反而變得零散。決賽算法復(fù)現(xiàn)時(shí),使用了兩個(gè)Xception-65和一個(gè)ResNet-101投票,投票的每個(gè)模型用不同的數(shù)據(jù)訓(xùn)練,增加模型差異。



3. 漲分點(diǎn)
3.1?膨脹預(yù)測(cè)
方格效應(yīng):比賽測(cè)試集提供圖像分辨率較大,無(wú)法整圖輸入網(wǎng)絡(luò)。如果直接無(wú)交疊滑窗預(yù)測(cè)拼接,得到的預(yù)測(cè)結(jié)果拼接痕跡明顯。
原因分析:網(wǎng)絡(luò)卷積計(jì)算時(shí),為了維持分辨率進(jìn)行了大量zero-padding,導(dǎo)致網(wǎng)絡(luò)對(duì)圖像邊界預(yù)測(cè)不準(zhǔn)。

膨脹預(yù)測(cè):采用交疊滑窗策略(滑窗步長(zhǎng)<滑窗窗口大小),預(yù)測(cè)時(shí),只保留預(yù)測(cè)結(jié)果的中心區(qū)域,舍棄預(yù)測(cè)不準(zhǔn)的圖像邊緣。
具體實(shí)現(xiàn):
填充1 (黃色部分) : 填充右下邊界至滑窗預(yù)測(cè)窗口大小的整數(shù)倍,方便整除切割;
填充2(藍(lán)色部分) : 填充1/2滑窗步長(zhǎng)大小的外邊框(考慮邊緣數(shù)據(jù)的膨脹預(yù)測(cè));
以1024x1024為滑窗,512為步長(zhǎng),每次預(yù)測(cè)只保留滑窗中心512x512的預(yù)測(cè)結(jié)果(可以調(diào)整更大的步長(zhǎng),或保留更大的中心區(qū)域,提高效率)。

3.2 測(cè)試增強(qiáng)
測(cè)試時(shí),通過(guò)對(duì)圖像水平翻轉(zhuǎn),垂直翻轉(zhuǎn),水平垂直翻轉(zhuǎn)等多次預(yù)測(cè),再對(duì)預(yù)測(cè)結(jié)果取平均可以提高精度,但相對(duì)的,推理時(shí)間也會(huì)大幅度升高。

3.3 snapshot ensemble
snapshot ensemble?是一個(gè)簡(jiǎn)單通用的提分trick,通過(guò)余弦周期退火的學(xué)習(xí)率調(diào)整策略,保存多個(gè)收斂到局部最小值的模型,通過(guò)模型自融合提升模型效果。詳細(xì)的實(shí)驗(yàn)和實(shí)現(xiàn)可以看黃高老師ICLR 2017的這篇論文。

snapshot ensemble?另一個(gè)作用是作新方案的驗(yàn)證。深度學(xué)習(xí)訓(xùn)練的結(jié)果具有一定的隨機(jī)性,但比賽中提交次數(shù)有限,無(wú)法通過(guò)多次提交來(lái)驗(yàn)證實(shí)驗(yàn)結(jié)果。在做新方案改進(jìn)驗(yàn)證時(shí),有時(shí)難以確定線上分?jǐn)?shù)的小幅度提升是來(lái)自于隨機(jī)性,還是改進(jìn)方案really work。在比賽提交次數(shù)有限的情況下,snapshot ensemble不失為一個(gè)更加穩(wěn)定新方案驗(yàn)證的方法
3.4 后處理
訓(xùn)練數(shù)據(jù)中,對(duì)于農(nóng)田中出現(xiàn)的碎石、樹(shù)木,比賽數(shù)據(jù)提供的標(biāo)注仍是農(nóng)田。但推理階段,模型是可以正常預(yù)測(cè)這些碎石、樹(shù)木的情況的,因此部分預(yù)測(cè)結(jié)果中出現(xiàn)了較多孔洞。
針對(duì)本次賽題數(shù)據(jù)場(chǎng)景為大面積農(nóng)田預(yù)測(cè),通過(guò)簡(jiǎn)單的填充孔洞、去除小連通域等后處理,可以去除一些不合理的預(yù)測(cè)結(jié)果。

3.5 邊緣平滑
邊緣平滑想法受Hinton大神關(guān)于的知識(shí)蒸餾和When does label smoothing help?的工作啟發(fā),從實(shí)驗(yàn)看標(biāo)簽平滑訓(xùn)練的模型更加穩(wěn)定和泛化能力更強(qiáng)。
在知識(shí)蒸餾中,用teacher模型輸出的soft target訓(xùn)練的student模型,比直接用硬標(biāo)簽(onehot)訓(xùn)練的模型具有更強(qiáng)的泛化能力。我對(duì)這部分提升理解是:軟標(biāo)簽更加合理反映樣本的真實(shí)分布情況,硬標(biāo)簽只有全概率和0概率,太過(guò)絕對(duì)。知識(shí)蒸餾時(shí)teacher模型實(shí)現(xiàn)了easy sample 和 hard sample 的“分揀”(soft-target),對(duì)hard sample輸出較低的置信度,對(duì)easy sample 輸出較高的置信度,使得student模型學(xué)到了更加豐富的信息。

圖3-5截取自When does label smoothing help?,第一行至第四行分別為CIFAR10、CIFAR100、ImageNet(Course)、ImageNet(fine) 的數(shù)據(jù)集上訓(xùn)練的網(wǎng)絡(luò)倒數(shù)第二層輸出可視化,其中第一列為硬標(biāo)簽訓(xùn)練的訓(xùn)練集可視化,第二列為硬標(biāo)簽訓(xùn)練的測(cè)試集可視化,第三列為軟標(biāo)簽訓(xùn)練的訓(xùn)練集可視化,第四列為軟標(biāo)簽訓(xùn)練的測(cè)試集可視化,可以看出軟標(biāo)簽訓(xùn)練的模型類(lèi)內(nèi)更加凝聚,更加可分。
我們重新思考3.1中方格效應(yīng),在圖像分割任務(wù)中,每個(gè)像素的分類(lèi)結(jié)果很大程度依賴于周?chē)袼?,圖像中不同像素預(yù)測(cè)的難易程度是不同的。分割區(qū)別于分類(lèi),即使不通過(guò)teacher模型,我們也可以發(fā)掘部分樣本中的hard sample。本次比賽中我們主要考慮了以下兩類(lèi)數(shù)據(jù):
圖像邊緣:卷積時(shí)零填充太多,信息缺少,難以正確分類(lèi)(參考3.1的方格效應(yīng))
不同類(lèi)間交界處:
標(biāo)注錯(cuò)誤,類(lèi)間交界難以界定,訓(xùn)練時(shí)可能梯度不穩(wěn)定
類(lèi)間交界的點(diǎn),往往只相差幾個(gè)像素偏移,對(duì)網(wǎng)絡(luò)來(lái)說(shuō)輸入信息高度相似,但訓(xùn)練時(shí)label 卻不同,也是訓(xùn)練過(guò)程的不穩(wěn)定因素。

為驗(yàn)證這一想法,我們分別對(duì)模型預(yù)測(cè)結(jié)果及置信度進(jìn)行可視化。圖3-7中,從上到下分別為測(cè)試集原圖、模型預(yù)測(cè)結(jié)果可視化、模型預(yù)測(cè)置信度可視化(為更好可視化邊類(lèi)間緣置信度低,這里用了膨脹預(yù)測(cè),將置信度p<0.8可視化為黑色,p>=0.8可視化為白色)??梢悦黠@看出,對(duì)于圖像邊緣數(shù)據(jù),信息缺失網(wǎng)絡(luò)難以作出正確分類(lèi)。對(duì)于不同類(lèi)別交界,由于訓(xùn)練過(guò)程梯度不穩(wěn)定,網(wǎng)絡(luò)對(duì)這部分?jǐn)?shù)據(jù)的分類(lèi)置信度較低。

我們采取的方式是在圖像邊緣和類(lèi)間交界設(shè)置過(guò)渡帶,過(guò)渡帶內(nèi)的像素視為 hard sample作標(biāo)簽平滑處理,平滑的程度取決于訓(xùn)練時(shí)每個(gè)batch中 hard sample (下圖黑色過(guò)渡帶區(qū)域)像素占總輸入像素的比例。而過(guò)渡帶w的大小為一個(gè)超參數(shù),在本次比賽中我們?nèi)=11。

3.6 偽標(biāo)簽
地形泛化問(wèn)題也是本次賽題數(shù)據(jù)一個(gè)難點(diǎn),訓(xùn)練集中數(shù)據(jù)大多為平原,對(duì)測(cè)試集數(shù)據(jù)中山地、碎石帶、森林等泛化效果較差。我們采用半監(jiān)督的方式提高模型對(duì)新地形泛化能力。

在模型分?jǐn)?shù)已經(jīng)較高的情況下可以嘗試偽標(biāo)簽進(jìn)行半監(jiān)督訓(xùn)練,我們?cè)贏榜mIoU-79.4時(shí)開(kāi)始制作偽標(biāo)簽,具體實(shí)施是:
利用在測(cè)試集表現(xiàn)最好的融合模型結(jié)果作偽標(biāo)簽,用多組不同置信度閾值過(guò)濾數(shù)據(jù),結(jié)合訓(xùn)練集訓(xùn)練模型;
選取多個(gè)snapshot的方法對(duì)模型進(jìn)行自融合提高模型的泛化能力;
集成2中的預(yù)測(cè)結(jié)果,更新偽標(biāo)簽,重復(fù)步驟1~3。
偽標(biāo)簽方法提分顯著,但對(duì)A榜數(shù)據(jù)過(guò)擬合的風(fēng)險(xiǎn)極大。即使不用偽標(biāo)簽,我們的方案在A榜也和第二名拉開(kāi)了較大差距。在更換B榜前,我們同時(shí)準(zhǔn)備了用偽標(biāo)簽和不用偽標(biāo)簽的兩套模型。
4 總結(jié)
膨脹預(yù)測(cè)消除邊緣預(yù)測(cè)不準(zhǔn)問(wèn)題;
使用測(cè)試增強(qiáng)、消除空洞和小連通域等后處理提高精度;
使用snapshot模型自融合、標(biāo)簽平滑、偽標(biāo)簽等方法提高模型穩(wěn)定性和對(duì)新地形泛化能力;
機(jī)器學(xué)習(xí)算法AI大數(shù)據(jù)技術(shù)
?搜索公眾號(hào)添加:?datanlp
長(zhǎng)按圖片,識(shí)別二維碼
閱讀過(guò)本文的人還看了以下文章:
TensorFlow 2.0深度學(xué)習(xí)案例實(shí)戰(zhàn)
基于40萬(wàn)表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測(cè)
《基于深度學(xué)習(xí)的自然語(yǔ)言處理》中/英PDF
Deep Learning 中文版初版-周志華團(tuán)隊(duì)
【全套視頻課】最全的目標(biāo)檢測(cè)算法系列講解,通俗易懂!
《美團(tuán)機(jī)器學(xué)習(xí)實(shí)踐》_美團(tuán)算法團(tuán)隊(duì).pdf
《深度學(xué)習(xí)入門(mén):基于Python的理論與實(shí)現(xiàn)》高清中文PDF+源碼
《深度學(xué)習(xí):基于Keras的Python實(shí)踐》PDF和代碼
python就業(yè)班學(xué)習(xí)視頻,從入門(mén)到實(shí)戰(zhàn)項(xiàng)目
2019最新《PyTorch自然語(yǔ)言處理》英、中文版PDF+源碼
《21個(gè)項(xiàng)目玩轉(zhuǎn)深度學(xué)習(xí):基于TensorFlow的實(shí)踐詳解》完整版PDF+附書(shū)代碼
《深度學(xué)習(xí)之pytorch》pdf+附書(shū)源碼
PyTorch深度學(xué)習(xí)快速實(shí)戰(zhàn)入門(mén)《pytorch-handbook》
【下載】豆瓣評(píng)分8.1,《機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于Scikit-Learn和TensorFlow》
《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼
汽車(chē)行業(yè)完整知識(shí)圖譜項(xiàng)目實(shí)戰(zhàn)視頻(全23課)
李沐大神開(kāi)源《動(dòng)手學(xué)深度學(xué)習(xí)》,加州伯克利深度學(xué)習(xí)(2019春)教材
筆記、代碼清晰易懂!李航《統(tǒng)計(jì)學(xué)習(xí)方法》最新資源全套!
《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》最新2018版中英PDF+源碼
將機(jī)器學(xué)習(xí)模型部署為REST API
FashionAI服裝屬性標(biāo)簽圖像識(shí)別Top1-5方案分享
重要開(kāi)源!CNN-RNN-CTC 實(shí)現(xiàn)手寫(xiě)漢字識(shí)別
同樣是機(jī)器學(xué)習(xí)算法工程師,你的面試為什么過(guò)不了?
前海征信大數(shù)據(jù)算法:風(fēng)險(xiǎn)概率預(yù)測(cè)
【Keras】完整實(shí)現(xiàn)‘交通標(biāo)志’分類(lèi)、‘票據(jù)’分類(lèi)兩個(gè)項(xiàng)目,讓你掌握深度學(xué)習(xí)圖像分類(lèi)
VGG16遷移學(xué)習(xí),實(shí)現(xiàn)醫(yī)學(xué)圖像識(shí)別分類(lèi)工程項(xiàng)目
特征工程(二) :文本數(shù)據(jù)的展開(kāi)、過(guò)濾和分塊
如何利用全新的決策樹(shù)集成級(jí)聯(lián)結(jié)構(gòu)gcForest做特征工程并打分?
Machine Learning Yearning 中文翻譯稿
全球AI挑戰(zhàn)-場(chǎng)景分類(lèi)的比賽源碼(多模型融合)
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
python+flask搭建CNN在線識(shí)別手寫(xiě)中文網(wǎng)站
中科院Kaggle全球文本匹配競(jìng)賽華人第1名團(tuán)隊(duì)-深度學(xué)習(xí)與特征工程
不斷更新資源
深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、python
?搜索公眾號(hào)添加:?datayx??
