用不需要手工標(biāo)注分割的訓(xùn)練數(shù)據(jù)來(lái)進(jìn)行圖像分割
作者:Siddhartha Chandra
編譯:ronghuaiyang
轉(zhuǎn)自:AI公園
只需要標(biāo)注包圍框就可以進(jìn)行圖像分割的訓(xùn)練。

語(yǔ)義分割是將數(shù)字圖像中的每一個(gè)像素自動(dòng)標(biāo)注為多個(gè)類別(人、貓、飛機(jī)、表等)中的一個(gè),應(yīng)用于基于內(nèi)容的圖像檢索、醫(yī)學(xué)圖像和目標(biāo)識(shí)別等。

基于機(jī)器學(xué)習(xí)的語(yǔ)義分割系統(tǒng)通常是在目標(biāo)邊界已經(jīng)精心手工標(biāo)注過(guò)的圖像上訓(xùn)練,這是一個(gè)耗時(shí)的操作。另一方面,目標(biāo)檢測(cè)系統(tǒng)可以對(duì)圖像進(jìn)行訓(xùn)練,在這些圖像中,目標(biāo)被稱為邊界框的矩形框框起來(lái)。對(duì)于人類標(biāo)注者來(lái)說(shuō),手動(dòng)分割一幅圖像平均花費(fèi)的時(shí)間是標(biāo)記邊界框的35倍。
在ECCV上發(fā)表的一篇論文中,我們描述了一個(gè)新的系統(tǒng),我們稱之為Box2Seg,它只使用邊界框訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)分割圖像,這是弱監(jiān)督學(xué)習(xí)的一個(gè)例子。
在實(shí)驗(yàn)中,我們的系統(tǒng)在一個(gè)(mIoU)的度量上比以前的弱監(jiān)督系統(tǒng)提高了2%,該度量度量了系統(tǒng)分割圖像和手動(dòng)分割圖像之間的一致性。我們的系統(tǒng)的性能也可以與對(duì)一般圖像數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后對(duì)完全分割的數(shù)據(jù)進(jìn)行訓(xùn)練相比。
此外,當(dāng)我們使用弱監(jiān)督方法訓(xùn)練系統(tǒng),然后對(duì)完全分割的數(shù)據(jù)進(jìn)行微調(diào)時(shí),它比對(duì)一般圖像數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的系統(tǒng)性能提高了16%。這表明,即使分割訓(xùn)練數(shù)據(jù)可用,使用我們的弱監(jiān)督方法進(jìn)行預(yù)處理訓(xùn)練仍然有優(yōu)勢(shì)。
有噪聲的標(biāo)簽
我們的方法是將邊界框視為噪聲標(biāo)簽。我們把框里的每個(gè)像素當(dāng)作我們要尋找的邊界的對(duì)象的一部分,然而,其中一些像素被錯(cuò)誤地標(biāo)記了。框外的所有像素都被正確標(biāo)記為背景像素。
在訓(xùn)練過(guò)程中,我們系統(tǒng)的輸入通過(guò)三個(gè)卷積神經(jīng)網(wǎng)絡(luò):一個(gè)目標(biāo)分割網(wǎng)絡(luò)和兩個(gè)輔助網(wǎng)絡(luò)。在運(yùn)行過(guò)程中,我們丟棄了輔助網(wǎng)絡(luò),這樣它們就不會(huì)增加已部署系統(tǒng)的復(fù)雜性。

其中一個(gè)輔助網(wǎng)絡(luò)對(duì)圖像中的像素進(jìn)行兩兩比較,試圖學(xué)習(xí)區(qū)分背景和前景的一般方法。直觀地說(shuō),它是在邊界框內(nèi)尋找與框外正確標(biāo)記的背景像素相似的像素,并在框內(nèi)尋找彼此不同的像素簇。我們稱這個(gè)網(wǎng)絡(luò)為“嵌入”網(wǎng)絡(luò),因?yàn)樗梢詫W(xué)習(xí)像素的向量表示,即嵌入,這些像素只捕捉那些對(duì)區(qū)分背景和前景有用的屬性。
我們使用一種叫做GrabCut的標(biāo)準(zhǔn)分割算法提供的相對(duì)粗糙的分割來(lái)預(yù)先訓(xùn)練嵌入網(wǎng)絡(luò)。在訓(xùn)練過(guò)程中,嵌入網(wǎng)絡(luò)的輸出為目標(biāo)分割網(wǎng)絡(luò)提供監(jiān)督信號(hào),也就是說(shuō),我們用來(lái)評(píng)價(jià)嵌入網(wǎng)絡(luò)性能的標(biāo)準(zhǔn)之一是其輸出與嵌入網(wǎng)絡(luò)的輸出是否一致。

另一個(gè)輔助網(wǎng)絡(luò)是特定標(biāo)簽注意力網(wǎng)絡(luò)。它學(xué)會(huì)識(shí)別具有相同標(biāo)簽的邊框內(nèi)像素之間頻繁出現(xiàn)的視覺(jué)屬性。可以將其視為一個(gè)目標(biāo)檢測(cè)器,其輸出不是一個(gè)目標(biāo)標(biāo)簽,而是一個(gè)突出顯示特定對(duì)象類的像素簇特征的圖像映射。

在使用標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)中,我們發(fā)現(xiàn),僅使用邊界框訓(xùn)練數(shù)據(jù),Box2Seg比使用完全分割訓(xùn)練數(shù)據(jù)訓(xùn)練的其他12個(gè)系統(tǒng)表現(xiàn)得更好。當(dāng)使用Box2Seg訓(xùn)練的網(wǎng)絡(luò)在完全分段的數(shù)據(jù)上進(jìn)行微調(diào)時(shí),性能改進(jìn)甚至更顯著。這表明,當(dāng)沒(méi)有完全分割的訓(xùn)練數(shù)據(jù)時(shí),甚至在完全分割的訓(xùn)練數(shù)據(jù)可用時(shí),對(duì)象分割的弱監(jiān)督訓(xùn)練可能是有用的。
英文原文:https://www.amazon.science/blog/learning-to-segment-images-without-manually-segmented-training-data
End 
聲明:部分內(nèi)容來(lái)源于網(wǎng)絡(luò),僅供讀者學(xué)術(shù)交流之目的。文章版權(quán)歸原作者所有。如有不妥,請(qǐng)聯(lián)系刪除。
