ECCV2020 | Cityscapes上83.7 mIoU,通過解耦的主體和邊緣監(jiān)督改進(jìn)語義分割
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達(dá)

本文是收錄于ECCV2020,將語義分割網(wǎng)絡(luò)解耦成主體部分和邊緣部分,并將body和edge同時進(jìn)行優(yōu)化,思想其實(shí)很簡單。
論文地址:https://arxiv.org/pdf/2007.10035.pdf
代碼地址:https://github.com/lxtGH/DecoupleSegNets
現(xiàn)有的語義分割方法要么通過對全局上下文信息建模來提高目標(biāo)對象的內(nèi)部一致性,要么通過多尺度特征融合來對目標(biāo)對象的邊界細(xì)節(jié)進(jìn)行優(yōu)化。本文提出了一種新的語義分割方法,本文認(rèn)為性能強(qiáng)的語義分割方法需要明確地建模目標(biāo)對象的主體(body)和邊緣(edge),這對應(yīng)于圖像的高頻和低頻信息。為此,本文首先通過warp圖像特征來學(xué)習(xí) flow field使目標(biāo)對象主體部分更加一致。在解耦監(jiān)督下,通過對不同部分(主體或邊緣)像素進(jìn)行顯式采樣,進(jìn)一步優(yōu)化產(chǎn)生的主體特征和殘余邊緣特征。通過實(shí)驗(yàn)表明,所提出的具有各種基準(zhǔn)或主干網(wǎng)絡(luò)的框架可有更好的目標(biāo)對象內(nèi)部一致性和目標(biāo)對象邊界。在包括Cityscapes、CamVid、KIITI和BDD在內(nèi)的四個主要道路場景語義分割數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,本文提出的方法實(shí)現(xiàn)了SOTA,同時保持了較高的推理效率。特別是,本文的方法僅使用精細(xì)標(biāo)注的數(shù)據(jù)就可以在Cityscapes數(shù)據(jù)集上達(dá)到83.7 mIoU。
語義分割是計(jì)算機(jī)視覺中的一項(xiàng)基本任務(wù),旨在將對象類標(biāo)簽分配給圖像中的每個像素。這是邁向視覺場景理解的關(guān)鍵一步,它具有許多應(yīng)用,例如自動駕駛、圖像生成和醫(yī)學(xué)診斷。
雖然全卷積網(wǎng)絡(luò)(FCNs)在許多主要的語義分割baseline中表現(xiàn)出色,但它們?nèi)匀?strong>存在以下局限性:首先,F(xiàn)CNs的感受野(Receptive Field,RF)隨著網(wǎng)絡(luò)深度的增加而緩慢增長(僅線性增長),這種有限的RF無法完全模擬圖像中像素之間的長距離依賴關(guān)系。此外,FCNs中的下采樣操作會導(dǎo)致模糊的預(yù)測,因?yàn)榕c原始圖像相比,細(xì)微的細(xì)節(jié)會在顯著降低的分辨率中消失,由于像素的模糊性和噪聲發(fā)生在物體主體內(nèi)部,很難對其進(jìn)行分類。因此,預(yù)測的分割邊界往往是模糊的,邊界細(xì)節(jié)遠(yuǎn)遠(yuǎn)不能令人滿意,這導(dǎo)致性能下降,特別是在小物體上。
另一方面,人類通過感知物體主體和邊緣信息來區(qū)分物體是很自然的。受此啟發(fā),本文以明確的方式探索主體和邊緣之間的關(guān)系,以獲得最終的語義分割結(jié)果。如圖1(a)前兩行所示,一個自然的圖像可以分解為一個低空間頻率分量,它描述了平滑變化的結(jié)構(gòu),以及一個高空間頻率分量,它描述了快速變化的結(jié)構(gòu)。首先應(yīng)用均值或高斯濾波器進(jìn)行平滑處理,其余高頻部分可通過減法獲得。同樣的,分割mask也可以用這種方式解耦,其中細(xì)微細(xì)節(jié)的邊緣部分可以通過減法從主體部分獲得。 受這一結(jié)論的啟發(fā),假設(shè)用于語義分割的特征圖也可以解耦為兩個部分:主體特征和邊緣特征(見圖1(b))。前者包含了物體內(nèi)部低頻的平滑表示,而后者則有高頻的sharper細(xì)節(jié)信息。

圖1.說明本文的模塊和監(jiān)督框架。(a) 提出的框架的動機(jī)。本文的方法在將自然圖像解耦為低頻和高頻時共享相同的分割。(b)框架的示意圖。本文的方法包括三個步驟:首先,將分割特征分為身體特征和邊緣特征。然后,對這兩個部分進(jìn)行專門設(shè)計(jì)的監(jiān)督。然后合并兩個改進(jìn)的功能以進(jìn)行最終預(yù)測。
在本文中,通過在特征層上顯式地建模主體一致性和保留邊緣信息,然后在統(tǒng)一框架中聯(lián)合優(yōu)化它們來解決語義分割。整個過程包括三個步驟。首先,提出了一種新穎的基于流flow-based的方法,通過學(xué)習(xí)的偏移offset field將每個像素向目標(biāo)對象內(nèi)部彎曲,以保持每個對象的主體部分的一致性,從而生成主體特征表示。然后,通過從輸入特征中明確減去主體特征來獲得邊緣特征。主體特征由mask進(jìn)行監(jiān)督,在訓(xùn)練過程中忽略邊緣,而邊緣特征由邊緣mask監(jiān)督以學(xué)習(xí)邊緣預(yù)測。最后,將兩個優(yōu)化的特征合并到最終的表示中進(jìn)行分割。由于主體生成部分是在降采樣特征上完成的,因此邊緣信息不準(zhǔn)確。將邊緣特征和主題特征兩個部分合并為一個單獨(dú)的特征,作為重建的表示形式,并通過常用的交叉熵?fù)p失對其進(jìn)行監(jiān)督訓(xùn)練。
此外,所提出的框架是輕量級的,可以插入基于最新的FCN 的分割網(wǎng)絡(luò)中以提高其性能。該方法在四個駕駛場景數(shù)據(jù)集包括Cityscapes ,CamVid ,KITTI 和BDD 上均取得了最佳性能。特別是,該方法在僅帶有精細(xì)標(biāo)注數(shù)據(jù)的Cityscapes數(shù)據(jù)集上實(shí)現(xiàn)了83.7 mIoU。

圖2展示了整個網(wǎng)絡(luò)架構(gòu),該架構(gòu)基于最新模型Deeplabv3 +。在這里,僅將帶空洞卷積的ResNet用作主干網(wǎng)絡(luò)。特別是,本文所提出的模塊被插入到ASPP模塊之后。解耦損失函數(shù)分別附加在解耦模塊的末尾。此外,本文的模塊重量輕,可以部署在任何FCN架構(gòu)(例如PSPNet )上以完善特征表示。
1??Decoupled segmentation framework
給定一個特征圖H×W×C,其中C表示通道尺寸,H×W表示空間分辨率,所提出的模塊輸出具有相同大小的細(xì)化特征圖。特征圖可以分解為body主體部分和edge邊緣部分。在本文中,假設(shè)它們滿足加法規(guī)則,這意味著特征圖F:F = Fbody + Fedge。本文模型目標(biāo)是設(shè)計(jì)具有特定監(jiān)督權(quán)的組件,分別處理每個部分。因此,首先通過執(zhí)行body部分,然后通過顯式減法獲得邊緣部分。主體生成模塊旨在聚集對象內(nèi)部的上下文信息并為每個對象形成清晰的對象。
2??Body generation module主體生成模塊
主體生成模塊負(fù)責(zé)為同一對象內(nèi)的像素生成更一致的特征表示。因?yàn)槲矬w內(nèi)部的像素彼此相似,而沿邊界的像素則顯示出差異,因此可以顯式地學(xué)習(xí)body和邊緣特征表示,為此,本文的方法學(xué)習(xí)了flow field,并使用它對原始特征圖進(jìn)行warp以獲得顯式的主體特征表示。該模塊包含兩個部分:flow field生成和特征變形。
2.1 Flow? field? generation
為了生成主要指向?qū)ο笾行牡膄low,突出對象中心部分的特征作為顯性引導(dǎo)是一種合理的方法。一般來說,低分辨率的特征圖(或粗表示)往往包含低頻項(xiàng)。低空間頻率項(xiàng)捕捉了圖像的總和,低分辨率特征圖代表了最突出的部分,在這里我們將其視為偽中心位置或種子點(diǎn)的集合。如圖2(a)所示,因此采用了編碼器-解碼器的設(shè)計(jì),編碼器將特征圖下采樣為低分辨率表示,并有較低的空間頻率部分。?同時應(yīng)用strided-convolutions將F壓縮成高頻特征圖,具體采用三次連續(xù)的3×3深度卷積來實(shí)現(xiàn)。對于flow field的生成,與FlowNet-S(《Flownet: Learning optical flow with convo-lutional networks.》)共享相同的pipline。詳細(xì)來說,首先將低頻特征圖上采樣插值到與原始特征圖相同的大小,然后將它們連在一起,并應(yīng)用3×3 卷積層來預(yù)測流圖。由于模型是基于擴(kuò)張的主干網(wǎng)絡(luò),3×3的卷積核足夠大,在大多數(shù)情況下可以覆蓋像素之間的長距離。
2.2 Feature warping
使用可微分的雙線性采樣機(jī)制來逼近每個點(diǎn), 其過程如下面公式所示:

從flow特征圖δ計(jì)算出的wp代表了扭曲空間網(wǎng)格上的雙線性核權(quán)重。N代表所涉及的相鄰像素。
3、Edge preservation module邊緣保留模塊
邊緣保留模塊旨在處理高頻項(xiàng)。它還包括兩個步驟:1)從原始特征圖F中減去主體特征圖;2)添加更精細(xì)的細(xì)節(jié)信息的低級特征作為補(bǔ)充。首先,從原始輸入特征圖F中減去主體特征,添加了額外的低級特征輸入,以補(bǔ)充缺少的詳細(xì)信息,以增強(qiáng)主體特征中的高頻項(xiàng)。最后,將兩者連接起來,并采用1×1卷積層進(jìn)行融合。該模塊可以用下面等式表示,其中γ是卷積層并且表示級聯(lián)運(yùn)算。

4、Decoupled body and edge supervision損失函數(shù)
因?yàn)槊總€部分都有特定的目的。特別是,可以為body和edge附加輔助監(jiān)督損失。對于邊緣保留模塊,預(yù)測了訓(xùn)練過程中的邊界映射,它是圖像中對象和填充類的所有輪廓的二進(jìn)制表示。總損失函數(shù)是計(jì)算如下:


數(shù)據(jù)集:Cityscapes、CamVid、 KITTI 、BDD ?
實(shí)驗(yàn)結(jié)果
1、消融實(shí)驗(yàn)


2、對比實(shí)驗(yàn)


????
4、其他數(shù)據(jù)集上效果

更多細(xì)節(jié)可參考論文原文。


