SWideRNet:全景分割新標(biāo)桿!

極市導(dǎo)讀
?本文是DeepLab系列作者“Liang-Chieh Chen”大神在全景分割領(lǐng)域的又一力作。它在Wide-ResNet的基礎(chǔ)上引入SE與"Switchable Atrous Convolution,SAC"兩種改進(jìn),嵌入到Panoptic-DeepLab框架中并在全景分割領(lǐng)域取得了SOTA性能(在更快、更大模型配置方面均取得了SOTA指標(biāo))。?>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺(jué)的最前沿

paper: https://arxiv.org/abs/2011.11675
Abstract
Wide-ResNet是一種淺而寬的殘差網(wǎng)絡(luò)(通過(guò)堆疊少量的寬殘差模塊構(gòu)建),并在多個(gè)稠密預(yù)測(cè)任務(wù)上證實(shí)了其優(yōu)異性能。然而,自從Wide-ResNet提取之日鮮少改進(jìn)。
研究者重新反思了其在全景分割(將語(yǔ)義分割、實(shí)例分割統(tǒng)一的一種新任務(wù))任務(wù)上的設(shè)計(jì),提出來(lái)一個(gè)基準(zhǔn)模塊:將SE模塊與SAC集成入Wide-ResNet。所提網(wǎng)絡(luò)的容量可以通過(guò)調(diào)整寬度、深度得到一類SWideRNets(Scaling Wide Residual Networks)。
作者通過(guò)實(shí)驗(yàn)證實(shí):這樣一種通過(guò)網(wǎng)格搜索的簡(jiǎn)單擴(kuò)展機(jī)制可以使其在全景分割任務(wù)上取得SOTA性能,在更快模型配置與更強(qiáng)模型配置下均具有更好的性能。所提方法的性能-推理速度與其他SOTA方法的對(duì)比見(jiàn)下圖。

該文的主要貢獻(xiàn)在于:找到了幾個(gè)具有取得了SOTA速度-精度均衡的SWideRNet骨干網(wǎng)絡(luò),同時(shí)所找到的SWideRNet骨干網(wǎng)絡(luò)進(jìn)一步推動(dòng)了全景分割任務(wù)的進(jìn)展。
Method
接下來(lái),我們將先介紹一下如何通過(guò)集成SE與SAC有效的擴(kuò)展基準(zhǔn)模型的容量;然后再來(lái)介紹一下如何通過(guò)調(diào)整所得模型的縮放因子構(gòu)建更快與更強(qiáng)的模型。
The SWideRNet family
基準(zhǔn)模型Wide-ResNet已證實(shí)了其在圖像分類、目標(biāo)檢測(cè)以及語(yǔ)義分割方面的優(yōu)秀性能。其中Wide-ResNet38已成為Cityscape語(yǔ)義分割、實(shí)例分割方面的優(yōu)異骨干網(wǎng)絡(luò)。Panoptic-DeepLab中采用的Wide-ResNet41取得優(yōu)于WR38的性能與速度,它進(jìn)行了兩個(gè)方面的改進(jìn):(1)移除最后的殘差模塊;(2)重復(fù)倒數(shù)第二個(gè)殘差模塊更多次。

在WR41的基礎(chǔ)上,作者進(jìn)一步引入了SE模塊(注:這里的SE僅包含一個(gè)全連接層)與SAC構(gòu)建了該文的基準(zhǔn)模型,見(jiàn)上圖。具體來(lái)說(shuō),SE中的通道注意力圖計(jì)算方式如下:
其中,z表示全局均值池化特征。參考MobileNetV3,這里采用了HardSigmoid激活函數(shù)。
SAC操作旨在集成不同擴(kuò)張比例的特征,具體的講,我們采用表示擴(kuò)張因子為r的卷積,SAC則定義如下:
其中表示開(kāi)關(guān)函數(shù),它由GAP與卷積構(gòu)成。延續(xù)了DetectoRS的配置,作者同樣在SAC主操作前與后添加了兩個(gè)輕量型全局上下文模塊(GAP+FC構(gòu)成),同時(shí)要注意到:SAC中不涉及deform-conv。
類似Wide-ResNet、EfficientNet、MobileNet,作者采用尺度因子對(duì)基準(zhǔn)網(wǎng)絡(luò)進(jìn)行縮放并提升基準(zhǔn)網(wǎng)絡(luò)的容量,其中用于縮放前兩個(gè)階段的通道數(shù),用于縮放其他階段的通道數(shù)與層數(shù)。下圖給出了本文所提SWideRNet的配置信息,可以看到骨干網(wǎng)絡(luò)的層數(shù)為,需要額外注意的是這里不包含了SE與SAC的額外操作。

Exploring SWideRNet
從上面的配置可以看到:SWideRNet-()定義了大量的網(wǎng)絡(luò)架構(gòu),可以得到不同的SWideRNet架構(gòu)用于不同的任務(wù)與應(yīng)用。在該文中,作者采用SWideRNet用于全景分割的兩個(gè)場(chǎng)景:(1) 端側(cè)全景分割,旨在設(shè)計(jì)更快的SWideRNet以獲得更好的速度(GPU推理)-精度均衡;(2) 云端/服務(wù)器端全景分割,旨在設(shè)計(jì)更高的精度而不考慮模型參數(shù)、速度等。
Grid Search ?SWideRNet-()的搜索空間是離散的,這使得我們可以采用最簡(jiǎn)單而有效的網(wǎng)格搜索方法。
Fast Model Regime ?作者通過(guò)縮小網(wǎng)絡(luò)的容量在搜索空間內(nèi)約束SWideRNet-()并獲得更快的推理速度。此時(shí)搜索空間的定義如下,它包含45個(gè)候選架構(gòu)
Strong Model Regime ?作者通過(guò)在搜索空間內(nèi)放大網(wǎng)絡(luò)提升容量并獲得更好的預(yù)測(cè)精度,該搜索空間總計(jì)包含21個(gè)候選網(wǎng)絡(luò),但考慮到GPU/TPU內(nèi)存問(wèn)題,作者僅僅對(duì)其中11個(gè)候選進(jìn)行了實(shí)驗(yàn)。
Experiments
基于所提SWideRNet-(),作者在多個(gè)數(shù)據(jù)集(COCO,Cityscapes, Mapillary Vistas, ADE20K等)上進(jìn)行了實(shí)驗(yàn)分析。在評(píng)價(jià)方面,作者選用了mIoUP, AP, PQ等評(píng)價(jià)語(yǔ)義分割、實(shí)例分割以及全景分割的性能。
在網(wǎng)絡(luò)結(jié)構(gòu)方面,作者選用Panoptic-DeepLab作為骨干并延續(xù)了其實(shí)驗(yàn)配置,采用Tensorflow實(shí)現(xiàn),在32TPU上訓(xùn)練,學(xué)習(xí)率衰減方式為"poly",初始學(xué)習(xí)率為0.0001,數(shù)據(jù)增廣選用了隨機(jī)尺度曾廣,優(yōu)化器為Adam無(wú)weight decay。COCO,Cityscapes,Mapillary Vistas以及ADE20K的訓(xùn)練迭代次數(shù)分別為500K,60K,300K,180K。損失函數(shù)方面與Panoptic-DeepLab相同。在大模型訓(xùn)練方面,作者選用了AutoAugment曾廣方式,見(jiàn)下表。

Ablation Studies
作者在COCO全景分割驗(yàn)證集上進(jìn)行了消融研究。
Design Choices ?作者在Panoptic-DeepLab的基礎(chǔ)上采用不同的骨干架構(gòu),見(jiàn)下表,對(duì)比了引入不同模塊時(shí)的性能對(duì)比。可以看到:(1)SAC可以取得1.2%的性能提升;(2)SE可以取得額外的0.6%性能提升;(3)在decoder部分采用Sep-Conv可以取得更快的推理速度,精度僅下降0.2%。

Training Tricks 在訓(xùn)練過(guò)程中,采用drop-path與AutoAugment可以分別提升0.2%和0.3%PQ指標(biāo)。
Fast Model Regime ?作者還對(duì)更快的模型進(jìn)行試驗(yàn)分析,結(jié)果見(jiàn)下圖。下圖a給出了PQ與GPU推理耗時(shí)的關(guān)系圖,下圖b給出了不同縮放因子下的模型性能、參數(shù)量以及推理速度的對(duì)比表??梢钥吹剑?strong style="font-weight: bold;color: black;">所有的快速模型的配置參數(shù)均為0.25,這也就意味著conv1與conv2是速度瓶頸。

Strong Model Regime ?作者對(duì)更高精度的模型進(jìn)行了實(shí)驗(yàn)分析,結(jié)果見(jiàn)下表。從中可以看到:提升深度比提升寬度、同時(shí)提升寬度和提升兩種方式更有效。這也就意味著:Wide-ResNet對(duì)于當(dāng)前任務(wù)而言已經(jīng)夠?qū)挕?/p>
Fast Model Regime
下表給出了作者所得到的的5個(gè)快速SWideRNet模型與其他SOTA模型在COCO與Cityscapes上的性能、速度以及計(jì)算量方面的對(duì)比。注:表中的推理速度是在Tesla V100-SXM2GPU上以batch=1進(jìn)行測(cè)試。

前面的Fig1給出了速度-精度的散點(diǎn)圖,正如Fig1與Table5所示,該文所提方案取得了最佳的速度-精度均衡。更具體的來(lái)講,
在COCO數(shù)據(jù)集上,相比MobileNetV3作為骨干網(wǎng)絡(luò),SWideRNet-(0.25,0.35,1)在val與test集上分別取得了6%和6.4%的性能提升,同時(shí)具有相近的推理速度。 在COCO數(shù)據(jù)集上,相比ResNet50作為骨干網(wǎng)絡(luò),SWideRNet-(0.25,0.5,1)取得了3%的性能提升,同時(shí)具有更快的推理速度。 在COCO數(shù)據(jù)集上,SWideRNet-(0.25,0.75,1)取得了與Xception71相似的性能,但推理速度快了2.3倍。 在Cityscapes數(shù)據(jù)集上,SWideRNet-(0.25,0.25,0.75)取得了比MobileNetV3高3%(val)和2.5%(test)的PQ,且具有相近的推理速度。 在Cityscapes數(shù)據(jù)集上,SWideRNet-(0.25,0.5,1)取得了比ResNet50高3%(val)和2.8%(test)的PQ。 在COCO數(shù)據(jù)集上,SWideRNet-(0.25,0.75,1)取得了比Xception71更高更快的的性能。
Strong Model Regime
在更強(qiáng)模型方面,作者采用”加深“策略,不同的數(shù)據(jù)及上的指標(biāo)見(jiàn)下面的分析,分別從不同的數(shù)據(jù)集方面進(jìn)行針對(duì)性的分析。
COCO ? 下面的Table6與Table7給出了val與test數(shù)據(jù)集上的結(jié)果??梢钥吹剑?1) 在無(wú)多尺度推理下,SWideRNet-(1,1,4)已經(jīng)取得了優(yōu)于Axial-DeepLab的性能;(2) SWideRNet-(1,1,4)在test集上取得了46.5%的PQ指標(biāo),以2.3%指標(biāo)優(yōu)于Axial-DeepLab-L。

Cityscapes
下表Table8與Table9給出了Cityscapes的val與test上的性能對(duì)比。從中可以看到:(1) 在多尺度推理下,SWideRNet-(1,1,4.5)取得了比Axial-DeepLab-XL高2.4%的指標(biāo)(僅Cityscape 細(xì)粒度標(biāo)注)和1.1%的指標(biāo)(額外Mapillary Vistas預(yù)訓(xùn)練);(2) ** 當(dāng)僅僅采用細(xì)粒度標(biāo)注時(shí),所提方案以2%PQ和4%AP指標(biāo)優(yōu)于Axial-DeepLab-XL;當(dāng)采用額外數(shù)據(jù)時(shí),所提方法取得了67.8%PQ、42.2%AP以及84.1%mIoU指標(biāo),分別以1.2%PQ,2.6%AP優(yōu)于Axial-DeepLab-XL**,并得到了一個(gè)新的SOTA指標(biāo)。


Mapillary Vistas ?下表給出所提方法在Mapillary Vistas驗(yàn)證集上的結(jié)果??梢钥吹剑?strong style="font-weight: bold;color: black;">在多尺度推理下,SWideRNet-(1,1,4.5)取得了44.3%PQ、21.8%AP以及60.3%mIoU指標(biāo),分別以3.2%PQ、4.6%AP、1.9%mIoU指標(biāo)優(yōu)于Axial-DeepLab-L。需要特別說(shuō)明的是:所提單模型甚至取得了優(yōu)于6個(gè)Panoptic-DeepLab集成的結(jié)果。

ADE20K ?下表給出了所提方法在ADE20K數(shù)據(jù)集上的結(jié)果。從中可以看到:(1) 在驗(yàn)證集上,SWideRNet-(1,1,4)以6%PQ指標(biāo)優(yōu)于BGRNet,并取得了49.96%mIoU和83.78%PA指標(biāo);(2)在測(cè)試集上,單模型取得了59.14%的得分,以1.9%優(yōu)于PSPNet的集成版,并得到了一個(gè)新的SOTA指標(biāo)。

最后,我們?cè)俑缴纤岱椒ㄔ诓煌瑪?shù)據(jù)集上的預(yù)測(cè)效果示意圖。

全文到此結(jié)束,對(duì)此感興趣的同學(xué)建議去查看一下原文。
推薦閱讀
圖像分割2020總結(jié):結(jié)構(gòu),損失函數(shù),數(shù)據(jù)集和框架
何愷明團(tuán)隊(duì)最新力作SimSiam:消除表征學(xué)習(xí)“崩潰解”,探尋對(duì)比表達(dá)學(xué)習(xí)成功之根源
CNN:我不是你想的那樣

