超越ResNeSt!ResNet又一改進(jìn)版,即插即用的HSB漲點(diǎn)神器!
點(diǎn)擊上方“AI算法與圖像處理”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)

該文是百度研究員針對(duì)ResNet提出的一種改進(jìn),它提出一種新穎的Hierarchical-Split Block,一種“即插即用”的模塊。它可以提供更充分的感受野,進(jìn)而提升其他下游任務(wù)(如語(yǔ)義分割、目標(biāo)檢測(cè)等等)的性能。在同等推理速度下,所提HS-ResNet50取得了81.28%的Top1精度,超過(guò)了之前亞馬遜提出的ResNeSt。
Paper: https://arxiv.org/abs/2010.07621
Code: https://github.com/PaddlePaddle/PaddleClas
Abstract
多尺度特征對(duì)于大量視覺(jué)任務(wù)均非常重要,現(xiàn)有諸多網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)均考慮了多尺度信息的構(gòu)件。該文提出了一種“即插即用”型Hierarchical-Split Block(HSB)用于提升現(xiàn)有CNN的性能。HSB包含多個(gè)Split與Concat操作,它們共同構(gòu)成該Block的多尺度特征提??;與此同時(shí),HSB具有更好的靈活性與高效性。基于HSB構(gòu)件的ResNet在多個(gè)任務(wù)上取得了極大的性能提升,比如在ImageNet數(shù)據(jù)集上,HS-ResNet50取得了81.28%的Top1精度,超過(guò)了之前亞馬遜提出的ResNeSt。下圖給出了不同ResNet的精度、推理耗時(shí)對(duì)比。

該文貢獻(xiàn)主要包含以下幾點(diǎn):
提出一種新穎的Hierarchical-Split Block,它包含多尺度特征,具有與標(biāo)準(zhǔn)卷積相近參數(shù)量的計(jì)算量; 提出一種基于HSB的網(wǎng)絡(luò)結(jié)構(gòu),取得了顯著性能提升,與此同時(shí),參數(shù)量與計(jì)算量比其他更復(fù)雜的網(wǎng)絡(luò)更具優(yōu)勢(shì); 基于HS-ResNet作為骨干網(wǎng)絡(luò)的其他下游任務(wù)(比如目標(biāo)檢測(cè)、實(shí)例分割、語(yǔ)義分割)均可取得SOTA性能。
Method

上圖給出了本文所設(shè)計(jì)的HSB的網(wǎng)絡(luò)結(jié)構(gòu)示意圖,經(jīng)過(guò)卷積后,特征被Split成s組,每組具有同等的通道通道數(shù)。每組特征將被送入到卷積,輸出特征表示為。該文創(chuàng)造性的將繼續(xù)拆分并將與下一組的一起送入。最終的輸出特征中小感受野可以聚焦于細(xì)節(jié)部分,這對(duì)于小目標(biāo)識(shí)別很重要,而大感受野特征有助于捕獲大目標(biāo)。
在該文中,作者通過(guò)控制組數(shù)與通道數(shù)約束參數(shù)量和計(jì)算量。更大的組數(shù)意味著更強(qiáng)的多尺度提取性
能,而更多的通道數(shù)則意味著更豐富的特征。上述HSB可以描述成如下形式:
Split and Concatenate operation
HSB 包含兩個(gè)關(guān)鍵操作Split和Concatenate:
Split用于將特征分組,且每組具有相同的通道數(shù),需要注意的是奇數(shù)通道經(jīng)過(guò)Split后的兩組通道數(shù)不再相同,而該Split設(shè)計(jì)則是受GhostNet啟發(fā)得到,分離后的兩組特征一部分用于恒等映射,一部分用于提取更精細(xì)的特征; Concatenate則用于將不同的特征進(jìn)行融合并增強(qiáng)不同組的信息交互,該Concatenate設(shè)計(jì)是受啟發(fā)于Res2Net得到。而Summation操作更傾向于改變,甚至破壞特征表達(dá)能力,而Concatenate則有助于保持原始特征表達(dá)能力。
Analysis on Complexities
接下來(lái),我們就要來(lái)證明一下:相比標(biāo)準(zhǔn)卷積,HSB不會(huì)導(dǎo)致參數(shù)量的提升。相比標(biāo)準(zhǔn)卷積,HSB具有更少的參數(shù)復(fù)雜度。標(biāo)準(zhǔn)卷積的參數(shù)復(fù)雜度(注:s表示組數(shù),w表示每組的通道數(shù))可以描述如下:
而HSB的參數(shù)復(fù)雜度則表示如下:
兩者之間的大小關(guān)小可以通過(guò)下面的對(duì)比得到:
Experiments
訓(xùn)練細(xì)節(jié):作者毫無(wú)疑問(wèn)的選擇了PaddlePaddle框架進(jìn)行模型訓(xùn)練,在ImageNet數(shù)據(jù)集上,每個(gè)圖像隨機(jī)裁剪,然后進(jìn)行隨機(jī)水平鏡像,測(cè)試環(huán)境硬件環(huán)境為T(mén)4和TensorRT。在訓(xùn)練過(guò)程中,作者采用了LabelSmoothing, Mixup兩種技術(shù),采用了SGD(weight_decay=1e-4,momentum=0.9)優(yōu)化器,Batch=256,學(xué)習(xí)率調(diào)整機(jī)制為consine,合計(jì)訓(xùn)練200epoch。
為更近一步提升模型精度,作者采用Cutmix替換Mixup,并添加RandAug與RandomErasing兩種增廣方式,同時(shí)調(diào)整weight_decay=4e-5訓(xùn)練了300epoch。
下表給出了不同ResNet改進(jìn)方案的精度、參數(shù)量以及推理耗時(shí)對(duì)比。相比ResNet50-D,HS-ResNet50取得了1.2%的精度提升,此外采用更多訓(xùn)練trick的模型取得了81.28%的Top1精度。相比ResNeSt50,HS-ResNet50不僅具有更高的精度(0.26%higher),同時(shí)推理速度更快,參數(shù)量更少。

下表給出了所提方法在目標(biāo)檢測(cè)任務(wù)上的性能對(duì)比,它以FasterRCNN+RPN作為核心,采用不同的Backbone??梢钥吹剑篐S-ResNet將基準(zhǔn)模型的精度由37.2%提升到了41.6%,同時(shí)具有比ResNet101-D更高的指標(biāo)和推理速度。

下表給出了所提方法在實(shí)例分割任務(wù)上的性能對(duì)比,它以MaskRCNN+FPN作為核心方法,采用不同的ResNet作為骨干網(wǎng)絡(luò)??梢钥吹剑合啾然鶞?zhǔn)方法,所提方法將其性能由34.7%提升到38%,同時(shí)比ResNet101-D高1.2%。

下表給出了所提方法在語(yǔ)義分割任務(wù)上的性能對(duì)比,它以DeepLabV3+作為核心,采用了不同骨干網(wǎng)路,可以看到:相比ResNet50-D,所提方法取得了1.8%的性能提升。

最后,我們?cè)賮?lái)看一下消融實(shí)驗(yàn)分析??梢钥吹剑焊嗟慕M數(shù)可以得到更高的Top1精度,但同時(shí)會(huì)降低推理速度;而更少的組數(shù)更多的通道數(shù)則會(huì)降低精度提升推理速度。

小結(jié)
該文提出了一種新穎的HSB模塊,它可以高效的提取多尺度特征,與此同時(shí),作者基于HSB構(gòu)建了ResNet改進(jìn)HS-ResNet,它在多個(gè)視覺(jué)任務(wù)(如圖像分類(lèi)、目標(biāo)檢測(cè)、實(shí)例分割、語(yǔ)義分割等)上取得了SOTA性能。所提HSB具有“即插即用”特性,它可以輕易嵌入到現(xiàn)有網(wǎng)絡(luò)中并提升性能,值得各位同學(xué)嘗試把玩一番。
下載1:OpenCV黑魔法
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):速查表,即可下載21張 AI相關(guān)的查找表,包括 python基礎(chǔ),線性代數(shù),scipy科學(xué)計(jì)算,numpy,kears,tensorflow等等
下載2 CVPR2020 在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):CVPR2020,即可下載1467篇CVPR?2020論文 個(gè)人微信(如果沒(méi)有備注不拉群!) 請(qǐng)注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱(chēng)
覺(jué)得有趣就點(diǎn)亮在看吧


