?PVT重磅升級(jí):三點(diǎn)改進(jìn),性能大幅提升

極市導(dǎo)讀
本文是南京大學(xué)&港大&南理工&商湯團(tuán)隊(duì)針對(duì)PVT的升級(jí),針對(duì)PVT存在的不足提出了三點(diǎn)改進(jìn),所得PVTv2取得了顯著優(yōu)于PVTv1的性能,同時(shí)具有比Swin更佳的性能。 >>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺(jué)的最前沿

本文是南京大學(xué)&港大&南理工&商湯團(tuán)隊(duì)針對(duì)PVT的升級(jí),針對(duì)PVT存在的不足提出了三點(diǎn)改進(jìn)(1)采用卷積提取局部連續(xù)特征;(2)帶
zero-padding的重疊塊嵌入提取位置信息編碼;(3)帶均值池化、線性復(fù)雜度的注意力層。受益于上述三點(diǎn)改進(jìn)措施,所得PVTv2取得了顯著優(yōu)于PVTv1的性能,同時(shí)具有比Swin更佳的性能。
Abstract
Transformer在CV領(lǐng)域取得了喜人的進(jìn)展。在本文工作中,我們?cè)赑VT(后稱PVTv1)的基礎(chǔ)上引入了如下三個(gè)改進(jìn)得到了PVTv2:
采用卷積提取局部連續(xù)特征; 帶 zero-padding的位置編碼;帶均值池化的線性復(fù)雜度的注意力層。
基于上述改進(jìn),所提PVTv2在分類、檢測(cè)以及分割方面取得了顯著優(yōu)于PVTv1的性能,比如,PVTv2-B5在ImageNet上取得了83.8%的top1精度,優(yōu)于Swin-B于Twins-SVT-L同時(shí)具有更少參數(shù)量與計(jì)算量;GFL+PVT-B2的組合在COCO-val2017數(shù)據(jù)集取得了50.2AP指標(biāo),顯著優(yōu)于Swin-T(高2.6AP)與ResNet50(高5.7AP)。更進(jìn)一步,基于ImageNet-1K預(yù)訓(xùn)練,相比近期的工作(包含Swin Transformer)所提PVTv2取得了更佳的性能。
前情回顧

上圖給出了PVT的架構(gòu)示意圖,PVT旨在將金字塔結(jié)構(gòu)嵌入到Transformer結(jié)構(gòu)用于生成多尺度特征,并最終用于稠密預(yù)測(cè)任務(wù)。類似與CNN骨干結(jié)構(gòu),PVT同樣包含四個(gè)階段用于生成不同尺度的特征,所有階段具有相類似的結(jié)構(gòu):Patch Embedding+Transformer Encoder。
在第一個(gè)階段,給定尺寸為的輸入圖像,我們按照如下流程進(jìn)行處理:
首先,將其劃分為的塊(這里是為了與ResNet對(duì)標(biāo),最大輸出特征的尺寸為原始分辨率的1/4),每個(gè)塊的大小為; 然后,將展開后的塊送入到線性投影曾得到尺寸為的嵌入塊; 其次,將前述嵌入塊與位置嵌入信息送入到Transformer的Encoder,其輸出將為reshap為.
采用類似的方式,我們以前一階段的輸出作為輸入即可得到特征?;谔卣鹘鹱炙?span role="presentation" data-formula="F_1, F_2, F_3, F_4" data-formula-type="inline-equation" style="">,所提方案可以輕易與大部分下游任務(wù)(如圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割)進(jìn)行集成。
對(duì)PVT一文感興趣的朋友,可移步筆者之前的解讀:
論文速遞:金字塔Transformer,更適合稠密預(yù)測(cè)任務(wù)的Transformer骨干架構(gòu)
Improved Pyramid Vision Transformer
類似ViT,PVTv1同樣將圖像視作非重疊塊序列,而這種處理方式會(huì)在一定程度上破壞圖像的局部連續(xù)性。此外,PVTv1中采用了定長(zhǎng)位置編碼,這對(duì)于任意尺度圖像處理不夠靈活。這些問(wèn)題均限制了PVTv1在視覺(jué)任務(wù)方面的性能。
為解決上述問(wèn)題,我們提出了PVTv2,它主要針對(duì)PVTv1進(jìn)行了以下三個(gè)方面的改進(jìn)。
Overlapping Patch Embedding
下圖對(duì)比了PVTv1與PVTv2在塊嵌入方面的差異示意圖。也就是說(shuō),在PVTv2中,我們采用重疊塊嵌入對(duì)圖像進(jìn)行序列化。下上圖a為例,我們擴(kuò)大了塊窗口,使得近鄰窗口重疊一半面積。在這里,我們采用帶zero-padding的卷積實(shí)現(xiàn)重疊塊嵌入。具體來(lái)說(shuō),給定尺寸為的輸入,我們采用stride=S,核尺寸為,padding為S-1的卷積進(jìn)行處理,輸出尺寸為。

Convolutional Feed-Forward
受啟發(fā)于LocalViT、CPVT,我們移除了定長(zhǎng)位置編碼,將zero-padding位置編碼引入到PVT,見上圖b。我們采用了深度卷積、全連接層以及GELU構(gòu)建了前饋網(wǎng)絡(luò)。
Linear Spatial Reduction Attention

為進(jìn)一步減少PVT的計(jì)算量,我們提出了LSRA(Linear Spatial Reduction Attention),見上圖。與SRA不同之處,LSRA具有線性復(fù)雜度、內(nèi)存占用與卷積類似。具體來(lái)說(shuō),給定的輸如,SRA與LSRA的復(fù)雜度分別如下:
其中,R表示SRA的空間分辨率下降比例,P為L(zhǎng)SRA的池化尺寸,默認(rèn)為7。
Details of PVTv2 Seris
組合上述三點(diǎn)改進(jìn)即得到了本文的PVTv2,它具有以下三個(gè)特性:
包含圖像/特征更多的局部連續(xù)性; 更靈活的處理可變分辨率圖像; 具有類似CNN的線性復(fù)雜度。
通過(guò)改變?nèi)缦鲁瑓?shù),我們構(gòu)建了不同版本的PVTv2(B0-B5)。
:表示階段i的重疊塊嵌入的stride; :表示階段i的輸出通道數(shù); :表示階段i的編碼器層數(shù); :表示階段i的SRA的下降比例; :表示階段i的LSRA的自適應(yīng)均值池化尺寸; :表示階段i的Efficient Self-Attention的頭數(shù); :表示階段i的前饋層的擴(kuò)張比例。

上表給出了PVTv2的結(jié)構(gòu)信息,該設(shè)計(jì)參考ResNet的設(shè)計(jì)原則:
通道維度隨空間分辨率收縮而提升; Stage-3被賦予更多的計(jì)算量。
Experiments
在實(shí)驗(yàn)方面,我們主要在ImageNet分類、COCO檢測(cè)與實(shí)例分割方面進(jìn)行了對(duì)比。
ImageNet

上表給出了ImageNet上的性能對(duì)比,從中可以看到:
相比PVT,PVTv2具有相似的FLOPs與參數(shù)量,但性能取得了顯著提升。比如,相比PVTv1-tiny,PVTv2-B1指標(biāo)高3.6%;相比PVT-large,PVTv2-B4指標(biāo)高1.9%; 性比其他方案,PVTv2同樣具有顯著優(yōu)勢(shì)(精度、模型大小)。比如,相比Swin與Twins,所提PVTv2-B5取得了83.8%top1精度,指標(biāo)更高、參數(shù)量與FLOPs更低。
COCO

上表給出了COCO目標(biāo)檢測(cè)與實(shí)例分割方面的性能對(duì)比,從中可以看到:在單階段與雙階段目標(biāo)檢測(cè)方面,PVTv2均比PVTv1具有更好的性能:相同模型大小,更高的指標(biāo)。比如,基于RetinaNet,PVTv2-B4取得了46.4AP指標(biāo),以3.5AP超過(guò)了PVTv1;基于Mask R-CNN,PVTv2-B4取得了47.5AP指標(biāo),以3AP優(yōu)于PVTv1。

為了與Swin更公平的對(duì)比,我們確保所有配置相同(包含預(yù)訓(xùn)練與微調(diào))并在四種不同的檢測(cè)器框架下進(jìn)行了對(duì)比,結(jié)果見上表。從中可以看到:PVTv2在四種檢測(cè)器框架下均取得了比Swin更佳的 AP指標(biāo),證實(shí)了其優(yōu)異的特征表達(dá)能力。比如,基于ATSS框架,相比Swin-T,所提PVTv2取得了2.7指標(biāo)提升且具有相似參數(shù)量與計(jì)算量;所提PVTv2-Li可以將計(jì)算量從258G減少到194G,而精度僅輕微下降(約1AP)。
本文亮點(diǎn)總結(jié)
采用卷積提取局部連續(xù)特征; 帶 zero-padding的位置編碼;帶均值池化的線性復(fù)雜度的注意力層。
如果覺(jué)得有用,就請(qǐng)分享到朋友圈吧!
公眾號(hào)后臺(tái)回復(fù)“目標(biāo)檢測(cè)綜述”獲取綜述:目標(biāo)檢測(cè)二十年(2001-2021)~

# CV技術(shù)社群邀請(qǐng)函 #
備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳)
即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與 10000+來(lái)自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺(jué)開發(fā)者互動(dòng)交流~

