日韩无码一级二级,久久视频网址,成人免费黄色片,日本色图15p,操操AV影音,亚洲性爱一区二区三区,91久久爽无码人妻AⅤ精品蜜桃,亚洲动漫精品一区

↑ 點(diǎn)擊藍(lán)字 關(guān)注極市平臺(tái)

作者丨h(huán)appy

來(lái)源丨AIWalker

編輯丨極市平臺(tái)

極市導(dǎo)讀

本文是南京大學(xué)&港大&南理工&商湯團(tuán)隊(duì)針對(duì)PVT的升級(jí)，針對(duì)PVT存在的不足提出了三點(diǎn)改進(jìn)，所得PVTv2取得了顯著優(yōu)于PVTv1的性能，同時(shí)具有比Swin更佳的性能。 >>加入極市CV技術(shù)交流群，走在計(jì)算機(jī)視覺(jué)的最前沿

本文是南京大學(xué)&港大&南理工&商湯團(tuán)隊(duì)針對(duì)PVT的升級(jí)，針對(duì)PVT存在的不足提出了三點(diǎn)改進(jìn)(1)采用卷積提取局部連續(xù)特征；(2)帶zero-padding 的重疊塊嵌入提取位置信息編碼；(3)帶均值池化、線性復(fù)雜度的注意力層。受益于上述三點(diǎn)改進(jìn)措施，所得PVTv2取得了顯著優(yōu)于PVTv1的性能，同時(shí)具有比Swin更佳的性能。

Abstract

Transformer在CV領(lǐng)域取得了喜人的進(jìn)展。在本文工作中，我們?cè)赑VT(后稱PVTv1)的基礎(chǔ)上引入了如下三個(gè)改進(jìn)得到了PVTv2:

采用卷積提取局部連續(xù)特征；
帶zero-padding的位置編碼；
帶均值池化的線性復(fù)雜度的注意力層。

基于上述改進(jìn)，所提PVTv2在分類、檢測(cè)以及分割方面取得了顯著優(yōu)于PVTv1的性能，比如，PVTv2-B5在ImageNet上取得了83.8%的top1精度，優(yōu)于Swin-B于Twins-SVT-L同時(shí)具有更少參數(shù)量與計(jì)算量；GFL+PVT-B2的組合在COCO-val2017數(shù)據(jù)集取得了50.2AP指標(biāo)，顯著優(yōu)于Swin-T(高2.6AP)與ResNet50(高5.7AP)。更進(jìn)一步，基于ImageNet-1K預(yù)訓(xùn)練，相比近期的工作(包含Swin Transformer)所提PVTv2取得了更佳的性能。

前情回顧

上圖給出了PVT的架構(gòu)示意圖，PVT旨在將金字塔結(jié)構(gòu)嵌入到Transformer結(jié)構(gòu)用于生成多尺度特征，并最終用于稠密預(yù)測(cè)任務(wù)。類似與CNN骨干結(jié)構(gòu)，PVT同樣包含四個(gè)階段用于生成不同尺度的特征，所有階段具有相類似的結(jié)構(gòu)：Patch Embedding+Transformer Encoder。

在第一個(gè)階段，給定尺寸為的輸入圖像，我們按照如下流程進(jìn)行處理：

首先，將其劃分為的塊(這里是為了與ResNet對(duì)標(biāo)，最大輸出特征的尺寸為原始分辨率的1/4)，每個(gè)塊的大小為；
然后，將展開后的塊送入到線性投影曾得到尺寸為的嵌入塊；
其次，將前述嵌入塊與位置嵌入信息送入到Transformer的Encoder，其輸出將為reshap為.

采用類似的方式，我們以前一階段的輸出作為輸入即可得到特征?；谔卣鹘鹱炙?span role="presentation" data-formula="F_1, F_2, F_3, F_4" data-formula-type="inline-equation" style="">，所提方案可以輕易與大部分下游任務(wù)(如圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割)進(jìn)行集成。

對(duì)PVT一文感興趣的朋友，可移步筆者之前的解讀：

論文速遞：金字塔Transformer，更適合稠密預(yù)測(cè)任務(wù)的Transformer骨干架構(gòu)

Improved Pyramid Vision Transformer

類似ViT，PVTv1同樣將圖像視作非重疊塊序列，而這種處理方式會(huì)在一定程度上破壞圖像的局部連續(xù)性。此外，PVTv1中采用了定長(zhǎng)位置編碼，這對(duì)于任意尺度圖像處理不夠靈活。這些問(wèn)題均限制了PVTv1在視覺(jué)任務(wù)方面的性能。

為解決上述問(wèn)題，我們提出了PVTv2，它主要針對(duì)PVTv1進(jìn)行了以下三個(gè)方面的改進(jìn)。

Overlapping Patch Embedding

下圖對(duì)比了PVTv1與PVTv2在塊嵌入方面的差異示意圖。也就是說(shuō)，在PVTv2中，我們采用重疊塊嵌入對(duì)圖像進(jìn)行序列化。下上圖a為例，我們擴(kuò)大了塊窗口，使得近鄰窗口重疊一半面積。在這里，我們采用帶zero-padding的卷積實(shí)現(xiàn)重疊塊嵌入。具體來(lái)說(shuō)，給定尺寸為的輸入，我們采用stride=S，核尺寸為，padding為S-1的卷積進(jìn)行處理，輸出尺寸為。

Convolutional Feed-Forward

受啟發(fā)于LocalViT、CPVT，我們移除了定長(zhǎng)位置編碼，將zero-padding位置編碼引入到PVT，見上圖b。我們采用了深度卷積、全連接層以及GELU構(gòu)建了前饋網(wǎng)絡(luò)。

Linear Spatial Reduction Attention

為進(jìn)一步減少PVT的計(jì)算量，我們提出了LSRA(Linear Spatial Reduction Attention),見上圖。與SRA不同之處，LSRA具有線性復(fù)雜度、內(nèi)存占用與卷積類似。具體來(lái)說(shuō)，給定的輸如，SRA與LSRA的復(fù)雜度分別如下：

其中，R表示SRA的空間分辨率下降比例，P為L(zhǎng)SRA的池化尺寸，默認(rèn)為7。

Details of PVTv2 Seris

組合上述三點(diǎn)改進(jìn)即得到了本文的PVTv2，它具有以下三個(gè)特性：

包含圖像/特征更多的局部連續(xù)性；
更靈活的處理可變分辨率圖像；
具有類似CNN的線性復(fù)雜度。

通過(guò)改變?nèi)缦鲁瑓?shù)，我們構(gòu)建了不同版本的PVTv2(B0-B5)。

：表示階段i的重疊塊嵌入的stride；
：表示階段i的輸出通道數(shù)；
：表示階段i的編碼器層數(shù)；
：表示階段i的SRA的下降比例；
：表示階段i的LSRA的自適應(yīng)均值池化尺寸；
：表示階段i的Efficient Self-Attention的頭數(shù)；
：表示階段i的前饋層的擴(kuò)張比例。

上表給出了PVTv2的結(jié)構(gòu)信息，該設(shè)計(jì)參考ResNet的設(shè)計(jì)原則：

通道維度隨空間分辨率收縮而提升；
Stage-3被賦予更多的計(jì)算量。

Experiments

在實(shí)驗(yàn)方面，我們主要在ImageNet分類、COCO檢測(cè)與實(shí)例分割方面進(jìn)行了對(duì)比。

ImageNet

上表給出了ImageNet上的性能對(duì)比，從中可以看到：

相比PVT，PVTv2具有相似的FLOPs與參數(shù)量，但性能取得了顯著提升。比如，相比PVTv1-tiny，PVTv2-B1指標(biāo)高3.6%；相比PVT-large，PVTv2-B4指標(biāo)高1.9%；
性比其他方案，PVTv2同樣具有顯著優(yōu)勢(shì)(精度、模型大小)。比如，相比Swin與Twins，所提PVTv2-B5取得了83.8%top1精度，指標(biāo)更高、參數(shù)量與FLOPs更低。

COCO

上表給出了COCO目標(biāo)檢測(cè)與實(shí)例分割方面的性能對(duì)比，從中可以看到：在單階段與雙階段目標(biāo)檢測(cè)方面，PVTv2均比PVTv1具有更好的性能：相同模型大小，更高的指標(biāo)。比如，基于RetinaNet，PVTv2-B4取得了46.4AP指標(biāo)，以3.5AP超過(guò)了PVTv1；基于Mask R-CNN，PVTv2-B4取得了47.5AP指標(biāo)，以3AP優(yōu)于PVTv1。

為了與Swin更公平的對(duì)比，我們確保所有配置相同(包含預(yù)訓(xùn)練與微調(diào))并在四種不同的檢測(cè)器框架下進(jìn)行了對(duì)比，結(jié)果見上表。從中可以看到：PVTv2在四種檢測(cè)器框架下均取得了比Swin更佳的 AP指標(biāo)，證實(shí)了其優(yōu)異的特征表達(dá)能力。比如，基于ATSS框架，相比Swin-T，所提PVTv2取得了2.7指標(biāo)提升且具有相似參數(shù)量與計(jì)算量；所提PVTv2-Li可以將計(jì)算量從258G減少到194G，而精度僅輕微下降(約1AP)。

本文亮點(diǎn)總結(jié)

1.在本文工作中，作者在PVT(后稱PVTv1)的基礎(chǔ)上引入了如下三個(gè)改進(jìn)得到了PVTv2: