<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ?PVT重磅升級(jí):三點(diǎn)改進(jìn),性能大幅提升

          共 3814字,需瀏覽 8分鐘

           ·

          2021-07-04 21:47

          ↑ 點(diǎn)擊藍(lán)字 關(guān)注極市平臺(tái)

          作者丨h(huán)appy
          來(lái)源丨AIWalker
          編輯丨極市平臺(tái)

          極市導(dǎo)讀

           

          本文是南京大學(xué)&港大&南理工&商湯團(tuán)隊(duì)針對(duì)PVT的升級(jí),針對(duì)PVT存在的不足提出了三點(diǎn)改進(jìn),所得PVTv2取得了顯著優(yōu)于PVTv1的性能,同時(shí)具有比Swin更佳的性能。 >>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺(jué)的最前沿

          本文是南京大學(xué)&港大&南理工&商湯團(tuán)隊(duì)針對(duì)PVT的升級(jí),針對(duì)PVT存在的不足提出了三點(diǎn)改進(jìn)(1)采用卷積提取局部連續(xù)特征;(2)帶zero-padding 的重疊塊嵌入提取位置信息編碼;(3)帶均值池化、線性復(fù)雜度的注意力層。受益于上述三點(diǎn)改進(jìn)措施,所得PVTv2取得了顯著優(yōu)于PVTv1的性能,同時(shí)具有比Swin更佳的性能。

          Abstract

          Transformer在CV領(lǐng)域取得了喜人的進(jìn)展。在本文工作中,我們?cè)赑VT(后稱PVTv1)的基礎(chǔ)上引入了如下三個(gè)改進(jìn)得到了PVTv2:

          • 采用卷積提取局部連續(xù)特征;
          • zero-padding的位置編碼;
          • 帶均值池化的線性復(fù)雜度的注意力層。

          基于上述改進(jìn),所提PVTv2在分類、檢測(cè)以及分割方面取得了顯著優(yōu)于PVTv1的性能,比如,PVTv2-B5在ImageNet上取得了83.8%的top1精度,優(yōu)于Swin-B于Twins-SVT-L同時(shí)具有更少參數(shù)量與計(jì)算量;GFL+PVT-B2的組合在COCO-val2017數(shù)據(jù)集取得了50.2AP指標(biāo),顯著優(yōu)于Swin-T(高2.6AP)與ResNet50(高5.7AP)。更進(jìn)一步,基于ImageNet-1K預(yù)訓(xùn)練,相比近期的工作(包含Swin Transformer)所提PVTv2取得了更佳的性能。

          前情回顧

          上圖給出了PVT的架構(gòu)示意圖,PVT旨在將金字塔結(jié)構(gòu)嵌入到Transformer結(jié)構(gòu)用于生成多尺度特征,并最終用于稠密預(yù)測(cè)任務(wù)。類似與CNN骨干結(jié)構(gòu),PVT同樣包含四個(gè)階段用于生成不同尺度的特征,所有階段具有相類似的結(jié)構(gòu):Patch Embedding+Transformer Encoder。

          在第一個(gè)階段,給定尺寸為的輸入圖像,我們按照如下流程進(jìn)行處理:

          • 首先,將其劃分為的塊(這里是為了與ResNet對(duì)標(biāo),最大輸出特征的尺寸為原始分辨率的1/4),每個(gè)塊的大小為;
          • 然后,將展開后的塊送入到線性投影曾得到尺寸為的嵌入塊;
          • 其次,將前述嵌入塊與位置嵌入信息送入到Transformer的Encoder,其輸出將為reshap為.

          采用類似的方式,我們以前一階段的輸出作為輸入即可得到特征?;谔卣鹘鹱炙?span role="presentation" data-formula="F_1, F_2, F_3, F_4" data-formula-type="inline-equation" style="">,所提方案可以輕易與大部分下游任務(wù)(如圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割)進(jìn)行集成。

          對(duì)PVT一文感興趣的朋友,可移步筆者之前的解讀:

          論文速遞:金字塔Transformer,更適合稠密預(yù)測(cè)任務(wù)的Transformer骨干架構(gòu)

          Improved Pyramid Vision Transformer

          類似ViT,PVTv1同樣將圖像視作非重疊塊序列,而這種處理方式會(huì)在一定程度上破壞圖像的局部連續(xù)性。此外,PVTv1中采用了定長(zhǎng)位置編碼,這對(duì)于任意尺度圖像處理不夠靈活。這些問(wèn)題均限制了PVTv1在視覺(jué)任務(wù)方面的性能。

          為解決上述問(wèn)題,我們提出了PVTv2,它主要針對(duì)PVTv1進(jìn)行了以下三個(gè)方面的改進(jìn)。

          Overlapping Patch Embedding

          下圖對(duì)比了PVTv1與PVTv2在塊嵌入方面的差異示意圖。也就是說(shuō),在PVTv2中,我們采用重疊塊嵌入對(duì)圖像進(jìn)行序列化。下上圖a為例,我們擴(kuò)大了塊窗口,使得近鄰窗口重疊一半面積。在這里,我們采用帶zero-padding的卷積實(shí)現(xiàn)重疊塊嵌入。具體來(lái)說(shuō),給定尺寸為的輸入,我們采用stride=S,核尺寸為,padding為S-1的卷積進(jìn)行處理,輸出尺寸為。

          Convolutional Feed-Forward

          受啟發(fā)于LocalViT、CPVT,我們移除了定長(zhǎng)位置編碼,將zero-padding位置編碼引入到PVT,見上圖b。我們采用了深度卷積、全連接層以及GELU構(gòu)建了前饋網(wǎng)絡(luò)。

          Linear Spatial Reduction Attention

          為進(jìn)一步減少PVT的計(jì)算量,我們提出了LSRA(Linear Spatial Reduction Attention),見上圖。與SRA不同之處,LSRA具有線性復(fù)雜度、內(nèi)存占用與卷積類似。具體來(lái)說(shuō),給定的輸如,SRA與LSRA的復(fù)雜度分別如下:

          其中,R表示SRA的空間分辨率下降比例,P為L(zhǎng)SRA的池化尺寸,默認(rèn)為7。

          Details of PVTv2 Seris

          組合上述三點(diǎn)改進(jìn)即得到了本文的PVTv2,它具有以下三個(gè)特性:

          • 包含圖像/特征更多的局部連續(xù)性;
          • 更靈活的處理可變分辨率圖像;
          • 具有類似CNN的線性復(fù)雜度

          通過(guò)改變?nèi)缦鲁瑓?shù),我們構(gòu)建了不同版本的PVTv2(B0-B5)。

          • :表示階段i的重疊塊嵌入的stride;
          • :表示階段i的輸出通道數(shù);
          • :表示階段i的編碼器層數(shù);
          • :表示階段i的SRA的下降比例;
          • :表示階段i的LSRA的自適應(yīng)均值池化尺寸;
          • :表示階段i的Efficient Self-Attention的頭數(shù);
          • :表示階段i的前饋層的擴(kuò)張比例。

          上表給出了PVTv2的結(jié)構(gòu)信息,該設(shè)計(jì)參考ResNet的設(shè)計(jì)原則:

          • 通道維度隨空間分辨率收縮而提升;
          • Stage-3被賦予更多的計(jì)算量。

          Experiments

          在實(shí)驗(yàn)方面,我們主要在ImageNet分類、COCO檢測(cè)與實(shí)例分割方面進(jìn)行了對(duì)比。

          ImageNet

          上表給出了ImageNet上的性能對(duì)比,從中可以看到:

          • 相比PVT,PVTv2具有相似的FLOPs與參數(shù)量,但性能取得了顯著提升。比如,相比PVTv1-tiny,PVTv2-B1指標(biāo)高3.6%;相比PVT-large,PVTv2-B4指標(biāo)高1.9%;
          • 性比其他方案,PVTv2同樣具有顯著優(yōu)勢(shì)(精度、模型大小)。比如,相比Swin與Twins,所提PVTv2-B5取得了83.8%top1精度,指標(biāo)更高、參數(shù)量與FLOPs更低。

          COCO

          上表給出了COCO目標(biāo)檢測(cè)與實(shí)例分割方面的性能對(duì)比,從中可以看到:在單階段與雙階段目標(biāo)檢測(cè)方面,PVTv2均比PVTv1具有更好的性能:相同模型大小,更高的指標(biāo)。比如,基于RetinaNet,PVTv2-B4取得了46.4AP指標(biāo),以3.5AP超過(guò)了PVTv1;基于Mask R-CNN,PVTv2-B4取得了47.5AP指標(biāo),以3AP優(yōu)于PVTv1。

          為了與Swin更公平的對(duì)比,我們確保所有配置相同(包含預(yù)訓(xùn)練與微調(diào))并在四種不同的檢測(cè)器框架下進(jìn)行了對(duì)比,結(jié)果見上表。從中可以看到:PVTv2在四種檢測(cè)器框架下均取得了比Swin更佳的 AP指標(biāo),證實(shí)了其優(yōu)異的特征表達(dá)能力。比如,基于ATSS框架,相比Swin-T,所提PVTv2取得了2.7指標(biāo)提升且具有相似參數(shù)量與計(jì)算量;所提PVTv2-Li可以將計(jì)算量從258G減少到194G,而精度僅輕微下降(約1AP)。


          本文亮點(diǎn)總結(jié)


          1.在本文工作中,作者在PVT(后稱PVTv1)的基礎(chǔ)上引入了如下三個(gè)改進(jìn)得到了PVTv2:
          • 采用卷積提取局部連續(xù)特征;
          • zero-padding的位置編碼;
          • 帶均值池化的線性復(fù)雜度的注意力層。

          如果覺(jué)得有用,就請(qǐng)分享到朋友圈吧!

          △點(diǎn)擊卡片關(guān)注極市平臺(tái),獲取最新CV干貨

          公眾號(hào)后臺(tái)回復(fù)“目標(biāo)檢測(cè)綜述”獲取綜述:目標(biāo)檢測(cè)二十年(2001-2021)


          極市干貨
          YOLO教程:一文讀懂YOLO V5 與 YOLO V4大盤點(diǎn)|YOLO 系目標(biāo)檢測(cè)算法總覽全面解析YOLO V4網(wǎng)絡(luò)結(jié)構(gòu)
          實(shí)操教程:PyTorch vs LibTorch:網(wǎng)絡(luò)推理速度誰(shuí)更快?只用兩行代碼,我讓Transformer推理加速了50倍PyTorch AutoGrad C++層實(shí)現(xiàn)
          算法技巧(trick):深度學(xué)習(xí)訓(xùn)練tricks總結(jié)(有實(shí)驗(yàn)支撐)深度強(qiáng)化學(xué)習(xí)調(diào)參Tricks合集長(zhǎng)尾識(shí)別中的Tricks匯總(AAAI2021
          最新CV競(jìng)賽:2021 高通人工智能應(yīng)用創(chuàng)新大賽CVPR 2021 | Short-video Face Parsing Challenge3D人體目標(biāo)檢測(cè)與行為分析競(jìng)賽開賽,獎(jiǎng)池7萬(wàn)+,數(shù)據(jù)集達(dá)16671張!


          CV技術(shù)社群邀請(qǐng)函 #

          △長(zhǎng)按添加極市小助手
          添加極市小助手微信(ID : cvmart2)

          備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳)


          即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群


          每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與 10000+來(lái)自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺(jué)開發(fā)者互動(dòng)交流~



          覺(jué)得有用麻煩給個(gè)在看啦~  
          瀏覽 71
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  韩国精品国产 | 一级黄片毛片在线播放 | 成人免费版 欧美州 | 天天艹在线观看 | 亚洲字幕第一页 |