<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Panoptic SegFormer:全景分割第一名!南大&港大&英偉達(dá)提出新算法,霸榜全景分割

          共 4928字,需瀏覽 10分鐘

           ·

          2021-09-23 09:30

          ↑ 點(diǎn)擊藍(lán)字 關(guān)注極市平臺(tái)

          作者丨小馬
          來(lái)源丨我愛計(jì)算機(jī)視覺
          編輯丨極市平臺(tái)

          極市導(dǎo)讀

           

          在本文中,作者提出了一個(gè)用Transformer進(jìn)行端到端的全景分割框架。該方法采用Deformable DETR結(jié)構(gòu),對(duì)things和stuff采用了統(tǒng)一的mask預(yù)測(cè)流程。使用ResNet-50主干網(wǎng)絡(luò),本文的方法在COCO test-dev split上實(shí)現(xiàn)了50.0% PQ,大大超過(guò)了以前的SOTA方法。 >>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿

          今日分享論文 『Panoptic SegFormer』 全景分割第一名!由南大&港大&NVIDIA 聯(lián)合提出 Panoptic SegFormer,霸榜全景分割。

          話不多說(shuō),先放Leadboard:

          更多信息如下:

          • 論文鏈接:https://arxiv.org/abs/2109.03814

          • 項(xiàng)目鏈接:未開源

          導(dǎo)言:

          在本文中,作者提出了一個(gè)用Transformer進(jìn)行端到端的全景分割框架。該方法采用Deformable DETR結(jié)構(gòu),對(duì)things和stuff采用了統(tǒng)一的mask預(yù)測(cè)流程,使全景分割更加簡(jiǎn)潔有效。使用ResNet-50主干網(wǎng)絡(luò),本文的方法在COCO test-dev split上實(shí)現(xiàn)了50.0% PQ,大大超過(guò)了以前的SOTA方法。使用更強(qiáng)的PVTv2-B5主干網(wǎng)絡(luò),Panoptic SegFormer在COCO test-dev split上實(shí)現(xiàn)了54.1% PQ 和54.4% PQ 的新記錄。

          01 Motivation

          語(yǔ)義分割和實(shí)例分割是兩個(gè)重要且相關(guān)的視覺問題。作為這兩個(gè)任務(wù)的統(tǒng)一,他們的潛在聯(lián)系最近推動(dòng)了全景分割。在全景分割中,圖像內(nèi)容可分為things和stuff兩類。things是可計(jì)數(shù)的實(shí)例(例如,人、汽車和自行車),每個(gè)實(shí)例都有一個(gè)唯一的id來(lái)區(qū)別于其他實(shí)例。stuff是指非定形和不可數(shù)的區(qū)域(例如,天空,草原和雪),沒有實(shí)例id。

          things和stuff之間的差異也導(dǎo)致了處理他們的不同預(yù)測(cè)方法。許多工作只是簡(jiǎn)單地將全景分割分解為實(shí)例分割任務(wù)和語(yǔ)義分割任務(wù)。然而,這種分離的策略往往會(huì)增加模型的復(fù)雜性。一些工作進(jìn)一步考慮了bottom-up(沒有proposal)的全景分割方法,但仍然保持類似的獨(dú)立策略。最近的一些方法試圖通過(guò)使用統(tǒng)一的框架處理things和stuff來(lái)簡(jiǎn)化全景分割pipeline。這些方法大多采用雙分支結(jié)構(gòu),其中內(nèi)核分支(kernel branch)編碼目標(biāo)/區(qū)域信息,并與圖像級(jí)特征分支(image-level feature branch)動(dòng)態(tài)地進(jìn)行卷積以生成目標(biāo)/區(qū)域mask。

          近年來(lái),視覺Transformer被廣泛應(yīng)用于實(shí)例定位和識(shí)別任務(wù)中。視覺Transformer通常將輸入圖像分割為多個(gè)patch,并將其編碼為token。對(duì)于目標(biāo)檢測(cè)任務(wù),DETR和Deformable DETR都有一組可學(xué)習(xí)的query,用于預(yù)測(cè)邊界框,并與ground truth進(jìn)行動(dòng)態(tài)匹配。

          在這項(xiàng)工作中,作者提出了Panoptic SegFormer,一個(gè)簡(jiǎn)潔和有效的框架,端到端用Transformer進(jìn)行全景分割。具體來(lái)說(shuō),Panoptic SegFormer包含三個(gè)關(guān)鍵的設(shè)計(jì):

          • 統(tǒng)一表示things和stuff的quer****y集 ,其中stuff被視為只有單一實(shí)例id的特殊類型;
          • 利用things和stuff的位置信息來(lái)提高分割質(zhì)量的位置解碼器 ;
          • Mask后處理策略 ,合并things和stuff的分割結(jié)果。

          受益于這三種設(shè)計(jì),Panoptic SegFormer高效地實(shí)現(xiàn)了SOTA的全精分割任務(wù)的性能。(性能對(duì)比如上圖所示)

          02 方法

          2.1.整體架構(gòu)

          模型的整體架構(gòu)如上圖所示,Panoptic SegFormer由三個(gè)關(guān)鍵模塊組成:Transformer編碼器、位置解碼器和Mask解碼器。其中利用Transformer編碼器對(duì)主干提取的多尺度特征圖進(jìn)行細(xì)化;利用位置解碼器捕捉物體的位置線索;Mask解碼器用于最終的分類和分割。

          在前向階段,我們首先將圖像輸入到主干網(wǎng)絡(luò),從最后三個(gè)階段獲得特征圖、、和,與輸入圖像相比,其分辨率分別為1/8、1/16和1/32。然后,通過(guò)全連接(FC)層將這三個(gè)特征投影到具有256個(gè)通道的特征中,并將它們flatten為特征token 、、和。、、和的維度分別為,,。

          接下來(lái),concat這些token作為Transformer編碼器的輸入,Transformer編碼器輸出的細(xì)化特征大小為。然后使用N個(gè)初始化的query來(lái)描述things和stuff,獲取position信息。最后使用mask-wise strategy來(lái)融合預(yù)測(cè)的mask,得到最終的分割結(jié)果。

          2.2.Transformer編碼器

          高分辨率和多尺度特征圖對(duì)于分割任務(wù)具有重要意義。由于多頭注意層的計(jì)算成本高,以往基于Transformer的方法只能在其編碼器中處理低分辨率的特征圖(如ResNet的C5),這限制了分割性能。與這些方法不同,作者使用可變形的注意層(deformable attention)來(lái)實(shí)現(xiàn)Transformer編碼器。由于可變形注意層的計(jì)算復(fù)雜度較低,本文的編碼器可以拓展到高分辨率和多尺度特征圖F。

          2.3.位置解碼器

          在全景分割任務(wù)中,位置信息在區(qū)分具有不同實(shí)例id的things方面起著重要的作用。受此啟發(fā),作者設(shè)計(jì)了一個(gè)位置解碼器,將things的位置信息(即中心位置和尺度)引入到可學(xué)習(xí)的query中。

          具體來(lái)說(shuō),給定N個(gè)隨機(jī)初始化的query和由Transformer編碼器生成的細(xì)化的特征token,解碼器將輸出N個(gè)具有位置感知性的query。在訓(xùn)練階段,作者在位置感知query的基礎(chǔ)上應(yīng)用一個(gè)輔助的MLP頭來(lái)預(yù)測(cè)目標(biāo)對(duì)象的尺度和中心位置,并使用位置損失來(lái)監(jiān)督預(yù)測(cè)。MLP頭是一個(gè)輔助分支,可以在推理階段被丟棄。由于位置解碼器不需要預(yù)測(cè)分割mask,因此作者用計(jì)算和內(nèi)存更高效的可變形注意(deformable attention)來(lái)實(shí)現(xiàn)。

          2.4.Mask解碼器

          Mask解碼器,可以根據(jù)給定的query來(lái)預(yù)測(cè)對(duì)象的類別和Mask。Mask解碼器的query Q是來(lái)自位置解碼器的位置感知query,Mask解碼器的key K和value V是來(lái)自Transformer編碼器的細(xì)化特征token F。作者首先將query通過(guò)4個(gè)解碼器層,然后從最后一個(gè)解碼器層獲取注意力映射和細(xì)化的query ,其中N為query數(shù)量,h為多頭注意層的head數(shù)量,為特征token F的長(zhǎng)度。

          與之前的方法類似,作者直接通過(guò)最后一個(gè)解碼器層的細(xì)化query 之上的FC層執(zhí)行分類。同時(shí),為了預(yù)測(cè)物體mask,作者將注意力圖A split并reshape為注意圖,如下所示:

          然后,將這些attention map上采樣到H/8×W/8的分辨率,并沿著通道維度concat它們,如下所示:

          最后,基于融合注意圖,通過(guò)1×1卷積來(lái)預(yù)測(cè)二進(jìn)制mask。這里的attention作者沒有使用deformable attention,而是采用了Transformer中的multi-head attention。

          2.5.損失函數(shù)

          訓(xùn)練過(guò)程中,訓(xùn)練目標(biāo)是使得預(yù)測(cè)結(jié)果和ground-truth 盡可能相似,其中,ground truth 用進(jìn)行pad,使之維度與相同。具體來(lái)說(shuō),作者利用Hungarian算法搜索具有最小匹配cost的排列σ。

          Panoptic SegFormer的整體損失函數(shù)可以表示為:

          位置損失計(jì)算如下:

          其中是 L1 loss。σ和σ是從位置解碼器預(yù)測(cè)的中心點(diǎn)和尺度大小。和分別表示目標(biāo)mask 的中心位置和尺度大小。

          2.6.Mask-Wise Inference

          全景分割要求為每個(gè)像素分配一個(gè)類別標(biāo)簽(或空)和實(shí)例id(對(duì)于stuff忽略id)。一種常用的后處理方法是采用類似NMS的過(guò)程為things生成不重疊的實(shí)例segments,作者稱之為mask-wise strategy。這種啟發(fā)式過(guò)程還對(duì)stuff使用像素級(jí)的argmax策略,并解決stuff和things之間的重疊,從而有利于stuff類。

          本文提出的mask-wise strategy算法如上圖所示。mask合并策略以c、s和m作為輸入,分別表示預(yù)測(cè)的類別、置信度分?jǐn)?shù)和分割mask。輸出為一個(gè)語(yǔ)義mask 和一個(gè)實(shí)例id mask ,為每個(gè)像素分配一個(gè)類別標(biāo)簽和一個(gè)實(shí)例id。和首先用0初始化。

          然后,將預(yù)測(cè)結(jié)果按置信分?jǐn)?shù)降序排序,并將排序后的預(yù)測(cè)mask填充到 和。置信度分?jǐn)?shù)低于的結(jié)果將被丟棄,較低的置信度重疊部分將會(huì)被移除,從而來(lái)生成無(wú)重疊的全景分割結(jié)果。最后,添加類別標(biāo)簽和實(shí)例Id(僅對(duì)于things)。

          03 實(shí)驗(yàn)

          Panoptic segmentation

          上表為全景分割COCO val set的實(shí)驗(yàn)結(jié)果。

          上表為全景分割COCO  test-dev set的實(shí)驗(yàn)結(jié)果。

          可以看出,本文方法與SOTA方法相比,具有明顯的性能優(yōu)勢(shì)。

          上圖為全景分割的一些可視化結(jié)果。

          Instance segmentation

          上表為本文方法和SOTA方法在實(shí)例分割上的結(jié)果,同樣具有明顯的性能優(yōu)勢(shì)。

          Visualization of attention maps

          上圖為mask解碼器中多頭注意圖及其相應(yīng)的輸出的可視化結(jié)果。我們觀察到,一些head注意前景區(qū)域,一些head更關(guān)注邊界,而另一些head更關(guān)注背景區(qū)域。這表明,每個(gè)mask都是通過(guò)考慮圖像中的各種綜合信息而生成的。

          Complexity of Panoptic SegFormer

          上表展示了模型的復(fù)雜性和推理效率,我們可以看到Panoptic SegFormer在可接受的推理速度上,在全景分割任務(wù)上達(dá)到SOTA的性能。

          04 總結(jié)

          在本文中,作者提出了Panoptic SegFormer,統(tǒng)一了things和stuff的處理流程。Panoptic SegFormer可以超越以前的SOTA方法,并證明了用相同的方式處理things和stuff的優(yōu)越性。相比于其他全景分割框架,Panoptic SegFormer主要有以下三個(gè)設(shè)計(jì)的創(chuàng)新點(diǎn):(1)統(tǒng)一表示things和stuff的query集 ;(2)利用things和stuff的位置信息來(lái)提高分割質(zhì)量的位置解碼器 ;(3)用于合并things和stuff的分割結(jié)果的Mask后處理策略 。


          如果覺得有用,就請(qǐng)分享到朋友圈吧!

          △點(diǎn)擊卡片關(guān)注極市平臺(tái),獲取最新CV干貨

          公眾號(hào)后臺(tái)回復(fù)“CVPR21分割”獲取CVPR2021分割類論文下載~


          極市干貨
          深度學(xué)習(xí)環(huán)境搭建:如何配置一臺(tái)深度學(xué)習(xí)工作站?
          實(shí)操教程:OpenVINO2021.4+YOLOX目標(biāo)檢測(cè)模型測(cè)試部署為什么你的顯卡利用率總是0%?
          算法技巧(trick):圖像分類算法優(yōu)化技巧21個(gè)深度學(xué)習(xí)調(diào)參的實(shí)用技巧


          CV技術(shù)社群邀請(qǐng)函 #

          △長(zhǎng)按添加極市小助手
          添加極市小助手微信(ID : cvmart4)

          備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳)


          即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群


          每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與 10000+來(lái)自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動(dòng)交流~



          覺得有用麻煩給個(gè)在看啦~  
          瀏覽 104
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国内精品无码 | 囯产精品久久久久久久久久乐趣播 | 91成人18 | 日本黄免费看 | 大香蕉操逼视456 |