<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          拿transformer做E2E全景分割,這個通用框架霸榜挑戰(zhàn)賽,南大、港大聯(lián)合提出

          共 3621字,需瀏覽 8分鐘

           ·

          2021-10-26 16:26

          點擊下方AI算法與圖像處理”,一起進步!

          重磅干貨,第一時間送達

          來源:機器之心

          本文中,來自南大、港大、英偉達等機構的研究者提出了一個使用 transformer 進行端到端全景分割的通用框架,不僅為語義分割與實例分割提供了統(tǒng)一的 mask 預測工作流程,而且使得全景分割 pipeline 更加簡潔高效。

          語義分割和實例分割是兩個重要且相互關聯(lián)的視覺問題,它們之間的潛在聯(lián)系使得全景分割可以統(tǒng)一這兩個任務。在全景分割中,圖像信息被分成兩類:Things 和 Stuff。其中 Things 是可數(shù)的實例 (例如,人、汽車、自行車),每個實例都有一個惟一的 id,以區(qū)別于其他實例。Stuff 是指無定形和不可數(shù)的區(qū)域 (如天空、草原和雪),沒有實例 id。

          Things 和 Stuff 之間的差異也導致了不同的處理方式。許多工作只是將全景分割分解為 Things 實例分割任務和 Stuff 語義分割任務。然而,這種分離處理策略會增加模型的復雜性和不必要的工件。雖然一些研究考慮自底向上的實例分割方法,但這種方法仍然保持了類似的分離策略。還有一些方法在處理 Things 和 Stuff 任務時,試圖通過在一個統(tǒng)一的框架中來簡化全景分割 pipeline 來實現(xiàn)。

          來自南京大學、香港大學、英偉達等機構的研究者提出了 Panoptic SegFormer,這是一個使用 Transformer 進行端到端全景分割的通用框架。該方法擴展了 Deformable DETR,并為 Things 和 Stuff 提供了統(tǒng)一的 mask 預測工作流程,使全景分割 pipeline 簡潔高效。


          論文地址:https://arxiv.org/pdf/2109.03814v1.pdf

          該研究使用 ResNet-50 作為網(wǎng)絡主干,在 COCO test-dev 拆分中實現(xiàn)了 50.0% 的 PQ,在無需附屬條件(bells and whistles)的情況下,結果顯著優(yōu)于 SOTA 方法。此外,使用性能更強的 PVTv2-B5 作為網(wǎng)絡主干,Panopoptic SegFormer 在 COCO val 和 test-dev 拆分上以單尺度輸入實現(xiàn)了 54.1%PQ 和 54.4%PQ 的新記錄。

          論文作者之一、英偉達研究院高級研究科學家 Zhiding Yu 表示:「目前,Panoptic SegFormer 在 COCO 2020 全景分割挑戰(zhàn)賽中位列第一名。」


          COCO 全景分割挑戰(zhàn)賽地址:https://competitions.codalab.org/competitions/19507#learn_the_details-overview

          方法研究

          如圖 2 所示,Panoptic SegFormer 由三個關鍵模塊組成:transformer 編碼器、位置解碼器(location decoder)、掩碼解碼器(mask decoder)。其中:

          (1)transformer 編碼器用于細化主干給出的多尺度特征圖;
          (2)位置解碼器用于捕獲物體的位置線索;
          (3)掩碼解碼器用于最終分類和分割。

          圖 2:Panoptic SegFormer 架構。

          Transformer 編碼器

          分割任務中有兩個比較重要的因素:高分辨率和多尺度特征圖。由于多頭注意力層的計算成本很高,以前基于 transformer 的方法只能在編碼器中處理低分辨率的特征圖,這限制了分割性能。與這些方法不同,該研究使用可變形注意力層來實現(xiàn) transformer 編碼器。由于可變形注意層的計算復雜度較低,因此該研究的編碼器可以將位置編碼細化為高分辨率和多尺度特征映射。

          位置解碼器

          在全景分割任務中,位置信息在區(qū)分具有不同實例 id 的 things 方面起著重要作用。受此啟發(fā),該研究設計了一個位置解碼器,將 things 和 stuff 位置信息引入到可學習的查詢中。

          具體來說,給定 N 個隨機初始化的查詢和由 Transformer 編碼器生成的細化特征 token,解碼器將輸出 N 個位置感知查詢。在訓練階段,該研究在位置感知查詢之上應用輔助 MLP 頭來預測目標物體的中心位置和尺度,并使用位置損失 L_loc 進行監(jiān)督預測。請注意,MLP 頭是一個輔助分支,在推理階段可以丟棄。

          掩碼解碼器

          如圖 3 所示,掩碼解碼器根據(jù)給定的查詢來預測物體類別和掩碼。掩碼解碼器的查詢 Q 是來自位置解碼器的位置感知查詢,掩碼解碼器的鍵 K 和值 V 是來自 transformer 編碼器的細化特征 token F。

          ?圖 3:掩碼解碼器架構。

          ?Mask-Wise 推理

          全景分割要求為每個像素分配一個類別標簽(或空白)和一個實例 id(對于 stuff 忽略 id)。一種常用的后處理方法是啟發(fā)式過程,它采用類似 NMS 的過程來生成 things 的非重疊實例分割,稱之為 mask-wise 策略。

          對于 stuff,該研究采用基于啟發(fā)式過程的 mask-wise 策略來生成非重疊結果,而不是 pixel-wise 策略。此外,該研究平等的對待 things 、stuff ,并通過它們的置信度分數(shù)來解決所有掩碼之間的重疊,而不是在啟發(fā)式過程中(things 和 stuff 著兩者)傾向于 things,這標志著該研究所用方法與其他方法之間的差異。Mask-Wise 推理過程如下所示:

          Mask-Wise 推理過程。

          實驗

          該研究在 COCO 上對 Panoptic SegFormer 進行評估,并將其與 SOTA 方法進行比較。實驗提供了全景分割的主要結果和一些可視化結果。

          該研究在 COCO val set 和 test-dev set 上進行實驗。下表 1 和表 2 報告了 Panoptic SegFormer 與其他 SOTA 方法的對比結果。Panoptic SegFormer 在以 ResNet-50 作為主干和單尺度輸入的的情況下,在 COCO val 上獲得了 50.0% PQ,并且超過了之前的方法 PanopticFCN 和 DETR ,分別提高了 6.4% PQ 和 6.6% PQ。

          表 1:在 COCO val set 上的實驗。Panotic SegFormer 在以 ResNet-50 為主干的 COCO val 上實現(xiàn)了 50.0% 的 PQ,超過了之前的方法。

          下表 2 中:在 COCO test-dev set 進行實驗,以 PVTv2-B5 作為主干,Panoptic SegFormer 在 COCO test-dev 上實現(xiàn)了 54.4% 的 PQ,超越 SOTA 方法 Max-Deeplabe-L 和競爭級方法 Innovation,分別超過 3.1% PQ 和 0.9% PQ,且參數(shù)和計算成本更低。


          下圖 4 顯示了在 COCO val set 的一些可視化結果。這些原始圖像是高度擁擠或被遮擋的場景,但是 Panoptic SegFormer 仍然可以得到令人信服的結果。


          實例分割:下表 3 為在 COCO test-dev set 實例分割結果。為了公平比較,該研究使用 300 個查詢進行實例分割,并且只使用 things 數(shù)據(jù)。以 ResNet-50 作為主干和單尺度輸入,Panoptic SegFormer 實現(xiàn)了 41.7 AP,超過了之前的 HTC 和 QueryInst SOTA 方法,且分別超過了 1.6 AP 和 1.1 AP。


          下表 4 中展示了模型復雜性和推理效率,得出 Panoptic SegFormer 在可接受的推理速度下,能夠實現(xiàn) SOTA 性能全景分割。


          努力分享優(yōu)質的計算機視覺相關內容,歡迎關注:

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有美顏、三維視覺、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN算法競賽等微信群


          個人微信(如果沒有備注不拉群!
          請注明:地區(qū)+學校/企業(yè)+研究方向+昵稱



          下載1:何愷明頂會分享


          AI算法與圖像處理」公眾號后臺回復:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結分析


          下載2:終身受益的編程指南:Google編程風格指南


          AI算法與圖像處理」公眾號后臺回復:c++,即可下載。歷經(jīng)十年考驗,最權威的編程規(guī)范!



          下載3 CVPR2021

          AI算法與圖像處公眾號后臺回復:CVPR,即可下載1467篇CVPR?2020論文 和 CVPR 2021 最新論文


          瀏覽 44
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  老太色HD色老太HD. | 欧美mv日韩mv国产 | 性爱九九视频 | 欧美视频中文字幕 | 日韩成人电影在线观看 |