Panoptic FCN:真正End-to-End的全景分割 | CVPR2021
點擊上方“AI算法與圖像處理”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
CVPR 2021 相關(guān)論文、代碼 、解讀和demo整理,同時為了方便下載論文,已把部分論文上傳到上面了,歡迎小伙伴們 star 支持一波!
https://github.com/DWCTOD/CVPR2021-Papers-with-Code-Demo

在計算機視覺中,所有視覺可見的事物都可以描述成thing和stuff兩種形式(thing指的是可數(shù)物體如人、動物、工具,stuff指的是具有相似結(jié)構(gòu)或材料的非晶態(tài)區(qū)域如草、天空、道路),從而延申出了兩類經(jīng)典的計算機視覺任務:語義分割和實例分割。其中語義分割的任務是預測每個像素點的語義類別(即預測stuff),而實例分割的任務是預測每個實例物體包含的像素區(qū)域(即預測thing),分別如上圖b和c所示。然而從圖片中可以看出,語義分割和實例分割都不足以完備的描述出一副圖像中的視覺信息,2019年FAIR首次提出全景分割的概念,全景分割任務需要同時預測出每個像素點賦予類別Label和實例ID(即同時預測thing和stuff,如圖d所示),如果能夠很好的解決全景分割任務,那么就能夠完備的描述出一幅圖像的視覺信息,對于無人駕駛、VR等場景來說,完備的場景解析是非常有意義的。
下面主要先介紹一下全景分割的一些主要指標,然后回顧一下之前流行的box-based和box-free的全景分割算法(以Panoptic FPN和DeeperLab為例),最后重點講一下中2021CVPR Oral的Panoptic FCN,個人認為是目前真正意義上的第一個End-to-End全景分割,非常精彩!
01
評價指標
FAIR為全景分割設計了新的評價標準 PQ (panoptic segmentation) 、SQ ( segmentation quality)、RQ (recognition quality) ,計算公式如下:

其中,RQ是檢測中應用廣泛的 F1 score,用來計算全景分割中每個實例物體識別的準確性,SQ 表示匹配后的預測 segment與標注 segment 的 mIOU,如下圖所示,只有當預測 segment 與標注 segment 的 IOU 嚴格大于 0.5 時,認為兩個 segment 是匹配的。

從上面的公式能夠看到,在預測與標注匹配后的分割質(zhì)量 SQ 計算時,評價指標PQ只關(guān)注每個實例的分割質(zhì)量,而不考慮不同實例的大小,即大物體與小物體的分割結(jié)果對最終的PQ結(jié)果影響相同。然而在一些應用場景中更關(guān)注大物體的分割結(jié)果,如肖像分割中大圖的人像分割、自動駕駛中近距離的物體等,于是進一步提出了 PC (Parsing Covering) 評價指標,計算公式如下:

其中,
02
Panoptic FPN
02
Panoptic FPN
Panoptic FPN是全景分割box-based的經(jīng)典方法,box-based的全景分割基本都跟Panoptic FPN非常類似,這里以Panoptic FPN為例,介紹一下box-based的全景分割常規(guī)做法。

如上圖所示,Panoptic FPN使用FPN作為backbone部分,來提取多尺度的語義信息,然后后續(xù)接一個instance segmentation branch,來預測instance,實際上fpn+instance segmentation branch等同于mask rcnn,其中instance segmentation branch由一個box branch和一個instance branch組成,instance的預測過程是先通過box branch預測出box,然后通過預測box的范圍在instance branch預測出instance,這就是box-based全景分割的由來。Panoptic FPN在mask rcnn的基礎上再增加一個semantic segmentation branch,來預測出semantic。instance segmentation branch和semantic segmentation branch的輸出分別對應thing和stuff。
另外由于box-based的全景分割通過兩個branch分別預測thing和stuff,會導致出現(xiàn)兩個branch預測結(jié)果有重合區(qū)域,需要引入后處理過程來去重。Panoptic FPN設計的后處理過程和NMS很類似:
之后的box-based全景分割算法大多數(shù)都是圍繞著如何改進后處理還有不同branch如何進行信息融合進行的。但是無論怎么改進,box-based的全景分割存在一個天然的缺陷,最終的預測結(jié)果主要取決于box branch的預測精度,并且box branch的feature map尺寸受限制。
03
DeeperLab
03
DeeperLab
DeeperLab是全景分割box-free的經(jīng)典方法,去除了類似Panoptic FPN的box預測部分,直接預測出thing和stuff。相比Panoptic FPN等方法,去除了box branch預測精度的影響,并且能在更大feature map上進行全景分割。

DeeperLab包含Encoder、Decoder 和 Prediction 三個部分,其中,Encoder 和 Decoder 兩個部分是參數(shù)共享的。在Encoder部分,末尾使用了ASPP模塊來增加特征表達能力;在Decoder部分,通過使用S2D和D2S模塊來高效的融合不同尺度的特征。
為了得到目標實例預測,作者使用基于關(guān)鍵點的方法,在 object instance segmentation branch,同時預測了 keypoint heatmap、long-range offset map、short-range offset map和middle-range offset map四種輸出,得到像素點與每個實例關(guān)鍵點之間的關(guān)系,并依此融合形成類別未知的不同實例,另外semantic segmantion branch預測出語義信息,最后結(jié)合兩個branch輸出得到全景分割的結(jié)果。
04
Panoptic FCN
04
Panoptic FCN

上述的以Panoptic FPN為代表的box-based全景分割還有以DeeperLab為代表的box-free全景分割都是將thing和stuff拆分成兩個branch來進行預測的,這必然會引入更多的后處理還有設計不同branch信息融合的操作,整個系統(tǒng)顯的即冗余又復雜。個人認為Panoptic FCN是真正意義上的第一個end-to-end全景分割,通過將thing和stuff統(tǒng)一成特征描述子kernels來進行預測,同時省去了復雜后處理還有不同branch信息融合的操作,是全景分割發(fā)展歷程中的集大成者。

Panoptic FCN主要由Kernel Generator、Kernel Fusion和Feature Encoder三個部分組成。Panoptic FCN先通過引入kernel generator來為thing和stuff生成kernel weights,然后通過kernel fusion對多個stage的kernel weights進行合并,feature encoder用來對高分辨率feature進行編碼,最后將得到的kernels和編碼feature卷積得到最終預測結(jié)果。
Kernel Generator
kernel generator由kernel head和position head兩個branch構(gòu)成,首先通過position head同時預測thing和stuff的位置(其中,thing通過預測center來定位和分類,stuff通過region來定位和分類),然后根據(jù)thing和stuff的位置,從kernel head中產(chǎn)生kernel weights。這里有一個細節(jié)是,thing通過定位的點從kernel head對應的點抽取kernel weight,而stuff通過定位的區(qū)域mask和kernel head相乘得到kernel weight,這樣子thing和stuff的kernel weight維度能夠保持相同。
Kernel Fusion
kernel fusion將不同stage產(chǎn)生的kernel weights進行合并,保證thing的實例感知和stuff的語義一致性。簡單來說通過對不同stage的kernel weights平均池化產(chǎn)生所有thing和stuff的kernel weights,然后通過閾值來去除相似的kernel weight,最后產(chǎn)生M個thing的kernel weights和N個stuff的kernel weights。具體細節(jié)可以看開源code。
Feature Encoder
feature encoder首先對高分辨率feature進行編碼得到編碼feature,然后用kernel fusion得到的M+N個kernel weights對encoded feature進行卷積,得到最終的預測結(jié)果,其中每個輸出通道表示一個thing或者stuff的mask預測。和SOLO類似,Panoptic FCN的kernel head和feature encoder都引入了coord,有利于和position head特征進行位置對齊,對精度的提升非常大。
實驗結(jié)果
最終得到的實驗結(jié)果,速度和精度的平衡超過了之前的全景分割算法。

Panoptic FCN是第一個將thing和stuff進行統(tǒng)一預測,這對于如何解全景分割任務具有重大意義。
個人微信(如果沒有備注不拉群!) 請注明:地區(qū)+學校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會分享
在「AI算法與圖像處理」公眾號后臺回復:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:終身受益的編程指南:Google編程風格指南
在「AI算法與圖像處理」公眾號后臺回復:c++,即可下載。歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!
下載3 CVPR2021 在「AI算法與圖像處理」公眾號后臺回復:CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文
點亮
,告訴大家你也在看
