解決圖像分割落地場(chǎng)景真實(shí)問題,港中文等提出:開放世界實(shí)體分割

極市導(dǎo)讀
本文出發(fā)點(diǎn)是想解決語(yǔ)義/實(shí)例/全景分割在某些落地場(chǎng)景中實(shí)際存在的一些問題,因此提出了實(shí)體(Entity)分割任務(wù),在圖像編輯過程中對(duì)圖像進(jìn)行分"塊"而無(wú)需對(duì)這些"塊"進(jìn)行分類識(shí)別,經(jīng)過分割結(jié)果衡量和算法設(shè)計(jì),取得了較好的圖像分割效果。>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前
大家好,介紹一個(gè)我們?cè)谕兜墓ぷ?"Open-World Entity Segmentation". 這篇工作是我們?cè)趫D像分割領(lǐng)域一個(gè)思考,和MaskFormer屬于同期工作、思想有些類似但是出發(fā)角度不太相同。
特別想澄清的點(diǎn),entity segmentation不是panoptic segmentation的子問題,更像是早期的image segmentation. 有類別標(biāo)簽的任務(wù)有其無(wú)法處理的問題,例如題目中我們提到的開放世界問題。無(wú)類別標(biāo)簽相對(duì)于全景分割的優(yōu)勢(shì)性,我們也在下文中詳細(xì)解釋,請(qǐng)大家細(xì)細(xì)品讀。

在這個(gè)工作中,我們的出發(fā)點(diǎn)是想解決語(yǔ)義/實(shí)例/全景分割在某些落地場(chǎng)景中實(shí)際存在的一些問題。例如大家經(jīng)常使用Adobe的Photoshop來(lái)進(jìn)行圖像編輯,在此過程中往往需要軟件對(duì)圖像進(jìn)行分"塊"而無(wú)需對(duì)這些"塊"進(jìn)行分類識(shí)別。而這種"塊"的定義是我們?nèi)祟悓?duì)類別和實(shí)例區(qū)分的一個(gè)主觀反應(yīng)。
在實(shí)際產(chǎn)品部署中,我們一般使用分割模型進(jìn)行分"塊"處理。然而現(xiàn)有的語(yǔ)義/實(shí)例/全景分割模型往往都要考慮類別信息,這導(dǎo)致在此類圖像編輯場(chǎng)景中出現(xiàn)了一些不可避免的問題,如下圖所示:
類別的歧義性導(dǎo)致模型對(duì)同一個(gè)"塊"有兩種解讀,例如水和河,沙地和貧瘠的土地。 網(wǎng)絡(luò)無(wú)法預(yù)測(cè)出訓(xùn)練階段為標(biāo)注的類別,缺少一定的泛化能力,例如卷發(fā)梳、筆和電話。
這兩種現(xiàn)象均是在實(shí)際業(yè)務(wù)中真實(shí)存在的。為什么我們會(huì)確定這種現(xiàn)象真實(shí)存在。。。因?yàn)檫@篇工作就是和Adobe的研究團(tuán)隊(duì)一起合作完成的。

對(duì)于上面所描述的兩種現(xiàn)象,我們認(rèn)為這些現(xiàn)象與訓(xùn)練中考慮類別有很大的關(guān)系。假如我們?cè)谟?xùn)練階段不考慮這些類別,是否能消除這兩種現(xiàn)象?與此同時(shí),不考慮類別信息可以讓我們的網(wǎng)絡(luò)更多地關(guān)注每一個(gè)"塊"的分割效果,這也更符合Photoshop這類軟件的實(shí)際使用情況。
基于這個(gè)思考,我們提出了實(shí)體(Entity)分割任務(wù),實(shí)體也就是我們剛剛所描述的“塊”。與全景分割相比,每一個(gè)實(shí)體是一個(gè)不考慮類別信息的thing或者stuff。這樣的話,我們很容易直接使用已標(biāo)注的panoptic數(shù)據(jù)進(jìn)行探索。由于實(shí)體是一個(gè)很主觀的概念,我們做了大量的用戶調(diào)研來(lái)判斷我們對(duì)實(shí)體"塊"的定義是合理的。具體的用戶調(diào)研結(jié)果,請(qǐng)查看我們的附錄文件。

在介紹具體指標(biāo)和具體方法之前,我也說明一下實(shí)體分割相對(duì)全景分割的優(yōu)勢(shì),特別是在數(shù)據(jù)注釋方面,它比全景分割具有更大的自由度和靈活性:
人類注釋者可以自由地注釋任何認(rèn)為合適的實(shí)體/對(duì)象(即使它不能被輕易命名或識(shí)別),而無(wú)需繁瑣地檢查它們是否屬于預(yù)定義的類別標(biāo)簽列表的一部分。我們?nèi)祟愅ǔ?梢詼?zhǔn)確地確定某物的形狀和掩碼,即使我們?cè)谡Z(yǔ)義上不知道“某物”是什么。
由于我們不區(qū)分“事物”和“東西”,因此沒有必要強(qiáng)制特定類別完全遵循“事物”或“東西”的行為。例如,給定一個(gè)圖像,其中兩個(gè)湖泊或河流被一塊土地完全隔開,人類注釋者應(yīng)該將它們注釋為兩個(gè)獨(dú)立的掩碼,而不是像全景分割通常所做的那樣一個(gè)聯(lián)合的“東西”掩碼。
接下來(lái)的任務(wù)需要我們確定具體指標(biāo)去衡量我們的分割結(jié)果。在這里我們考慮了兩點(diǎn)需求:一是對(duì)每一個(gè)實(shí)體的確信程度,這樣能夠保證優(yōu)先考慮最確信的mask;二是每一個(gè)實(shí)體不存在覆蓋的關(guān)系。借鑒成熟的目標(biāo)檢測(cè)和實(shí)例分割的衡量指標(biāo) , 我們提出了預(yù)測(cè)實(shí)體mask之間沒有相互覆蓋的 衡量指標(biāo)。只需要簡(jiǎn)單修改cocoapi的幾行代碼,就可以順利將 轉(zhuǎn)換成 。其思路是將cocoapi的分類信息全部置為1,并且在預(yù)測(cè)的時(shí)候保證mask之間沒有overlap。同時(shí) 也能夠衡量預(yù)測(cè)實(shí)體的確信程度,因?yàn)?nbsp; 與我們預(yù)測(cè)的mask得分排序息息相關(guān)。

最后是我們具體方法的設(shè)計(jì)。沒有類別信息,我們無(wú)法知道什么是thing什么是stuff?所以在這里更需要我們對(duì)實(shí)體(Entity)建立統(tǒng)一表達(dá)。對(duì)于統(tǒng)一表達(dá),我們的設(shè)計(jì)初衷是簡(jiǎn)單有效不復(fù)雜。在全景分割任務(wù)中有很多文章對(duì)這方面進(jìn)行了探索,然而很多文章使用了強(qiáng)悍的transformer結(jié)構(gòu)。相比transformer結(jié)構(gòu),CNN的結(jié)構(gòu)會(huì)更加容易收斂加速訓(xùn)練時(shí)間。因此,最終決定用CNN結(jié)構(gòu)建立統(tǒng)一表達(dá)。
PanopticFCN是一個(gè)典型的全景分割CNN結(jié)構(gòu),至少在我們投稿階段,PanopticFCN是全景分割的SOTA。然而PanopticFCN也沒有完全做到stuff和thing的的統(tǒng)一表達(dá),例如在kernel處理的方式以及最后貼圖的順序上。因此,沒有合適的模型更激發(fā)了我們用CNN結(jié)構(gòu)進(jìn)行統(tǒng)一表達(dá)的興趣。在整個(gè)探索過程中,我們特別驚奇地發(fā)現(xiàn)中心點(diǎn)能夠很好地表達(dá)不考慮類別的thing和stuff。如下是我們利用FCOS檢測(cè)器進(jìn)行entity detection的實(shí)驗(yàn)記錄。

這個(gè)實(shí)驗(yàn)表格清晰地表明了,不需要修改一階段的目標(biāo)檢測(cè)器就可以很好的定位出不考慮類別的stuff或者entity。在FCOS上良好的實(shí)體(Entity)檢測(cè)效果,直接導(dǎo)致我們使用Condinst作為baseline進(jìn)行實(shí)體分割。在FCOS的基礎(chǔ)上,Condinst在正樣本點(diǎn)的對(duì)應(yīng)位置產(chǎn)生動(dòng)態(tài)卷積核卷積低層feature map上做entity segmentation。良好的實(shí)體檢測(cè)效果保證了Condinst良好的實(shí)體分割效果。
在Condinst的基礎(chǔ)上,我們提出了兩個(gè)模塊來(lái)更加適應(yīng)實(shí)體分割這項(xiàng)具體任務(wù)。Global kernel bank利用靜態(tài)卷積讓我們的網(wǎng)絡(luò)能夠捕捉到所有實(shí)體(Entity)的共性,而overlap suppression利用softmax的強(qiáng)約束關(guān)系保證兩個(gè)mask之間不具有overlap。最重要的是,我們提出的這兩個(gè)模塊僅僅作用在訓(xùn)練階段,而不會(huì)改變Condinst原有的推理過程,因此也不會(huì)在推理階段增加計(jì)算量。這兩個(gè)模塊的具體設(shè)計(jì)及其簡(jiǎn)單,具體可參照我們的論文。

在具體的量化指標(biāo)上,我們首先對(duì)訓(xùn)練及推理在同一數(shù)據(jù)源下進(jìn)行了評(píng)測(cè)。左圖為我們的方法和投稿前其他優(yōu)秀的panoptic segmentation框架的對(duì)比(不考慮panoptic結(jié)果的具體分類即可)。而右圖是我們的方法和baseline Condinst的對(duì)比,兩個(gè)模塊具有1.5個(gè)點(diǎn)的提高。

考慮到泛化能力,我們對(duì)跨數(shù)據(jù)集也進(jìn)行了評(píng)測(cè)。左圖每一列和行分別代表所使用的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)??梢钥吹剑覀冞@種方法不僅在跨數(shù)據(jù)集上的評(píng)測(cè)指標(biāo)不錯(cuò),也可以合并所有的數(shù)據(jù)集進(jìn)行統(tǒng)一的訓(xùn)練最終在三個(gè)數(shù)據(jù)集下都有不錯(cuò)的效果。

當(dāng)然從量化指標(biāo)上無(wú)法看到這個(gè)實(shí)體分割任務(wù)在泛化性能的優(yōu)勢(shì),因此我們將在COCO上訓(xùn)練的模型進(jìn)行了跨數(shù)據(jù)集的可視化。下圖所示為我們?cè)贗mageNet的可視化結(jié)果,可以看到我們的模型能夠很好的分割出在COCO上未標(biāo)注的類別,例如蜥蜴,猴子或者火柴等等。對(duì)于更多的跨數(shù)據(jù)集可視化效果(ADE20K, Cityscapes, Object365以及Places2),請(qǐng)參考我們的附錄文件。

目前,我們的paper已經(jīng)放在了Arxiv上,感興趣的小伙伴可以下載一下。由于考慮不周,我們的v1版本將正文和附錄(大量跨數(shù)據(jù)集的可視化結(jié)果)合并在了一起,導(dǎo)致文件大小有45M,請(qǐng)小伙伴耐心下載一下。我們也會(huì)盡快分離出正文和附錄提供一個(gè)v2的版本。這個(gè)工作的代碼已全部開源,歡迎試用。在代碼庫(kù)中,我們提供了很多訓(xùn)練好的模型鏈接方便大家直接可視化使用,這些模型所使用的backbone包含了ResNet,Swin-Trasformer以及Segformer中的backbone MiT系列。
地址:https://github.com/dvlab-research/Entity

些許思考:
從模型角度出發(fā),實(shí)體分割的建模方式與目前的目標(biāo)檢測(cè)和實(shí)例分割接近,因此在模型的設(shè)計(jì)上理論上檢測(cè)漲點(diǎn)的結(jié)構(gòu)、NMS-free的結(jié)構(gòu)同樣適用于實(shí)體分割任務(wù)。 從任務(wù)出發(fā),實(shí)體分割具有很強(qiáng)的泛化能力進(jìn)行無(wú)類別的全圖分割,這或許有很強(qiáng)的潛力去做有類別的識(shí)別任務(wù),例如全景分割,few shot或者長(zhǎng)尾分布的分割。Mask都已分好,識(shí)別是不是也會(huì)變得容易很多?目前我們也在基于這個(gè)結(jié)構(gòu)對(duì)全景分割進(jìn)行嘗試,PQ指標(biāo)也幾乎和PanopticFCN持平。因此實(shí)體分割也可以做為pretrain的模型承擔(dān)一些任務(wù)的上游任務(wù)。
這些思考也僅僅代表自己的想法,可能也是錯(cuò)誤的,請(qǐng)大家多多指教。
公眾號(hào)后臺(tái)回復(fù)“79”獲取CVPR 2021:TransT 直播鏈接~

# CV技術(shù)社群邀請(qǐng)函 #

備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳)
即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與 10000+來(lái)自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動(dòng)交流~

