一区二三区三区四区五区视频,禁片天堂免费网址,黄色色情网站在线观看,男女啪啪啪免费网站,依人大香蕉乱在线,操逼视频。,亚洲黄色片网站,国产精品国产三级国产专播IOS

↑ 點(diǎn)擊藍(lán)字 關(guān)注極市平臺(tái)

作者丨diddo@知乎（已授權(quán)）

來(lái)源丨h(huán)ttps://zhuanlan.zhihu.com/p/394621314

編輯丨極市平臺(tái)

極市導(dǎo)讀

本文出發(fā)點(diǎn)是想解決語(yǔ)義/實(shí)例/全景分割在某些落地場(chǎng)景中實(shí)際存在的一些問題，因此提出了實(shí)體(Entity)分割任務(wù)，在圖像編輯過程中對(duì)圖像進(jìn)行分"塊"而無(wú)需對(duì)這些"塊"進(jìn)行分類識(shí)別，經(jīng)過分割結(jié)果衡量和算法設(shè)計(jì)，取得了較好的圖像分割效果。>>加入極市CV技術(shù)交流群，走在計(jì)算機(jī)視覺的最前

大家好，介紹一個(gè)我們?cè)谕兜墓ぷ?"Open-World Entity Segmentation". 這篇工作是我們?cè)趫D像分割領(lǐng)域一個(gè)思考，和MaskFormer屬于同期工作、思想有些類似但是出發(fā)角度不太相同。

特別想澄清的點(diǎn)，entity segmentation不是panoptic segmentation的子問題，更像是早期的image segmentation. 有類別標(biāo)簽的任務(wù)有其無(wú)法處理的問題，例如題目中我們提到的開放世界問題。無(wú)類別標(biāo)簽相對(duì)于全景分割的優(yōu)勢(shì)性，我們也在下文中詳細(xì)解釋，請(qǐng)大家細(xì)細(xì)品讀。

在這個(gè)工作中，我們的出發(fā)點(diǎn)是想解決語(yǔ)義/實(shí)例/全景分割在某些落地場(chǎng)景中實(shí)際存在的一些問題。例如大家經(jīng)常使用Adobe的Photoshop來(lái)進(jìn)行圖像編輯，在此過程中往往需要軟件對(duì)圖像進(jìn)行分"塊"而無(wú)需對(duì)這些"塊"進(jìn)行分類識(shí)別。而這種"塊"的定義是我們?nèi)祟悓?duì)類別和實(shí)例區(qū)分的一個(gè)主觀反應(yīng)。

在實(shí)際產(chǎn)品部署中，我們一般使用分割模型進(jìn)行分"塊"處理。然而現(xiàn)有的語(yǔ)義/實(shí)例/全景分割模型往往都要考慮類別信息，這導(dǎo)致在此類圖像編輯場(chǎng)景中出現(xiàn)了一些不可避免的問題，如下圖所示：

類別的歧義性導(dǎo)致模型對(duì)同一個(gè)"塊"有兩種解讀，例如水和河，沙地和貧瘠的土地。
網(wǎng)絡(luò)無(wú)法預(yù)測(cè)出訓(xùn)練階段為標(biāo)注的類別，缺少一定的泛化能力，例如卷發(fā)梳、筆和電話。

這兩種現(xiàn)象均是在實(shí)際業(yè)務(wù)中真實(shí)存在的。為什么我們會(huì)確定這種現(xiàn)象真實(shí)存在。。。因?yàn)檫@篇工作就是和Adobe的研究團(tuán)隊(duì)一起合作完成的。

對(duì)于上面所描述的兩種現(xiàn)象，我們認(rèn)為這些現(xiàn)象與訓(xùn)練中考慮類別有很大的關(guān)系。假如我們?cè)谟?xùn)練階段不考慮這些類別，是否能消除這兩種現(xiàn)象？與此同時(shí)，不考慮類別信息可以讓我們的網(wǎng)絡(luò)更多地關(guān)注每一個(gè)"塊"的分割效果，這也更符合Photoshop這類軟件的實(shí)際使用情況。

基于這個(gè)思考，我們提出了實(shí)體(Entity)分割任務(wù)，實(shí)體也就是我們剛剛所描述的“塊”。與全景分割相比，每一個(gè)實(shí)體是一個(gè)不考慮類別信息的thing或者stuff。這樣的話，我們很容易直接使用已標(biāo)注的panoptic數(shù)據(jù)進(jìn)行探索。由于實(shí)體是一個(gè)很主觀的概念，我們做了大量的用戶調(diào)研來(lái)判斷我們對(duì)實(shí)體"塊"的定義是合理的。具體的用戶調(diào)研結(jié)果，請(qǐng)查看我們的附錄文件。

在介紹具體指標(biāo)和具體方法之前，我也說明一下實(shí)體分割相對(duì)全景分割的優(yōu)勢(shì)，特別是在數(shù)據(jù)注釋方面，它比全景分割具有更大的自由度和靈活性：

人類注釋者可以自由地注釋任何認(rèn)為合適的實(shí)體/對(duì)象（即使它不能被輕易命名或識(shí)別），而無(wú)需繁瑣地檢查它們是否屬于預(yù)定義的類別標(biāo)簽列表的一部分。我們?nèi)祟愅ǔ？梢詼?zhǔn)確地確定某物的形狀和掩碼，即使我們?cè)谡Z(yǔ)義上不知道“某物”是什么。
由于我們不區(qū)分“事物”和“東西”，因此沒有必要強(qiáng)制特定類別完全遵循“事物”或“東西”的行為。例如，給定一個(gè)圖像，其中兩個(gè)湖泊或河流被一塊土地完全隔開，人類注釋者應(yīng)該將它們注釋為兩個(gè)獨(dú)立的掩碼，而不是像全景分割通常所做的那樣一個(gè)聯(lián)合的“東西”掩碼。

接下來(lái)的任務(wù)需要我們確定具體指標(biāo)去衡量我們的分割結(jié)果。在這里我們考慮了兩點(diǎn)需求：一是對(duì)每一個(gè)實(shí)體的確信程度，這樣能夠保證優(yōu)先考慮最確信的mask；二是每一個(gè)實(shí)體不存在覆蓋的關(guān)系。借鑒成熟的目標(biāo)檢測(cè)和實(shí)例分割的衡量指標(biāo) , 我們提出了預(yù)測(cè)實(shí)體mask之間沒有相互覆蓋的衡量指標(biāo)。只需要簡(jiǎn)單修改cocoapi的幾行代碼，就可以順利將轉(zhuǎn)換成。其思路是將cocoapi的分類信息全部置為1，并且在預(yù)測(cè)的時(shí)候保證mask之間沒有overlap。同時(shí) 也能夠衡量預(yù)測(cè)實(shí)體的確信程度，因?yàn)?nbsp; 與我們預(yù)測(cè)的mask得分排序息息相關(guān)。

最后是我們具體方法的設(shè)計(jì)。沒有類別信息，我們無(wú)法知道什么是thing什么是stuff？所以在這里更需要我們對(duì)實(shí)體(Entity)建立統(tǒng)一表達(dá)。對(duì)于統(tǒng)一表達(dá)，我們的設(shè)計(jì)初衷是簡(jiǎn)單有效不復(fù)雜。在全景分割任務(wù)中有很多文章對(duì)這方面進(jìn)行了探索，然而很多文章使用了強(qiáng)悍的transformer結(jié)構(gòu)。相比transformer結(jié)構(gòu)，CNN的結(jié)構(gòu)會(huì)更加容易收斂加速訓(xùn)練時(shí)間。因此，最終決定用CNN結(jié)構(gòu)建立統(tǒng)一表達(dá)。

PanopticFCN是一個(gè)典型的全景分割CNN結(jié)構(gòu)，至少在我們投稿階段，PanopticFCN是全景分割的SOTA。然而PanopticFCN也沒有完全做到stuff和thing的的統(tǒng)一表達(dá)，例如在kernel處理的方式以及最后貼圖的順序上。因此，沒有合適的模型更激發(fā)了我們用CNN結(jié)構(gòu)進(jìn)行統(tǒng)一表達(dá)的興趣。在整個(gè)探索過程中，我們特別驚奇地發(fā)現(xiàn)中心點(diǎn)能夠很好地表達(dá)不考慮類別的thing和stuff。如下是我們利用FCOS檢測(cè)器進(jìn)行entity detection的實(shí)驗(yàn)記錄。

這個(gè)實(shí)驗(yàn)表格清晰地表明了，不需要修改一階段的目標(biāo)檢測(cè)器就可以很好的定位出不考慮類別的stuff或者entity。在FCOS上良好的實(shí)體(Entity)檢測(cè)效果，直接導(dǎo)致我們使用Condinst作為baseline進(jìn)行實(shí)體分割。在FCOS的基礎(chǔ)上，Condinst在正樣本點(diǎn)的對(duì)應(yīng)位置產(chǎn)生動(dòng)態(tài)卷積核卷積低層feature map上做entity segmentation。良好的實(shí)體檢測(cè)效果保證了Condinst良好的實(shí)體分割效果。

在Condinst的基礎(chǔ)上，我們提出了兩個(gè)模塊來(lái)更加適應(yīng)實(shí)體分割這項(xiàng)具體任務(wù)。Global kernel bank利用靜態(tài)卷積讓我們的網(wǎng)絡(luò)能夠捕捉到所有實(shí)體(Entity)的共性，而overlap suppression利用softmax的強(qiáng)約束關(guān)系保證兩個(gè)mask之間不具有overlap。最重要的是，我們提出的這兩個(gè)模塊僅僅作用在訓(xùn)練階段，而不會(huì)改變Condinst原有的推理過程，因此也不會(huì)在推理階段增加計(jì)算量。這兩個(gè)模塊的具體設(shè)計(jì)及其簡(jiǎn)單，具體可參照我們的論文。

在具體的量化指標(biāo)上，我們首先對(duì)訓(xùn)練及推理在同一數(shù)據(jù)源下進(jìn)行了評(píng)測(cè)。左圖為我們的方法和投稿前其他優(yōu)秀的panoptic segmentation框架的對(duì)比(不考慮panoptic結(jié)果的具體分類即可)。而右圖是我們的方法和baseline Condinst的對(duì)比，兩個(gè)模塊具有1.5個(gè)點(diǎn)的提高。

考慮到泛化能力，我們對(duì)跨數(shù)據(jù)集也進(jìn)行了評(píng)測(cè)。左圖每一列和行分別代表所使用的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)?？梢钥吹剑覀冞@種方法不僅在跨數(shù)據(jù)集上的評(píng)測(cè)指標(biāo)不錯(cuò)，也可以合并所有的數(shù)據(jù)集進(jìn)行統(tǒng)一的訓(xùn)練最終在三個(gè)數(shù)據(jù)集下都有不錯(cuò)的效果。

當(dāng)然從量化指標(biāo)上無(wú)法看到這個(gè)實(shí)體分割任務(wù)在泛化性能的優(yōu)勢(shì)，因此我們將在COCO上訓(xùn)練的模型進(jìn)行了跨數(shù)據(jù)集的可視化。下圖所示為我們?cè)贗mageNet的可視化結(jié)果，可以看到我們的模型能夠很好的分割出在COCO上未標(biāo)注的類別，例如蜥蜴，猴子或者火柴等等。對(duì)于更多的跨數(shù)據(jù)集可視化效果(ADE20K, Cityscapes, Object365以及Places2)，請(qǐng)參考我們的附錄文件。

目前，我們的paper已經(jīng)放在了Arxiv上，感興趣的小伙伴可以下載一下。由于考慮不周，我們的v1版本將正文和附錄(大量跨數(shù)據(jù)集的可視化結(jié)果)合并在了一起，導(dǎo)致文件大小有45M，請(qǐng)小伙伴耐心下載一下。我們也會(huì)盡快分離出正文和附錄提供一個(gè)v2的版本。這個(gè)工作的代碼已全部開源，歡迎試用。在代碼庫(kù)中，我們提供了很多訓(xùn)練好的模型鏈接方便大家直接可視化使用，這些模型所使用的backbone包含了ResNet，Swin-Trasformer以及Segformer中的backbone MiT系列。

地址：https://github.com/dvlab-research/Entity

些許思考：

從模型角度出發(fā)，實(shí)體分割的建模方式與目前的目標(biāo)檢測(cè)和實(shí)例分割接近，因此在模型的設(shè)計(jì)上理論上檢測(cè)漲點(diǎn)的結(jié)構(gòu)、NMS-free的結(jié)構(gòu)同樣適用于實(shí)體分割任務(wù)。
從任務(wù)出發(fā)，實(shí)體分割具有很強(qiáng)的泛化能力進(jìn)行無(wú)類別的全圖分割，這或許有很強(qiáng)的潛力去做有類別的識(shí)別任務(wù)，例如全景分割，few shot或者長(zhǎng)尾分布的分割。Mask都已分好，識(shí)別是不是也會(huì)變得容易很多？目前我們也在基于這個(gè)結(jié)構(gòu)對(duì)全景分割進(jìn)行嘗試，PQ指標(biāo)也幾乎和PanopticFCN持平。因此實(shí)體分割也可以做為pretrain的模型承擔(dān)一些任務(wù)的上游任務(wù)。

這些思考也僅僅代表自己的想法，可能也是錯(cuò)誤的，請(qǐng)大家多多指教。

如果覺得有用，就請(qǐng)分享到朋友圈吧！

△點(diǎn)擊卡片關(guān)注極市平臺(tái)，獲取最新CV干貨

公眾號(hào)后臺(tái)回復(fù)“79”獲取CVPR 2021：TransT 直播鏈接～

極市干貨

YOLO教程：一文讀懂YOLO V5 與 YOLO V4｜大盤點(diǎn)｜YOLO 系目標(biāo)檢測(cè)算法總覽｜全面解析YOLO V4網(wǎng)絡(luò)結(jié)構(gòu)

實(shí)操教程：PyTorch vs LibTorch：網(wǎng)絡(luò)推理速度誰(shuí)更快？｜只用兩行代碼，我讓Transformer推理加速了50倍｜PyTorch AutoGrad C++層實(shí)現(xiàn)

算法技巧（trick）：深度學(xué)習(xí)訓(xùn)練tricks總結(jié)（有實(shí)驗(yàn)支撐）｜深度強(qiáng)化學(xué)習(xí)調(diào)參Tricks合集｜長(zhǎng)尾識(shí)別中的Tricks匯總（AAAI2021）