<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          解決圖像分割落地場(chǎng)景真實(shí)問題,港中文等提出:開放世界實(shí)體分割

          共 4492字,需瀏覽 9分鐘

           ·

          2021-08-05 15:19

          ↑ 點(diǎn)擊藍(lán)字 關(guān)注極市平臺(tái)

          者丨diddo@知乎(已授權(quán))
          來(lái)源丨h(huán)ttps://zhuanlan.zhihu.com/p/394621314
          編輯丨極市平臺(tái)

          極市導(dǎo)讀

           

          本文出發(fā)點(diǎn)是想解決語(yǔ)義/實(shí)例/全景分割在某些落地場(chǎng)景中實(shí)際存在的一些問題,因此提出了實(shí)體(Entity)分割任務(wù),在圖像編輯過程中對(duì)圖像進(jìn)行分""而無(wú)需對(duì)這些""進(jìn)行分類識(shí)別,經(jīng)過分割結(jié)果衡量和算法設(shè)計(jì),取得了較好的圖像分割效果。>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前

          大家好,介紹一個(gè)我們?cè)谕兜墓ぷ?"Open-World Entity Segmentation". 這篇工作是我們?cè)趫D像分割領(lǐng)域一個(gè)思考,和MaskFormer屬于同期工作、思想有些類似但是出發(fā)角度不太相同。

          特別想澄清的點(diǎn),entity segmentation不是panoptic segmentation的子問題,更像是早期的image segmentation. 有類別標(biāo)簽的任務(wù)有其無(wú)法處理的問題,例如題目中我們提到的開放世界問題。無(wú)類別標(biāo)簽相對(duì)于全景分割的優(yōu)勢(shì)性,我們也在下文中詳細(xì)解釋,請(qǐng)大家細(xì)細(xì)品讀。

          在這個(gè)工作中,我們的出發(fā)點(diǎn)是想解決語(yǔ)義/實(shí)例/全景分割在某些落地場(chǎng)景中實(shí)際存在的一些問題。例如大家經(jīng)常使用Adobe的Photoshop來(lái)進(jìn)行圖像編輯,在此過程中往往需要軟件對(duì)圖像進(jìn)行分"塊"而無(wú)需對(duì)這些"塊"進(jìn)行分類識(shí)別。而這種"塊"的定義是我們?nèi)祟悓?duì)類別和實(shí)例區(qū)分的一個(gè)主觀反應(yīng)。

          在實(shí)際產(chǎn)品部署中,我們一般使用分割模型進(jìn)行分"塊"處理。然而現(xiàn)有的語(yǔ)義/實(shí)例/全景分割模型往往都要考慮類別信息,這導(dǎo)致在此類圖像編輯場(chǎng)景中出現(xiàn)了一些不可避免的問題,如下圖所示:

          1. 類別的歧義性導(dǎo)致模型對(duì)同一個(gè)"塊"有兩種解讀,例如水和河,沙地和貧瘠的土地。
          2. 網(wǎng)絡(luò)無(wú)法預(yù)測(cè)出訓(xùn)練階段為標(biāo)注的類別,缺少一定的泛化能力,例如卷發(fā)梳、筆和電話。

          這兩種現(xiàn)象均是在實(shí)際業(yè)務(wù)中真實(shí)存在的。為什么我們會(huì)確定這種現(xiàn)象真實(shí)存在。。。因?yàn)檫@篇工作就是和Adobe的研究團(tuán)隊(duì)一起合作完成的。

          對(duì)于上面所描述的兩種現(xiàn)象,我們認(rèn)為這些現(xiàn)象與訓(xùn)練中考慮類別有很大的關(guān)系。假如我們?cè)谟?xùn)練階段不考慮這些類別,是否能消除這兩種現(xiàn)象?與此同時(shí),不考慮類別信息可以讓我們的網(wǎng)絡(luò)更多地關(guān)注每一個(gè)"塊"的分割效果,這也更符合Photoshop這類軟件的實(shí)際使用情況。

          基于這個(gè)思考,我們提出了實(shí)體(Entity)分割任務(wù),實(shí)體也就是我們剛剛所描述的“塊”全景分割相比,每一個(gè)實(shí)體是一個(gè)不考慮類別信息的thing或者stuff。這樣的話,我們很容易直接使用已標(biāo)注的panoptic數(shù)據(jù)進(jìn)行探索。由于實(shí)體是一個(gè)很主觀的概念,我們做了大量的用戶調(diào)研來(lái)判斷我們對(duì)實(shí)體"塊"的定義是合理的。具體的用戶調(diào)研結(jié)果,請(qǐng)查看我們的附錄文件。


          在介紹具體指標(biāo)和具體方法之前,我也說明一下實(shí)體分割相對(duì)全景分割的優(yōu)勢(shì),特別是在數(shù)據(jù)注釋方面,它比全景分割具有更大的自由度和靈活性:

          1. 人類注釋者可以自由地注釋任何認(rèn)為合適的實(shí)體/對(duì)象(即使它不能被輕易命名或識(shí)別),而無(wú)需繁瑣地檢查它們是否屬于預(yù)定義的類別標(biāo)簽列表的一部分。我們?nèi)祟愅ǔ?梢詼?zhǔn)確地確定某物的形狀和掩碼,即使我們?cè)谡Z(yǔ)義上不知道“某物”是什么。

          2. 由于我們不區(qū)分“事物”和“東西”,因此沒有必要強(qiáng)制特定類別完全遵循“事物”或“東西”的行為。例如,給定一個(gè)圖像,其中兩個(gè)湖泊或河流被一塊土地完全隔開,人類注釋者應(yīng)該將它們注釋為兩個(gè)獨(dú)立的掩碼,而不是像全景分割通常所做的那樣一個(gè)聯(lián)合的“東西”掩碼。

          接下來(lái)的任務(wù)需要我們確定具體指標(biāo)去衡量我們的分割結(jié)果。在這里我們考慮了兩點(diǎn)需求:一是對(duì)每一個(gè)實(shí)體的確信程度,這樣能夠保證優(yōu)先考慮最確信的mask;二是每一個(gè)實(shí)體不存在覆蓋的關(guān)系。借鑒成熟的目標(biāo)檢測(cè)和實(shí)例分割的衡量指標(biāo)  , 我們提出了預(yù)測(cè)實(shí)體mask之間沒有相互覆蓋的  衡量指標(biāo)。只需要簡(jiǎn)單修改cocoapi的幾行代碼,就可以順利將  轉(zhuǎn)換成  。其思路是將cocoapi的分類信息全部置為1,并且在預(yù)測(cè)的時(shí)候保證mask之間沒有overlap。同時(shí)  也能夠衡量預(yù)測(cè)實(shí)體的確信程度,因?yàn)?nbsp; 與我們預(yù)測(cè)的mask得分排序息息相關(guān)。

          最后是我們具體方法的設(shè)計(jì)。沒有類別信息,我們無(wú)法知道什么是thing什么是stuff?所以在這里更需要我們對(duì)實(shí)體(Entity)建立統(tǒng)一表達(dá)。對(duì)于統(tǒng)一表達(dá),我們的設(shè)計(jì)初衷是簡(jiǎn)單有效不復(fù)雜。在全景分割任務(wù)中有很多文章對(duì)這方面進(jìn)行了探索,然而很多文章使用了強(qiáng)悍的transformer結(jié)構(gòu)。相比transformer結(jié)構(gòu),CNN的結(jié)構(gòu)會(huì)更加容易收斂加速訓(xùn)練時(shí)間。因此,最終決定用CNN結(jié)構(gòu)建立統(tǒng)一表達(dá)。

          PanopticFCN是一個(gè)典型的全景分割CNN結(jié)構(gòu),至少在我們投稿階段,PanopticFCN是全景分割的SOTA。然而PanopticFCN也沒有完全做到stuff和thing的的統(tǒng)一表達(dá),例如在kernel處理的方式以及最后貼圖的順序上。因此,沒有合適的模型更激發(fā)了我們用CNN結(jié)構(gòu)進(jìn)行統(tǒng)一表達(dá)的興趣。在整個(gè)探索過程中,我們特別驚奇地發(fā)現(xiàn)中心點(diǎn)能夠很好地表達(dá)不考慮類別的thing和stuff。如下是我們利用FCOS檢測(cè)器進(jìn)行entity detection的實(shí)驗(yàn)記錄。

          這個(gè)實(shí)驗(yàn)表格清晰地表明了,不需要修改一階段的目標(biāo)檢測(cè)器就可以很好的定位出不考慮類別的stuff或者entity。在FCOS上良好的實(shí)體(Entity)檢測(cè)效果,直接導(dǎo)致我們使用Condinst作為baseline進(jìn)行實(shí)體分割。在FCOS的基礎(chǔ)上,Condinst在正樣本點(diǎn)的對(duì)應(yīng)位置產(chǎn)生動(dòng)態(tài)卷積核卷積低層feature map上做entity segmentation。良好的實(shí)體檢測(cè)效果保證了Condinst良好的實(shí)體分割效果。

          在Condinst的基礎(chǔ)上,我們提出了兩個(gè)模塊來(lái)更加適應(yīng)實(shí)體分割這項(xiàng)具體任務(wù)。Global kernel bank利用靜態(tài)卷積讓我們的網(wǎng)絡(luò)能夠捕捉到所有實(shí)體(Entity)的共性,而overlap suppression利用softmax的強(qiáng)約束關(guān)系保證兩個(gè)mask之間不具有overlap。最重要的是,我們提出的這兩個(gè)模塊僅僅作用在訓(xùn)練階段,而不會(huì)改變Condinst原有的推理過程,因此也不會(huì)在推理階段增加計(jì)算量。這兩個(gè)模塊的具體設(shè)計(jì)及其簡(jiǎn)單,具體可參照我們的論文。

          在具體的量化指標(biāo)上,我們首先對(duì)訓(xùn)練及推理在同一數(shù)據(jù)源下進(jìn)行了評(píng)測(cè)。左圖為我們的方法和投稿前其他優(yōu)秀的panoptic segmentation框架的對(duì)比(不考慮panoptic結(jié)果的具體分類即可)。而右圖是我們的方法和baseline Condinst的對(duì)比,兩個(gè)模塊具有1.5個(gè)點(diǎn)的提高。

          考慮到泛化能力,我們對(duì)跨數(shù)據(jù)集也進(jìn)行了評(píng)測(cè)。左圖每一列和行分別代表所使用的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)??梢钥吹剑覀冞@種方法不僅在跨數(shù)據(jù)集上的評(píng)測(cè)指標(biāo)不錯(cuò),也可以合并所有的數(shù)據(jù)集進(jìn)行統(tǒng)一的訓(xùn)練最終在三個(gè)數(shù)據(jù)集下都有不錯(cuò)的效果。

          當(dāng)然從量化指標(biāo)上無(wú)法看到這個(gè)實(shí)體分割任務(wù)在泛化性能的優(yōu)勢(shì),因此我們將在COCO上訓(xùn)練的模型進(jìn)行了跨數(shù)據(jù)集的可視化。下圖所示為我們?cè)贗mageNet的可視化結(jié)果,可以看到我們的模型能夠很好的分割出在COCO上未標(biāo)注的類別,例如蜥蜴,猴子或者火柴等等。對(duì)于更多的跨數(shù)據(jù)集可視化效果(ADE20K, Cityscapes, Object365以及Places2),請(qǐng)參考我們的附錄文件。

          目前,我們的paper已經(jīng)放在了Arxiv上,感興趣的小伙伴可以下載一下。由于考慮不周,我們的v1版本將正文和附錄(大量跨數(shù)據(jù)集的可視化結(jié)果)合并在了一起,導(dǎo)致文件大小有45M,請(qǐng)小伙伴耐心下載一下。我們也會(huì)盡快分離出正文和附錄提供一個(gè)v2的版本。這個(gè)工作的代碼已全部開源,歡迎試用。在代碼庫(kù)中,我們提供了很多訓(xùn)練好的模型鏈接方便大家直接可視化使用,這些模型所使用的backbone包含了ResNet,Swin-Trasformer以及Segformer中的backbone MiT系列。

          地址:https://github.com/dvlab-research/Entity

          些許思考:

          1. 從模型角度出發(fā),實(shí)體分割的建模方式與目前的目標(biāo)檢測(cè)和實(shí)例分割接近,因此在模型的設(shè)計(jì)上理論上檢測(cè)漲點(diǎn)的結(jié)構(gòu)、NMS-free的結(jié)構(gòu)同樣適用于實(shí)體分割任務(wù)。
          2. 從任務(wù)出發(fā),實(shí)體分割具有很強(qiáng)的泛化能力進(jìn)行無(wú)類別的全圖分割,這或許有很強(qiáng)的潛力去做有類別的識(shí)別任務(wù),例如全景分割,few shot或者長(zhǎng)尾分布的分割。Mask都已分好,識(shí)別是不是也會(huì)變得容易很多?目前我們也在基于這個(gè)結(jié)構(gòu)對(duì)全景分割進(jìn)行嘗試,PQ指標(biāo)也幾乎和PanopticFCN持平。因此實(shí)體分割也可以做為pretrain的模型承擔(dān)一些任務(wù)的上游任務(wù)。

          這些思考也僅僅代表自己的想法,可能也是錯(cuò)誤的,請(qǐng)大家多多指教。

          如果覺得有用,就請(qǐng)分享到朋友圈吧!
          △點(diǎn)擊卡片關(guān)注極市平臺(tái),獲取最新CV干貨

          公眾號(hào)后臺(tái)回復(fù)“79”獲取CVPR 2021:TransT 直播鏈接~


          極市干貨
          YOLO教程:一文讀懂YOLO V5 與 YOLO V4大盤點(diǎn)|YOLO 系目標(biāo)檢測(cè)算法總覽全面解析YOLO V4網(wǎng)絡(luò)結(jié)構(gòu)
          實(shí)操教程:PyTorch vs LibTorch:網(wǎng)絡(luò)推理速度誰(shuí)更快?只用兩行代碼,我讓Transformer推理加速了50倍PyTorch AutoGrad C++層實(shí)現(xiàn)
          算法技巧(trick):深度學(xué)習(xí)訓(xùn)練tricks總結(jié)(有實(shí)驗(yàn)支撐)深度強(qiáng)化學(xué)習(xí)調(diào)參Tricks合集長(zhǎng)尾識(shí)別中的Tricks匯總(AAAI2021
          最新CV競(jìng)賽:2021 高通人工智能應(yīng)用創(chuàng)新大賽CVPR 2021 | Short-video Face Parsing Challenge3D人體目標(biāo)檢測(cè)與行為分析競(jìng)賽開賽,獎(jiǎng)池7萬(wàn)+,數(shù)據(jù)集達(dá)16671張!


          CV技術(shù)社群邀請(qǐng)函 #

          △長(zhǎng)按添加極市小助手
          添加極市小助手微信(ID : cvmart4)

          備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳)


          即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群


          每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與 10000+來(lái)自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動(dòng)交流~


          覺得有用麻煩給個(gè)在看啦~  
          瀏覽 33
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美黄色一级 | 青娱乐在线观看网址 | 一区在线视频播放 | 99热在线日韩精品免费 | 欧美另类激情总和网 |