CVPR 2023 最全分割類論文整理:圖像/全景/語義/實(shí)例分割等【附PDF+代碼】
[1]AutoFocusFormer: Image Segmentation off the Grid
推薦理由:該論文提出了 AutoFocusFormer (AFF),一種局部注意力變換器圖像識(shí)別主干,它通過學(xué)習(xí)保留任務(wù)最重要的像素來執(zhí)行自適應(yīng)下采樣。放棄了經(jīng)典的網(wǎng)格結(jié)構(gòu),該論文開發(fā)了一種新的基于點(diǎn)的局部注意力塊,由平衡聚類模塊和可學(xué)習(xí)的鄰域合并模塊提供便利,可以為最先進(jìn)的分割頭的基于點(diǎn)的版本生成表示。實(shí)驗(yàn)表明,AutoFocusFormer (AFF) 比類似尺寸的基線模型有顯著改進(jìn)。
[2]FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation
推薦理由:該論文提出了 FreeSeg,這是一個(gè)通用框架,可以實(shí)現(xiàn)統(tǒng)一、通用和開放詞匯的圖像分割。廣泛的實(shí)驗(yàn)結(jié)果表明,F(xiàn)reeSeg 在三個(gè)分割任務(wù)的性能和泛化方面建立了新的最先進(jìn)結(jié)果,大大優(yōu)于最佳特定任務(wù)架構(gòu):語義分割 5.5% mIoU,實(shí)例 mAP 17.6%分割,COCO 上未見類的全景分割 PQ 為 20.1%。
[3]Parameter Efficient Local Implicit Image Function Network for Face Segmentation
推薦理由:人臉解析被定義為包含人臉的圖像的每像素標(biāo)記。定義標(biāo)簽來識(shí)別眼睛、嘴唇、鼻子、頭發(fā)等關(guān)鍵面部區(qū)域。該論文利用人臉的結(jié)構(gòu)一致性,提出了一種使用局部隱函數(shù)網(wǎng)絡(luò)FP-LIF的輕量級(jí)人臉解析方法。也提出了一種簡單的架構(gòu),該架構(gòu)具有卷積編碼器和像素MLP解碼器,與最先進(jìn)的模型相比,該架構(gòu)使用了1/26個(gè)參數(shù),但在多個(gè)數(shù)據(jù)集(如CelebMask HQ和LaPa)上匹配或優(yōu)于最先進(jìn)的模型。
篇幅有限,僅介紹圖像分割前3篇,
掃碼回復(fù)“分割”,解鎖64篇cvpr 2023 分割類論文

[1]You Only Segment Once: Towards Real-Time Panoptic Segmentation
推薦理由:該論文提出了YOSO,一種實(shí)時(shí)全景分割框架。YOSO通過全景內(nèi)核和圖像特征圖之間的動(dòng)態(tài)卷積來預(yù)測掩碼,其中只需為實(shí)例和語義分割任務(wù)分割一次。為了減少計(jì)算開銷,設(shè)計(jì)了一個(gè)用于特征圖提取的特征金字塔聚合器,以及一個(gè)用于全景內(nèi)核生成的可分離動(dòng)態(tài)解碼器。
[2]UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer via Hierarchical Mask Calibration
推薦理由:該論文設(shè)計(jì)了UniDAformer,這是一種統(tǒng)一域自適應(yīng)全景分割轉(zhuǎn)換器,它簡單,但可以在單個(gè)網(wǎng)絡(luò)中同時(shí)實(shí)現(xiàn)域自適應(yīng)實(shí)例分割和語義分割。它具有三個(gè)獨(dú)特的功能:1)可實(shí)現(xiàn)統(tǒng)一域自適應(yīng)全景自適應(yīng);2)有效減少錯(cuò)誤預(yù)測,提高域自適應(yīng)全景分割;3)它是端到端的,可以通過更簡單的訓(xùn)練和推理管道進(jìn)行訓(xùn)練。在多個(gè)公共基準(zhǔn)測試上進(jìn)行的廣泛實(shí)驗(yàn)表明,與最先進(jìn)的技術(shù)相比,UniDAformer 實(shí)現(xiàn)了卓越的域自適應(yīng)全景分割。
[3]Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models
推薦理由:該論文提出了 ODISE:基于開放詞匯擴(kuò)散的全景分割,它統(tǒng)一了預(yù)訓(xùn)練的文本圖像擴(kuò)散和判別模型來執(zhí)行開放詞匯全景分割。該論文方法在開放詞匯全景和語義分割任務(wù)上的表現(xiàn)都優(yōu)于以前的最先進(jìn)技術(shù)。特別是,僅通過 COCO 訓(xùn)練,該方法在 ADE20K 數(shù)據(jù)集上實(shí)現(xiàn)了 23.4 PQ 和 30.0 mIoU,與之前的最先進(jìn)技術(shù)相比有 8.3 PQ 和 7.9 mIoU 的絕對(duì)改進(jìn)。
篇幅有限,僅介紹圖像分割前3篇,
掃碼回復(fù)“分割”,解鎖64篇cvpr 2023 分割類論文
[1]Federated Incremental Semantic Segmentation
推薦理由:該論文提出了一種遺忘平衡學(xué)習(xí)(FBL)模型,從客戶端內(nèi)和客戶端間兩個(gè)方面解決舊類上的異構(gòu)遺忘問題。在自適應(yīng)類平衡偽標(biāo)簽生成的偽標(biāo)簽的指導(dǎo)下,開發(fā)遺忘平衡語義補(bǔ)償損失和遺忘平衡關(guān)系一致性損失,以糾正具有背景轉(zhuǎn)移的舊類別的客戶端內(nèi)異構(gòu)遺忘。此外該論文還提出了一種任務(wù)轉(zhuǎn)移監(jiān)視器。它可以識(shí)別受隱私保護(hù)的新類,并存儲(chǔ)最新的舊全局模型以進(jìn)行關(guān)系提取。定性實(shí)驗(yàn)表明,與比較方法相比,該模型有了很大的改進(jìn)。
[2]Exploiting the Complementarity of 2D and 3D Networks to Address Domain-Shift in 3D Semantic Segmentation
推薦理由:3D語義分割是許多現(xiàn)實(shí)世界應(yīng)用中的一項(xiàng)關(guān)鍵任務(wù),如自動(dòng)駕駛、機(jī)器人和混合現(xiàn)實(shí)。然而,由于3D點(diǎn)云的非結(jié)構(gòu)化、稀疏和未著色性質(zhì)帶來的模糊性,該任務(wù)極具挑戰(zhàn)性。該論文貢獻(xiàn)在四個(gè)流行的多模態(tài)無監(jiān)督領(lǐng)域自適應(yīng)基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能,并在領(lǐng)域泛化場景中取得了更好的結(jié)果。
[3]Instant Domain Augmentation for LiDAR Semantic Segmentation
推薦理由:本文提出了一種用于語義分割任務(wù)的快速靈活的LiDAR增強(qiáng)方法,稱為“LiDomAug”。它聚合原始 LiDAR 掃描,并在考慮動(dòng)態(tài)失真和遮擋的情況下創(chuàng)建任何配置的 LiDAR 掃描,從而實(shí)現(xiàn)即時(shí)域增強(qiáng)。在該實(shí)驗(yàn)中,借助所提出的LiDomAug的基于學(xué)習(xí)的方法受傳感器偏差問題的影響較小,并且在不使用目標(biāo)域數(shù)據(jù)的情況下,在SemanticKITTI和nuScenes數(shù)據(jù)集上實(shí)現(xiàn)了新的最先進(jìn)的域適應(yīng)性能。
篇幅有限,僅介紹圖像分割前3篇,
掃碼回復(fù)“分割”,解鎖64篇cvpr 2023 分割類論文

[1]SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance Segmentation
推薦理由:僅使用邊界框注釋的弱監(jiān)督實(shí)例分割最近引起了廣泛的研究關(guān)注。該論文通過開發(fā)語義感知實(shí)例掩碼(SIM)生成范式,提出了一種新的框監(jiān)督實(shí)例分割方法。考慮到語義感知原型無法區(qū)分相同語義的不同實(shí)例,該論文提出了一種自我糾正機(jī)制來糾正錯(cuò)誤激活的區(qū)域,同時(shí)增強(qiáng)正確的區(qū)域。廣泛的實(shí)驗(yàn)結(jié)果表明,提出的SIM方法優(yōu)于其他最先進(jìn)的方法。
[2]DynaMask: Dynamic Mask Selection for Instance Segmentation
推薦理由:為了減輕使用大掩碼導(dǎo)致的計(jì)算和內(nèi)存成本的增加,該論文開發(fā)了一個(gè)計(jì)算成本可忽略不計(jì)的掩碼切換模塊(MSM)來為每個(gè)實(shí)例選擇最合適的掩碼分辨率,在保持高分割精度的同時(shí)實(shí)現(xiàn)高效率。沒有花哨的地方,所提出的方法,即 DynaMask,以適度的計(jì)算開銷帶來了比其他最先進(jìn)的一致和顯著的性能改進(jìn)。
[3]ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution
推薦理由:現(xiàn)有的3D實(shí)例分割方法主要是自下而上的設(shè)計(jì)——手動(dòng)微調(diào)算法,將點(diǎn)分組為簇,然后是細(xì)化網(wǎng)絡(luò)。為了解決這些限制,該論文引入了ISBNet,這是一種新的無集群方法,它將實(shí)例表示為內(nèi)核,并通過動(dòng)態(tài)卷積解碼實(shí)例掩碼。為了有效地生成高召回率和判別性內(nèi)核,還提出了一種名為實(shí)例感知最遠(yuǎn)點(diǎn)采樣的簡單策略來對(duì)候選進(jìn)行采樣,并利用PointNet++啟發(fā)的局部聚合層對(duì)候選特征進(jìn)行編碼。
篇幅有限,僅介紹圖像分割前4篇,
掃碼回復(fù)“分割”,解鎖64篇cvpr 2023 分割類論文
從0到1入門“分割”課
最新前沿論文+代碼講解|一線互聯(lián)網(wǎng)資深大廠研究科學(xué)家
課程內(nèi)容
第一節(jié)課:Segment Anything論文
第二節(jié)課:代碼實(shí)戰(zhàn)
第三節(jié)課:代碼實(shí)戰(zhàn)
論文講解+代碼,0.01元掃碼直達(dá)??
SAM(Segment Anything Model)作為Meta發(fā)布的史上首個(gè)圖像分割基礎(chǔ)模型,將NLP領(lǐng)域的prompt范式引進(jìn)CV,讓模型可以通過prompt一鍵摳圖,達(dá)到零樣本“分割一切”的效果
老師簡介


