使用條件卷積進(jìn)行實(shí)例和全景分割
點(diǎn)擊上方“小白學(xué)視覺(jué)”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)

我們提出了一個(gè)簡(jiǎn)單而有效的框架,用于實(shí)例和全景分割,稱(chēng)為CondInst(條件卷積的實(shí)例和全景分割)。在文獻(xiàn)中,最優(yōu)秀的實(shí)例分割方法通常遵循Mask R-CNN范式,并依賴(lài)ROI操作(通常是ROIAlign)來(lái)處理每個(gè)實(shí)例。相反,我們建議使用動(dòng)態(tài)條件卷積處理實(shí)例。我們不是使用實(shí)例明智的roi作為固定權(quán)重的實(shí)例掩碼頭的輸入,而是設(shè)計(jì)動(dòng)態(tài)的實(shí)例感知掩碼頭,以要預(yù)測(cè)的實(shí)例為條件。CondInst有三個(gè)優(yōu)點(diǎn):實(shí)例和全景分割被統(tǒng)一到一個(gè)完全卷積的網(wǎng)絡(luò)中,消除了對(duì)ROI的裁剪和特征對(duì)齊的需要。2)。消除ROI裁剪也顯著提高了輸出實(shí)例掩模的分辨率。3)。由于動(dòng)態(tài)生成的條件分布的能力大大提高,面具頭非常緊湊(如3 conv.層,每個(gè)只有8頻道),導(dǎo)致更快推理每個(gè)實(shí)例,使整體推理時(shí)間幾乎不變,與實(shí)例的數(shù)量無(wú)關(guān)。我們演示了一種更簡(jiǎn)單的方法,可以在實(shí)例和全景分割任務(wù)上實(shí)現(xiàn)更高的精度和推理速度。在COCO數(shù)據(jù)集上,我們優(yōu)于一些最先進(jìn)的方法。我們希望CondInst可以成為一個(gè)強(qiáng)大的基線(xiàn),例如全景分割。
代碼鏈接:https://git.io/AdelaiDet
我們將我們的主要貢獻(xiàn)總結(jié)如下。
我們嘗試從一個(gè)新的角度來(lái)解決實(shí)例分割問(wèn)題,即使用動(dòng)態(tài)掩模頭。與現(xiàn)有的Mask R-CNN等方法相比,這一新的解決方案獲得了更好的實(shí)例分割性能。據(jù)我們所知,這是第一次一個(gè)新的實(shí)例分割框架在精度和速度上超過(guò)了最近的國(guó)家最先進(jìn)的水平。
CondInst是完全卷積的,并且避免了前面提到的許多現(xiàn)有方法中使用的調(diào)整大小操作,因?yàn)镃ondInst不依賴(lài)于ROI操作。不需要調(diào)整特征地圖的大小,就可以得到具有更精確邊緣的高分辨率實(shí)例掩碼。
由于CondInst中的掩碼頭非常緊湊,與box檢測(cè)器FCOS相比,CondInst只需要10%的計(jì)算時(shí)間就可以獲得掩碼結(jié)果,即使在處理每張圖像的最大實(shí)例數(shù)(即100個(gè)實(shí)例)時(shí)也是如此。總的推斷時(shí)間也是穩(wěn)定的,因?yàn)樗灰蕾?lài)于映像中的實(shí)例數(shù)量。
通過(guò)額外的語(yǔ)義分割分支,CondInst可以很容易地?cái)U(kuò)展到全景分割,從而為實(shí)例和全景分割任務(wù)生成統(tǒng)一的全卷積網(wǎng)絡(luò)。
CondInst實(shí)現(xiàn)了最先進(jìn)的性能,在實(shí)例和全景分割任務(wù),同時(shí)是快速和簡(jiǎn)單的。我們希望CondInst能夠成為實(shí)例和全景分割任務(wù)以及其他實(shí)例級(jí)識(shí)別任務(wù)(如關(guān)鍵點(diǎn)檢測(cè))的強(qiáng)大替代方案。

CondInst的整體架構(gòu)。C3、C4、C5為骨干網(wǎng)(如ResNet-50)的特征圖。P3到P7是FPN的特征映射,如[26],[43]。Fbottom為底部分支s的輸出,其分辨率與P3相同。在[6]之后,底部的分支聚合了功能映射P3、P4和P5。Fbottom是通過(guò)連接相對(duì)坐標(biāo)到Fbottom得到的。分類(lèi)頭預(yù)測(cè)目標(biāo)實(shí)例在位置(x, y)處的分類(lèi)概率px,y,與FCOS相同。控制器為實(shí)例生成掩模頭的濾波器參數(shù)θx,y。與FCOS類(lèi)似,也有與控制器并行的中心度和盒頭(為了簡(jiǎn)單起見(jiàn),圖中沒(méi)有顯示)。注意,虛線(xiàn)框中的頭重復(fù)應(yīng)用于P3···P7。蒙版頭部是實(shí)例感知的,在F底部的應(yīng)用次數(shù)為圖像中實(shí)例數(shù)的多少。

通過(guò)附加一個(gè)語(yǔ)義分割分支來(lái)實(shí)現(xiàn)全景分割的CondInst插圖。語(yǔ)義分割分支在[22]之后。從實(shí)例分割和分割的結(jié)果分割分支結(jié)合在一起使用相同的后處理在[23]。

城市景觀的定性結(jié)果。值得注意的是,CondInst可以很好地歪曲細(xì)節(jié)(最好在屏幕上觀看)。

在COCO數(shù)據(jù)集上的全景分割結(jié)果(在屏幕上看得更好)。顏色編碼類(lèi)別和實(shí)例。正如我們所看到的,CondInst表現(xiàn)得很好。
我們提出了一個(gè)新的和簡(jiǎn)單的實(shí)例分割框架,稱(chēng)為CondInst。與之前的Mask R-CNN等方法不同,前者使用固定權(quán)重的掩碼頭,將掩碼頭限定在實(shí)例上,并動(dòng)態(tài)生成掩碼頭的過(guò)濾器。這不僅減少了掩模頭的參數(shù)和計(jì)算復(fù)雜度,而且消除了ROI操作,從而得到了一個(gè)更快、更簡(jiǎn)單的實(shí)例分割框架。據(jù)我們所知,CondInst是第一個(gè)框架,可以在準(zhǔn)確性和速度上超過(guò)Mask R-CNN,無(wú)需更長(zhǎng)的訓(xùn)練時(shí)間表。我們相信CondInst可以成為一個(gè)新的強(qiáng)大的替代屏蔽R-CNN實(shí)例分割。
論文鏈接:https://arxiv.org/pdf/2102.03026.pdf
每日?qǐng)?jiān)持論文分享不易,如果喜歡我們的內(nèi)容,希望可以推薦或者轉(zhuǎn)發(fā)給周?chē)耐瑢W(xué)。
- END?-
交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺(jué)、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱(chēng)+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺(jué)SLAM“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~

