點擊上方“AI算法與圖像處理”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達
簡介
目標(biāo)檢測或定位是數(shù)字圖像從粗到細(xì)的一個漸進過程。它不僅提供了圖像對象的類,還提供了已分類圖像中對象的位置。位置以邊框或中心的形式給出。語義分割通過對輸入圖像中每個像素的標(biāo)簽進行預(yù)測,給出了較好的推理。每個像素都根據(jù)其所在的對象類進行標(biāo)記。為了進一步發(fā)展,實例分割為屬于同一類的對象的單獨實例提供了不同的標(biāo)簽。因此,實例分割可以定義為同時解決目標(biāo)檢測問題和語義分割問題的技術(shù)。本文對實例分割的背景、存在的問題、技術(shù)、發(fā)展、流行的數(shù)據(jù)集、相關(guān)工作以及未來的發(fā)展進行了討論。本文為想在實例分割領(lǐng)域進行研究的人們提供了有價值的信息。背景
分類可被定義為預(yù)測圖像中一個對象的類別,或根據(jù)其分類分?jǐn)?shù)提供圖像中對象的類別列表。目標(biāo)檢測或定位是一個從粗推理到精推理的漸進過程,它不僅提供了圖像目標(biāo)的類別,還以邊界框或中心的形式給出了分類后的圖像目標(biāo)的位置。語義分割的目的是通過對圖像中每個像素點的標(biāo)簽進行預(yù)測,得到精確的推理結(jié)果。每個像素都根據(jù)其所在的對象或區(qū)域進行分類標(biāo)記。按照這個方向,實例分割為屬于同一對象類的不同對象實例提供了不同的標(biāo)簽。因此,實例分割可以定義為尋找目標(biāo)檢測的任務(wù)同時解決語義分割。將每個分割后的對象分解為各自的子成分。下圖描述了圖像分割的演變過程。問題
語義分割的思想是開發(fā)一種在分割精度和分割效率兩個方面都表現(xiàn)良好的技術(shù)/算法。更好的分割精度包括精確的定位和識別物體的圖像/框架,結(jié)果分類在實際場景相關(guān)的各種各樣的對象可以區(qū)分,屬于同一類的對象的實例受類內(nèi)外觀變化的影響,可能被局部化和識別(即更好的魯棒性)。更好的分割效率是指分割算法的計算量。它指的是有效的實時計算成本(如可接受的內(nèi)存/存儲需求),以及對處理器的較小負(fù)擔(dān)。小對象的實例分割仍然是一個問題。CNN按層次計算特征,因此在默認(rèn)情況下,特征層中的下采樣層會形成一個內(nèi)建的多尺度金字塔,進而生成不同分辨率的特征圖。這會導(dǎo)致一些問題。例如,CNN層越深,接受域越廣,對位姿、變形、光照等變化的魯棒性越強,但分辨率越低,細(xì)節(jié)丟失。相對而言,較低的CNN層接收域較窄,細(xì)節(jié)更豐富,但分辨率更高,對語義的敏感性更低。對象的語義屬性出現(xiàn)在不同的層中,而這些層又取決于對象的大小。因此,如果一個物體很小,它的細(xì)節(jié)在淺的CNN層中會更少,同樣的細(xì)節(jié)在較高的層中幾乎會消失。這個問題使得小對象檢測非常具有挑戰(zhàn)性。各種各樣的技術(shù)已經(jīng)被提出來解決這個問題,例如帶孔卷積和提高特征的分辨率。然而,這些技術(shù)導(dǎo)致更高的計算復(fù)雜度。此外,如果對象很大,那么它的語義概念將在更高的層中得到反映。許多技術(shù)已經(jīng)被開發(fā)出來,通過使用不同的CNN層來提高檢測精度。幾何變換的處理問題。就幾何變換而言,DCNNs本質(zhì)上不能是空間不變的。DCNN層中的局部最大池化使網(wǎng)絡(luò)具有某種程度的平移不變性。盡管如此,特征的中間映射實際上并不是變換不變的。處理圖像退化也是一個問題?,F(xiàn)實圖像中的噪聲是一個問題。這通常是由照明問題、相機質(zhì)量差、圖像壓縮等引起的。雖然低質(zhì)量的圖像往往降低其識別,ImageNet、Microsoft COCO、PASCAL VOC等圖像數(shù)據(jù)庫都使用高質(zhì)量的圖像,這就證明了這一點。實例分割
實例分割已成為機器視覺研究中比較重要、復(fù)雜和具有挑戰(zhàn)性的領(lǐng)域之一。為了預(yù)測對象類標(biāo)簽和特定于像素的對象實例掩碼,它對各種圖像中出現(xiàn)的對象實例的不同類進行本地化。實例分割的目的主要是幫助機器人,自動駕駛,監(jiān)視等。實例分割技術(shù)
Mask proposal分類
在深度學(xué)習(xí)流行之前,之前的技術(shù)依賴于自下而上的生成mask proposal。隨后,被具有更高效結(jié)構(gòu)的新技術(shù)所取代,如RCNN。盡管RCNN在分割精度上有一定的提高,但訓(xùn)練是一個基于多階段的管道,這是緩慢的,很難優(yōu)化,因為訓(xùn)練每個階段需要分開。在CNN的每張圖像中,每個方案都需要提取特征,這就分別導(dǎo)致了存儲、時間和檢測尺度的問題。測試也很慢,因為需要提取CNN的特征。隨后,又出現(xiàn)了Fast RCNN和Faster RCNN,解決了它的問題。實例分割的流行方法包括使用一個邊界框來檢測對象,然后是對象框分割。下圖展示了此類技術(shù)的一般框架。在這方面最成功的技術(shù)之一是Mask RCNN。使用相對簡單的Mask predictor擴展了更快的R-CNN檢測算法。Mask RCNN易于訓(xùn)練,具有更好的泛化能力,只會給更快的R-CNN增加很小的計算開銷。前者運行速度為5幀/秒。基于Mask R-CNN的實例分割方法在最近的實例分割挑戰(zhàn)中顯示了良好的結(jié)果。對圖像的每個像素進行分類標(biāo)記。接下來是使用聚類算法將像素分組到對象實例中。下圖顯示了一般框架。該方法受益于語義分割,可以預(yù)測高分辨率的對象掩模。與分割檢測跟蹤技術(shù)相比,標(biāo)簽像素跟蹤聚類方法在經(jīng)常使用的基準(zhǔn)上精度較低。由于像素標(biāo)記需要密集的計算,通常需要更多的計算能力。張量掩模
與DeepMask和InstanceFCN不同,TensorMask涉及對多個類的分類,這是與預(yù)測mask并行完成的。這個特性對于實例分割非常有用。下表給出了值得注意的方法的分類。接下來說一說實例分割的演變
前面你說到實例分割不是一個孤立的任務(wù),有目標(biāo)檢測和語義分割發(fā)展而來,時間軸如下圖所示:RCNN集成了AlexNet和使用選擇性搜索技術(shù)的區(qū)域方案。RCNN模型的訓(xùn)練包括以下步驟。第一步涉及計算使用選擇性搜索獲得的類不可知區(qū)域建議。下一步是CNN模型微調(diào),包括使用區(qū)域建議微調(diào)預(yù)先訓(xùn)練的CNN模型,如AlexNet。接下來,利用CNN提取的特征來訓(xùn)練一組類特異性支持向量機(SVM)分類器,該分類器取代了通過微調(diào)學(xué)習(xí)的softmax分類器。然后使用CNN獲得的特征對每個對象類進行類特異性邊界盒回歸訓(xùn)練。雖然RCNN取得了較高的目標(biāo)檢測質(zhì)量,但它也存在一些明顯的缺陷。例如,多階段的訓(xùn)練是緩慢和困難的,因為每個階段都必須單獨訓(xùn)練。另外,分別訓(xùn)練SVM分類器和BBox回歸器需要更多的資源和時間。最后,測試速度很慢,因為在沒有共享計算的情況下,每個測試圖像中的每個對象提案都需要從CNN中提取特征。RCNN的這些問題激發(fā)了其他技術(shù)的發(fā)展,這導(dǎo)致了改進的檢測框架的誕生,例如快速RCNN和更快的RCNN。Fast RCNN解決了RCNN的一些問題,從而提高了目標(biāo)檢測能力。Fast RCNN使用檢測器的端到端訓(xùn)練。它通過同時學(xué)習(xí)softmax分類器和類特定的BBox回歸簡化了訓(xùn)練過程,而不是像RCNN那樣單獨訓(xùn)練模型的各個組件??焖賀CNN共享區(qū)域方案的卷積計算,然后在最后一個卷積層和第一個全連接層之間添加一個ROI池化層,提取每個區(qū)域方案的特征。聚類利用特征層扭曲的概念來實現(xiàn)圖像層扭曲。將ROI池化層特征分解為一組全連通層,最后分解為目標(biāo)類別預(yù)測軟最大概率和類別建議精細(xì)化偏移量兩層。與RCNN相比,F(xiàn)ast RCNN在很大程度上提高了效率,訓(xùn)練速度提高了3倍,測試速度提高了10倍。雖然Fast RCNN顯著提高了檢測速度,但它仍然依賴于外部區(qū)域建議,計算是Fast RCNN的速度瓶頸。此時,CNNs在卷積層中具有目標(biāo)定位能力,而在全連接層中這種能力會減弱。因此,用CNN代替選擇性搜索產(chǎn)生區(qū)域建議是可行的。Faster RCNN有區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network, RPN)用于生成區(qū)域建議,高效準(zhǔn)確。采用相同的骨干網(wǎng),從最后一個共享的卷積層中提取特征,完成RPN的區(qū)域劃分和快速RCNN的區(qū)域分類。Mask R-CNN,一個相對簡單和靈活的實例分割模型。該模型通過目標(biāo)檢測進行了實例分割,同時生成了高質(zhì)量的掩模。通常,F(xiàn)aster R-CNN有一個用于識別物體邊界框的分支。Mask R-CNN并行添加了一個對象蒙版預(yù)測分支作為改進。使用FPN主干的head架構(gòu)如圖所示。MaskLab改進了Faster R-CNN,并產(chǎn)生兩個額外的輸出,即語義分割和實例中心方向。Faster R-CNN給出的預(yù)測框?qū)⒕哂胁煌叨鹊膶ο髮嵗龓胍粋€標(biāo)準(zhǔn)尺度,然后MaskLab在每個預(yù)測框內(nèi)同時使用語義分割和方向預(yù)測進行前景和背景分割。為了區(qū)分不同語義類別的對象,采用了對分類數(shù)據(jù)進行像素級編碼的語義分割預(yù)測方法。該技術(shù)消除了重復(fù)的背景編碼。此外,方向預(yù)測還被用于具有共同語義標(biāo)簽的對象實例的分離。Non-local Neural Networks這個非局部神經(jīng)網(wǎng)絡(luò)可以說是圖像里面Attention的鼻祖,它是第一篇把注意力機制應(yīng)用到圖像領(lǐng)域,隨后就有了大家熟悉的SENet,SKNet,GCNet,Residual Attention Network, CAM, BAM等等。非局部意味著是一種濾波技術(shù),它計算圖像中所有像素的加權(quán)平均值。在這樣做的時候,它允許在一個基于路徑外觀相似度的位置上,遠(yuǎn)距離像素對濾波響應(yīng)做出貢獻。這一想法是由塊匹配3D (BM3D) (Block-matching 3D)相繼發(fā)展起來的。長期依賴已通過圖形模型來建模,例如條件隨機場(CRF)。CRF中的平均場推理可以轉(zhuǎn)化為遞歸網(wǎng)絡(luò),然后可以進行訓(xùn)練。與機器翻譯中使用的自我注意方法有關(guān)。自我關(guān)注膠囊通過觀察所有位置,然后在嵌入空間內(nèi)取其加權(quán)平均值,計算出序列中某個位置的響應(yīng)。自注意可以看作是一種非局部均值,因此可以將機器翻譯中的自注意與機器視覺中適用于圖像和視頻問題的一般非局部過濾操作聯(lián)系起來。提出了一種用于實例分割任務(wù)的基于框架,旨在提高信息的流動。改進了深層網(wǎng)絡(luò)的特征層次,在底層使用與定位相關(guān)的特定信號。這個過程稱為自底向上路徑增強。它使得底層和深層網(wǎng)絡(luò)頂層特征之間的信息路徑更短。還提出了一種被稱為自適應(yīng)特性池的技術(shù),它將特征網(wǎng)格和所有層次的特征聯(lián)系起來。由于這種技術(shù),在每一級特征的相關(guān)信息流到后續(xù)子網(wǎng)絡(luò)用于產(chǎn)生建議。一個備用的分支段捕獲各種提議視圖,以增強生成掩碼的預(yù)測。最佳級聯(lián)實例分割的關(guān)鍵是最大限度地利用對象檢測和對象實例分割之間的反向關(guān)系。混合任務(wù)級聯(lián)或HTC與傳統(tǒng)級聯(lián)在兩個重要方面有所不同。首先,HTC并沒有對這兩個任務(wù)進行層疊處理,而是以組合的方式分多個階段進行處理。其次,它使用一個完全卷積的片段來提供空間上下文。這有助于區(qū)分前景和嘈雜的背景。作者稱,HTC能夠?qū)W習(xí)更多有用的功能,通過整合功能,這些功能是互補的,逐步與每個階段。由非局部網(wǎng)絡(luò)建模的全局上下文對于整個圖像的不同查詢位置幾乎是相同的。利用這一發(fā)現(xiàn)創(chuàng)建了一個基于獨立查詢公式的簡單網(wǎng)絡(luò)。提出的網(wǎng)絡(luò)保持了非局部網(wǎng)絡(luò)的準(zhǔn)確性,但用更少的計算開銷。GCNet的設(shè)計在結(jié)構(gòu)上類似于擠壓激發(fā)網(wǎng)絡(luò)(SENet)。用一個三步的通用模型來建模全球上下文。在通用模型內(nèi)部,已經(jīng)設(shè)計了一個更有效的實例化,稱為全局上下文(GC)塊。該塊是輕量級的,能夠高效地建模全局上下文。輕量級的事實允許設(shè)計者在網(wǎng)絡(luò)的多個層之間應(yīng)用它,從而構(gòu)建一個全局上下文網(wǎng)絡(luò)(GCNet)。在Mask R-CNN上增加了一個額外的Mask Head模塊,學(xué)習(xí)Mask-iou一致的Mask分?jǐn)?shù)。Mask R-CNN與MaskIoU Head結(jié)合,結(jié)合實例特征和預(yù)測的Mask。這種安排用于預(yù)測輸入掩模和ground truth掩模之間的損失。圖下顯示了Mask Scoring R-CNN架構(gòu)。在COCO dataset數(shù)據(jù)集上的實驗比較結(jié)果:總結(jié)
本文對實例分割進行了概述。圖像分割從粗推理發(fā)展到細(xì)推理。隨著計算能力和研究能力的提高,這種演變已經(jīng)發(fā)展到實例分割,并將繼續(xù)下去。本文討論了重要的實例分割問題。從整體和個別的角度討論了用于實例分割的各種技術(shù)。討論了它們的分類、優(yōu)缺點。討論了實例分割中常用的數(shù)據(jù)集及實驗結(jié)果。實例分割也是圖像分割前沿的研究方向,任務(wù)更具有挑戰(zhàn)性,天池大賽也有實例分割的賽題,現(xiàn)在已經(jīng)進行到賽季2了,還有一些新的任務(wù),比如視頻全景分割更是很前沿和挑戰(zhàn)的任務(wù)。本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。在「AI算法與圖像處理」公眾號后臺回復(fù):yolov4,即可下載 YOLOv4 trick相關(guān)論文在「AI算法與圖像處理」公眾號后臺回復(fù):計算機視覺,即可下載包括經(jīng)典好書請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱