PDNet:利用預測解耦實現(xiàn)更好的單階段目標檢測


摘要
文章分析了對象類別和邊界的合適推理位置,提出了一種預測-目標解耦檢測器PDNet,建立了更靈活的檢測范式。作者的PDNet具有預測解耦機制,在不同的位置分別編碼不同的目標。利用動態(tài)邊界點和語義點兩組動態(tài)點,設計了可學習的預測收集模塊,對有利區(qū)域的預測進行收集和聚合,便于定位和分類。作者采用兩步策略來學習這些動態(tài)點位置,首先對不同目標的先驗位置進行估計,然后網(wǎng)絡在更好地感知目標屬性的情況下進一步預測這些位置的殘差。在MS COCO基準上的大量實驗證明了作者的方法的有效性和效率。以單個ResNeXt-64x4d-101作為骨干,作者的檢測器通過單尺度測試實現(xiàn)48.7個AP,在相同的實驗設置下,其性能明顯優(yōu)于最先進的方法。此外,作者的檢測器作為一個一級框架是高效的。作者的代碼將被公開。

總的來說,這項工作的貢獻是:
作者分析了傳統(tǒng)一級檢測器的密集預測,發(fā)現(xiàn)用于推斷目標類別和邊界位置的最佳位置是不同的。受此啟發(fā),作者提出了基于預測解耦機制的PDNet,以靈活地收集和聚合來自不同位置的不同目標的預測。
作者設計了兩組動態(tài)點,即動態(tài)邊界點和語義點,并提出了兩步動態(tài)點生成策略,以方便學習適合的點位置進行定位和分類。
沒有鈴鐺和哨子,作者的方法在MS COCO基準上實現(xiàn)了最先進的性能。以單個ResNeXt-64x4d-101為骨干,作者的檢測器在單尺度測試中實現(xiàn)了48.7個AP,在相同的實驗設置下明顯優(yōu)于其他方法。

框架結構

06 = 9網(wǎng)格位置圖3,PDNet的整體網(wǎng)絡架構
PDNet基于特征提取主干和特征金字塔網(wǎng)絡(FPN),從FPN擴展多個檢測頭,實現(xiàn)多尺度密集檢測。在檢測頭中,密集預測步驟首先生成用于分類和定位的密集預測圖,這與大多數(shù)傳統(tǒng)的單階段方法相似。作者的預測映射沿著通道維度進行分割,其中不同的通道為每個位置編碼相應的不同目標。具體來說,回歸圖切片為綠色,其中,包含對象邊界框四邊的相對偏移量的密集預測,而分類地圖切片黃色部分,包含不同語義區(qū)域的密集分類分數(shù)。在獲得這些密集預測之后,作者對每個網(wǎng)格位置在兩組動態(tài)點(來自兩步動態(tài)點生成模塊)的指導下進行預測收集,從各自有利的位置收集預測得到分類分數(shù)和邊界框。

實驗結果

用于定位對象邊界框的左、上、右和下側面的回歸圖的可視化。為了清楚地演示,作者只顯示邊界區(qū)域的預測偏移量。作者可以看到,從物體邊緣附近的網(wǎng)格的位置偏移精確地匹配剩余距離到相應的邊界框邊緣。

人員分類圖的可視化
這些分類圖在這個人的不同區(qū)域產(chǎn)生強烈的激活,表明它們分別建模了不同對象區(qū)域的語義信息。

在MS COCO val2017集上可視化一些檢測結果。最后的對象邊界框用綠色表示,預測的動態(tài)邊界點和語義點分別用綠色和橙色表示。動態(tài)邊界點(綠色)位于物體邊緣附近,在那里可以準確地推斷出邊界框的邊界。動態(tài)語義點(橙色)主要分布在對象的不同部位,有利于對象分類。
結論
在這項工作中,作者提出了一種精確和高效的目標檢測器PDNet,它可以推斷出不同的目標(即目標類別和邊界位置)在其相應的適當位置。具體來說,作者在密集預測方法的基礎上,提出了一種基于預測解耦機制的PDNet,可以靈活地從不同位置收集不同的目標預測,并將其聚合為最終的檢測結果。此外,作者設計了兩組動態(tài)點,即動態(tài)邊界點和語義點,并結合兩步生成策略,以方便學習適合的推理位置進行定位和分類。在MS COCO基準上的大量實驗證明了作者的方法具有最先進的性能和效率。
論文鏈接:https://arxiv.org/pdf/2104.13876.pdf
雙一流高校研究生團隊創(chuàng)建 ↓
專注于計算機視覺原創(chuàng)并分享相關知識 ?
整理不易,點贊三連!
