arxiv論文整理20230506-0512(目標(biāo)檢測方向)
DSPDet3D: Dynamic Spatial Pruning for 3D Small Object Detection
摘要: 在本文中,我們提出了一個新的檢測框架,用于3D小目標(biāo)檢測。盡管近年來基于深度學(xué)習(xí)的三維目標(biāo)檢測方法取得了巨大的成功,但由于幾何信息較弱,目前的方法在小物體上仍然很困難。通過深入研究,我們發(fā)現(xiàn)提高特征圖的空間分辨率可以顯著提升三維小目標(biāo)檢測的性能。更有趣的是,盡管計算開銷隨著分辨率的提高而急劇增加,但其增長主要來自解碼器的上采樣操作。受此啟發(fā),我們提出了一個名為DSPDet3D的具有動態(tài)空間修剪功能的高分辨率多級檢測器,該檢測器通過迭代上采樣從大到小檢測物體,同時在沒有較小物體的區(qū)域修剪場景的空間表示。由于三維檢測器只需要預(yù)測稀疏的邊界框,修剪大量無信息的特征并不會降低檢測性能,而是大大降低了上采樣的計算成本。這樣一來,我們的DSPDet3D在小物體檢測上達(dá)到了很高的精度,同時需要更少的內(nèi)存占用和推理時間。在ScanNet和TO-SCENE數(shù)據(jù)集上,我們的方法將小物體的檢測性能提高到了一個新的水平,同時在所有主流室內(nèi)三維目標(biāo)檢測方法中實現(xiàn)了領(lǐng)先的推理速度。
點評: 提出了一個名為DSPDet3D的具有動態(tài)空間修剪功能的高分辨率多級檢測器,用于3D小目標(biāo)檢測。代碼已開源: https://github.com/xuxw98/DSPDet3D
PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds(CVPR 2023)
摘要: 為了處理稀疏和非結(jié)構(gòu)化的原始點云,基于LiDAR的三維目標(biāo)檢測研究大多集中在設(shè)計專用的局部點聚合器來進(jìn)行細(xì)粒度的幾何建模。在本文中,我們從分配計算資源的角度重新審視局部點聚合器。我們發(fā)現(xiàn),考慮到精度和延遲,最簡單的基于pillar的模型表現(xiàn)得出奇地好。此外,我們還表明,從二維目標(biāo)檢測的成功經(jīng)驗中進(jìn)行最小的調(diào)整,如擴(kuò)大感受野,可以顯著提高性能。廣泛的實驗表明,我們基于pillar的網(wǎng)絡(luò)在架構(gòu)和訓(xùn)練方面的現(xiàn)代化設(shè)計在兩個流行的基準(zhǔn)上呈現(xiàn)出最先進(jìn)的性能: Waymo開放數(shù)據(jù)集和nuScenes。我們的結(jié)果挑戰(zhàn)了常見的直覺,即詳細(xì)的幾何建模對于實現(xiàn)高性能的三維目標(biāo)檢測是必不可少的。
點評: 研究了基于LiDAR點云的3D目標(biāo)檢測,發(fā)現(xiàn)詳細(xì)的幾何建模可以提升性能。
Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers(CVPR 2023)
摘要: 我們提出了區(qū)域感知的開放詞匯視覺Transformer(RO-ViT)--一種對比性的圖像-文本預(yù)訓(xùn)練配方,以彌補(bǔ)圖像級預(yù)訓(xùn)練和開放詞匯目標(biāo)檢測之間的差距。在預(yù)訓(xùn)練階段,我們建議隨機(jī)裁剪和調(diào)整位置嵌入的區(qū)域,而不是使用整個圖像的位置嵌入。這與檢測微調(diào)階段在區(qū)域?qū)用嫔鲜褂梦恢们度氲淖龇ǜ悠ヅ洹4送猓覀冇胒ocal損失取代了對比學(xué)習(xí)中常見的softmax交叉熵?fù)p失,以更好地學(xué)習(xí)信息量大但難度高的例子。最后,我們利用最近在新型對象建議框方面的進(jìn)展來改進(jìn)開放詞匯檢測的微調(diào)。我們在LVIS和COCO開放詞匯檢測基準(zhǔn)和零樣本遷移上評估了我們的完整模型。RO-ViT在LVIS上取得了最先進(jìn)的32.1APr,超過了現(xiàn)有最好的方法+5.8百分點,此外,零樣本遷移檢測也具有競爭力。令人驚訝的是,RO-ViT也改善了圖像級別的表示,在COCO和Flickr圖像-文本檢索基準(zhǔn)的12個指標(biāo)中,有9個指標(biāo)達(dá)到了最先進(jìn)的水平,超過了一些較好的大模型方法。
點評: 改進(jìn)預(yù)訓(xùn)練階段、損失函數(shù),用于開放詞匯的目標(biāo)檢測。
ps:承接程序代寫,?小程序編寫? 程序應(yīng)用 深度學(xué)習(xí) 卷積神經(jīng)網(wǎng)絡(luò) pytorch paddlepaddle ?數(shù)據(jù)結(jié)構(gòu)?機(jī)器學(xué)習(xí)?目標(biāo)檢測 圖像處理
有需要的兄弟們可以在我公眾號留言。
ppt(有備注,可直接講)可以在知識星球獲取:
我正在「目標(biāo)檢測er的小圈子」和朋友們討論有趣的話題,你?起來吧?
https://t.zsxq.com/0cM8tmd4l
