arxiv論文整理20240127-0202(目標檢測方向)
You Only Look Bottom-Up for Monocular 3D Object Detection(Robotics and Automation Letters (RA-L))
摘要: 單目式三維物目標檢測是自動駕駛中的一個重要任務。與此同時,由于丟失了深度信息,從純圖像中準確地進行三維目標檢測是非常具有挑戰(zhàn)性的。大多數(shù)現(xiàn)有的基于圖像的方法根據(jù)圖像平面上物體的二維大小推斷其在三維空間中的位置,這通常忽略了圖像固有的位置線索,導致性能不盡人意。受到人類可以利用自下而上的位置線索從單個圖像中定位物體的啟發(fā),本文中我們從圖像特征列探索位置建模,并提出了一種名為You Only Look Bottum-Up(YOLOBU)的新方法。具體來說,我們的YOLOBU利用基于列的交叉注意力來確定一個像素在多大程度上對其上方的像素做出貢獻。接下來,我們引入了基于行的累積反向求和(RRCS),以建立像素在自下而上方向上的連接。我們的YOLOBU通過自下而上的方式充分探索了單目式三維檢測中的位置線索。對KITTI數(shù)據(jù)集的大量實驗證明了我們方法的有效性和優(yōu)越性。
點評: 首次提出了一種自底向上的單目相機三維目標檢測方法。
LiDAR-PTQ: Post-Training Quantization for Point Cloud 3D Object Detection(ICLR 2024)
摘要: 由于計算能力和內存受到嚴重限制,在自動駕駛車輛和機器人上配備邊緣設備部署基于3D激光雷達的檢測器面臨著重大挑戰(zhàn)。作為一種方便且簡單的模型壓縮方法,后訓練量化(PTQ)已被廣泛應用于2D視覺任務。然而,將其直接應用于3D激光雷達任務必然導致性能下降。為了解決這一問題,我們提出了一種名為LiDAR-PTQ的有效PTQ方法,專門為3D激光雷達檢測(基于SPConv和不基于SPConv)而設計。我們的LiDAR-PTQ具有三個主要組件,分別是(1)基于稀疏性的校準方法,用于確定量化參數(shù)的初始化,(2)任務引導的全局正向損失(TGPL),以減少量化前后最終預測之間的差異,(3)自適應的四舍五入操作,以最小化逐層重構誤差。大量實驗證明,我們的LiDAR-PTQ在應用于CenterPoint(基于柱和基于體素)時可以實現(xiàn)最先進的量化性能。據(jù)我們所知,首次在激光雷達3D檢測任務中,PTQ INT8模型的準確性幾乎與FP32模型相當,同時還享受到3倍的推理加速。此外,我們的LiDAR-PTQ在成本上也非常劃算,比量化感知訓練方法快30倍。代碼將在https://github.com/StiphyJay/LiDAR-PTQ上發(fā)布。
點評: 在資源受限的邊緣設備上,能夠有效地解決傳統(tǒng)方法在處理復雜場景和小型目標時的困難。代碼已開源。
MixSup: Mixed-grained Supervision for Label-efficient LiDAR-based 3D Object Detection(ICLR 2024)
摘要: 目前,基于LiDAR的三維目標檢測在標簽效率方面主要以弱/半監(jiān)督方法為主導。我們提出了一種更為實用的范例MixSup,同時利用大量廉價的粗標簽和有限數(shù)量的準確標簽進行混合粒度監(jiān)督。我們首先觀察到點云通常是無紋理的,這使得學習語義變得困難。然而,點云在幾何上是豐富多樣的,并且與傳感器距離的尺度無關,這使得學習物體的幾何形狀和姿勢相對容易。因此,MixSup利用大量粗粒度聚類級標簽來學習語義,利用少量昂貴的框級標簽來學習準確的姿勢和形狀。我們重新設計了主流檢測器中的標簽分配方式,使它們能夠無縫集成到MixSup中,實現(xiàn)了實用性和通用性。我們在nuScenes、Waymo Open Dataset和KITTI上使用各種檢測器驗證了其有效性。MixSup在使用廉價的聚類注釋和僅有10%的框注釋時,實現(xiàn)了高達97.31%的全監(jiān)督性能。此外,我們基于“Segment Anything Model”提出了PointSAM用于自動粗標注,進一步減輕了注釋的負擔。代碼可在 GitHub - BraveGroup/PointSAM-for-MixSup: Codes for ICLR 2024: "MixSup: Mixed-grained Supervision for Label-efficient LiDAR-based 3D Object Detection" 上找到。
點評: 提出了一種實用且通用的范式,利用混合粒度的監(jiān)督方式,實現(xiàn)了標簽效率的LiDAR基3D目標檢測。代碼已開源。
YOLO-World: Real-Time Open-Vocabulary Object Detection
摘要: YOLO系列檢測器已經被證實是高效且實用的工具。然而,它們對預定義和經過訓練的物體類別的依賴限制了它們在開放場景中的適用性。為了解決這一限制,我們引入了YOLO-World,這是一種創(chuàng)新的方法,通過視覺-語言建模和在大規(guī)模數(shù)據(jù)集上的預訓練來增強YOLO的開放詞匯檢測能力。具體來說,我們提出了一種新的可重新參數(shù)化的視覺-語言路徑聚合網絡(RepVL-PAN),以及區(qū)域-文本對比損失,以促進視覺和語言信息之間的交互。我們的方法在零樣本條件下以高效率檢測各種物體。在具有挑戰(zhàn)性的LVIS數(shù)據(jù)集上,YOLO-World在V100上以52.0 FPS的速度實現(xiàn)了35.4的AP,在準確性和速度方面勝過許多最先進的方法。此外,經過微調的YOLO-World在多個后續(xù)任務上表現(xiàn)出了顯著的性能,包括目標檢測和開放詞匯實例分割。
點評: 結合了實時目標檢測與開放詞匯能力,通過視覺-語言模型和創(chuàng)新的RepVL-PAN架構,實現(xiàn)了對未知和罕見物體類別的高效、準確檢測。代碼已開源: https://github.com/AILab-CVC/YOLO-World。
ps:承接程序代寫, 小程序編寫 程序應用 深度學習 卷積神經網絡 pytorch paddlepaddle 數(shù)據(jù)結構 機器學習 目標檢測 圖像處理
有需要的兄弟們可以在我公眾號留言。
論文解讀的ppt可以在知識星球獲取:
我正在「目標檢測er的小圈子」和朋友們討論有趣的話題,你?起來吧?
https://t.zsxq.com/0cM8tmd4l
