arxiv論文整理20240210-0216(目標(biāo)檢測方向)
Event-to-Video Conversion for Overhead Object Detection(SSIAI 2024)
摘要: 使用事件攝像頭收集空中影像是理想的,因為與標(biāo)準(zhǔn)攝像頭相比,圖像傳感器的能效性更高。然而,事件攝像頭使下游圖像處理變得復(fù)雜,特別是對于復(fù)雜任務(wù)如目標(biāo)檢測。在本文中,我們研究了事件流在空中目標(biāo)檢測中的可行性。我們展示了在許多標(biāo)準(zhǔn)建模方法中,密集事件表示和對應(yīng)的RGB幀之間存在顯著的性能差距。我們確認這種差距在一定程度上是由于事件表示和用于初始化目標(biāo)檢測器權(quán)重的預(yù)訓(xùn)練數(shù)據(jù)之間的不重疊造成的。然后,我們應(yīng)用事件轉(zhuǎn)視頻轉(zhuǎn)換模型,將事件流轉(zhuǎn)換為灰度視頻以彌合這一差距。我們展示了這種方法能夠獲得大幅度的性能提升,在我們的空中目標(biāo)任務(wù)中甚至勝過了事件特定的目標(biāo)檢測技術(shù)。這些結(jié)果表明,事件表示與現(xiàn)有大型預(yù)訓(xùn)練模型之間更好的對齊可能會帶來比端到端事件特定架構(gòu)改進更大的短期性能收益。
點評: 將事件相機用于空中目標(biāo)檢測。
AYDIV: Adaptable Yielding 3D Object Detection via Integrated Contextual Vision Transformer(ICRA 2024)
摘要: 將激光雷達和攝像頭數(shù)據(jù)相結(jié)合在提升自動駕駛系統(tǒng)的短距離目標(biāo)檢測方面顯示出了潛力。然而,由于激光雷達稀疏數(shù)據(jù)和攝像頭的高密度分辨率之間的對比,這種融合在擴展距離檢測方面遇到了困難。此外,兩種數(shù)據(jù)表示的差異進一步復(fù)雜化了融合方法。我們引入了AYDIV,這是一個新穎的框架,集成了一個特別設(shè)計用于增強遠距離檢測能力的三階段對齊過程,即全局上下文融合對齊變換器(GCFAT),它改進了攝像頭特征的提取,并提供對大尺度模式的更深入理解;稀疏融合特征注意力(SFFA),它微調(diào)了激光雷達和攝像頭細節(jié)的融合;以及立體網(wǎng)格注意力(VGA),用于全面的空間數(shù)據(jù)融合。AYDIV在Waymo Open Dataset(WOD)上的表現(xiàn),mAPH值(L2難度)提高了1.24%,以及在Argoverse2 Dataset中AP值提高了7.40%,證明了與其他現(xiàn)有基于融合的方法相比,其有效性。我們的代碼公開獲取,網(wǎng)址為https://github.com/sanjay-810/AYDIV2
點評: 結(jié)合了LiDAR和相機數(shù)據(jù),以增強自動駕駛系統(tǒng)中遠距離物體的檢測能力。代碼已開源。
Object Detection in Thermal Images Using Deep Learning for Unmanned Aerial Vehicles(2024 IEEE/SICE International Symposium on System Integration)
摘要: 本文提出了一種神經(jīng)網(wǎng)絡(luò)模型,能夠識別由無人機收集的熱成像中的小物體和微小物體。我們的模型包括三個部分,即主干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和預(yù)測頭。主干網(wǎng)絡(luò)基于YOLOv5的結(jié)構(gòu),結(jié)合了在最后采用Transformer編碼器。頸部網(wǎng)絡(luò)包括BI-FPN塊,結(jié)合了滑動窗口和Transformer,以增加輸入到預(yù)測頭中的信息。預(yù)測頭通過Sigmoid函數(shù)評估特征圖來進行檢測。注意力機制和滑動窗口的使用提高了識別準(zhǔn)確性,同時使模型保持在嵌入式系統(tǒng)合理數(shù)量的參數(shù)和計算要求。在公共數(shù)據(jù)集VEDAI和我們收集的數(shù)據(jù)集上進行的實驗證明,我們的模型比ResNet、Faster RCNN、ComNet、ViT、YOLOv5、SMPNet和DPNetV3等最先進方法具有更高的準(zhǔn)確性。在嵌入式計算機Jetson AGX上進行的實驗表明,我們的模型實現(xiàn)了實時計算速度,并具有超過90%的穩(wěn)定性。
點評: 利用深度學(xué)習(xí)技術(shù)對無人機拍攝的熱圖像進行目標(biāo)檢測,從而提高在復(fù)雜環(huán)境下的檢測精度和效率。
Efficient One-stage Video Object Detection by Exploiting Temporal Consistency
摘要: 最近,單階段檢測器在圖像數(shù)據(jù)上的準(zhǔn)確性和速度方面已經(jīng)與傳統(tǒng)的雙階段檢測器取得了競爭力。然而,在視頻物體檢測(VOD)領(lǐng)域,大多數(shù)現(xiàn)有的VOD方法仍然基于雙階段檢測器。此外,直接將現(xiàn)有的VOD方法改為單階段檢測器會帶來無法承受的計算成本。本文首先分析了在VOD中使用單階段檢測器的計算瓶頸。在此基礎(chǔ)上,我們提出了一個簡單而高效的框架,通過利用視頻幀中的時空一致性來解決計算瓶頸,并實現(xiàn)了高效的單階段VOD。具體來說,我們的方法包括一個位置先驗網(wǎng)絡(luò),用于過濾背景區(qū)域,以及一個大小先驗網(wǎng)絡(luò),用于跳過對特定幀低級特征圖的不必要計算。我們在各種現(xiàn)代單階段檢測器上測試了我們的方法,并在ImageNet VID數(shù)據(jù)集上進行了大量實驗。優(yōu)秀的實驗結(jié)果證明了我們的方法具有卓越的有效性、高效性和兼容性。源代碼可在https://github.com/guanxiongsun/vfe.pytorch 獲取。
點評: 通過利用時間一致性,實現(xiàn)了視頻目標(biāo)檢測的高效性和準(zhǔn)確性。代碼已開源。
ps:承接程序代寫, 小程序編寫 程序應(yīng)用 深度學(xué)習(xí) 卷積神經(jīng)網(wǎng)絡(luò) pytorch paddlepaddle 數(shù)據(jù)結(jié)構(gòu) 機器學(xué)習(xí) 目標(biāo)檢測 圖像處理
有需要的兄弟們可以在我公眾號留言。
論文解讀的ppt可以在知識星球獲取:
我正在「目標(biāo)檢測er的小圈子」和朋友們討論有趣的話題,你?起來吧?
https://t.zsxq.com/0cM8tmd4l
