<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          arxiv論文整理20240203-0209(目標檢測方向)

          共 3797字,需瀏覽 8分鐘

           ·

          2024-04-10 21:31

          Semantic-Aware and Goal-Oriented Communications for Object Detection in Wireless End-to-End Image Transmission(ICNC 2024)

          摘要: 語義通信聚焦于通過僅傳輸接收方所需的最相關(guān)數(shù)據(jù)來優(yōu)化信息交換,以傳達既定消息并實現(xiàn)期望的通信目標。例如,如果我們將圖像視作信息,并且通信的目標是在接收端進行目標檢測,那么信息的語義將是每個圖像中的物體。因此,僅通過傳輸圖像的語義,我們就能夠?qū)崿F(xiàn)通信目標。本文提出了一個設(shè)計框架,用于實現(xiàn)圖像的語義感知和目標導(dǎo)向的通信。為了實現(xiàn)這一目標,我們首先將基準問題定義為一組數(shù)學問題,這些問題可以進行優(yōu)化,以提高通信系統(tǒng)的效率和有效性。我們考慮了兩種情景,即數(shù)據(jù)速率或接收端的誤差為限制條件。我們提出的系統(tǒng)模型和解決方案受到自編碼器的概念的啟發(fā),其中編碼器和解碼器分別在發(fā)射端和接收端實現(xiàn),以提取特定物體檢測目標的語義信息。我們的數(shù)值結(jié)果驗證了所提出的設(shè)計框架能夠在減少數(shù)據(jù)傳輸量的同時,在目標導(dǎo)向的通信系統(tǒng)中實現(xiàn)低誤差或近乎最優(yōu)的性能。

          點評: 提出了一種基于語義感知和目標導(dǎo)向的無線端到端圖像傳輸系統(tǒng),用于目標檢測,創(chuàng)新性地結(jié)合了語義理解和目標導(dǎo)向的設(shè)計,提高了圖像傳輸和目標檢測的效率和準確性。

          Dynamic Occupancy Grids for Object Detection: A Radar-Centric Approach(ICRA 2024)

          摘要: 動態(tài)占據(jù)格網(wǎng)地圖繪制是一種用于生成包含靜態(tài)和動態(tài)信息的環(huán)境局部地圖的技術(shù)。通常,這些地圖主要是利用激光雷達測量生成的。然而,隨著雷達傳感技術(shù)的改進,其精度和分辨率的提高使其成為了比激光雷達更為可行的主要傳感器用于繪制地圖。在本文中,我們提出了一種以雷達為中心的動態(tài)占據(jù)格網(wǎng)地圖繪制算法,通過對雷達測量的具體特性進行狀態(tài)計算、逆?zhèn)鞲衅髂P鸵约耙晥鲇嬎愕恼{(diào)整和適應(yīng)。我們利用真實數(shù)據(jù)對我們的方法進行了廣泛評估,以展示其有效性,并建立了使用公開可得的Radarscenes數(shù)據(jù)集進行雷達式動態(tài)占據(jù)格網(wǎng)地圖繪制的首個基準。

          點評: 采用以雷達為中心的方法,通過動態(tài)占據(jù)網(wǎng)格來實現(xiàn)目標檢測,這種方法可以實時更新環(huán)境狀態(tài),從而提高目標檢測的準確性和效率。

          ActiveAnno3D - An Active Learning Framework for Multi-Modal 3D Object Detection

          摘要: 大規(guī)模數(shù)據(jù)集的策劃成本仍然較高,需要大量時間和資源。數(shù)據(jù)往往是手工標記的,創(chuàng)建高質(zhì)量數(shù)據(jù)集的挑戰(zhàn)依然存在。在這項工作中,我們利用主動學習進行多模態(tài)三維物體檢測,填補了研究領(lǐng)域的空白。我們提出了ActiveAnno3D,這是一個主動學習框架,用于選擇標記數(shù)據(jù)樣本,這些樣本對于訓練具有最大的信息量。我們探索了各種連續(xù)訓練方法,并集成了在計算要求和檢測性能方面最高效的方法。此外,我們在nuScenes和TUM交通路口數(shù)據(jù)集上進行了大量實驗和消融研究,使用BEVFusion和PV-RCNN。我們展示了,在僅使用TUM交通路口數(shù)據(jù)集的一半訓練數(shù)據(jù)時(77.25 mAP對比83.50 mAP),PV-RCNN和基于熵的查詢策略幾乎可以達到相同的性能。當使用nuScenes完整數(shù)據(jù)集時,BEVFusion的mAP為64.31,而當使用一半的訓練數(shù)據(jù)集時,mAP為75.0。我們將我們的主動學習框架整合到proAnno標注工具中,以實現(xiàn)AI輔助數(shù)據(jù)選擇和標注,并最大程度地降低標注成本。最后,我們在網(wǎng)站https://active3d-framework.github.io/active3d-framework上提供了代碼、權(quán)重和可視化結(jié)果。

          點評: 通過主動標注和學習的方式,提高了目標檢測的精度和效率。代碼已開源。

          HASSOD: Hierarchical Adaptive Self-Supervised Object Detection(NeurIPS 2023)

          摘要: 人類視覺感知系統(tǒng)展現(xiàn)了在沒有明確監(jiān)督的情況下學習和理解對象的整體構(gòu)成的非凡能力。受到這兩種能力的啟發(fā),我們提出了一種新穎的方法,名為分層自適應(yīng)自監(jiān)督目標檢測(HASSOD),該方法通過自主學習在沒有人類監(jiān)督的情況下學習檢測對象和理解它們的構(gòu)成。HASSOD采用分層自適應(yīng)聚類策略,根據(jù)自主學習的視覺表示將區(qū)域分組為對象掩模,并自適應(yīng)確定每個圖像中的對象數(shù)量。此外,HASSOD通過分析掩模之間的覆蓋關(guān)系并構(gòu)建樹結(jié)構(gòu),確定對象的層次級別,以了解其構(gòu)成。這一額外的自監(jiān)督學習任務(wù)提高了檢測性能,改善了可解釋性。最后,我們放棄了之前方法中使用的低效多輪自我訓練過程,轉(zhuǎn)而采用了半監(jiān)督學習中的MeanTeacher框架,從而實現(xiàn)了更平穩(wěn)、更高效的訓練過程。通過在常見圖像數(shù)據(jù)集上進行大量實驗證明了HASSOD相對于現(xiàn)有方法的卓越性能,從而推動了自監(jiān)督目標檢測領(lǐng)域的發(fā)展。值得注意的是,我們在LVIS上將Mask AR從20.2提升至22.5,在SA-1B上將其從17.0提升至26.0。項目頁面: HASSOD: Hierarchical Adaptive Self-Supervised Object Detection 。

          點評: 通過構(gòu)建層次化的特征表示和自適應(yīng)的學習策略,實現(xiàn)了高效且準確的3D目標檢測。代碼已開源。

          G-NAS: Generalizable Neural Architecture Search for Single Domain Generalization Object Detection(AAAI24)

          摘要: 本文側(cè)重于一個現(xiàn)實且具有挑戰(zhàn)性的任務(wù),即單領(lǐng)域通用目標檢測(S-DGOD),其中只能使用一個源域的數(shù)據(jù)來訓練目標檢測器,但需要推廣到多個不同的目標領(lǐng)域。在S-DGOD中,由于任務(wù)的復(fù)雜性,需要具備高容量擬合和泛化能力??晌⑸窠?jīng)架構(gòu)搜索(NAS)以其高容量適應(yīng)復(fù)雜數(shù)據(jù)的能力而聞名,我們提出利用可微NAS來解決S-DGOD。然而,由于特征不平衡現(xiàn)象,其中由梯度下降優(yōu)化的參數(shù)傾向于學習易于學習的特征,這些特征通常與地面實況標簽無因果相關(guān),例如目標檢測數(shù)據(jù)中的背景特征。因此,這導(dǎo)致嚴重的性能下降,特別是在推廣到源域和目標域之間存在巨大領(lǐng)域差距的未看到的目標領(lǐng)域時。為了解決這個問題,我們提出了通用性損失(G-loss),這是一種Out-of-Distribution感知目標,通過使用梯度下降在易于學習的特征子集以及其余用于泛化的預(yù)測特征上進行參數(shù)優(yōu)化,可以防止NAS過度擬合。我們基于該思想提出了G-NAS整體框架。對S-DGOD城市場景數(shù)據(jù)集的實驗結(jié)果表明,所提出的G-NAS相對于基線方法取得了SOTA性能。代碼可在https://github.com/wufan-cse/G-NAS找到。

          點評: 通過搜索和優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),實現(xiàn)了跨領(lǐng)域的目標檢測,提高了模型的泛化能力和效率。代碼已開源。

          Toward Accurate Camera-based 3D Object Detection via Cascade Depth Estimation and Calibration(ICRA2024)

          摘要: 近期基于攝像頭的三維物體檢測受限于從圖像到三維特征空間的精確轉(zhuǎn)換,以及在三維空間內(nèi)準確定位物體的準確性。本文旨在解決基于攝像頭的三維物體檢測的這一基本問題:如何有效學習深度信息以實現(xiàn)準確的特征提取和物體定位。與以往的直接使用監(jiān)督估計模型來預(yù)測深度分布的方法不同,我們提出了一個由兩種深度感知學習范式組成的級聯(lián)框架。首先,深度估計(DE)方案利用相對深度信息實現(xiàn)了從二維到三維空間的有效特征提取。此外,深度校準(DC)方案引入深度重建,進一步調(diào)整了沿深度軸的三維物體定位擾動。在實踐中,DE通過同時使用絕對深度和相對深度優(yōu)化損失來顯式實現(xiàn),以提高深度預(yù)測的精度,而DC的能力則隱式嵌入到檢測Transformer中,通過訓練階段的深度去噪機制來實現(xiàn)。整個模型訓練通過端到端方式完成。我們提出了一個基準檢測器,并在NuScenes基準測試中實現(xiàn)了+2.2%/+2.7%的NDS/mAP改進,并獲得了55.9%/45.7%的NDS/mAP相當?shù)男阅?。此外,我們進行了大量實驗證明了其在各種檢測器上的普適性,取得了約+2%的NDS改進。

          點評: 通過級聯(lián)深度估計和校準,實現(xiàn)了精確的3D目標檢測。

          ps:承接程序代寫, 小程序編寫  程序應(yīng)用 深度學習 卷積神經(jīng)網(wǎng)絡(luò) pytorch paddlepaddle  數(shù)據(jù)結(jié)構(gòu) 機器學習 目標檢測 圖像處理

          有需要的兄弟們可以在我公眾號留言。

          論文解讀的ppt可以在知識星球獲取:

          我正在「目標檢測er的小圈子」和朋友們討論有趣的話題,你?起來吧?

          https://t.zsxq.com/0cM8tmd4l

          瀏覽 44
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  色婷婷不卡 | 亚洲国产系列 | 午夜福利男女 | 亚洲欧美在线电影 | 2020天天日天天操 |