一文全覽系列 | 自動駕駛感知的多傳感器融合算法綜述

Paper: https://arxiv.org/pdf/2202.02703.pdf
導讀
本文討論了自動駕駛系統(tǒng)感知中的多模態(tài)融合問題。盡管這是一個很重要的任務(wù),但由于原始數(shù)據(jù)的噪聲、信息的未充分利用以及多模態(tài)傳感器的不對齊等問題,達到較高性能并不容易。本文進行了一次文獻綜述,分析了超50篇利用激光雷達和攝像頭等傳感器的論文,試圖解決自動駕駛中的目標檢測和語義分割任務(wù)。與傳統(tǒng)的融合方法不同,我們提出了一種新的分類方法,將融合模型劃分為兩個主類和四個次類,并對當前的融合方法進行了深入的研究,并對未來的研究機會進行了深入探討。 總而言之,我們希望為自動駕駛感知任務(wù)中的多模態(tài)融合方法提供一個新的分類體系,并引發(fā)對未來基于融合技術(shù)的思考。
本文的組織結(jié)構(gòu)如下:
引言:簡要講述了之前文章的融合方法分類固化以及本文提出的新穎分類方法; 感知和任務(wù)比賽:簡要介紹了自動駕駛中的感知任務(wù),包括但不限于目標檢測、語義分割,以及幾個廣泛使用的開放數(shù)據(jù)集和基準; LiDAR 和圖像的表示:總結(jié)了作為下游模型輸入的所有數(shù)據(jù)格式。與圖像部分不同,激光雷達部分的輸入格式可能因為輸入而變化,包括不同的特征設(shè)計和表示; 融合方法:詳細描述了融合方法論,相比傳統(tǒng)方法,這是一種將所有當前工作分為兩個主類和四個次類的創(chuàng)新和清晰的分類體系; 多模態(tài)融合機會:深入分析了一些剩余問題、研究機會和可能的未來工作,關(guān)于自動駕駛中的多模態(tài)傳感器融合,我們可以輕松地感知到一些有見地的嘗試,但仍然有待解決; 總結(jié):對全文內(nèi)容的總結(jié)。
后續(xù)本公眾號將會持續(xù)更新自動駕駛系列文章,詳細介紹自動駕駛相關(guān)的技術(shù)方案實現(xiàn)以及相關(guān)的應(yīng)用,歡迎大家多多關(guān)注!
引言
感知是自動駕駛汽車的基本模塊[1]。該任務(wù)包括但不限于2D/3D目標檢測,語義分割,深度補全和預(yù)測,這些任務(wù)都依賴于安裝在車輛上的傳感器來采樣環(huán)境中的原始數(shù)據(jù)。目前大多數(shù)現(xiàn)有的方法[2]分別對由激光雷達和攝像機捕獲的點云和圖像數(shù)據(jù)進行感知任務(wù),并取得了較好的成果。
然而,單模態(tài)數(shù)據(jù)的感知存在固有的缺陷[3]。例如,攝像機數(shù)據(jù)主要在前視低位捕獲[4]。在更復雜的場景中,物體可能被遮擋,給目標檢測和語義分割帶來嚴峻挑戰(zhàn)。此外,由于機械結(jié)構(gòu)的限制,激光雷達在不同距離上具有不同的分辨率[5],并且容易受到極端天氣(如霧天和大雨)的影響。盡管兩種模態(tài)的數(shù)據(jù)在單獨使用時在各個領(lǐng)域都有優(yōu)秀表現(xiàn),但激光雷達和攝像機的互補性使得它們的結(jié)合可以在感知方面取得更好的性能[6]。
近年來,自動駕駛中感知任務(wù)的多模態(tài)融合方法迅速發(fā)展[7],從更先進的跨模態(tài)特征表示和不同模態(tài)下更可靠的傳感器到更復雜和更強大的深度學習模型以及多模態(tài)融合技術(shù)。然而,只有少數(shù)文獻綜述[8]專注于多模態(tài)融合方法本身的方法論,大多數(shù)文獻遵循將它們分為早期融合、深度融合和后期融合三個主要類別的傳統(tǒng)規(guī)則,關(guān)注深度學習模型中融合特征的階段,無論是在 數(shù)據(jù)級別、特征級別還是對象級別。首先,這樣的分類法不能清楚定義每個層次中的特征表示。其次,它表明激光雷達和攝像機兩個部分在處理過程中始終是對稱的,混淆了在激光雷達部分融合對象級特征和在攝像機部分融合數(shù)據(jù)級特征的情況[9]。綜上所述,傳統(tǒng)的分類法可能直觀但是簡單化,難以總結(jié)越來越多新興的多模態(tài)融合方法,阻礙了研究人員從系統(tǒng)角度研究和分析它們。
本文將對關(guān)于自動駕駛中多模態(tài)傳感器融合論文進行簡要綜述。我們提出了一種新穎的分類方法,將超過50篇相關(guān)論文按照融合階段的角度劃分為兩個主類和四個次類。這項工作的主要貢獻可以總結(jié)如下:
我們提出了一種自動駕駛感知任務(wù)中多模態(tài)融合方法的創(chuàng)新分類體系,包括兩個主類:強融合和弱融合,以及強融合中的四個次類:早期融合,深度融合,后期融合和非對稱融合,這些類別都是通過激光雷達和攝像機的特征表示明確定義的。 我們對激光雷達和攝像機部分的數(shù)據(jù)格式和表示進行了深入研究,討論了它們的不同特征。 我們詳細分析了融合的剩余問題,并介紹了關(guān)于多模態(tài)傳感器融合方法的幾個潛在研究方向,這些可能會啟發(fā)未來的研究工作。
感知任務(wù)和比賽

在這一部分中,我們首先將介紹自動駕駛中常見的感知任務(wù)。此外,我們還要簡要介紹一些廣泛使用的開放基準數(shù)據(jù)集。
多傳感器融合感知任務(wù)
總的來說,自動駕駛感知任務(wù)包括了目標檢測、語義分割、深度補全和預(yù)測等[10]。在此,我們主要關(guān)注前兩項任務(wù)作為最集中的研究領(lǐng)域之一。此外,它們還涵蓋諸如檢測障礙物、交通燈、交通標志等任務(wù),以及車道或可行駛空間的分割。我們還簡要介紹了其余的任務(wù)。自動駕駛感知任務(wù)的概述如圖1所示。
目標檢測
自動駕駛汽車理解周圍環(huán)境是至關(guān)重要的。自動駕駛車輛需要檢測道路上的靜止和移動障礙物以保證安全行駛。目標檢測是傳統(tǒng)的計算機視覺任務(wù),在自動駕駛系統(tǒng)中廣泛使用[11]。研究人員建立了這樣的框架進行障礙物檢測(汽車、行人、騎車人等)、交通燈檢測、交通標志檢測等。
一般來說,目標檢測使用由參數(shù)表示的矩形或立方體來緊密限制預(yù)定義類別的實例,如汽車或行人,需要在定位和分類方面都做到出色。由于缺少深度通道,2D目標檢測通常表示為(,,,,),而3D目標檢測邊界框通常表示為(,,,,,,,)。
語義分割
除了目標檢測之外,許多自動駕駛感知任務(wù)可以被表述為語義分割。例如,空間檢測[12]是許多自動駕駛系統(tǒng)的基本模塊,它將地面像素分類為可行駛和不可行駛部分。一些車道檢測[13]方法也使用多類語義分割掩模來表示道路上的不同車道。
語義分割的本質(zhì)是將輸入數(shù)據(jù)的基本組件,如像素和3D點,聚類到包含特定語義信息的多個區(qū)域。具體來說,語義分割是指給定一組數(shù)據(jù),如圖像像素={,,,}或LiDAR 3D點云={,,,}和一組預(yù)定義的候選標簽={,,,,},我們使用模型為每個像素或點分配選定的k個語義標簽之一或所有的概率。
其他感知任務(wù)
除了上面提到的目標檢測和語義分割之外,自動駕駛感知任務(wù)還包括物體分類、深度補全和預(yù)測。物體分類主要解決了通過模型給出點云和圖像確定類別的問題。深度補全和預(yù)測任務(wù)主要關(guān)注預(yù)測給定LiDAR點云和圖像數(shù)據(jù)的每個像素距離觀察者的距離。盡管這些任務(wù)可能受益于多模態(tài)信息,但在這些領(lǐng)域中并沒有廣泛討論融合模塊。因此,我們在本文中選擇省略這兩個任務(wù)。
盡管本文中沒有涵蓋其他許多感知任務(wù),但大多數(shù)可以視為目標檢測或語義分割的相關(guān)任務(wù)。因此,我們在本文中主要關(guān)注這兩項研究工作。
開放比賽和數(shù)據(jù)集

超過十個數(shù)據(jù)集[14]與自動駕駛感知相關(guān)。然而,只有三個數(shù)據(jù)集常用,包括KITTI、Waymo和nuScenes[15]。在這里,我們在表1中總結(jié)了這些數(shù)據(jù)集的詳細特征。
KITTI開放基準數(shù)據(jù)集是自動駕駛中最常用的目標檢測數(shù)據(jù)集之一,包含2D、3D和鳥瞰視圖檢測任務(wù)。配備四個高分辨率視頻攝像機、一個Velodyne激光掃描儀和一個最先進的定位系統(tǒng),KITTI收集了7481張訓練圖像和7518張測試圖像以及相應(yīng)的點云。其中三種目標被標記為汽車、行人和騎車者,具有超過20萬個3D目標注釋,分為三類:簡單、中等和困難的檢測難度。對于KITTI目標檢測任務(wù),平均精度通常用于模型性能比較。此外,平均方向相似度也用于評估聯(lián)合檢測目標和估計其3D方向的性能。
作為常用于自動駕駛基準的最大開放數(shù)據(jù)集之一,Waymo開放數(shù)據(jù)集由五個LiDAR傳感器和五個高分辨率針孔相機收集。具體來說,有79個場景用于訓練,202個用于驗證,150個場景用于測試。每個場景持續(xù)20秒,注釋在車輛、騎車者和行人中。對于評估3D目標檢測任務(wù),Waymo包括四個指標:AP/L1、APH/L1、AP/L2、APH/L2。更具體地說,AP和APH表示兩種不同的性能測量,而L1和L2包含具有不同檢測難度的對象。至于APH,它與AP類似,但是會經(jīng)過航向精度加權(quán)計算。
NuScenes開放數(shù)據(jù)集包含1000個駕駛場景,其中700個用于訓練,150個用于驗證,150個用于測試。配備了攝像機、LiDAR和雷達傳感器,nuScenes在每個關(guān)鍵幀中注釋了23種目標類別,包括不同類型的車輛、行人和其他。NuScenes使用AP、TP進行檢測性能評估。此外,它提出了一個創(chuàng)新的標量分數(shù)作為nuScenes檢測分數(shù)(NDS),由AP、TP進行計算,分離不同的錯誤類型。
LiDAR 和圖像的表示
本節(jié)主要討論了深度學習模型在處理LiDAR和圖像數(shù)據(jù)時的預(yù)處理操作。首先介紹了LiDAR和圖像數(shù)據(jù)的表示方式,然后討論了數(shù)據(jù)融合的方法和模型。在圖像分支中,大多數(shù)現(xiàn)有方法將原始數(shù)據(jù)的格式保留在下游模塊的輸入中。然而,LiDAR分支高度依賴數(shù)據(jù)格式,這強調(diào)了不同的特征并且對下游模型設(shè)計有重大影響。因此,本文總結(jié)了三種點云數(shù)據(jù)格式:基于點、基于體素和基于2D映射,它們適用于不同的深度學習模型。
圖像表示
在2D或3D物體檢測和語義分割任務(wù)中,單目攝像機是最常用的數(shù)據(jù)采集傳感器,它提供了豐富的紋理信息,對于每個圖像像素,它具有多個通道的特征向量={, , , ...},通常包含紅色,藍色,綠色通道或其他手動設(shè)計的特征,如灰度通道。
然而,直接在3D空間中檢測物體是非常具有挑戰(zhàn)性的,因為深度信息有限,很難由單目攝像機提取。因此,許多工作使用雙目或立體攝像機系統(tǒng)通過空間和時間空間來利用額外的3D物體檢測信息,如深度估計,光流等。對于極端駕駛環(huán)境,如晚上或霧天,一些工作還使用紅外攝像機來提高魯棒性。
基于點的點云表示
對于3D感知傳感器,LiDAR使用激光系統(tǒng)掃描環(huán)境并生成點云。它在世界坐標系中采樣點,表示激光射線和不透明表面的交點。一般來說,大多數(shù)LiDAR的原始數(shù)據(jù)是四元數(shù)格式,其中表示每個點的反射率。不同的紋理導致不同的反射率,這能為模型提供了額外的信息。
為了整合LiDAR數(shù)據(jù),一些方法直接使用點進行特征提取[16]。然而,點的四元數(shù)表示存在冗余或速度缺陷。因此,許多研究人員[17]試圖將點云轉(zhuǎn)換為體素或2D投影,然后將其饋送到下游模塊中。
基于體素的點云表示
一些工作通過將3D空間離散化為3D體素來使用3D CNN,表示為={,,...},其中每個表示一個特征向量={,}。表示體素化立方體的中心,而表示基于統(tǒng)計的局部信息。
局部密度是一種常用的特征,它由局部體素中的3D點的數(shù)量定義[18]。局部偏移通常定義為點的實際坐標和局部體素中心之間的偏移。還有一些其他特征包括局部線性和局部曲率[19]。
最近的工作可能考慮更合理的離散化方式,如基于圓柱體的體素化,但與上面提到的基于點的點云表示不同,基于體素的點云表示顯著減少了非結(jié)構(gòu)化點云的冗余[20]。此外,能夠使用3D稀疏卷積技術(shù),感知任務(wù)不僅可以獲得更快的訓練速度,而且可以獲得更高的準確性。
基于2D映射的點云表示
有些工作不是提出新的網(wǎng)絡(luò)結(jié)構(gòu),而是利用復雜的2D CNN骨干來編碼點云。具體來說,他們試圖將LiDAR數(shù)據(jù)投影到圖像空間中,作為兩種常見類型,包括相機平面圖(CPM)和鳥瞰圖(BEV)[21]。
CPM可以通過外參標定來獲得,將每個3D點投影到相機坐標系中。由于CPM具有與相機圖像相同的格式,它們可以自然地融合,使用CPM作為額外通道。然而,由于投影后LiDAR的分辨率較低,CPM中許多像素的特征已經(jīng)損壞。因此,已經(jīng)提出了一些方法來上采樣特征圖,而其他方法則采用留空的方式[22]。
與直接將LiDAR信息投影到前視圖圖像空間的CPM不同,BEV映射提供了場景的俯視圖。它被檢測和定位任務(wù)使用的原因有兩點。首先,與安裝在擋風玻璃后面的相機不同,大多數(shù)LiDAR都在車頂上,遮擋較少。其次,在BEV中,所有物體都放在地面上,模型可以在不扭曲長度和寬度的情況下生成預(yù)測。BEV組件可能會不一致,一些是直接從高度,密度或強度轉(zhuǎn)換為基于點或基于體素的特征[23],而其他則通過特征提取器模塊在柱子中學習LiDAR信息的特征。
融合方法

在本節(jié)中,我們將回顧LiDAR-相機數(shù)據(jù)融合的不同方法。從傳統(tǒng)分類的角度來看,所有多模態(tài)數(shù)據(jù)融合方法都可以方便地分為三種范式,包括數(shù)據(jù)級融合(早期融合),特征級融合(深度融合)和對象級融合(后期融合)。
數(shù)據(jù)級融合或早期融合方法通過空間對齊直接融合不同模態(tài)的原始傳感器數(shù)據(jù)。特征級融合或深度融合方法通過連接或元素逐位乘法在特征空間中混合跨模態(tài)數(shù)據(jù)。對象級融合方法結(jié)合每種模態(tài)中模型的預(yù)測結(jié)果并做出最終決策。
然而,最近的工作[24]不能輕易地歸類為這三類。因此,本文提出了一種新的分類法,將所有融合方法劃分為強融合和弱融合,我們將在詳細闡述。我們在圖2中展示了它們之間的關(guān)系。
對于性能比較,我們主要關(guān)注KITTI基準中的兩個主要任務(wù),即3D檢測和鳥瞰圖目標檢測。表2和表3分別在KITTI測試數(shù)據(jù)集的BEV和3D設(shè)置上呈現(xiàn)了最近多模態(tài)融合方法的實驗結(jié)果。


強融合

我們將強融合劃分為四類,即早期融合、深度融合、后期融合和非對稱融合,通過LiDAR和相機數(shù)據(jù)表示的不同組合階段。作為最研究的融合方法,強融合在近年來取得了許多杰出成就[25]。從圖3中的概述可以很容易地發(fā)現(xiàn),強融合中的每個次類高度依賴于LiDAR點云,而不是相機數(shù)據(jù)。接下來我們將進行具體討論。
早期融合

與數(shù)據(jù)級融合的傳統(tǒng)定義不同,早期融合是一種在每種模態(tài)中通過空間對齊和投影直接融合數(shù)據(jù)的方法,早期融合在數(shù)據(jù)級別融合LiDAR數(shù)據(jù)和在數(shù)據(jù)級別或特征級別融合相機數(shù)據(jù)。早期融合示意圖如圖4所示。
在上述LiDAR分支中,點云可以以反射率為3D點、體素化張量、前視圖/距離視圖/鳥瞰圖、以及偽點云的形式使用。盡管這些數(shù)據(jù)具有不同的固有特征,這些特征與后面的LiDAR后端高度相關(guān),但這些數(shù)據(jù)大多通過基于規(guī)則的處理而生成,除了偽點云[26]。此外,這些LiDAR數(shù)據(jù)表示形式都可以直接可視化,因為在此階段的數(shù)據(jù)仍然具有可解釋性。
對于圖像路徑,嚴格的數(shù)據(jù)級定義應(yīng)該僅包含RGB或灰度數(shù)據(jù),其缺乏普適性和合理性。與早期融合的傳統(tǒng)定義相比,我們在此將相機數(shù)據(jù)擴大到數(shù)據(jù)級和特征級數(shù)據(jù)。值得注意的是,我們將圖像分支中的語義分割任務(wù)結(jié)果作為特征級表示,因為這些“對象級”特征與整個任務(wù)的最終對象級不同。
PI-RCNN[27]將圖像分支中的語義特征與原始LiDAR點云融合在一起,其在目標檢測任務(wù)中獲得了更好的性能。Complexer-yolo[28]和SegVoxelNet[29]也利用語義特征,但與上述方法不同,它將原始LiDAR點云預(yù)處理為體素化張量,以進一步利用更先進的LiDAR后端信息。Sensor Fusion[30]將3D LiDAR點云轉(zhuǎn)換為2D圖像,并在圖像分支中融合特征級表示,利用成熟的CNN技術(shù)實現(xiàn)更好的性能。Fast and Accurate 3D Object Detection[31]將原始RGB像素與體素化張量融合在一起,而Kda3d[26]則將從圖像分支生成的偽點云與LiDAR分支中的原始點云直接組合在一起,完成目標檢測任務(wù)。
基于VoxelNet的MVX-Net[32]提出了一種點融合方法,該方法直接將對應(yīng)像素的圖像特征向量附加到體素化向量上。PointFusion[33]提出了密集融合,即將每個原始點與圖像分支中的全局特征相附加。Multimodal CNN Pedestrian Classification[34]專注于使用CNN進行2D行人檢測。作為早期融合,它在輸入CNN之前直接融合不同分支。MAFF-Net[35]提出了一種名為點關(guān)注融合的融合方法,該方法將圖像特征融合到LiDAR點云中的體素化張量中。
深度融合

深度融合方法在LiDAR分支的特征層級上融合跨模態(tài)數(shù)據(jù),但對圖像分支進行數(shù)據(jù)層級和特征層級融合。例如,一些方法使用特征提取器分別獲取LiDAR點云和相機圖像的嵌入(embedding)表示,并通過一系列下游模塊融合兩種模態(tài)的特征[36]。然而,與其他強融合方法不同,深度融合有時以級聯(lián)方式融合特征[37],其既利用原始信息,又利用高層語義信息。深度融合示意圖如圖5所示。
Pointfusion[33]提出了全局融合,將全局LiDAR特征與圖像分支中的全局特征進行像素級相加。MVX-Net[32]提出了體素融合方法,該方法將ROI池化圖像特征向量附加到LiDAR點云中每個體素的密集特征向量。MAFF-Net[35]提出了另一種名為密集關(guān)注融合的方法,該方法融合了多個分支的偽圖像。SCANet[38]提出了兩種深度融合方法。EPNet[36]是一種深度LIDAR-Image融合,估算相應(yīng)圖像特征的重要性以減少噪聲影響。[3]展示了一種極端天氣中的多模態(tài)數(shù)據(jù)集,并以深度融合的方式融合了每個分支,大大提高了自動駕駛模型的魯棒性。
后期融合

后期融合,也叫對象級融合,指的是融合每種模態(tài)管道結(jié)果的方法。例如,一些后期融合方法利用LiDAR點云分支和相機圖像分支的輸出,并基于兩種模態(tài)的結(jié)果進行最終預(yù)測[39]。注意,這兩個分支建議應(yīng)該具有與最終結(jié)果相同的數(shù)據(jù)格式,但質(zhì)量、數(shù)量和精度不同。后期融合可以被視為一種集成方法,利用多模態(tài)信息來優(yōu)化最終結(jié)果。后期融合示意圖如圖6所示。如上所述,[39]利用后期融合來第二次細化每個3D區(qū)域提議的分數(shù),結(jié)合圖像分支中的2D提議和LiDAR分支中的3D提議。此外,對于每個重疊區(qū)域,它使用了置信度分數(shù)、距離和IoU等統(tǒng)計特征進行去重。Multimodal vehicle detection[40]專注于2D目標檢測,通過結(jié)合了兩個分支的提議,以及置信度分數(shù)等特征,模型輸出最終的IoU分數(shù)。Road Detection through CRF[41]、multi-modal crf model[42]通過結(jié)合分割結(jié)果來解決道路檢測問題。如[34]中的后期融合,它將同一3D檢測提議的不同分支的分數(shù)計算出一個最終分數(shù)。
非對稱融合

除了早期融合、深度融合和后期融合之外,一些方法用不同的方式來處理跨模態(tài)分支,因此我們定義了從一個分支融合對象級信息,而從其他分支融合數(shù)據(jù)級或特征級信息的不對稱融合方法。與強融合中的其他方法不同,非對稱融合中至少有一個分支占主導地位,而其他分支提供輔助信息來進行最終任務(wù)。非對稱融合示意圖如圖7所示。特別是與后期融合相比,盡管它們可能使用[39]提取相同的特征,但非對稱融合只有一個分支的提議,而后期融合有所有分支的提議。
這種融合方法是合理的,因為使用卷積神經(jīng)網(wǎng)絡(luò)在相機數(shù)據(jù)上的表現(xiàn)非常出色,它能在點云中過濾語義上無用的點,并在錐體視角下提升3D LiDAR主干的性能,如[9]。它提取原始點云中的錐體,并配合相應(yīng)的像素RGB信息輸出3D邊界框的參數(shù)。然而,一些工作另辟蹊徑,使用LiDAR主干來指導多視圖風格的2D主干,并獲得更高的精度。virtual multi-view synthesis[43]專注于基于3D檢測提議提取的多視圖圖像的行人檢測,進一步使用CNN來細化先前的提議。[23]和MLOD[44]使用其他分支中的ROI特征來細化僅由LiDAR分支預(yù)測的3D提議。Pose-rcnn[45]專注于2D檢測,利用LiDAR分支中的3D區(qū)域提議,并重新投影到2D提議,再結(jié)合圖像特征進行進一步細化。3D Object Proposals using Stereo Imagery[46]通過統(tǒng)計和基于規(guī)則的信息提出3D潛在邊界框。結(jié)合圖像特征,它輸出最終的3D提議。LiDAR guided model[47]專注于小物體檢測,通過特別收集的數(shù)據(jù)集實現(xiàn),它本質(zhì)上是一個2D語義分割任務(wù),結(jié)合LiDAR的提議和原始RGB圖像來輸出最終結(jié)果。
弱融合

與強融合不同,弱融合方法不能直接從多模態(tài)分支中融合數(shù)據(jù)/特征/對象,而是以其他方式操作數(shù)據(jù)?;谌跞诤系姆椒ㄍǔJ褂没谝?guī)則的方法來利用一種模態(tài)的數(shù)據(jù)作為監(jiān)督信號來指導另一種模態(tài)的交互。圖8展示了弱融合模式的基本框架。例如,圖像分支中CNN的2D提議可能導致原始LiDAR點云中的出現(xiàn)錐體。然而,與上面提到的非對稱融合結(jié)合圖像特征不同,弱融合直接將這些選定的原始LiDAR點云輸入到LiDAR主干中輸出最終結(jié)果[48]。
其他弱融合方法[49]在每次僅選擇兩個分支中的一個模型來預(yù)測最終結(jié)果,然后使用強化學習策略來優(yōu)化2D目標的實時檢測性能。在General Pipeline[50]中,通過圖像分支中的2D檢測提議生成多個3D框提議,然后模型輸出具有檢測分數(shù)的最終3D檢測框。RoarNet[51]使用圖像預(yù)測2D邊界框和3D姿態(tài)參數(shù),并進一步使用對應(yīng)區(qū)域中的LiDAR點云進行細化。
其他融合方法
有些工作不能簡單地被定義為上面提到的融合類型,因為它們在整個模型框架中擁有多種融合方法,如深度融合和后期融合的結(jié)合[22],而[[25]]]()則將早期融合和深度融合結(jié)合在一起。這些方法在模型設(shè)計視圖上存在冗余,這不是融合模塊的主流。
多模態(tài)融合的機會
自動駕駛中感知任務(wù)的多模態(tài)融合方法近年來取得了快速的進展,從更高級的特征表示到更復雜的深度學習模型[7,8]。然而,仍有一些問題需要解決。我們在這里概括了未來要做的一些關(guān)鍵和必要的工作,分為以下幾個方面。
更多的先進融合方法
目前的融合模型存在對齊問題和信息丟失問題[52]。此外,平面融合操作[53]也阻礙了感知任務(wù)性能的進一步提高。我們將它們歸納為兩個方面:像素不對齊和信息丟失,更合理的融合操作。
像素不對齊和信息丟失
相機和激光雷達的本質(zhì)和外在是截然不同的。兩種模態(tài)的數(shù)據(jù)都需要在新的坐標系下重新組織。傳統(tǒng)的早期和深度融合方法使用外在校準矩陣將所有激光雷達點直接投影到對應(yīng)的像素或反之[6],[30],[32]。然而,由于傳感器噪聲,這種像素的對齊并不夠準確。因此,可以看出,除了這種嚴格對應(yīng)關(guān)系之外,一些利用周圍信息作為補充的工作[27]可以取得更好的性能。
此外,在輸入和特征空間轉(zhuǎn)換過程中還存在一些其他信息丟失。通常,維度降維操作將不可避免地導致大量信息丟失,例如,將3D激光雷達點云映射到2D BEV圖像。因此,通過將兩種模態(tài)數(shù)據(jù)映射到專門設(shè)計用于融合的高維表示中,未來的工作可以在信息損失較少的情況下有效地利用原始數(shù)據(jù)。
更多合理的融合操作
目前的研究工作使用直觀的方法融合跨模態(tài)數(shù)據(jù),如連接和元素對元素相乘[32],[25]。這些簡單的操作可能無法將具有大分布差異的數(shù)據(jù)融合起來,并因此難以縮小兩種模態(tài)之間的語義差距。一些工作試圖使用更加精心設(shè)計的級聯(lián)結(jié)構(gòu)來融合數(shù)據(jù)并提高性能[23,37]。在未來的研究中可以加大探索能融合具有不同特性的特征,如雙線性映射[54]等機制。
多源信息利用
前視圖單幀是自動駕駛感知任務(wù)的典型場景。然而,大多數(shù)框架在沒有經(jīng)過精心設(shè)計的輔助任務(wù)的情況下利用有限信息,以進一步理解駕駛場景。我們將它們歸納為更多潛在有用信息和自監(jiān)督表示學習。
更多潛在有用信息
現(xiàn)有的方法[8]缺乏有效地使用來自多維度和多源的信息。其中大多數(shù)關(guān)注前視圖多模態(tài)數(shù)據(jù)的單幀。因此其他有意義的信息沒有得到充分利用,如語義,空間和場景上下文信息。
一些模型[6,27,53]嘗試使用從圖像語義分割任務(wù)中獲得的結(jié)果作為附加特征,而其他模型可能利用神經(jīng)網(wǎng)絡(luò)主干的中間層特征[37]。在自動駕駛場景中,許多顯式語義信息的下游任務(wù)可顯著提高目標檢測任務(wù)的性能。例如,車道檢測可以直觀地為檢測車道間的車輛提供額外幫助,語義分割結(jié)果可以提高目標檢測性能[6,27,53]。
因此,未來的研究可以通過各種下游任務(wù)(如檢測車道,交通燈和標志)共同構(gòu)建城市場景語義理解框架,以提升感知任務(wù)性能。
此外,當前的感知任務(wù)主要依賴于單幀,忽略了時間信息。最近基于LiDAR的方法Offboard 3d[55]結(jié)合了一系列幀來提高性能。時間序列信息包含序列化的監(jiān)督信號,可以提供比使用單幀的方法更穩(wěn)健的結(jié)果。
因此,未來的工作可能會更深入地利用時間、上下文和空間信息來對連續(xù)幀進行創(chuàng)新的模型設(shè)計。
自監(jiān)督表示學習
互相監(jiān)督的信號在從同一實際場景中采樣的跨模態(tài)數(shù)據(jù)之間自然存在,但視角不同。然而,目前的方法無法挖掘每種模態(tài)之間的相關(guān)性,缺乏對數(shù)據(jù)的深入理解。在未來,研究可以集中在如何使用多模態(tài)數(shù)據(jù)進行自我監(jiān)督學習,包括預(yù)訓練,微調(diào)或?qū)Ρ葘W習。通過實施這些最先進的機制,融合模型將能對數(shù)據(jù)有更深入理解,并取得更好的結(jié)果,這在其他領(lǐng)域已經(jīng)顯示出一些有前途的跡象,在自動駕駛感知中則是一片空白[56]。
感知傳感器中的內(nèi)在問題
域偏差和分辨率與真實世界場景和傳感器高度相關(guān)。這些意想不到的缺陷阻礙了自動駕駛深度學習模型的大規(guī)模訓練和實施,需要在未來工作中解決。
數(shù)據(jù)域偏差
在自動駕駛感知場景中,不同傳感器提取的原始數(shù)據(jù)伴隨著嚴重的域相關(guān)特征。不同的攝像系統(tǒng)有它們的光學性質(zhì),而LiDAR可能因機械LiDAR到固態(tài)LiDAR而不同。更重要的是,數(shù)據(jù)本身可能存在域偏差,如天氣,季節(jié)或位置,即使它是由同一傳感器捕獲的。結(jié)果,檢測模型無法平穩(wěn)地適應(yīng)新場景。這些缺陷阻止了大規(guī)模數(shù)據(jù)集的收集和原始訓練數(shù)據(jù)的可重用性。因此,在未來工作中找到消除域偏差并自適應(yīng)地集成不同數(shù)據(jù)源的方法是至關(guān)重要的。
數(shù)據(jù)分辨率的沖突
不同形態(tài)的傳感器通常具有不同的分辨率[57]。例如,LiDAR的空間密度明顯低于圖像。由于無法找出完美的對應(yīng)關(guān)系,因此無論采用哪種投影方法,都會丟失一些信息。這可能導致模型被特定模態(tài)的數(shù)據(jù)所主導,無論是由于特征向量的不同分辨率還是原始信息的不平衡。因此,未來的工作可以探索一種與不同空間分辨率傳感器兼容的新數(shù)據(jù)表示系統(tǒng)。
總結(jié)
在本文中,我們回顧了50多篇有關(guān)自動駕駛感知任務(wù)的多模態(tài)傳感器融合的相關(guān)論文。具體來說,我們首先提出了一種從融合角度更合理的分類方式來對這些論文進行分類。然后我們對LiDAR和相機的數(shù)據(jù)格式和表示進行了深入的分析,并描述了它們不同的特點。最后,我們對多模態(tài)傳感器融合的剩余問題進行了詳細分析,并介紹了幾種新的可能方向,這可能會啟發(fā)未來的研究工作。
References
the kitti vision benchmark suite: https://ieeexplore.ieee.org/document/6248074
[2]Deep learning for lidar point clouds in autonomous driving: https://ieeexplore.ieee.org/document/9173706
[3]Deep multimodal sensor fusion in unseen adverse weather: https://arxiv.org/abs/1902.08913
[4]3D-CVF: https://arxiv.org/abs/2004.12636
[5]X-view: https://arxiv.org/abs/2103.13001
[6]PointPainting: https://arxiv.org/abs/1911.10150
[7]Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: https://arxiv.org/abs/2004.05224
[8]Multi-Modal 3D Object Detection in Autonomous Driving: https://arxiv.org/abs/2106.12735
[9]3D Object Detection Using Scale Invariant and Feature Reweighting Networks: https://arxiv.org/abs/1901.02237
[10]Waymo Open Dataset: https://arxiv.org/abs/1912.04838
[11]PointNet: https://arxiv.org/abs/1612.00593
[12]An Integrated Framework for Autonomous Driving: https://ieeexplore.ieee.org/document/8904020
[13]Road curb and lanes detection for autonomous driving on urban scenarios: https://ieeexplore.ieee.org/document/6957993
[14]Argoverse: 3D Tracking and Forecasting with Rich Maps: https://arxiv.org/abs/1911.02620
[15]nuScenes: A multimodal dataset for autonomous driving: https://arxiv.org/abs/1903.11027
[16]PointNet++: https://arxiv.org/abs/1706.02413
[17]Voxel R-CNN: https://arxiv.org/abs/2012.15712
[18]Fast ground filtering for TLS data via Scanline Density Analysis: https://www.sciencedirect.com/science/article/abs/pii/S0924271616306086
[19]Point cloud library: https://pointclouds.org/assets/pdf/pcl_icra2011.pdf
[20]PointPillars: https://arxiv.org/abs/1812.05784
[21]PIXOR: https://arxiv.org/abs/1902.06326
[22]Joint 3D Proposal Generation and Object Detection from View Aggregation: https://arxiv.org/abs/1712.02294
[23]Multi-View 3D Object Detection Network for Autonomous Driving: https://arxiv.org/abs/1611.07759
[24]Faraway-Frustum: https://arxiv.org/abs/2011.01404
[25]PointAugmenting: https://vision.sjtu.edu.cn/files/cvpr21_pointaugmenting.pdf
[26]Key-Point Densification and Multi-Attention Guidance for 3D Object Detection: https://www.mdpi.com/2072-4292/12/11/1895
[27]PI-RCNN: https://arxiv.org/abs/1911.06084
[28]Complexer-yolo: https://arxiv.org/abs/1904.07537
[29]SegVoxelNet: https://arxiv.org/abs/2002.05316
[30]Sensor Fusion for Joint 3D Object Detection and Semantic Segmentation: https://arxiv.org/abs/1904.11466
[31]Fast and Accurate 3D Object Detection for Lidar-Camera-Based Autonomous Vehicles Using One Shared Voxel-Based Backbone: https://ieeexplore.ieee.org/document/9340187
[32]MVX-Net: https://arxiv.org/abs/1904.01649
[33]PointFusion: https://arxiv.org/abs/1711.10871
[34]Multimodal CNN Pedestrian Classification: https://ieeexplore.ieee.org/document/8569666
[35]MAFF-Net: https://arxiv.org/abs/2009.10945
[36]EPNet: https://arxiv.org/abs/2007.08856
[37]Deep Continuous Fusion for Multi-Sensor 3D Object Detection: https://arxiv.org/abs/2012.10992
[38]SCANet: https://ieeexplore.ieee.org/document/8682746
[39]CLOCs: https://arxiv.org/abs/2009.00784
[40]Multimodal vehicle detection: https://www.sciencedirect.com/science/article/abs/pii/S0167865517303598
[41]Road Detection through CRF based LiDAR-Camera Fusion: https://ieeexplore.ieee.org/document/8793585
[42]Integrating Dense LiDAR-Camera Road Detection Maps by a Multi-Modal CRF Model: https://ieeexplore.ieee.org/document/8861386
[43]Improving 3D Object Detection for Pedestrians with Virtual Multi-View Synthesis Orientation Estimation: https://arxiv.org/abs/1907.06777
[44]MLOD: https://arxiv.org/pdf/1909.04163.pdf
[45]Pose-rcnn: https://ieeexplore.ieee.org/document/7795763
[46]3D Object Proposals using Stereo Imagery for Accurate Object Class Detection: https://arxiv.org/abs/1608.07711
[47]LiDAR guided Small obstacle Segmentation: https://arxiv.org/abs/2003.05970
[48]Frustum PointNets: https://arxiv.org/abs/1711.08488
[49]Modality-Buffet for Real-Time Object Detection: https://arxiv.org/abs/2011.08726
[50]A General Pipeline for 3D Detection of Vehicles: https://arxiv.org/abs/1803.00387
[51]RoarNet: https://arxiv.org/abs/1811.03818
[52]Cross-modal Matching CNN for Autonomous Driving Sensor Data Monitoring: https://ieeexplore.ieee.org/document/9607579
[53]SEG-VoxelNet: https://ieeexplore.ieee.org/document/8793492
[54]MUTAN: https://arxiv.org/abs/1705.06676
[55]Offboard 3D Object Detection from Point Cloud Sequences: https://arxiv.org/abs/2103.05073
[56]P4Contrast: https://arxiv.org/abs/2012.13089
[57]Domain Transfer for Semantic Segmentation of LiDAR Data using Deep Neural Networks: https://ieeexplore.ieee.org/document/9341508

掃碼加入??「集智書童」交流群
(備注:方向+學校/公司+昵稱)




前沿AI視覺感知全棧知識??「分類、檢測、分割、關(guān)鍵點、車道線檢測、3D視覺(分割、檢測)、多模態(tài)、目標跟蹤、NerF」
歡迎掃描上方二維碼,加入「集智書童-知識星球」,日常分享論文、學習筆記、問題解決方案、部署方案以及全棧式答疑,期待交流!
