<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          自動(dòng)駕駛高效感知技術(shù)解讀 | 酷炫!代碼已開源!

          共 8170字,需瀏覽 17分鐘

           ·

          2021-12-29 11:10


          大家好,我是阿潘,今天和大家分享近年來(lái)特別火的自動(dòng)駕駛,分享其中應(yīng)用的技術(shù),部分代碼已開源!可以去試試哈


          12 月?24 日,一段全無(wú)人自動(dòng)駕駛“夜間” Demo 再一次讓網(wǎng)友驚艷到,這里簡(jiǎn)單描述一下視頻內(nèi)容:一輛無(wú)人的士在城市晚高峰時(shí)段完成三個(gè)訂單,實(shí)現(xiàn)了自動(dòng)躲避外賣小哥、火車站送客、禮讓行人等復(fù)雜操作。技術(shù)的背后體現(xiàn)了“輕、快、高效”的研發(fā)理念。


          本文介紹輕舟智航在自動(dòng)駕駛感知技術(shù)研發(fā)方面的最新探索和實(shí)踐。輕舟智航的感知技術(shù)研發(fā)聚焦方法的快捷、高效,從數(shù)據(jù)高效和模型高效兩個(gè)維度為出發(fā),提出了一系列既具有前瞻性又具有工程落地可行性的解決方案。本文結(jié)合全景分割,單目深度估計(jì),點(diǎn)云的運(yùn)動(dòng)估計(jì),紅綠燈識(shí)別和基于點(diǎn)云的 3D 物體跟蹤等典型感知任務(wù),對(duì)輕舟智航的高效感知技術(shù)進(jìn)行分析和解讀。



          1. 數(shù)據(jù)高效

          據(jù)統(tǒng)計(jì),一輛搭載相機(jī)、激光雷達(dá)、毫米波等多種傳感器的無(wú)人駕駛車輛每天大約會(huì)產(chǎn)生 4TB 數(shù)據(jù),這些數(shù)據(jù)只有不到 5% 的數(shù)據(jù)用于開發(fā),而最終能用作標(biāo)注進(jìn)行模型訓(xùn)練的則更少。數(shù)據(jù)高效主要解決的是如何充分挖掘和利用海量的無(wú)標(biāo)注數(shù)據(jù)用來(lái)開發(fā)感知模型。



          上圖所示的是幾種典型的感知任務(wù)的標(biāo)注數(shù)據(jù)。(a)展示的是圖像的全景分割,需要進(jìn)行逐像素的標(biāo)注,標(biāo)注非常耗時(shí);(b)是 3D 點(diǎn)云的目標(biāo)檢測(cè)框標(biāo)注,標(biāo)注難度大且容易出錯(cuò);(c)所示的是通過(guò)單目相機(jī)或者是多幀進(jìn)行逐像素的深度估計(jì)或者光流估計(jì),這種任務(wù)幾乎無(wú)法進(jìn)行人工標(biāo)注;(d)展示的是感知任務(wù)的數(shù)據(jù)分布,是一個(gè)典型的長(zhǎng)尾分布。真正有價(jià)值的數(shù)據(jù),往往集中在分布的尾部,發(fā)現(xiàn)并標(biāo)注這樣的數(shù)據(jù)非常困難,因此傳統(tǒng)的人工標(biāo)注的效率實(shí)際上是比較低的。為了解決數(shù)據(jù)高效的問(wèn)題,輕舟智航的研究團(tuán)隊(duì)從半監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)和數(shù)據(jù)合成等方法出發(fā),針對(duì)具體的感知任務(wù)提出了一系列解決方案。


          Case 1:基于半監(jiān)督學(xué)習(xí)的全景分割




          在計(jì)算機(jī)視覺(jué)中,圖像語(yǔ)義分割(semantic segmentation)的任務(wù)是預(yù)測(cè)每個(gè)像素點(diǎn)的語(yǔ)義類別;實(shí)例分割(instance segmentation)的任務(wù)是預(yù)測(cè)每個(gè)實(shí)例物體包含的像素區(qū)域。全景分割的任務(wù)是為圖像中每個(gè)像素點(diǎn)賦予類別標(biāo)簽和實(shí)例索引,生成全局的、統(tǒng)一的分割圖像。


          全景分割任務(wù)可以分解為兩個(gè)模塊,即語(yǔ)義分割和實(shí)例分割。由于需要逐像素的標(biāo)簽,標(biāo)注難度和成本非常大。利用半監(jiān)督學(xué)習(xí)可以結(jié)合部分的標(biāo)注數(shù)據(jù)和大量的無(wú)標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練模型,是解決全景分割數(shù)據(jù)利用效率的一個(gè)可行的方案。


          具體來(lái)說(shuō),可以從三個(gè)方面入手解決。第一個(gè)方面是空間維度的半監(jiān)督學(xué)習(xí),即在一幀圖像中,只標(biāo)注部分實(shí)例,其它的部分通過(guò)算法來(lái)挖掘。另一個(gè)方面是時(shí)間維度的半監(jiān)督學(xué)習(xí),利用視頻數(shù)據(jù)的連續(xù)性,相鄰幀之間變化的區(qū)域比較小,只標(biāo)注關(guān)鍵幀,借助偽標(biāo)簽等半監(jiān)督學(xué)習(xí)技術(shù)可以節(jié)省大量的標(biāo)注工作量。第三個(gè)方面是從多傳感器融合的角度出發(fā),比如將點(diǎn)云中標(biāo)注的點(diǎn)投影到圖像,可以生成圖像中的標(biāo)注。這三種方式可以結(jié)合起來(lái),最終提高全景分割模型的性能。


          下圖所示的是訓(xùn)練得到的模型在測(cè)試圖像上的預(yù)測(cè)結(jié)果(上:語(yǔ)義分割,下:全景分割),可以看到通過(guò)半監(jiān)督學(xué)習(xí)得到的模型獲得了非常好的表現(xiàn)。



          Case 2:基于自監(jiān)督學(xué)習(xí)的單目深度估計(jì)


          單目深度估計(jì)是指從單個(gè)相機(jī)獲取的圖像中估計(jì)出每一個(gè)像素的深度信息。由于真實(shí)世界圖像的深度信息標(biāo)注非常困難,目前很多方法都借助自監(jiān)督學(xué)習(xí)來(lái)解決。


          下圖左側(cè)所示是一種經(jīng)典的自監(jiān)督單目深度估計(jì)模型。其輸入包括前后兩幀圖像,即目標(biāo)圖像,和取自目標(biāo)圖像相鄰幀的源圖像。該模型包含兩個(gè)網(wǎng)絡(luò),其中 depth 網(wǎng)絡(luò)從目標(biāo)圖像估計(jì)每個(gè)像素的深度,pose 網(wǎng)絡(luò)的輸入為目標(biāo)和源圖像,輸出兩個(gè)圖像之間的 6 自由度(6-DoF)位姿變換。源圖像根據(jù)估計(jì)的位姿以及深度信息可以合成一個(gè)新的目標(biāo)圖像,通過(guò)計(jì)算目標(biāo)圖像與合成圖像之間的光度誤差(photometric loss)可以得到自監(jiān)督學(xué)習(xí)的損失函數(shù)。



          上述模型假設(shè)場(chǎng)景是靜態(tài)的,但是自動(dòng)駕駛場(chǎng)景中有大量的運(yùn)動(dòng)物體,在這種情況下,上述模型的性能會(huì)有顯著下降。研究團(tuán)隊(duì)提出新的混合位姿模型,充分考慮每一個(gè)運(yùn)動(dòng)物體的位置姿態(tài)信息,從而大幅改善了對(duì)動(dòng)目標(biāo)場(chǎng)景的深度估計(jì)。



          上圖所示為單目深度估計(jì)的實(shí)驗(yàn)對(duì)比,其中 PackNet 是 CVPR'20?提出的深度估計(jì)模型,可以看到研究團(tuán)隊(duì)設(shè)計(jì)的模型相比該模型有明顯性能提高,尤其是對(duì)運(yùn)動(dòng)目標(biāo)的深度估計(jì)。PackNet 對(duì)上圖中運(yùn)動(dòng)的黑車和白車深度估計(jì)不準(zhǔn)確,將其估計(jì)為無(wú)窮遠(yuǎn)點(diǎn),而輕舟智航研究團(tuán)隊(duì)提出的方法很好地克服了這一問(wèn)題。


          Case 3:基于自監(jiān)督學(xué)習(xí)的點(diǎn)云運(yùn)動(dòng)估計(jì)


          對(duì)于自動(dòng)駕駛來(lái)說(shuō),動(dòng)態(tài)場(chǎng)景中目標(biāo)的運(yùn)動(dòng)狀態(tài)估計(jì)是一個(gè)非常重要的任務(wù),運(yùn)動(dòng)估計(jì)可以影響檢測(cè)、跟蹤、預(yù)測(cè)、規(guī)劃等多個(gè)模塊,進(jìn)而影響整個(gè)自動(dòng)駕駛系統(tǒng)的安全性和穩(wěn)定性?,F(xiàn)有的運(yùn)動(dòng)估計(jì)方法通常需要收集大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,然而人工標(biāo)注點(diǎn)云數(shù)據(jù)是一個(gè)非常困難,耗時(shí)的工作,標(biāo)注成本高且容易出錯(cuò)。如何高效利用海量的無(wú)標(biāo)注的數(shù)據(jù)來(lái)訓(xùn)練點(diǎn)云運(yùn)動(dòng)估計(jì)模型是學(xué)術(shù)界和工業(yè)界亟待解決的難題。


          為了解決這個(gè)難題,輕舟智航創(chuàng)新性地提出了一種用于點(diǎn)云運(yùn)動(dòng)估計(jì)的自監(jiān)督學(xué)習(xí)方法。這個(gè)方法巧妙地利用了相機(jī)和激光雷達(dá)提供的圖像和點(diǎn)云兩種模態(tài)的數(shù)據(jù),從兩種模態(tài)數(shù)據(jù)中找到一致性元素,建立正則化條件,從而提供準(zhǔn)確的自監(jiān)督信號(hào)。該自監(jiān)督學(xué)習(xí)方法取得了和當(dāng)前監(jiān)督學(xué)習(xí)模型相媲美的性能,該方法結(jié)合監(jiān)督學(xué)習(xí)進(jìn)行微調(diào)后,可以取得優(yōu)于現(xiàn)有監(jiān)督學(xué)習(xí)模型的性能。這一研究成果已被 CVPR'21 收錄。



          論文鏈接:
          https://arxiv.org/abs/2104.08683

          代碼鏈接:

          https://github.com/qcraftai/pillar-motion


          上圖所示的是提出的自監(jiān)督學(xué)習(xí)的基本框架。在訓(xùn)練階段,模型的輸入是前后兩幀點(diǎn)云數(shù)據(jù),以及對(duì)應(yīng)的圖像數(shù)據(jù)。該模型的輸出是點(diǎn)云中動(dòng)態(tài)目標(biāo)的運(yùn)行狀態(tài)。值得一提的是,圖像數(shù)據(jù)僅僅用于訓(xùn)練階段提供正則約束,在推理階段,僅有上圖所示上半部分點(diǎn)云相關(guān)的分支,因此在推理階段模型十分高效。


          對(duì)于輸入的激光點(diǎn)云,該方法采用體柱(pillar)的數(shù)據(jù)表示。體柱表示最初用于點(diǎn)云三維目標(biāo)檢測(cè)(PointPillars)。該方法先將點(diǎn)云投影到 HxW 大小格網(wǎng)的鳥瞰圖(BEV)平面,每一個(gè)格網(wǎng)單元可能有多個(gè)高度值不同的點(diǎn),可以視為一個(gè)柱狀的點(diǎn)云,因此該格網(wǎng)單元稱為體柱。體柱的表示簡(jiǎn)化了運(yùn)動(dòng)場(chǎng)景,只需要考慮水平方向運(yùn)動(dòng)情況,而且同一個(gè)體住內(nèi)的點(diǎn)云運(yùn)動(dòng)狀態(tài)可以視為一致的,因此點(diǎn)云運(yùn)動(dòng)估計(jì)問(wèn)題可以簡(jiǎn)化為求解體柱的運(yùn)動(dòng)估計(jì)。


          利用前后兩幀點(diǎn)云結(jié)構(gòu)一致性,可以用下面的基于距離變換的損失函數(shù)構(gòu)建基礎(chǔ)的自監(jiān)督學(xué)習(xí)模型:



          其中 為應(yīng)用估計(jì)的體柱運(yùn)動(dòng)變換之后得到的點(diǎn)云, 為當(dāng)前幀的真實(shí)點(diǎn)云。這個(gè)模型本質(zhì)上是利用變換后的點(diǎn)云和原始點(diǎn)云最近鄰點(diǎn)的關(guān)系來(lái)近似體柱的運(yùn)動(dòng)。這個(gè)模型最大的問(wèn)題在于依賴點(diǎn)到點(diǎn)的對(duì)應(yīng)關(guān)系。由于點(diǎn)云的稀疏性以及遮擋等因素,連續(xù)掃描的兩幀點(diǎn)云有可能無(wú)法建立精確的點(diǎn)與點(diǎn)的對(duì)應(yīng)。因此這種基于最近鄰結(jié)構(gòu)一致性的方法容易帶來(lái)噪聲,降低模型的性能。

          為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出利用圖像中的光流信息來(lái)建立輔助的正則項(xiàng)。由于圖像和點(diǎn)云已經(jīng)通過(guò)外參標(biāo)定配準(zhǔn),可以將點(diǎn)云投影到圖像平面,建立激光點(diǎn)云運(yùn)動(dòng)和圖像像素光流的對(duì)應(yīng)關(guān)系。當(dāng)然,直接利用光流進(jìn)行測(cè)量是不可行的,因?yàn)閳D像光流受到車體自身運(yùn)動(dòng)和目標(biāo)運(yùn)動(dòng)的雙重影響。因此還需要將車體自身運(yùn)動(dòng)因子分解出來(lái)。將預(yù)測(cè)的體柱運(yùn)動(dòng)投影到圖像平面,利用光流信息可以建立如下正則化損失函數(shù):


          其中 是點(diǎn)云投影到圖像平面得到的運(yùn)動(dòng)估計(jì), 是圖像光流得到的物體運(yùn)動(dòng)估計(jì)。這個(gè)損失函數(shù)建立了體柱運(yùn)動(dòng)估計(jì)和圖像光流運(yùn)動(dòng)估計(jì)的自監(jiān)督學(xué)習(xí),通過(guò)訓(xùn)練優(yōu)化促使體柱運(yùn)動(dòng)估計(jì)接近圖像光流的運(yùn)動(dòng)估計(jì)。


          在通過(guò)光流獲得目標(biāo)的運(yùn)動(dòng)估計(jì)之后,還可以將其反投影到點(diǎn)云中,從而對(duì)點(diǎn)的運(yùn)動(dòng)或者靜止概率用下式估計(jì):


          將體柱內(nèi)的每個(gè)點(diǎn)的概率求平均可以得到體柱的運(yùn)動(dòng)概率值。這個(gè)概率值可以作為結(jié)構(gòu)一致性損失函數(shù) 中的樣本權(quán)重,從而提高自監(jiān)督信號(hào)的質(zhì)量。上圖左側(cè)顯示的是圖像光流估計(jì)的結(jié)果,彩色點(diǎn)表示運(yùn)動(dòng)目標(biāo),白色點(diǎn)表示靜態(tài)物體,右側(cè)所示的是反投影后在 BEV 視角下的顯示體柱的靜態(tài)概率值,顏色越深代表靜態(tài)概率越高。

          最后,借鑒光流估計(jì)中的平滑損失函數(shù),體柱的運(yùn)動(dòng)估計(jì)損失函數(shù)中也可以加上局部平滑損失:


          最終完整的自監(jiān)督損失函數(shù)可以記為:


          所提出的模型在自動(dòng)駕駛公開數(shù)據(jù)集 nuScenes 上進(jìn)行了評(píng)估,下表顯示的是和當(dāng)前先進(jìn)的算法的比較??梢钥吹教岢龅淖员O(jiān)督模型取得了比 FlowNet3D 和 HPLFlowNet 更好的性能,而且這兩個(gè)模型在 FlyingThings3D 和 KITTI SceneFlow 數(shù)據(jù)集上進(jìn)行了有監(jiān)督的預(yù)訓(xùn)練。通過(guò)在訓(xùn)練集上微調(diào),提出的模型達(dá)到了當(dāng)前最好的性能。



          下圖所示的是定性的可視化結(jié)果,第一行是真值,第二行是完整版本的模型預(yù)測(cè)的結(jié)果,第三行是只用結(jié)構(gòu)一致性損失函數(shù)訓(xùn)練得到的模型的輸出結(jié)果??梢钥吹酵暾娴哪P皖A(yù)測(cè)結(jié)果非常接近真值,而只用結(jié)構(gòu)一致性損失函數(shù)的預(yù)測(cè)結(jié)果并不理想,很多地面點(diǎn)也估計(jì)成了運(yùn)動(dòng)目標(biāo),而有的動(dòng)態(tài)目標(biāo)卻估計(jì)成了靜態(tài)目標(biāo)。從這個(gè)可視化可以看出引入圖像光流對(duì)自監(jiān)督模型的性能帶來(lái)了很大的提高。



          Case 4:生成式模型用于數(shù)據(jù)合成


          除了上述的自監(jiān)督、半監(jiān)督方法,數(shù)據(jù)高效還可以通過(guò)數(shù)據(jù)合成來(lái)實(shí)現(xiàn)。紅綠燈識(shí)別是自動(dòng)駕駛感知系統(tǒng)的基礎(chǔ)模塊,也是對(duì)于計(jì)算機(jī)視覺(jué)從業(yè)者來(lái)說(shuō)相對(duì)簡(jiǎn)單的問(wèn)題,然而真實(shí)自動(dòng)駕駛場(chǎng)景中的紅綠燈識(shí)別實(shí)際上面臨很多挑戰(zhàn)。比如說(shuō)閃爍的紅綠燈的識(shí)別,這種情況相對(duì)比較少,閃爍頻率多樣,短時(shí)間大規(guī)模收集這樣的數(shù)據(jù)進(jìn)行標(biāo)注,并不是一件容易的任務(wù)。研究團(tuán)隊(duì)提出通過(guò)生成式模型來(lái)合成大量閃爍的紅綠燈的數(shù)據(jù),從而有助于快速地開發(fā)出識(shí)別出閃爍紅綠燈的模型。?


          一個(gè)直接的方法是采用生成模型例如 StyleGAN 來(lái)生成合成數(shù)據(jù),但是這種無(wú)條件(unconditional)的生成模型無(wú)法控制所生成圖像的類別。通過(guò)條件式(conditional)生成模型,如下圖所示,在輸入端除了輸入 latent code,還將類別信息通過(guò)類嵌入(class embedding)的方式輸入網(wǎng)絡(luò)。在損失函數(shù)上,加入類別預(yù)測(cè)的損失函數(shù),這樣就可以把無(wú)條件的生成模型轉(zhuǎn)換成基于類別嵌入的條件式生成模型,實(shí)現(xiàn)類別可控的圖像生成。



          為了生成閃爍的紅綠燈圖像,除了類別可控的生成,還需要解決狀態(tài)可控的生成,比如,生成紅燈由亮到滅的圖像。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出一種通過(guò)樣式特征組合和自適應(yīng)生成模版的方法可以實(shí)現(xiàn)這個(gè)目的。上圖所示紅色代表紅燈樣式特征,灰色代表燈滅特征,綠色代表綠燈特征。雖然通過(guò)樣式特征組合,紅燈和綠燈生成的效果較好,但是燈滅的效果并不理想。研究團(tuán)隊(duì)進(jìn)一步利用出自適應(yīng)生成模板,根據(jù)模板推斷燈滅的位置,然后用這個(gè)模板去督導(dǎo)燈滅的數(shù)據(jù)生成,從而可以生成更加逼真的燈滅的數(shù)據(jù)。最終的閃爍紅綠的的生成效果如下圖所示。




          2. 模型高效


          前面介紹的是高效感知中的數(shù)據(jù)高效,即如何高效利用數(shù)據(jù)來(lái)提高感知模塊性能,高效感知的另一方面還體現(xiàn)在模型高效。所謂模型高效是指在設(shè)計(jì)模型時(shí),充分利用數(shù)據(jù)驅(qū)動(dòng)的優(yōu)勢(shì),最大限度地減少手工調(diào)參,減少人工調(diào)試成本,提高模型部署的效率。下面以自動(dòng)駕駛中的多目標(biāo)跟蹤為例,介紹輕舟智航在模型高效方面的工作。


          三維多目標(biāo)跟蹤是自動(dòng)駕駛感知模塊的關(guān)鍵技術(shù)。tracking-by-detection 是目前業(yè)內(nèi)經(jīng)典的多目標(biāo)跟蹤技術(shù)。改方法對(duì)每一幀點(diǎn)云進(jìn)行檢測(cè),然后通過(guò)匹配幀間的檢測(cè)框來(lái)實(shí)現(xiàn)跟蹤。當(dāng)前比較流行的三維多目標(biāo)跟蹤方法包括 AB3DMOT、CenterPoint、PnPNet 等。


          基于 tracking-by-detection 的三維多目標(biāo)跟蹤框架最大的弊端是需要人工設(shè)計(jì)規(guī)則和調(diào)試相關(guān)的參數(shù)來(lái)完成啟發(fā)式匹配。人工設(shè)計(jì)的規(guī)則受限于工程師的領(lǐng)域和先驗(yàn)知識(shí),調(diào)試匹配規(guī)則參數(shù)時(shí),往往費(fèi)時(shí)費(fèi)力,在更換數(shù)據(jù)場(chǎng)景之后,往往需要重新調(diào)試,因此可擴(kuò)展性差。那么,是否可以從數(shù)據(jù)驅(qū)動(dòng)的角度考慮,設(shè)計(jì)模型自動(dòng)學(xué)習(xí)匹配規(guī)則且不依賴大量的手動(dòng)調(diào)參呢?


          針對(duì)這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一種端到端的聯(lián)合檢測(cè)和跟蹤范式 SimTrack:“Exploring Simple 3D Multi-Object Tracking for Autonomous Driving”,該論文收錄于 ICCV'21。


          論文鏈接:
          https://arxiv.org/abs/2108.10312

          代碼鏈接:

          https://github.com/qcraftai/simtrack


          上圖(a)所示是一種典型的 tracking-by-detection 框架,檢測(cè)器在 t-1 和 t 幀分別檢測(cè)到目標(biāo),通過(guò)啟發(fā)式匹配方法進(jìn)行數(shù)據(jù)關(guān)聯(lián),從而完成 t-1 幀到 t 幀的跟蹤。圖(b)是輕舟智航提出的數(shù)據(jù)驅(qū)動(dòng)的跟蹤方法,綠色框表示的是模型的核心模塊。在該模型中,同時(shí)處理多目標(biāo)跟蹤中的三個(gè)最基本的任務(wù):(1)更新跟蹤目標(biāo)的位置;(2)創(chuàng)建新的軌跡;(3)剔除失效的軌跡。下面,對(duì)該模型是如何實(shí)現(xiàn)上述三個(gè)任務(wù)的,進(jìn)行詳細(xì)解讀。



          SimTrack 的模型輸入是單幀或者多幀累積的點(diǎn)云,通過(guò)對(duì)點(diǎn)云數(shù)據(jù)體素化,將不規(guī)則的三維點(diǎn)云數(shù)據(jù)轉(zhuǎn)換成規(guī)則的格網(wǎng)數(shù)據(jù)。體素化的點(diǎn)云可以通過(guò)經(jīng)典的 PointPillar 的方式提取特征,也可以通過(guò)三維稀疏卷積直接提特征,最后都統(tǒng)一轉(zhuǎn)換成可用于深度卷積神經(jīng)網(wǎng)絡(luò)處理的二維特征圖。在提取完特征之后,采用 CenterNet 的解碼器方式,通過(guò)全卷積網(wǎng)絡(luò)得到輸出的熱力圖(heat map / centerness map),在該熱力圖上對(duì)每個(gè)格網(wǎng)回歸三維檢測(cè)框以及預(yù)測(cè)目標(biāo)類別。


          如上圖所示 SimTrack 輸出包含三個(gè)序列:(1)檢測(cè)分支(hybrid-time centerness map),用于檢測(cè)目標(biāo)在輸入序列第一次出現(xiàn)的位置,該分支能夠關(guān)聯(lián)前一時(shí)刻與當(dāng)前時(shí)刻的檢測(cè)信息,同時(shí)還能濾除消失的目標(biāo),也可以檢測(cè)新出現(xiàn)的目標(biāo);(2)運(yùn)動(dòng)估計(jì)分支(motion),預(yù)測(cè)目標(biāo)在多幀點(diǎn)云序列中的偏移量,用于將(1)中的檢測(cè)結(jié)果更新到當(dāng)前幀;(3)回歸分支(regression),預(yù)測(cè)目標(biāo)的其他屬性,如尺寸和朝向等。



          上述模型結(jié)構(gòu)用于訓(xùn)練階段,在推理和測(cè)試階段,還將結(jié)合上一時(shí)刻的 centerness map 進(jìn)行優(yōu)化。推理的算法流程如上圖所示,對(duì)于 t=0 時(shí)刻,網(wǎng)絡(luò)只執(zhí)行檢測(cè)任務(wù),用于初始化跟蹤軌跡。對(duì)于 t>0 時(shí)刻,先將上一時(shí)刻的 centerness map 通過(guò)自車位姿估計(jì)轉(zhuǎn)換到當(dāng)前時(shí)刻,轉(zhuǎn)換后的 centerness map 和當(dāng)前時(shí)刻的 centerness map 相加求平均,得到當(dāng)前時(shí)刻的檢測(cè)結(jié)果,該檢測(cè)結(jié)果通過(guò)上一時(shí)刻對(duì)應(yīng)的格網(wǎng)位置直接得到目標(biāo)的跟蹤索引,同時(shí)通過(guò)閾值判斷剔除失效的跟蹤目標(biāo),對(duì)新的檢測(cè)目標(biāo),初始化新的跟蹤軌跡。最后,使用運(yùn)動(dòng)估計(jì)分支預(yù)測(cè)的目標(biāo)偏移,更新當(dāng)前幀目標(biāo)的位置。



          研究團(tuán)隊(duì)在 Waymo 和 nuScenes 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。Waymo 驗(yàn)證集上的實(shí)驗(yàn)結(jié)果如上表所示。評(píng)估方法采用多目標(biāo)跟蹤通用的評(píng)估指標(biāo)。其中 Baseline 是 Waymo 官方提供的傳統(tǒng)的基于卡爾曼濾波的方法,從實(shí)驗(yàn)結(jié)果可以看到,提出的模型相比 Baseline 和 CenterPoint 在各個(gè)指標(biāo)上均有較大提高。更重要的是,SimTrack 不需要手動(dòng)設(shè)計(jì)匹配規(guī)則或者調(diào)試相關(guān)的參數(shù),從而極大簡(jiǎn)化了模型的開發(fā)和提升了模型泛化性能。



          上圖為在 nuScenes 數(shù)據(jù)集上車輛和行人跟蹤的可視化結(jié)果,左側(cè)第一列為真值,中間列為 CenterPoint 的跟蹤結(jié)果,右側(cè)是 SimTrack 的結(jié)果,不同的顏色代表不同的目標(biāo) ID??梢钥吹?SimTrack 相比 CenterPoint 跟蹤效果更加魯棒。



          3. 總結(jié)


          本文介紹了輕舟智航在自動(dòng)駕駛高效感知技術(shù)方面的探索和實(shí)踐,結(jié)合典型的感知任務(wù)案例,從數(shù)據(jù)高效和模型高效兩個(gè)方面進(jìn)行了深入解析。這種快捷、高效的主線研發(fā)的思想,對(duì)于自動(dòng)駕駛感知模型的快速開發(fā)和部署有重要的意義,值得廣大自動(dòng)駕駛感知方向的研究人員學(xué)習(xí)和借鑒。



          參考文獻(xiàn)

          [1] Guizilini V, Ambrus R, Pillai S, et al. 3D Packing for Self-Supervised Monocular Depth Estimation. CVPR, 2020.
          [2] Karras T, Laine S , Aila T. A Style-Based Generator Architecture for Generative Adversarial Networks. CVPR, 2019.
          [3] Alex H Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, and Oscar Beijbom. PointPillars: Fast encoders for object detection from point clouds. In CVPR, 2019.
          [4] Yan Yan, Yuxing Mao, and Bo Li. SECOND: Sparsely embedded convolutional detection. Sensors, 2018.
          [5] Tianwei Yin, Xingyi Zhou, and Philipp Krahenbul. Center-based 3D object detection and tracking. In CVPR, 2021.
          [6] Pei Sun, Henrik Kretzschmar, Xerxes Dotiwalla, Aurelien Chouard, Vijaysai Patnaik, Paul Tsui, James Guo, Yin Zhou, Yuning Chai, Benjamin Caine, et al. Scalability in perception for autonomous driving: Waymo open dataset. In CVPR, 2020.
          [7] Chenxu Luo, Xiaodong Yang, Alan L. Yuille. Self-Supervised Pillar Motion Learning for Autonomous Driving. CVPR, 2021.
          [8] Xingyu Liu, Charles Qi, and Leonidas Guibas. FlowNet3D: Learning scene flow in 3D point clouds. In CVPR, 2019.
          [9] Xiuye Gu, Yijie Wang, Chongruo Wu, Yong-Jae Lee, and Panqu Wang. HPLFlowNet: Hierarchical permutohedral lattice FlowNet for scene flow estimation on large-scale point clouds. In CVPR, 2019.
          [10] Chenxu Luo, Xiaodong Yang, Alan L. Yuille.?Exploring Simple 3D Multi-Object Tracking for Autonomous Driving. ICCV, 2021.

          瀏覽 82
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  黄色成年久久 | 日欧美逼 | 国产理论视频 | 日本男女拍拍视频 | 亚洲人体视频在线观看 |