<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          KITTI數(shù)據(jù)集簡(jiǎn)介與使用

          共 7082字,需瀏覽 15分鐘

           ·

          2022-07-09 19:00

          點(diǎn)擊上方小白學(xué)視覺(jué)”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)

          摘要:本文融合了Are we ready for Autonomous Driving? The KITTI Vision Benchmark SuiteVision meets Robotics: The KITTI Dataset兩篇論文的內(nèi)容,主要介紹KITTI數(shù)據(jù)集概述,數(shù)據(jù)采集平臺(tái),數(shù)據(jù)集詳細(xì)描述,評(píng)價(jià)準(zhǔn)則以及具體使用案例。本文對(duì)KITTI數(shù)據(jù)集提供一個(gè)較為詳細(xì)全面的介紹,重點(diǎn)關(guān)注利用KITTI數(shù)據(jù)集進(jìn)行各項(xiàng)研究與實(shí)驗(yàn)。

          1. KITTI數(shù)據(jù)集概述

          KITTI數(shù)據(jù)集由德國(guó)卡爾斯魯厄理工學(xué)院和豐田美國(guó)技術(shù)研究院聯(lián)合創(chuàng)辦,是目前國(guó)際上最大的自動(dòng)駕駛場(chǎng)景下的計(jì)算機(jī)視覺(jué)算法評(píng)測(cè)數(shù)據(jù)集。該數(shù)據(jù)集用于評(píng)測(cè)立體圖像(stereo),光流(optical flow),視覺(jué)測(cè)距(visual odometry),3D物體檢測(cè)(object detection)和3D跟蹤(tracking)等計(jì)算機(jī)視覺(jué)技術(shù)在車載環(huán)境下的性能。KITTI包含市區(qū)、鄉(xiāng)村和高速公路等場(chǎng)景采集的真實(shí)圖像數(shù)據(jù),每張圖像中最多達(dá)15輛車和30個(gè)行人,還有各種程度的遮擋與截?cái)唷U麄€(gè)數(shù)據(jù)集由389對(duì)立體圖像和光流圖,39.2 km視覺(jué)測(cè)距序列以及超過(guò)200k 3D標(biāo)注物體的圖像組成[1] ,以10Hz的頻率采樣及同步??傮w上看,原始數(shù)據(jù)集被分類為’Road’,  ’City’,  ’Residential’, ’Campus’ 和 ’Person’。對(duì)于3D物體檢測(cè),label細(xì)分為car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram以及misc組成。



          1. 數(shù)據(jù)采集平臺(tái)

              如圖-1所示,KITTI數(shù)據(jù)集的數(shù)據(jù)采集平臺(tái)裝配有2個(gè)灰度攝像機(jī),2個(gè)彩色攝像機(jī),一個(gè)Velodyne 64線3D激光雷達(dá),4個(gè)光學(xué)鏡頭,以及1個(gè)GPS導(dǎo)航系統(tǒng)。具體的傳感器參數(shù)如下[2] :

          ? 2 × PointGray Flea2 grayscale cameras (FL2-14S3M-C), 1.4 Megapixels, 1/2” Sony ICX267 CCD, global shutter

          ? 2 × PointGray Flea2 color cameras (FL2-14S3C-C), 1.4 Megapixels, 1/2” Sony ICX267 CCD, global shutter

          ? 4 × Edmund Optics lenses, 4mm, opening angle ~ 90?, vertical opening angle of region of interest (ROI) ~ 35?

          ? 1 × Velodyne HDL-64E rotating 3D laser scanner, 10 Hz, 64 beams, 0.09 degree angular resolution, 2 cm distance accuracy, collecting ~ 1.3 million points/second, field of view: 360? horizontal, 26.8? vertical, range: 120 m

          ? 1 × OXTS RT3003 inertial and GPS navigation system, 6 axis, 100 Hz, L1/L2 RTK, resolution: 0.02m / 0.1?

           


          圖-1 數(shù)據(jù)采集平臺(tái)

          如圖-2所示為傳感器的配置平面圖。為了生成雙目立體圖像,相同類型的攝像頭相距54cm安裝。由于彩色攝像機(jī)的分辨率和對(duì)比度不夠好,所以還使用了兩個(gè)立體灰度攝像機(jī),它和彩色攝像機(jī)相距6cm安裝。為了方便傳感器數(shù)據(jù)標(biāo)定,規(guī)定坐標(biāo)系方向如下[2] :

          ? Camera: x = right,  y = down, z = forward 

          ? Velodyne: x = forward,  y = left, z = up

          ? GPS/IMU: x = forward,  y = left, z = up

           


          圖-2 傳感器設(shè)置

          1. Dataset詳述

          圖-3展示了KITTI數(shù)據(jù)集的典型樣本,分為 ’Road’, ’City’, ’Residential’, ’Campus’ 和’Person’五類。原始數(shù)據(jù)采集于2011年的5天,共有180GB數(shù)據(jù)。

           


          圖-3 KITTI數(shù)據(jù)集的樣本,展現(xiàn)KITTI數(shù)據(jù)集的多樣性。

          3.1 數(shù)據(jù)組織形式

          論文[2] 中提及的數(shù)據(jù)組織形式,可能是早期的版本,與目前KITTI數(shù)據(jù)集官網(wǎng)公布的形式不同,本文稍作介紹。

          如圖-4所示,一個(gè)視頻序列的所有傳感器數(shù)據(jù)都存儲(chǔ)于data_drive文件夾下,其中date和drive是占位符,表示采集數(shù)據(jù)的日期和視頻編號(hào)。時(shí)間戳記錄在Timestamps.txt文件。

           


          圖-4 數(shù)據(jù)組織形式

          對(duì)于從KITTI數(shù)據(jù)集官網(wǎng)下載的各個(gè)分任務(wù)的數(shù)據(jù)集,其文件組織形式較為簡(jiǎn)單。以O(shè)bject detection為例,下圖是Object Detection Evaluation 2012標(biāo)準(zhǔn)數(shù)據(jù)集中l(wèi)eft color images文件的目錄結(jié)構(gòu),樣本分別存儲(chǔ)于testing和training數(shù)據(jù)集。

          data_object_image_2

          |── testing

          │   └── image_2

          └── training

              └── image_2

          下圖是training數(shù)據(jù)集的label文件夾目錄結(jié)構(gòu)。

          training/

          └── label_2

          3.2 Annotations

          KITTI數(shù)據(jù)集為攝像機(jī)視野內(nèi)的運(yùn)動(dòng)物體提供一個(gè)3D邊框標(biāo)注(使用激光雷達(dá)的坐標(biāo)系)。該數(shù)據(jù)集的標(biāo)注一共分為8個(gè)類別:’Car’, ’Van’, ’Truck’, ’Pedestrian’, ’Person (sit- ting)’, ’Cyclist’, ’Tram’ 和’Misc’ (e.g., Trailers, Segways)。論文[2] 中說(shuō)明了3D標(biāo)注信息存儲(chǔ)于date_drive_tracklets.xml,每一個(gè)物體的標(biāo)注都由所屬類別和3D尺寸(height,weight和length)組成。當(dāng)前數(shù)據(jù)集的標(biāo)注存于每種任務(wù)子數(shù)據(jù)集的label文件夾中,稍有不同。

          為了說(shuō)明KITTI數(shù)據(jù)集的標(biāo)注格式,本文以O(shè)bject detection任務(wù)的數(shù)據(jù)集為例。數(shù)據(jù)說(shuō)明在Object development kit的readme.txt文檔中。從標(biāo)注數(shù)據(jù)的鏈接 training labels of object data set (5 MB)下載數(shù)據(jù),解壓文件后進(jìn)入目錄,每張圖像對(duì)應(yīng)一個(gè).txt文件。一幀圖像與其對(duì)應(yīng)的.txt標(biāo)注文件如圖-5所示。

           


          圖-5 object detection樣本與標(biāo)注

          為了理解標(biāo)注文件各個(gè)字段的含義,需要閱讀解釋標(biāo)注文件的readme.txt文件。該文件存儲(chǔ)于object development kit (1 MB)文件中,readme詳細(xì)介紹了子數(shù)據(jù)集的樣本容量,label類別數(shù)目,文件組織格式,標(biāo)注格式,評(píng)價(jià)方式等內(nèi)容。下面介紹數(shù)據(jù)格式的label描述:

           


          注意,'DontCare' 標(biāo)簽表示該區(qū)域沒(méi)有被標(biāo)注,比如由于目標(biāo)物體距離激光雷達(dá)太遠(yuǎn)。為了防止在評(píng)估過(guò)程中(主要是計(jì)算precision),將本來(lái)是目標(biāo)物體但是因?yàn)槟承┰蚨鴽](méi)有標(biāo)注的區(qū)域統(tǒng)計(jì)為假陽(yáng)性(false positives),評(píng)估腳本會(huì)自動(dòng)忽略'DontCare' 區(qū)域的預(yù)測(cè)結(jié)果。 

          3.3 Development Kit

          KITTI各個(gè)子數(shù)據(jù)集都提供開發(fā)工具 development kit,主要由cpp文件夾,matlab文件夾,mapping文件夾和readme.txt組成。下圖以object detection任務(wù)的文件夾devkit_object為例,可以看到cpp文件夾主要包含評(píng)估模型的源代碼evaluate_object.cpp。Mapping文件夾中的文件記錄訓(xùn)練集到原始數(shù)據(jù)集的映射,從而開發(fā)者能夠同時(shí)使用激光雷達(dá)點(diǎn)云,gps數(shù)據(jù),右邊彩色攝像機(jī)數(shù)據(jù)以及灰度攝像機(jī)圖像等多模態(tài)數(shù)據(jù)。Matlab文件夾中的工具包含讀寫標(biāo)簽,繪制2D/3D標(biāo)注框,運(yùn)行demo等工具。Readme.txt文件非常重要,詳述介紹了某個(gè)子數(shù)據(jù)集的數(shù)據(jù)格式,benchmark介紹,結(jié)果評(píng)估方法等詳細(xì)內(nèi)容。

          devkit_object

          |── cpp

          │   |── evaluate_object.cpp

          │   └── mail.h

          |── mapping

          │   |── train_mapping.txt

          │   └── train_rand.txt

          |── matlab

          │   |── computeBox3D.m

          │   |── computeOrientation3D.m

          │   |── drawBox2D.m

          │   |── drawBox3D.m

          │   |── projectToImage.m

          │   |── readCalibration.m

          │   |── readLabels.m

          │   |── run_demo.m

          │   |── run_readWriteDemo.m

          │   |── run_statistics.m

          │   |── visualization.m

          │   └── writeLabels.m

          └── readme.txt

          1. 評(píng)價(jià)準(zhǔn)則Evaluation Metrics

          4.1 stereo與visual odometry任務(wù)

          KITTI數(shù)據(jù)集針對(duì)不同的任務(wù)采用不同的評(píng)價(jià)準(zhǔn)則。對(duì)于立體圖像和光流(stereo and optical flow),依據(jù)disparity 和end-point error計(jì)算得到平均錯(cuò)誤像素?cái)?shù)目(average number of erroneous pixels)。

          對(duì)于視覺(jué)測(cè)距和SLAM任務(wù)(visual odometry/SLAM),根據(jù)軌跡終點(diǎn)(trajectory end-point)的誤差進(jìn)行評(píng)估。傳統(tǒng)的方法同時(shí)考慮平移和旋轉(zhuǎn)的誤差,KITTI分開評(píng)估[1] :

           

           


          圖-6 Stereo和optical flow的預(yù)測(cè)結(jié)果與評(píng)估

          4.2 3D物體檢測(cè)和方向預(yù)測(cè)

          目標(biāo)檢測(cè)需要同時(shí)實(shí)現(xiàn)目標(biāo)定位和目標(biāo)識(shí)別兩項(xiàng)任務(wù)。其中,通過(guò)比較預(yù)測(cè)邊框和ground truth邊框的重疊程度(Intersection over Union,IoU)和閾值(e.g. 0.5)的大小判定目標(biāo)定位的正確性;通過(guò)置信度分?jǐn)?shù)和閾值的比較確定目標(biāo)識(shí)別的正確性。以上兩步綜合判定目標(biāo)檢測(cè)是否正確,最終將多類別目標(biāo)的檢測(cè)問(wèn)題轉(zhuǎn)換為“某類物體檢測(cè)正確、檢測(cè)錯(cuò)誤”的二分類問(wèn)題,從而可以構(gòu)造混淆矩陣,使用目標(biāo)分類的一系列指標(biāo)評(píng)估模型精度。

          KITTI數(shù)據(jù)集采用文獻(xiàn)[3] 用到的平均正確率(Average Precision,mAP)評(píng)估單類目標(biāo)檢測(cè)模型的結(jié)果。PASCAL Visual Object Classes Challenge2007 (VOC2007)[3] 數(shù)據(jù)集使用Precision-Recall曲線進(jìn)行定性分析,使用average precision(AP)定量分析模型精度。物體檢測(cè)評(píng)估標(biāo)準(zhǔn)對(duì)物體漏檢和錯(cuò)檢進(jìn)行懲罰,同時(shí)規(guī)定對(duì)同一物體重復(fù)且正確的檢測(cè)只算一次,多余的檢測(cè)視為錯(cuò)誤(假陽(yáng)性)。




          對(duì)于KITTI目標(biāo)檢測(cè)任務(wù),僅僅評(píng)估目標(biāo)高度大于25pixel的預(yù)測(cè)結(jié)果,將易混淆的類別視為同一類以減少假陽(yáng)性(false positives)率,并且使用41個(gè)等間距recall上的精確值的平均值近似計(jì)算分類器的AP。

          對(duì)于物體方向預(yù)測(cè),文獻(xiàn)[1] 提出了一種新穎的方法:平均方向相似性,Average Orientation Similarity (AOS)。該指標(biāo)被定義為:

           


          其中,r代表物體檢測(cè)的召回率recall。在因變量r下,方向相似性s∈[0,1]被定義為所有預(yù)測(cè)樣本與ground truth余弦距離的歸一化:

           


          其中D(r)表示在召回率r下所有預(yù)測(cè)為正樣本的集合,?θ(i) 表示檢出物體i的預(yù)測(cè)角度與ground truth的差。為了懲罰多個(gè)檢出匹配到同一個(gè)ground truth,如果檢出i已經(jīng)匹配到ground truth(IoU至少50%)設(shè)置δi = 1,否則δi = 0。

          5. 數(shù)據(jù)使用實(shí)踐

          KITTI數(shù)據(jù)集的標(biāo)注信息更加豐富,在實(shí)際使用中可能只需要一部分字段,或者需要轉(zhuǎn)換成其他數(shù)據(jù)集的格式。例如可以將KITTI數(shù)據(jù)集轉(zhuǎn)換成PASCAL VOC格式,從而更方便地使用Faster RCNN或者SSD等先進(jìn)的檢測(cè)算法進(jìn)行訓(xùn)練。轉(zhuǎn)換KITTI數(shù)據(jù)集需要注意源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集的格式,類別標(biāo)簽的重新處理等問(wèn)題,實(shí)現(xiàn)細(xì)節(jié)建議參考Jesse_Mx[4] 和github上manutdzou的開源項(xiàng)目[5] ,這些資料介紹了轉(zhuǎn)換KITTI數(shù)據(jù)集為PASCAL VOC格式,從而方便訓(xùn)練Faster RCNN或者SSD等模型。

          Reference

          1. Andreas Geiger and Philip Lenz and Raquel Urtasun. Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite. CVPR, 2012    

          2. Andreas Geiger and Philip Lenz and Christoph Stiller and Raquel Urtasun. Vision meets Robotics: The KITTI Dataset. IJRR, 2013    

          3. M. Everingham, L.Van Gool, C. K. I.Williams, J.Winn, and A. Zisserman. The PASCAL Visual Object Classes Challenge 2011 (VOC2011) Results.

          4. Jesse_Mx.SD: Single Shot MultiBox Detector 訓(xùn)練KITTI數(shù)據(jù)集(1).

          http://blog.csdn.net/jesse_mx/article/details/65634482

          1. manutdzou.manutdzou/KITTI_SSD.https://github.com/manutdzou/KITTI_SSD

          附錄

           

          Fig.7 不同類別物體在數(shù)據(jù)集中出現(xiàn)的頻率(上圖);

          對(duì)于兩個(gè)主要類別(車輛,行人)主要的方向統(tǒng)計(jì)直方圖(下圖)

           


          Fig.8 每張圖中不同類別物體出現(xiàn)頻率統(tǒng)計(jì)。

           


          Fig.9 分別為速度,加速度(排除靜止?fàn)顟B(tài))統(tǒng)計(jì)直方圖;視頻序列長(zhǎng)度統(tǒng)計(jì)直方圖;每種場(chǎng)景(e.g.,  Campus, city)的幀數(shù)統(tǒng)計(jì)直方圖。

          好消息!

          小白學(xué)視覺(jué)知識(shí)星球

          開始面向外開放啦??????




          下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
          在「小白學(xué)視覺(jué)」公眾號(hào)后臺(tái)回復(fù):擴(kuò)展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺(jué)、目標(biāo)跟蹤、生物視覺(jué)、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺(jué)實(shí)戰(zhàn)項(xiàng)目52講
          小白學(xué)視覺(jué)公眾號(hào)后臺(tái)回復(fù):Python視覺(jué)實(shí)戰(zhàn)項(xiàng)目,即可下載包括圖像分割、口罩檢測(cè)、車道線檢測(cè)、車輛計(jì)數(shù)、添加眼線、車牌識(shí)別、字符識(shí)別、情緒檢測(cè)、文本內(nèi)容提取、面部識(shí)別等31個(gè)視覺(jué)實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計(jì)算機(jī)視覺(jué)。

          下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講
          小白學(xué)視覺(jué)公眾號(hào)后臺(tái)回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講,即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

          交流群


          歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺(jué)、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺(jué)SLAM“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~


          瀏覽 56
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  精品国产毛片 | 亚洲成人性爱图片 | 日批视频免费观看 | 日本理论片一道本 | 精品色图|