<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          綜述:在RGB-D圖像上進(jìn)行目標(biāo)檢測(cè)(Object detection in RGB-D images)

          共 6490字,需瀏覽 13分鐘

           ·

          2020-11-15 03:38

          ↑ 點(diǎn)擊藍(lán)字?關(guān)注極市平臺(tái)

          作者丨ChenJoya
          來(lái)源丨Smarter
          編輯丨極市平臺(tái)

          極市導(dǎo)讀

          ?

          融合顯著深度特征的RGB-D圖像顯著目標(biāo)檢測(cè)方法是提取基于顏色和深度顯著圖的綜合特征,根據(jù)構(gòu)圖先驗(yàn)和背景先驗(yàn)的方法進(jìn)行顯著目標(biāo)檢測(cè)。本文根據(jù)論文先后發(fā)表的時(shí)間順序,帶大家速覽自2014年以來(lái)的,在RGB-D圖像上進(jìn)行目標(biāo)檢測(cè)的典型論文。>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺(jué)的最前沿

          前言

          CNN(convolutional neural network)在目標(biāo)檢測(cè)中大放異彩,R-CNN系列,YOLO,SSD各類優(yōu)秀的方法層出不窮。在2D圖像的目標(biāo)檢測(cè)上,不少學(xué)術(shù)界提出的框架已經(jīng)投入商用。但是,具體落實(shí)到自動(dòng)駕駛、機(jī)器人這類應(yīng)用場(chǎng)景上時(shí),2D場(chǎng)景下的目標(biāo)檢測(cè)對(duì)于3D真實(shí)世界的場(chǎng)景描述依然不夠。


          目標(biāo)檢測(cè)問(wèn)題實(shí)際上包含了兩個(gè)任務(wù):定位和分類。3D目標(biāo)檢測(cè)在定位這一任務(wù)上的目標(biāo)是返回3D bounding boxes,而其需要的信息除了2D的RGB圖像以外,還包含了與之對(duì)應(yīng)的深度信息Depth Map:


          RGB-D?=?普通的RGB三通道彩色圖像?+?Depth Map


          在3D計(jì)算機(jī)圖形中,Depth Map(深度圖)是包含與視點(diǎn)的場(chǎng)景對(duì)象的表面的距離有關(guān)的信息的圖像或圖像通道。其中,Depth Map 類似于灰度圖像,只是它的每個(gè)像素值是傳感器距離物體的實(shí)際距離。通常RGB圖像和Depth圖像是配準(zhǔn)的,因而像素點(diǎn)之間具有一對(duì)一的對(duì)應(yīng)關(guān)系。


          本文以時(shí)間為主軸,帶你速覽自2014年以來(lái)的,在RGB-D圖像上進(jìn)行目標(biāo)檢測(cè)的典型論文。


          論文

          2014年:Learning Rich Features from RGB-D Images for Object Detection and Segmentation(ECCV'14)


          本文是rbg大神在berkeley時(shí)的作品。”基于CNN已經(jīng)在圖像分類、對(duì)象檢測(cè)、語(yǔ)義分割、細(xì)粒度分類上表現(xiàn)出了相當(dāng)?shù)膬?yōu)勢(shì),不少工作已經(jīng)將CNN引入在RGB-D圖像上的視覺(jué)任務(wù)上。這些工作中一部分直接采用4-channel的圖像來(lái)進(jìn)行語(yǔ)義分割任務(wù)(not object detetction),一部分只是在非常理想的環(huán)境下對(duì)小物體進(jìn)行目標(biāo)檢測(cè)。“


          作者的方法是在2D目標(biāo)檢測(cè)框架R-CNN的基礎(chǔ)上,增加對(duì)Depth Map進(jìn)行利用的module,總體結(jié)構(gòu)如下:

          (1)基于RGB圖像和Depth Map,檢測(cè)圖像中的輪廓,并生成2.5D的proposals(從overview上可以看到,所謂的2.5D實(shí)則包括目標(biāo)每個(gè)像素的視差、高度、傾斜角)


          (2)利用CNN進(jìn)行特征提取,這里的網(wǎng)絡(luò)包括兩個(gè):Depth CNN學(xué)習(xí)深度圖上的特征,RGB CNN學(xué)習(xí)2D圖像上的特征,最后利用SVM進(jìn)行分類。


          在對(duì)Depth Map的利用上,論文所述方法并沒(méi)有直接利用CNN對(duì)其進(jìn)行學(xué)習(xí),而是encode the depth image with three channels at each pixel: horizontal disparity(水平視差), height above ground(高度), and the angle the pixel’s local surface normal makes with the inferred gravity direction(相對(duì)于重力的傾斜角).


          2015年:3D Object Proposals for Accurate Object Class Detection(NIPS'15)


          來(lái)自Tsing Hua陳曉智大神的作品(大神在同時(shí)也是CVPR17: Multi-View 3D Object Detection Network for Autonomous Driving的一作,給跪了)。


          作者首先指出,目前最先進(jìn)的RCNN方法在自動(dòng)駕駛數(shù)據(jù)集KITTI上表現(xiàn)不好,原因之一在于KITTI上的測(cè)試圖像中,包含許多小型物體、遮擋、陰影,使得實(shí)際包含了object的proposals被認(rèn)為是不包含的。此外,KITTI對(duì)區(qū)域的精細(xì)程度要求很高(overlap),而目前的大多數(shù)區(qū)域推薦都基于強(qiáng)度和紋理的grouping super pixels,它們無(wú)法獲得高質(zhì)量的proposals。


          文章面向自動(dòng)駕駛場(chǎng)景,提出了一種新的object proposal方法。對(duì)于每一個(gè)3D bounding box(記為y),將其用一個(gè)元組來(lái)表示(x, y, z, θ, c, t),(x, y, z) 表示 3D box的中心,θ 表示其方位角,c代表object是哪一類,t代表相應(yīng)的3d box模板集合。


          x代表點(diǎn)云,y代表proposal,作者認(rèn)為y應(yīng)該有以下特性:

          • 包含點(diǎn)云的高密度區(qū)域

          • 不能與free space重疊

          • 點(diǎn)云不應(yīng)該垂直延伸在3d box之外

          • box附近的點(diǎn)云高度應(yīng)該比之低


          基于這些特性,作者列出了能量方程,目標(biāo)為最小化E(x,y),采用ICML2004上一篇文章中所述的structured SVM進(jìn)行訓(xùn)練。

          文章中所述方法的效果、代碼、數(shù)據(jù):3D Object Proposals for Accurate Object Class Detection

          2016年:Deep Sliding Shapes for Amodal 3D Object Detection in RGB-D Images(CVPR'16)


          文章來(lái)自普林斯頓大學(xué),提出的方法為Faster R-CNN的3D版本,側(cè)重于indoor scene下的object detection。


          目前關(guān)于3D目標(biāo)檢測(cè)任務(wù)的方法,有采用2D方法來(lái)結(jié)合深度圖的,也有在3D空間內(nèi)進(jìn)行檢測(cè)的。這不禁讓作者發(fā)問(wèn):which representation is better for 3D amodal object detection, 2D or 3D?接著他指出,目前2D方法表現(xiàn)更優(yōu)異的原因,可能是因?yàn)槠銫NN模型更為powerful(well-designed&pre-trained with ImageNet),而不是由于其2D表達(dá)。


          作者的方法是設(shè)計(jì)名為Deep Sliding Shapes的3D CNN,輸入3D的立體場(chǎng)景,輸出3D bounding boxes,由此提出了Multi-scale 3D RPN(Region Proposal Network):

          類似于Faster R-CNN中的RPN網(wǎng)絡(luò),對(duì)于每一個(gè)滑動(dòng)窗口,作者定義N=19種anchor boxes:

          而后,為了檢測(cè)大小不一的目標(biāo),作者增加了多尺度的檢測(cè)手段。具體來(lái)說(shuō),在不同的卷積層上進(jìn)行滑窗。這里的滑窗是3D sliding window,因?yàn)檎麄€(gè)網(wǎng)絡(luò)結(jié)構(gòu)就是接收3Dinput的。為了精修區(qū)域,作者改進(jìn)了bbox regression,提出3D box regression:一個(gè)3D box可以由中心坐標(biāo)[cx, cy, cz],長(zhǎng)寬高[s1, s2, s3]來(lái)表示,最后要得到的是6個(gè)偏移量:

          而后采用與2D box regression同樣的smooth L1 loss即可。


          補(bǔ)充:如何從Depth Map得到3D Input?


          Encoding 3D Representation:不同于Depth RCNN的disparity+height+angle 表達(dá),作者在這里采用了TSDF方法,可以看如下的引用:

          KinectFusion在世界坐標(biāo)系中定義了一個(gè)立方體,并把該立方體按照一定的分辨率切割成小立方體(voxel)。以圖8上為例所示,圖中定義了一個(gè)3x3x3米的立方體,并把立方體分為不同分辨率的小立方體網(wǎng)格。也就是說(shuō),這個(gè)大立方體限制了經(jīng)過(guò)掃描重建的模型的體積。然后,KinectFusion使用了一種稱為“截?cái)嘤蟹?hào)距離函數(shù)”(truncated signed distance function,簡(jiǎn)稱TSDF)的方法來(lái)更新每個(gè)小網(wǎng)格中的一個(gè)數(shù)值,該數(shù)值代表了該網(wǎng)格到模型表面的最近距離,也稱為TSDF值(圖8下)。對(duì)于每個(gè)網(wǎng)格,在每一幀都會(huì)更新并記錄TSDF的值,然后再通過(guò)TSDF值還原出重建模型。例如,通過(guò)圖8下兩幅圖中的網(wǎng)格的TSDF數(shù)值分布,我們可以很快還原出模型表面的形狀和位置。這種方法通常被稱為基于體數(shù)據(jù)的方法(Volumetric-based method)。該方法的核心思想是,通過(guò)不斷更新并“融合”(fusion)TSDF這種類型的測(cè)量值,我們能夠 越來(lái)越接近所需要的真實(shí)值。

          2017:Learning Cross-Modal Deep Representations for Robust Pedestrian Detection(CVPR'17)


          這篇文章雖然是針對(duì)于專門的pedestrians detection任務(wù),但是其做法是很具有啟發(fā)性的,所以也貼在這里。


          作者指出,“行人檢測(cè)任務(wù)在深度學(xué)習(xí)的幫助下已經(jīng)取得重大突破,同時(shí)新型傳感器(如thermal and depth cameras)也為解決不利照明和遮擋提供了新的機(jī)會(huì)。但是,現(xiàn)有監(jiān)控系統(tǒng)絕大多數(shù)仍然采用傳統(tǒng)的RGB傳感器,因此在illumination variation, shadows, and low external light仍然十分具有挑戰(zhàn)。”


          在針對(duì)于照明條件不利環(huán)境下的行人檢測(cè)任務(wù),文章描述了一種依賴于cross-modality learning framework的學(xué)習(xí)框架,由兩個(gè)網(wǎng)絡(luò)組成:


          (1)Region Reconstruction Network (RRN)

          RRN用于學(xué)習(xí)在RGB圖像和thermal image間的映射,而后學(xué)習(xí)得到的模型就可以用于依據(jù)RGB生成thermal image。RRN接收RGB+行人proposals,在ROI Pooling后加了重建網(wǎng)絡(luò)(全卷積)。這里的重建網(wǎng)絡(luò)不重建整幅圖像的thermal image,而是只對(duì)行人區(qū)域進(jìn)行重建。


          (2)Multi-Scale Detection Network (MSDN)

          MSDN利用RRN學(xué)習(xí)的cross-modal representations來(lái)進(jìn)行檢測(cè)。其包含兩個(gè)子網(wǎng)(Sub-Net A和Sub-Net B),其中Sub-Net B中的參數(shù)從RRN中遷移而來(lái),最后的fc分別做multi-task:bbox regression和softmax。

          2017:Amodal Detection of 3D Objects: Inferring 3D Bounding Boxes from 2D Ones in RGB-Depth Images(CVPR'17)


          來(lái)自坦普爾大學(xué)的文章。作者在這里與2016的Deep Sliding Shapes思路不同,重新回到2.5D方法來(lái)進(jìn)行3D目標(biāo)檢測(cè)。所謂2.5D方法,實(shí)則就是從RGB-D上提取出合適的表達(dá),而后building models to convert 2D results to 3D space。“雖然利用三維幾何特征檢測(cè)前景光明,但在實(shí)踐中,重建的三維形狀往往不完整,由于遮擋、反射等原因而含有各種噪聲。”


          整個(gè)系統(tǒng)的overview如下,其基于Fast R-CNN實(shí)現(xiàn):

          對(duì)于每一個(gè)2D的proposal(這里關(guān)于2D proposals的方法就是用的Depth R-CNN中的方法),由分類結(jié)果和depth information來(lái)初始化一個(gè)3D bounding box(圖中黃色的虛線框),而后也是用一個(gè)3d box regression來(lái)進(jìn)行區(qū)域精修。重點(diǎn)關(guān)注3D box proposal and regression:

          圖中是3D box proposal的一個(gè)實(shí)例。每一個(gè)3d box由向量[xcam, ycam, zcam, l, w, h, θ].來(lái)表達(dá),[xcam, ycam, zcam]表中心位置,[l, w, h]表尺寸,θ∈ [?π/2, π/2]表示方位角,即圖中黃色的箭頭與z軸形成的夾角。在初始化的時(shí)候,關(guān)于尺寸是由某一類物體的類別來(lái)進(jìn)行確定的。最后輸出7個(gè)調(diào)整量[δx, δy, δz, δl, δw, δh, δθ],利用Smooth L1 Loss作為損失函數(shù)。


          結(jié)語(yǔ)

          3D目標(biāo)檢測(cè)對(duì)于自動(dòng)駕駛與機(jī)器人等領(lǐng)域意義重大。本文以時(shí)間為序,重點(diǎn)關(guān)注和分析了基于RGB-D上的3D Object Detection方法。從Depth R-CNN到3D Faster-RCNN,似乎始終基于2D的目標(biāo)檢測(cè)框架在跟循改進(jìn)。期待在未來(lái),將會(huì)有更為優(yōu)美的方法出現(xiàn)。


          感謝您的閱讀,文中的遺漏與錯(cuò)誤,懇請(qǐng)批評(píng)指正。


          參考文獻(xiàn)

          [1] Gupta S, Girshick R, Arbeláez P, et al. Learning Rich Features from RGB-D Images for Object Detection and Segmentation[C]// European Conference on Computer Vision. Springer, Cham, 2014:345-360.
          [2] Chen X, Kundu K, Zhu Y, et al. 3D object proposals for accurate object class detection[C]// International Conference on Neural Information Processing Systems. MIT Press, 2015:424-432.
          [3] Song S, Xiao J. Deep Sliding Shapes for Amodal 3D Object Detection in RGB-D Images[J]. 2015, 139(2):808-816.
          [4] Deng Z, Latecki L J. Amodal Detection of 3D Objects: Inferring 3D Bounding Boxes from 2D Ones in RGB-Depth Images[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2017:398-406.
          [5] Xu D, Ouyang W, Ricci E, et al. Learning Cross-Modal Deep Representations for Robust Pedestrian Detection[J]. 2017.


          推薦閱讀


            添加極市小助手微信(ID : cvmart2),備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳),即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群:每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與?10000+來(lái)自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺(jué)開(kāi)發(fā)者互動(dòng)交流~

            △長(zhǎng)按添加極市小助手

            △長(zhǎng)按關(guān)注極市平臺(tái),獲取最新CV干貨

            覺(jué)得有用麻煩給個(gè)在看啦~??
            瀏覽 186
            點(diǎn)贊
            評(píng)論
            收藏
            分享

            手機(jī)掃一掃分享

            分享
            舉報(bào)
            評(píng)論
            圖片
            表情
            推薦
            點(diǎn)贊
            評(píng)論
            收藏
            分享

            手機(jī)掃一掃分享

            分享
            舉報(bào)
            <kbd id="afajh"><form id="afajh"></form></kbd>
            <strong id="afajh"><dl id="afajh"></dl></strong>
              <del id="afajh"><form id="afajh"></form></del>
                  1. <th id="afajh"><progress id="afajh"></progress></th>
                    <b id="afajh"><abbr id="afajh"></abbr></b>
                    <th id="afajh"><progress id="afajh"></progress></th>
                    SWAG国产精品一区二区 | 精品福利在线免费观看 | 午夜探花视频 | 亚洲 欧美 国产 日韩 动漫第一页 | a片视频在线播放 |