<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          基于深度學(xué)習(xí)的單目深度估計(jì)綜述

          共 5368字,需瀏覽 11分鐘

           ·

          2020-10-12 06:52

          ↑ 點(diǎn)擊藍(lán)字?關(guān)注極市平臺(tái)

          來(lái)源丨點(diǎn)云PCL
          編輯丨極市平臺(tái)

          極市導(dǎo)讀

          ?

          本文是一篇關(guān)于單目深度估計(jì)方法的綜述文章,總結(jié)了基于深度學(xué)習(xí)的深度估計(jì)中被廣泛使用的數(shù)據(jù)集、評(píng)價(jià)指標(biāo)和重要的訓(xùn)練方法,并對(duì)該領(lǐng)域的未來(lái)提出展望。>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺(jué)的最前沿


          Monocular Depth Estimation Based On Deep Learning: An Overview
          原作者:Chaoqiang Zhao, Qiyu Sun, Chongzhen Zhang
          翻譯:particle

          論文摘要


          深度信息對(duì)于自動(dòng)駕駛系統(tǒng)的感知和估計(jì)自身位姿是十分重要的。傳統(tǒng)的深度估計(jì)方法,如運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)和立體視覺(jué)匹配,都是建立在多視點(diǎn)的特征對(duì)應(yīng)上的,并且預(yù)測(cè)的深度圖是稀疏的。從單個(gè)圖像中推斷深度信息(單目深度估計(jì))是一個(gè)不適定問(wèn)題。近年來(lái),隨著深度神經(jīng)網(wǎng)絡(luò)的迅速發(fā)展,基于深度學(xué)習(xí)的單目深度估計(jì)得到了廣泛的研究,并取得了良好的精度。比如利用深度神經(jīng)網(wǎng)絡(luò)對(duì)單個(gè)圖像進(jìn)行端到端的稠密深度圖估計(jì)。為了提高深度估計(jì)的精度,之后提出了不同的網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)和訓(xùn)練策略。

          因此,本文綜述了目前基于深度學(xué)習(xí)的單目深度估計(jì)方法。首先,我們總結(jié)了幾種在基于深度學(xué)習(xí)的深度估計(jì)中廣泛使用的數(shù)據(jù)集和評(píng)價(jià)指標(biāo)。此外,根據(jù)不同的訓(xùn)練方式,我們回顧了現(xiàn)有的一些有代表性的訓(xùn)練方法:有監(jiān)督的、無(wú)監(jiān)督的和半監(jiān)督的。最后,我們討論了單目深度估計(jì)的挑戰(zhàn),并對(duì)未來(lái)的研究提出了一些設(shè)想。

          相關(guān)工作與介紹


          從圖像中估計(jì)深度信息是計(jì)算機(jī)視覺(jué)的一項(xiàng)基本而重要的任務(wù),可廣泛應(yīng)用于同步定位與建圖(SLAM)、導(dǎo)航、目標(biāo)檢測(cè)和語(yǔ)義分割等領(lǐng)域。

          基于幾何的方法:基于幾何約束的方法從一對(duì)圖像中恢復(fù)三維結(jié)構(gòu)是感知深度的常用方法,近四十年來(lái)得到了廣泛的研究。運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(SfM)是從一系列二維圖像序列中估計(jì)三維結(jié)構(gòu)的代表性方法,并成功地應(yīng)用于三維重建和SLAM領(lǐng)域。稀疏特征的深度由SfM通過(guò)圖像序列之間的特征對(duì)應(yīng)和幾何約束來(lái)計(jì)算,即深度估計(jì)的精度很大程度上依賴于精確的特征匹配和高質(zhì)量的圖像序列。但是,SfM還存在單目尺度模糊的問(wèn)題。立體視覺(jué)匹配還可以通過(guò)從兩個(gè)視點(diǎn)觀察場(chǎng)景來(lái)恢復(fù)場(chǎng)景的三維結(jié)構(gòu)。立體視覺(jué)匹配通過(guò)兩個(gè)相機(jī)的形式模擬人眼的運(yùn)動(dòng)方式,通過(guò)代價(jià)函數(shù)計(jì)算出圖像的視差圖。由于預(yù)先標(biāo)定了兩個(gè)攝像機(jī)之間的變換,所以在立體視覺(jué)匹配期間,在深度估計(jì)中包括尺度信息的計(jì)算。

          雖然上述基于幾何的方法可以有效地計(jì)算稀疏點(diǎn)的深度值,但這些方法通常依賴于圖像匹配或圖像序列。由于缺乏有效的幾何解,如何從單個(gè)圖像中獲取密集的深度圖仍然是一個(gè)重大的挑戰(zhàn)。

          基于傳感器的方法:利用深度傳感器,如RGBD相機(jī)和LIDAR,可以直接獲得相應(yīng)圖像的深度信息。RGB-D相機(jī)能夠直接獲得RGB圖像的像素級(jí)密集深度圖,但其測(cè)量范圍有限,室外對(duì)光照敏感。雖然激光雷達(dá)在無(wú)人駕駛和工業(yè)中廣泛應(yīng)用于深度測(cè)量,但它只能生成稀疏的三維地圖。此外,這些深度傳感器(RGBD相機(jī)和LIDAR)的大尺寸和功耗影響了它們?cè)谛⌒蜋C(jī)器人上的應(yīng)用,比如無(wú)人機(jī)。由于單目相機(jī)成本低、體積小、應(yīng)用范圍廣,從單個(gè)圖像中估計(jì)稠密深度圖越來(lái)越受到人們的關(guān)注,近年來(lái)基于端到端深度學(xué)習(xí)的方法得到了廣泛的研究。

          基于深度學(xué)習(xí)的方法:隨著深度學(xué)習(xí)的快速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)在圖像處理方面表現(xiàn)出了突出的性能,如目標(biāo)檢測(cè)和語(yǔ)義分割等領(lǐng)域,最近的發(fā)展表明,基于深度學(xué)習(xí),可以從單個(gè)圖像中以端到端的方式恢復(fù)像素級(jí)深度圖。各種神經(jīng)網(wǎng)絡(luò)已經(jīng)證明了它們對(duì)解決單目深度估計(jì)的有效性,例如卷積神經(jīng)網(wǎng)絡(luò)(CNNs),遞歸神經(jīng)網(wǎng)絡(luò)(RNNs),變分自動(dòng)編碼器(VAEs)和生成對(duì)抗網(wǎng)絡(luò)(GANs)。本綜述的主要目的是提供對(duì)主流算法的直觀理解,這些算法對(duì)單目深度估計(jì)做出了重大貢獻(xiàn),我們從學(xué)習(xí)方法的角度回顧了單目深度估計(jì)的一些相關(guān)工作。

          深度估計(jì)中的數(shù)據(jù)集和評(píng)價(jià)指標(biāo)


          數(shù)據(jù)集

          KITTI:KITTI數(shù)據(jù)集是計(jì)算機(jī)視覺(jué)中最大、最常用的子任務(wù)數(shù)據(jù)集,如光流、視覺(jué)里程計(jì)、深度估計(jì)、目標(biāo)檢測(cè)、語(yǔ)義分割和跟蹤,它也是無(wú)監(jiān)督和半監(jiān)督單目深度估計(jì)中最常用的基準(zhǔn)和主要訓(xùn)練數(shù)據(jù)集。

          NYU Depth :NYU Depth數(shù)據(jù)集更關(guān)注室內(nèi)環(huán)境,該數(shù)據(jù)集中有464個(gè)室內(nèi)場(chǎng)景。與用激光雷達(dá)采集地面真實(shí)情況的KITTI數(shù)據(jù)集不同,NYU Depth數(shù)據(jù)集通過(guò)RGB-D攝像機(jī)獲取場(chǎng)景的單目視頻序列和地面的深度真值。它是有監(jiān)督單目深度估計(jì)的常用基準(zhǔn)和主要訓(xùn)練數(shù)據(jù)集。

          Cityscapes:Cityscapes 數(shù)據(jù)集主要關(guān)注語(yǔ)義分割任務(wù)。在這個(gè)數(shù)據(jù)集中,有5000幅圖像帶有精細(xì)注釋?zhuān)?0000幅圖像具有粗略標(biāo)注。

          Make3D:?Make3D數(shù)據(jù)集只包含單目的RGB和深度圖像,沒(méi)有立體圖像,這與上述數(shù)據(jù)集不同。由于該數(shù)據(jù)集中沒(méi)有單目序列或立體圖像對(duì),因此半監(jiān)督和非監(jiān)督學(xué)習(xí)方法都不將其作為訓(xùn)練集,而有監(jiān)督方法通常采用它作為訓(xùn)練集。相反,它被廣泛用作無(wú)監(jiān)督算法的測(cè)試集,以評(píng)估網(wǎng)絡(luò)在不同數(shù)據(jù)集上的泛化能力。

          評(píng)價(jià)指標(biāo)

          為了評(píng)價(jià)和比較各種深度估計(jì)網(wǎng)絡(luò)的性能,文章提出了一種常用的深度估計(jì)網(wǎng)絡(luò)性能評(píng)價(jià)方法,該方法有五個(gè)評(píng)價(jià)指標(biāo):RMSE、RMSE-log、Abs-Rel、Sq-Rel、精度。這些指標(biāo)的公式如下:

          基于深度學(xué)習(xí)的單目深度估計(jì)

          在本節(jié)中,我們將從使用地面真實(shí)性的角度來(lái)回顧單目深度估計(jì)方法:有監(jiān)督方法、無(wú)監(jiān)督方法和半監(jiān)督方法。雖然無(wú)監(jiān)督和半監(jiān)督方法的訓(xùn)練過(guò)程依賴于單目視頻或立體圖像對(duì),但訓(xùn)練后的深度網(wǎng)絡(luò)在測(cè)試過(guò)程中從單個(gè)圖像預(yù)測(cè)深度圖。我們從訓(xùn)練數(shù)據(jù)、監(jiān)督信號(hào)和貢獻(xiàn)等方面對(duì)現(xiàn)有的方法進(jìn)行了總結(jié),并收集了在KITTI數(shù)據(jù)集上評(píng)價(jià)的無(wú)監(jiān)督和半監(jiān)督算法的定量結(jié)果。

          有監(jiān)督單目深度估計(jì)

          監(jiān)督方法的基本模型:監(jiān)督方法的監(jiān)督信號(hào)基于深度圖的地面真值,因此單目深度估計(jì)可以看作是一個(gè)回歸問(wèn)題。從單個(gè)深度圖像設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)深度。利用預(yù)測(cè)深度圖和實(shí)際深度圖之間的差異來(lái)監(jiān)督網(wǎng)絡(luò)的訓(xùn)練 L2損失
          深度網(wǎng)絡(luò)通過(guò)近似真值的方法來(lái)學(xué)習(xí)場(chǎng)景的深度。

          基于不同結(jié)構(gòu)和損失函數(shù)的方法:據(jù)我們所知,Eigen等人首先用CNNs解決單目深度估計(jì)問(wèn)題。該體系結(jié)構(gòu)由兩個(gè)組成部分組成(全局粗尺度網(wǎng)絡(luò)和局部精細(xì)尺度網(wǎng)絡(luò)),在文獻(xiàn)中用于從單個(gè)圖像進(jìn)行端到端的深度圖預(yù)測(cè)。

          基于條件隨機(jī)場(chǎng)的方法:Li等人提出了一種基于多層的條件隨機(jī)場(chǎng)(CRFs)的細(xì)化方法,該方法也被廣泛應(yīng)用于語(yǔ)義分割。在深度的估計(jì)中,考慮到深度的連續(xù)特征,可以廣泛地使用CRF的深度信息,因此可以廣泛地應(yīng)用于深度的估計(jì)中。

          基于對(duì)抗性學(xué)習(xí)的方法:由于提出的對(duì)抗性學(xué)習(xí)在數(shù)據(jù)生成方面的突出表現(xiàn),近年來(lái)成為一個(gè)研究熱點(diǎn)。各種算法、理論和應(yīng)用已得到廣泛發(fā)展。對(duì)抗式學(xué)習(xí)深度估計(jì)的框架如圖所示。
          無(wú)監(jiān)督單目深度估計(jì)

          在無(wú)監(jiān)督方法的訓(xùn)練過(guò)程中,將幀間的幾何約束作為監(jiān)督信號(hào),而不是使用代價(jià)昂貴的背景真值。

          無(wú)監(jiān)督方法的基本模型:無(wú)監(jiān)督方法由單眼圖像序列訓(xùn)練,幾何約束建立在相鄰幀之間的投影上

          左邊是無(wú)監(jiān)督方法中視圖重建的圖像變換過(guò)程? 右邊是無(wú)監(jiān)督單目深度估計(jì)方法的一般框架。

          基于可解釋性掩模的方法:基于投影函數(shù)的視圖重建算法依賴于靜態(tài)場(chǎng)景假設(shè),即動(dòng)態(tài)目標(biāo)在相鄰幀上的位置不滿足投影函數(shù),從而影響測(cè)光度誤差和訓(xùn)練過(guò)程。

          基于傳統(tǒng)視覺(jué)里程計(jì)的方法:在文獻(xiàn)[16]中,用傳統(tǒng)的直接視覺(jué)里程計(jì)回歸的位姿來(lái)輔助深度估計(jì),而不是使用位姿網(wǎng)絡(luò)估計(jì)的位姿。直接視覺(jué)里程計(jì)利用深度網(wǎng)絡(luò)生成的深度圖和一個(gè)三幀圖像,通過(guò)最小化光度誤差來(lái)估計(jì)幀間的姿態(tài),然后將計(jì)算出的姿態(tài)發(fā)送回訓(xùn)練框架。因此,由于深度網(wǎng)絡(luò)由更精確的姿態(tài)來(lái)監(jiān)督,因此深度估計(jì)的精度顯著提高。

          基于多任務(wù)框架的方法:最近的方法在基本框架中引入了額外的多任務(wù)網(wǎng)絡(luò),如光流、物體運(yùn)動(dòng)和相機(jī)內(nèi)參矩陣,作為一個(gè)附加的訓(xùn)練框架,加強(qiáng)了整個(gè)訓(xùn)練任務(wù)之間的關(guān)系

          基于對(duì)抗學(xué)習(xí)的方法:將對(duì)抗學(xué)習(xí)框架引入到無(wú)監(jiān)督的單目深度估計(jì)中。由于在無(wú)監(jiān)督訓(xùn)練中沒(méi)有真正的深度圖。因此,將視圖重建算法合成的圖像和真實(shí)圖像作為鑒別器的輸入,而不是使用鑒別器來(lái)區(qū)分真實(shí)深度圖和預(yù)測(cè)深度圖。
          半監(jiān)督單目深度估計(jì)

          由于在訓(xùn)練過(guò)程中不需要真值,因此無(wú)監(jiān)督方法的性能與監(jiān)督方法還有很大差距。此外,無(wú)監(jiān)督方法也存在著尺度模糊、尺度不一致等問(wèn)題。因此,為了提高估計(jì)精度,減少對(duì)真值的依賴,提出了半監(jiān)督方法。此外,還可以從半監(jiān)督信號(hào)中學(xué)習(xí)尺度信息。立體圖像對(duì)的訓(xùn)練類(lèi)似于單目視頻,其主要區(qū)別在于兩幀(左右圖像或前向后圖像)之間的變換是否已知。因此,一些研究將基于立體圖像對(duì)的框架視為無(wú)監(jiān)督方法,而另一些研究將其視為半監(jiān)督方法。本文將其視為半監(jiān)督方法,而左右圖像之間的姿態(tài)是訓(xùn)練過(guò)程中的監(jiān)督信號(hào)。

          半監(jiān)督方法的基本模型:訓(xùn)練在立體圖像對(duì)上的半監(jiān)督方法估計(jì)左右圖像之間的視差圖(逆深度圖)。然后,使用由預(yù)測(cè)的逆深度計(jì)算的視差圖Dis通過(guò)變換圖從右圖像合成左圖像,如圖所示。

          基于立體圖像對(duì)的半監(jiān)督單目深度估計(jì)的一般框架。深度網(wǎng)絡(luò)取左圖像預(yù)測(cè)其像素級(jí)逆深度圖(或視差圖),利用預(yù)測(cè)的逆深度圖通過(guò)逆扭曲算法從右圖像重建左圖像。通過(guò)計(jì)算重構(gòu)誤差來(lái)監(jiān)督訓(xùn)練過(guò)程。

          基于立體匹配的方法:Luo等人提出了一種基于Deep3D的視景合成網(wǎng)絡(luò),用于從左圖像估計(jì)右圖像,這與上述工作不同。此外,還設(shè)計(jì)了立體匹配網(wǎng)絡(luò),對(duì)原始的左、右圖像進(jìn)行立體匹配,對(duì)視差圖進(jìn)行回歸。

          基于對(duì)抗式學(xué)習(xí)和知識(shí)提煉的方法:結(jié)合先進(jìn)的網(wǎng)絡(luò)框架,如對(duì)抗式學(xué)習(xí)和知識(shí)提煉,正變得越來(lái)越流行,并能顯著提高其性能。

          基于稀疏真值的方法:為了增強(qiáng)監(jiān)督信號(hào),將稀疏真值廣泛地引入訓(xùn)練框架中。Kuznietsov等人。采用激光雷達(dá)采集的地面真實(shí)深度進(jìn)行半監(jiān)督學(xué)習(xí)。另外,左右深度圖均由CNNs估計(jì),基于LIDAR數(shù)據(jù)的監(jiān)督信號(hào)(Gl,Gr)公式如下:

          討論


          總的來(lái)說(shuō),我們認(rèn)為單目深度估計(jì)的發(fā)展仍將集中在提高精度、可傳輸性和實(shí)時(shí)性上。

          精度:以往的工作主要集中在通過(guò)采用新的損失函數(shù)或網(wǎng)絡(luò)框架來(lái)提高深度估計(jì)的精度,如表一所示。LSTM、VAE、GANs等幾種著名的網(wǎng)絡(luò)框架在提高深度估計(jì)性能方面已顯示出其有效性。因此,隨著深層神經(jīng)網(wǎng)絡(luò)的發(fā)展,嘗試新的網(wǎng)絡(luò)框架,如三維卷積、圖形卷積、注意機(jī)制[和知識(shí)蒸餾,可能會(huì)得到令人滿意的結(jié)果。雖然無(wú)監(jiān)督方法在訓(xùn)練過(guò)程中不依賴于地面真實(shí)情況,但其精度與目前最有效的半監(jiān)督方法相差甚遠(yuǎn),如表二所示。尋找一個(gè)更有效的幾何約束來(lái)改進(jìn)無(wú)監(jiān)督方法可能是一個(gè)很好的方向。
          可傳輸性:可傳輸性是指同一網(wǎng)絡(luò)在不同攝像機(jī)、不同場(chǎng)景和不同數(shù)據(jù)集上的性能。深度網(wǎng)絡(luò)的可傳輸性越來(lái)越受到人們的關(guān)注。目前大多數(shù)的方法都是在同一個(gè)數(shù)據(jù)集上訓(xùn)練和測(cè)試的,從而獲得了令人滿意的結(jié)果。然而,不同領(lǐng)域或不同攝像機(jī)采集的訓(xùn)練集和測(cè)試集往往會(huì)導(dǎo)致性能?chē)?yán)重下降。將攝像機(jī)參數(shù)引入深度估計(jì)框架,在訓(xùn)練過(guò)程中利用域自適應(yīng)技術(shù),可以顯著提高深度網(wǎng)絡(luò)的可移植性,是近年來(lái)研究的熱點(diǎn)。
          實(shí)時(shí)性:雖然深度的網(wǎng)絡(luò)表現(xiàn)出出色的性能,但它們需要更多的計(jì)算時(shí)間來(lái)完成估計(jì)任務(wù),這對(duì)它們的應(yīng)用是一個(gè)巨大的挑戰(zhàn)。深度估計(jì)網(wǎng)絡(luò)在嵌入式設(shè)備上實(shí)時(shí)運(yùn)行的能力對(duì)其實(shí)際應(yīng)用具有重要意義。因此,基于有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)的輕量級(jí)網(wǎng)絡(luò)的發(fā)展將是一個(gè)很有前途的方向,而目前這方面的相關(guān)研究還不多。由于輕量級(jí)網(wǎng)絡(luò)的參數(shù)個(gè)數(shù)較少,這就影響了網(wǎng)絡(luò)的性能。因此,在保證實(shí)時(shí)性的前提下提高精度是一個(gè)值得研究的課題。此外,對(duì)于基于深度學(xué)習(xí)的單目深度估計(jì)方法的機(jī)理研究很少,比如深度網(wǎng)絡(luò)學(xué)習(xí)了什么深度線索以及利用了什么深度線索。

          總結(jié)

          本文旨在對(duì)基于深度學(xué)習(xí)的單目深度估計(jì)這一日益增長(zhǎng)的研究領(lǐng)域的綜述文獻(xiàn)。因此,我們結(jié)合損失函數(shù)和網(wǎng)絡(luò)框架的應(yīng)用,從訓(xùn)練方式的角度對(duì)單目深度估計(jì)的相關(guān)工作進(jìn)行了綜述,包括有監(jiān)督、無(wú)監(jiān)督和半監(jiān)督學(xué)習(xí)。最后,我們還討論了當(dāng)前研究的熱點(diǎn)和挑戰(zhàn),并對(duì)未來(lái)的研究提出了一些有價(jià)值的想法和有希望的方向。


          推薦閱讀



          ACCV 2020國(guó)際細(xì)粒度網(wǎng)絡(luò)圖像識(shí)別競(jìng)賽正式開(kāi)賽!

          添加極市小助手微信(ID : cvmart2),備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳),即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群:月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與?10000+來(lái)自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺(jué)開(kāi)發(fā)者互動(dòng)交流~

          △長(zhǎng)按添加極市小助手

          △長(zhǎng)按關(guān)注極市平臺(tái),獲取最新CV干貨

          覺(jué)得有用麻煩給個(gè)在看啦~??


          瀏覽 85
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  五月天成人在线观看 | 色婷婷色丁香 | 韩国三级片久久久久 | 欧美日韩性爱一区二区三区 | japαnese老熟女老熟妇 |