大疆騰訊攜手殺瘋了!——單目深度估計(jì)挑戰(zhàn)賽冠軍方案-ICCV2023
大疆騰訊攜手殺瘋了!——單目深度估計(jì)挑戰(zhàn)賽冠軍方案-ICCV2023
1.論文摘要:
利用圖像進(jìn)行精確3D場景重建是一個(gè)存在已久的視覺任務(wù)。由于單圖像重建問題的不適應(yīng)性,大多數(shù)成熟的方法都是建立在多視角幾何之上。當(dāng)前SOTA單目度量深度估計(jì)方法只能處理單個(gè)相機(jī)模型,并且由于度量的不確定性,無法進(jìn)行混合數(shù)據(jù)訓(xùn)練。與此同時(shí),在大規(guī)模混合數(shù)據(jù)集上訓(xùn)練的SOTA單目方法,通過學(xué)習(xí)仿射不變性實(shí)現(xiàn)了零樣本泛化,但無法還原真實(shí)世界的度量。本文展示了從單圖像獲得零樣本度量深度模型,其關(guān)鍵在于大規(guī)模數(shù)據(jù)訓(xùn)練與解決來自各種相機(jī)模型的度量不確定性相結(jié)合。作者提出了一個(gè)規(guī)范相機(jī)空間轉(zhuǎn)換模塊,明確地解決了不確定性問題,并可以輕松集成到現(xiàn)有的單目模型中。配備該模塊,單目模型可以穩(wěn)定地在數(shù)以千計(jì)的相機(jī)型號(hào)采集的8000萬張圖像上進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)對真實(shí)場景中從未見過的相機(jī)類型采集的圖像進(jìn)行零樣本泛化。
圖1的說明:頂部(測距):我們使用兩部手機(jī)(iPhone 12和一部安卓手機(jī))來拍攝場景,并測量桌子的大小。通過照片的元數(shù)據(jù),我們執(zhí)行3D度量重建,然后測量桌子的大小(標(biāo)記為紅色),這非常接近真值(標(biāo)記為藍(lán)色)。與此形成對比,最近的方法LeReS 的表現(xiàn)要差得多,并且按照設(shè)計(jì)無法預(yù)測度量3D。底部(密集SLAM建圖):現(xiàn)有的SOTA單目SLAM方法通常在大規(guī)模場景中面臨尺度漂移問題(見紅色箭頭),并且無法達(dá)到度量尺度,而未經(jīng)處理地輸入我們的度量深度模型,Droid-SLAM 可以恢復(fù)更精確的軌跡并執(zhí)行度量密集映射(見紅色測量)。注意,所有測試數(shù)據(jù)對我們的模型來說都是未見的。
實(shí)驗(yàn)表明該方法在7個(gè)零樣本基準(zhǔn)測試中都取得了SOTA性能。值得注意的是,該方法贏得了第二屆單目深度估計(jì)挑戰(zhàn)賽冠軍。該方法可以從隨機(jī)收集的互聯(lián)網(wǎng)圖像中準(zhǔn)確重構(gòu)3D度量結(jié)構(gòu),為單圖像測距開辟了道路。潛在的益處可以延伸到通過簡單地使用此模型來顯著改進(jìn)的下游任務(wù)。例如,此模型緩解了單目SLAM系統(tǒng)的尺度漂移問題(圖1),實(shí)現(xiàn)了高質(zhì)量的度量尺度密集映射。
代碼未來發(fā)布地址:https://github.com/YvanYin/Metric3D。
原文鏈接:https://arxiv.org/abs/2307.10984
2.方案簡介
通過作者提出的方法,可以輕松將模型訓(xùn)練擴(kuò)展到自數(shù)以萬計(jì)的不同相機(jī)采集的11個(gè)數(shù)據(jù)集的800萬張圖像,覆蓋各種室內(nèi)外場景,實(shí)現(xiàn)零樣本可轉(zhuǎn)移并保持高準(zhǔn)確性。此模型可以在從隨機(jī)收集的互聯(lián)網(wǎng)圖像中準(zhǔn)確重構(gòu)3D度量結(jié)構(gòu),實(shí)現(xiàn)可信的單圖像測距。與仿射不變深度模型不同,此模型也可以直接提高各種下游任務(wù)質(zhì)量。例如(圖1所示),借助此模型預(yù)測的度量深度,可以顯著減少單目SLAM 系統(tǒng)的尺度漂移,實(shí)現(xiàn)更好的映射質(zhì)量和真實(shí)世界度量恢復(fù)。此模型還支持大規(guī)模3D重建。該模型在第二屆單目深度估計(jì)挑戰(zhàn)賽中獲得冠軍??傊卷?xiàng)目的主要貢獻(xiàn)有:
1.提出了規(guī)范和去規(guī)范相機(jī)轉(zhuǎn)換方法,以解決來自各種相機(jī)設(shè)置的度量深度不確定性問題。它可以從大規(guī)模數(shù)據(jù)集中學(xué)習(xí)強(qiáng)大的零樣本單目度量深度模型。
2.提出了一個(gè)隨機(jī)建議規(guī)一化損失來有效提高深度準(zhǔn)確性;
3.此模型在7個(gè)零樣本基準(zhǔn)測試中均達(dá)到了SOTA性能。它可以執(zhí)行高質(zhì)量的現(xiàn)實(shí)場景3D度量結(jié)構(gòu)恢復(fù),并改進(jìn)幾個(gè)下游任務(wù),如單目SLAM 、3D場景重建和測距。
3.方法詳解
預(yù)備知識(shí)??紤]具有內(nèi)在參數(shù)的針孔相機(jī)模型:[[ , 0 , ],[ 0 , , ],[0 , 0 , 1]] ,其中, 是焦距(以微米為單位), 是像素大小(以微米為單位),( , )是原則中心。 是視覺算法中使用的以像素表示的焦距。
3.1 度量不確定性分析
圖3給出了不同相機(jī)在不同距離拍攝的示例照片。僅從圖像外觀,人們可能會(huì)認(rèn)為后兩個(gè)照片是使用相同的相機(jī)在相似的位置拍攝的。事實(shí)上,由于焦距不同,它們是在不同的位置拍攝的。因此,在僅從單個(gè)圖像進(jìn)行度量估計(jì)時(shí),相機(jī)內(nèi)在參數(shù)至關(guān)重要,否則問題是無法得到唯一解的。為避免這樣的度量不確定性,近期的方法(如MiDaS 和LeReS )在監(jiān)督過程中分離度量,并折中學(xué)習(xí)仿射不變深度。
圖4(A)顯示了一個(gè)簡單的針孔透視投影。目標(biāo)A位于 被投影到A'。根據(jù)相似原理,有方程:
(1)
其中, 和 分別是真實(shí)大小和成像大小。 表示變量在物理度量下(例如,毫米)。要從單個(gè)圖像中恢復(fù) ,必須知道焦距、目標(biāo)的成像大小和真實(shí)世界目標(biāo)大小。估計(jì)焦距是一個(gè)從單個(gè)圖像難以確定和無唯一解問題。在此,通過假設(shè)訓(xùn)練/測試圖像的焦距是可用的來簡化問題。相比之下,理解成像大小對神經(jīng)網(wǎng)絡(luò)來說要容易得多。為了獲得真實(shí)世界的目標(biāo)大小,神經(jīng)網(wǎng)絡(luò)需要理解場景布局和目標(biāo)語義,這是神經(jīng)網(wǎng)絡(luò)的強(qiáng)項(xiàng)。定義 ,所以 與 成比例。
對傳感器大小、像素大小和焦距做以下觀察。
O1:傳感器大小和像素大小不會(huì)影響度量深度估計(jì)?;谕敢曂队?圖4 (A)),傳感器大小僅影響視場(FOV),與 無關(guān),因此不會(huì)影響度量深度估計(jì)。對于像素大小,假設(shè)兩個(gè)相機(jī)具有不同的像素大小( )但相同的焦距 在同一距離 拍攝相同的目標(biāo)。圖4(B)顯示它們拍攝的照片。根據(jù)預(yù)備知識(shí), 。由于第二個(gè)相機(jī)具有更小的像素大小,盡管在相同的成像大小 下,像素表示的圖像分辨率為 。根據(jù)式(1), ,即 ,所以 。因此,不同的相機(jī)傳感器不會(huì)影響度量深度估計(jì)。
O2:焦距對度量深度估計(jì)至關(guān)重要。圖3顯示由未知焦距引起的度量不確定性問題。圖5進(jìn)行了說明。如果兩個(gè)相機(jī)( )分別在 的距離,成像大小在兩個(gè)相機(jī)上的成像大小相同。因此,僅從外觀,當(dāng)用不同的標(biāo)簽進(jìn)行監(jiān)督時(shí),網(wǎng)絡(luò)會(huì)出現(xiàn)不確定性?;谶@一觀察,提出規(guī)范相機(jī)轉(zhuǎn)換方法來解決監(jiān)督和圖像表觀沖突。
3.2 規(guī)范相機(jī)轉(zhuǎn)換
核心思想是建立一個(gè)規(guī)范相機(jī)空間(( , ),實(shí)驗(yàn)中設(shè)置 ),并將所有訓(xùn)練數(shù)據(jù)轉(zhuǎn)換到此空間。因此,所有數(shù)據(jù)可以粗略地看作是由規(guī)范相機(jī)捕獲的。作者提出了兩種變換方法,即轉(zhuǎn)換輸入圖像(I∈R )或轉(zhuǎn)換真值(GT)(D∈R )。原始內(nèi)參為{ , , }。
方法1:轉(zhuǎn)換深度標(biāo)簽(CSTM標(biāo)簽)。圖3的不確定性是因?yàn)樯疃?。因此的第一種方法直接轉(zhuǎn)換真值深度以解決這個(gè)問題。具體地,在訓(xùn)練中用比例 縮放真值深度 ,即 。原始相機(jī)模型轉(zhuǎn)換為{ , , }。在推理中,預(yù)測深度(D )在規(guī)范空間中,需要執(zhí)行去規(guī)范變換來恢復(fù)度量信息,即D= D 。注意輸入I不執(zhí)行任何變換,即I =I。
方法2:轉(zhuǎn)換輸入圖像(CSTM圖像)。從另一角度來看,不確定性是由相似的圖像表觀造成的。因此,此方法是轉(zhuǎn)換輸入圖像以模擬規(guī)范相機(jī)的成像效果。具體地,用比例 調(diào)整圖像大小I,即I =T(I, ),其中T(·)表示圖像調(diào)整大小。光心大小也被調(diào)整,因此規(guī)范相機(jī)模型為{ , , }。真值標(biāo)簽無任何縮放調(diào)整大小,即D =T(D*, )。在推理中,去規(guī)范變換是不調(diào)整尺度將預(yù)測還原到原始大小,即D=T(D , )。
圖2顯示了流程圖。執(zhí)行任一變換后,隨機(jī)裁剪修補(bǔ)進(jìn)行訓(xùn)練。裁剪僅調(diào)整FOV和光心,因此不會(huì)引起任何度量不確定性問題。在標(biāo)簽變換方法中 和 ,而在圖像變換方法中 和 。訓(xùn)練目標(biāo)如下:
(2)
其中 是網(wǎng)絡(luò)(N (·))的參數(shù),D 和I 分別是變換后的真值深度標(biāo)簽和圖像。
混合數(shù)據(jù)訓(xùn)練是提升泛化能力的有效方法。作何收集了11個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練。在混合數(shù)據(jù)中,包含了10,000多種不同的相機(jī)。所有收集的訓(xùn)練數(shù)據(jù)都包括配對的相機(jī)內(nèi)參,在規(guī)范變換模塊中使用。
監(jiān)督。為進(jìn)一步提升性能,作者提出了隨機(jī)建議歸一化損失(RPNL)。尺度位移不變損失被廣泛應(yīng)用于仿射不變深度估計(jì),它分離深度尺度以強(qiáng)調(diào)單個(gè)圖像的分布。但是,它們在整個(gè)圖像上執(zhí)行,不可避免地會(huì)壓縮細(xì)粒度的深度差異。受此啟發(fā),作者從真值D 和預(yù)測深度D 中隨機(jī)裁剪若干補(bǔ)丁(p ,i=0,...,M)∈R 。然后對成對的補(bǔ)丁執(zhí)行中值絕對偏差歸一化。歸一化局部統(tǒng)計(jì)數(shù)據(jù)可以增強(qiáng)局部對比度。隨機(jī)建議歸一化損失函數(shù)如下:
其中, 和 分別是真值和預(yù)測深度。 是深度的中值。M是建議裁剪的數(shù)量,設(shè)置為32。在訓(xùn)練期間,建議以原始大小的0.125到0.5隨機(jī)從圖像中裁剪。此外,還采用其他幾個(gè)損失,包括對數(shù)尺度不變損失L ,成對的正?;貧w損失L ,虛擬法線損失L 。注意L 是L1損失的變體。總體損失如下:
L=L +L +L +L
4.結(jié)果對比
作者對幾個(gè)NYUv2場景進(jìn)行了采樣,以進(jìn)行3D重建比較。由于作者的方法可以預(yù)測準(zhǔn)確的度量深度,因此所有幀的預(yù)測都融合在一起進(jìn)行場景重建。相比之下,LeReS的深度達(dá)到了未知的尺度和偏移,這會(huì)導(dǎo)致明顯的失真。DPSNet是一種多視圖立體方法,不能很好地處理低紋理區(qū)域。
5.受益的下游任務(wù)
6.結(jié)論
在本文中,作者解決了從單個(gè)單目圖像重建3D度量場景的問題。為解決各種焦距導(dǎo)致的圖像表觀中的深度不確定性,作者提出了規(guī)范相機(jī)空間變換方法。借助該方法,可以輕松地將訓(xùn)練擴(kuò)展到從10000多個(gè)相機(jī)采集11個(gè)數(shù)據(jù)集中的800萬幅圖像,實(shí)現(xiàn)零樣本轉(zhuǎn)移和高準(zhǔn)確性度量。此模型可以在隨機(jī)收集的互聯(lián)網(wǎng)圖像中準(zhǔn)確重構(gòu)3D度量結(jié)構(gòu),并使幾種下游任務(wù)受益,例如單目SLAM 、3D場景重建和測距等等。
