CVPR2021|神經(jīng)網(wǎng)絡如何進行深度估計?

極市導讀
與深度神經(jīng)網(wǎng)絡相比,人類的視覺擁有更強的泛化能力,所以能夠勝任各項視覺任務。結(jié)合人類視覺系統(tǒng)“通過觀察結(jié)構(gòu)信息獲得感知能力”的特點,本文提出了一種新的深度估計方法,能夠賦予神經(jīng)網(wǎng)絡強大的深度估計的泛化能力。目前,相關工作的論文已被 CVPR 2021 收錄。 >>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿
在深度學習的驅(qū)動下,如今計算機已經(jīng)在多個圖像分類任務中取得了超越人類的優(yōu)異表現(xiàn)。但面對一些不尋常的圖像,以“深度”著稱的神經(jīng)網(wǎng)絡還是無法準確識別。與此相比,人類的視覺系統(tǒng)是通過雙眼的立體視覺來感知深度的。通過大量實際場景的經(jīng)驗積累以后,人類可以在只有一張圖像的情況下,判斷圖像中物體的前后距離關系。
在計算機視覺領域,單目深度估計試圖模擬人類的視覺,旨在在只有一張圖像作為輸入的情況下,預測出每個像素點的深度值。單目深度估計是 3D 視覺中一個重要的基礎任務,在機器人、自動駕駛等多個領域都具有廣泛的應用,是近年來的研究熱點。
目前通用的解決方案是依賴深度學習強大的擬合能力,在大量數(shù)據(jù)集上進行訓練,試圖獲取深度估計的能力。這一“暴力”解法盡管在某些特定數(shù)據(jù)集的測試場景上取得了優(yōu)異的結(jié)果,但是網(wǎng)絡的泛化能力較差,很難遷移到更一般的應用情形,無法適應不同的光照條件、季節(jié)天氣,甚至相機參數(shù)的變化。其中一個具體的例子就是,相同的場景在不同光照條件下的輸入圖像,經(jīng)過同一個深度估計網(wǎng)絡,會出現(xiàn)截然不同的預測結(jié)果。
造成這一結(jié)果的原因在于,從人類感知心理學的相關研究中可以發(fā)現(xiàn)人的視覺系統(tǒng)更傾向于利用形狀結(jié)構(gòu)特征進行判斷,而卷積神經(jīng)網(wǎng)絡則更依賴紋理特征進行判斷。
例如,給定一只貓的圖像,保留貓的輪廓,再使用大象的紋理去取代貓的皮毛紋理,人類傾向于認為圖像的類別是貓,但是網(wǎng)絡卻會判定為大象。這種不一致性,會導致網(wǎng)絡強行學習到的規(guī)律和人類不一致,很難完成對人類視覺系統(tǒng)的模擬。具體到深度估計領域,圖像的紋理變化,例如不同的光照、天氣、季節(jié)造成的影響都會對模型產(chǎn)生較大的影響。

另一個更為嚴重的問題,是網(wǎng)絡容易根據(jù)局部的顏色信息來進行判斷,而不是根據(jù)圖像整體的布局。比如,深度網(wǎng)絡會把前方路面上的白色卡車誤認為是白云,將較近距離的卡車判斷為較遠距離的云,這種誤判在自動駕駛場景中非常致命,會導致車輛無法對白色卡車進行合理規(guī)避,釀成嚴重事故。
將人類視覺用于深度估計
如何解決上述兩個“致命”問題,從而提高深度神經(jīng)網(wǎng)絡的泛化能力?
盡管“誤判”問題可以通過擴大訓練數(shù)據(jù)集來緩解,但是收集數(shù)據(jù)本身會帶來大量的人力、物力成本。而使用計算機圖形圖像學技術(shù)雖然可以以較低的成本生成大量的訓練數(shù)據(jù),但是由于合成數(shù)據(jù)和真實數(shù)據(jù)存在色彩色調(diào)不一致的情況,所以合成數(shù)據(jù)集上訓練的深度估計網(wǎng)絡也很難泛化到實際應用場景中。
因此,微軟亞洲研究院的研究員們提出了一個更通用的解決思路:模仿人類視覺系統(tǒng)。相關工作“S2R-DepthNet: Learning a Generalizable Depth-specific Structural Representation”(論文鏈接:https://arxiv.org/pdf/2104.00877.pdf)已被 CVPR 2021 接受。通過結(jié)合人類的視覺系統(tǒng)特點,該工作探究了網(wǎng)絡進行單目深度估計的本質(zhì),并賦予了網(wǎng)絡強大的深度估計泛化能力。

具體的研究思路是:考慮到人類視覺系統(tǒng)更依賴結(jié)構(gòu)信息來進行感知,例如人可以從僅包含結(jié)構(gòu)信息的草圖中獲取場景的深度信息,研究員們通過對圖像中的結(jié)構(gòu)信息和紋理信息進行解耦,先提取圖像中的結(jié)構(gòu)信息,去除無關的紋理信息,再基于結(jié)構(gòu)信息進行深度估計。
這樣設計的深度估計網(wǎng)絡去除了對紋理信息的影響,可以做到更強的泛化能力。論文中的模型(S2R-DepthNet, Synthesic to Real Depth Network),僅在合成數(shù)據(jù)上進行訓練,不接觸任何目標域的真實圖像,所得到的模型無需任何額外操作就可以直接在實際的數(shù)據(jù)集上取得很好的深度估計效果。該方法遠超基于域遷移(Domain Adaptation)的方法。
S2R-DepthNet 的網(wǎng)絡結(jié)構(gòu)為了獲得深度特定的結(jié)構(gòu)表示,利用提出的結(jié)構(gòu)提取模塊 STE 從圖像中提取出通用的結(jié)構(gòu)表征,如圖2所示??墒谴藭r得到的結(jié)構(gòu)表示是一個通用的并且低級的圖像結(jié)構(gòu),其中包含了大量與深度無關的結(jié)構(gòu)信息。例如平滑表面的結(jié)構(gòu)(車道線或者墻上的照片)。

所以研究員們進一步提出了一個深度特定的注意力模塊 DSA 去預測一個注意力圖,以抑制這些與深度無關的結(jié)構(gòu)信息。由于只有深度特定的結(jié)構(gòu)信息輸入到了最終的深度預測網(wǎng)絡中,因此,訓練“成熟”的 S2R-DepthNet 泛化能力極強,能夠“覆蓋”沒見過的真實數(shù)據(jù)。
STE 模塊目的是為了從不同風格的圖像中提取領域不變的結(jié)構(gòu)信息。如圖3所示,STE 模塊包含了一個編碼器 Es 去提取結(jié)構(gòu)信息,和一個解碼器 Ds 去解碼編碼的結(jié)構(gòu)信息到結(jié)構(gòu)圖。

如圖4所示,研究員們利用了圖像到圖像轉(zhuǎn)換的框架去訓練 STE 的編碼器 Es。而為了使得網(wǎng)絡可以適應多個風格的圖像,并將通用的圖像結(jié)構(gòu)從圖像中解耦出來,研究員們用一個風格數(shù)據(jù)集Painter By Numbers (PBN)作為目標域,合成數(shù)據(jù)作為源域,通過共有的結(jié)構(gòu)編碼器和兩個私有的風格編碼器,分別編碼出源域和目標域的結(jié)構(gòu)信息和風格信息。再利用圖像自重建損失、潛層特征自重建損失和對抗損失結(jié)合的方式將結(jié)構(gòu)信息和風格信息解耦。通過這種方式訓練的結(jié)構(gòu)編碼器可以編碼出通用的結(jié)構(gòu)信息。

為了訓練 STE 模塊的解碼器,研究員們在其后加了一個深度估計網(wǎng)絡,通過對預測的深度施加損失,便可以通過結(jié)構(gòu)圖預測出深度圖。此外研究員們還用了一個啟發(fā)性的損失函數(shù),施加在結(jié)構(gòu)圖上,以突出結(jié)構(gòu)圖中深度相關的區(qū)域。如以下公式所示。

提取出的結(jié)構(gòu)圖是通用的結(jié)構(gòu)圖,不但包含深度相關的結(jié)構(gòu)信息,同時也包含與深度無關的結(jié)構(gòu)信息,因此通過提出深度相關注意力模型預測注意力圖,可以有效地抑制與深度無關的結(jié)構(gòu)信息。由于結(jié)構(gòu)編碼器中包含了多個 IN 層,導致其損失了很多判別特征,很難包含語義信息,因此設計的深度相關注意力模塊使用了大量的膨脹卷積,可以有效在保持分辨率的情況下增大感受野。
通過上述注意力模塊,研究員們可以得到與深度相關的結(jié)構(gòu)化表示。直接輸入到深度估計網(wǎng)絡中,便可進行深度預測,從而在不同領域之間進行遷移。
研究員們可視化了學到的通用結(jié)構(gòu)表示和深度特定的結(jié)構(gòu)表示,如圖2所示,即使合成數(shù)據(jù)和真實數(shù)據(jù)在圖像上有明顯的不同,學到的結(jié)構(gòu)圖和深度特定的結(jié)構(gòu)表示也可以共享很多相似性。
該方法的量化結(jié)果如表格1所示。域遷移方法在使用合成數(shù)據(jù)訓練的過程中,加入了目標域的真實場景圖像,此方法在訓練過程中只用了合成數(shù)據(jù)圖像,已取得了顯著的泛化能力的提升。其原因在于抓住了深度估計任務結(jié)構(gòu)化表示的本質(zhì)特征。

研究員們提出的結(jié)構(gòu)化表征方法更復合人類視覺系統(tǒng)的特點,因此可以將其推廣到其它任務,例如圖像分類、圖像檢測和圖像分割等。同時,研究員們也將整個訓練過程進行了簡化,將所有的結(jié)構(gòu)化表征學習通過一個基于 ResNet 的 backbone 網(wǎng)絡來進行實現(xiàn),通過在 ImageNet 上訓練,該模型在多個下游任務(分類、檢測和分割)的測試中,均取得了目前最優(yōu)的模型泛化能力。其相關工作已投稿 NeurIPS 2021,論文和代碼將于近期公開。
論文標題:S2R-DepthNet: Learning a Generalizable Depth-specific Structural Representation
地址:https://arxiv.org/pdf/2104.00877.pdf
代碼:https://github.com/microsoft/S2R-DepthNet
如果覺得有用,就請分享到朋友圈吧!
公眾號后臺回復“79”獲取CVPR 2021:TransT 直播鏈接~

# CV技術(shù)社群邀請函 #
備注:姓名-學校/公司-研究方向-城市(如:小極-北大-目標檢測-深圳)
即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

