深度估計相關(guān)原理(計算機視覺和深度學習基礎)
共
1101字,需瀏覽
3分鐘
·
2021-12-10 01:25
今天來和大家介紹一下深度估計涉及到的理論知識點,包括計算機視覺基礎和深度學習基礎。
一、計算機視覺基礎
1.1. 針孔相機模型
相機模型,是指采用一個幾何模型來描述三維世界中的坐標點映射到二維圖像平面的過程。其中,最簡單的模型就是針孔相機模型。針孔相機模型中一共涉及到四個坐標系,分別為世界坐標系(world),相機坐標系(camera),圖像坐標系(image)和像素坐標系(pixel)。相機模型描述的就是四個坐標系中間的轉(zhuǎn)換關(guān)系。為了獲得更好的成像結(jié)果,相機前方加了透鏡,透鏡的加入會對成像過程中光線的傳播產(chǎn)生新的影響,這種影響我們稱之為畸變。結(jié)合畸變的糾正,我們就可以找到相機坐標系中某點在像素平面上的正確位置。1.2. 對極幾何
對極幾何是研究立體視覺中重要的理論,描述了兩張圖片之間存在的幾何對應關(guān)系。本質(zhì)矩陣和基本矩陣就反映了兩個視圖的對極幾何約束。如果知道一副圖像中的某個點和基本矩陣,就能求得另一張圖像上的對應點所在的對極線,這樣就約束了兩視角下圖像中的空間位置關(guān)系。我們可以將左右相機的坐標系旋轉(zhuǎn)至在同一平面(共面),并計算視差圖。根據(jù)視差,我們就可以估計像素與相機之間的距離,也就是深度。1.3. 圖像重構(gòu)原理
圖像重構(gòu)是圖像領域的重要應用,也是3D視覺中重要的一個知識點。在基于深度學習的深度估計方法中,會采用圖像重構(gòu)損失來作為其中的約束條件,如自監(jiān)督學習方法。常見的方法有兩種,前向warping和反向warping。
二、深度學習基礎
2.1. 相關(guān)網(wǎng)絡模型
在深度估計中,常用的網(wǎng)絡模型有ResNet、UNet和Autoencoder。ResNet的思想,是使用恒等映射直接將前一層傳到更深的網(wǎng)絡層。UNet是深度估計中一個比較常用的網(wǎng)絡結(jié)構(gòu),包括下采樣和上采樣過程。Autoencoder可以用來提取圖像的特征,其訓練方式是無監(jiān)督的。2.2. 深度估計中的損失函數(shù)
損失函數(shù)是深度學習中的重要環(huán)節(jié),如何設計或選擇合適的損失函數(shù),是深度學習的關(guān)鍵。深度估計中,比較常見的損失函數(shù)有: 1)用于計算圖像重構(gòu)誤差 / 圖像相似度 3)交叉熵損失函數(shù),用于有監(jiān)督學習2.3. 深度估計的評價指標
深度估計的評價指標有很多,比如AbsRel、SqRel、RMSE等等。
瀏覽
91點贊
評論
收藏
分享

手機掃一掃分享
分享
舉報
點贊
評論
收藏
分享

手機掃一掃分享
分享
舉報
天天干 天天日
|
欧美特黄A片
|
双飞人妻13p
|
白丝暴肛在线观看91
|
无码动漫在线黄
|