一作的親自解讀!CVPR 2022最佳學(xué)生論文獎研究了什么?
來源:機器之心
距離 CVPR 2022 各大獎項公布沒多久,來自同濟大學(xué)研究生、阿里達摩院研究型實習(xí)生陳涵晟為我們解讀最佳學(xué)生論文獎。

論文鏈接:https://arxiv.org/abs/2203.13254 代碼鏈接:https://github.com/tjiiv-cprg/EPro-PnP



),同時在物體坐標系中找出與之相關(guān)聯(lián)的 N 個 3D 點(第 i 點 3D 坐標記作
),有時還需要獲取各對點的關(guān)聯(lián)權(quán)重(第 i 對點的關(guān)聯(lián)權(quán)重記作
)。根據(jù)透視投影約束,這 N 對 2D-3D 加權(quán)關(guān)聯(lián)點隱式地定義了物體的最優(yōu)位姿。具體而言,我們可以找出使重投影誤差最小的物體位姿
:
,表示加權(quán)重投影誤差,是位姿的
函數(shù)。
表示含有內(nèi)參的相機投影函數(shù),
表示元素乘積。PnP 方法常見于物體幾何形狀已知的 6 自由度位姿估計任務(wù)中。
。相比于直接位姿預(yù)測,這一深度學(xué)習(xí)結(jié)合傳統(tǒng)幾何視覺算法的模型有非常好的可解釋性,其泛化性能較為穩(wěn)定,但在以往的工作中模型的訓(xùn)練方法存在缺陷。很多方法通過構(gòu)建代理損失函數(shù),去監(jiān)督 X 這一中間結(jié)果,這對于位姿而言不是最優(yōu)的目標。例如,已知物體形狀的前提下,可以預(yù)先選取出物體的 3D 關(guān)鍵點,然后訓(xùn)練網(wǎng)絡(luò)去找出對應(yīng)的 2D 投影點位置。這也意味著代理損失只能學(xué)習(xí) X 中的部分變量,因此不夠靈活。如果我們不知道訓(xùn)練集中物體的形狀,需要從零開始學(xué)習(xí) X 中的全部內(nèi)容該怎么辦?
對于 X 是可導(dǎo)的。首先基于重投影誤差定義位姿的似然函數(shù):

分接近,其實 EPro-PnP 的本質(zhì)就是將softmax從離散閾搬到了連續(xù)閾,把求和
換成了積分
。
,則可以定義目標位姿分布
。此時可以計算 KL 散度
作為訓(xùn)練網(wǎng)絡(luò)所用的損失函數(shù)(因
固定,也可以理解為交叉熵損失函數(shù))。在目標
趨近于 Dirac 函數(shù)的情況下,基于 KL 散度的損失函數(shù)可以簡化為以下形式:

)試圖降低位姿真值
的重投影誤差,第二項(記作
)試圖增大預(yù)測位姿
各處的重投影誤差。二者方向相反,效果如下圖(左)所示。作為類比,右邊就是我們在訓(xùn)練分類網(wǎng)絡(luò)時常用的分類交叉熵損失。
中含有積分,這一積分沒有解析解,因此必須通過數(shù)值方法進行近似。綜合考慮通用性,精確度和計算效率,我們采用蒙特卡洛方法,通過采樣來模擬位姿分布。
的位姿樣本
,我們將這一過程稱作蒙特卡洛 PnP:
可以近似為關(guān)于權(quán)重
的函數(shù),且
可以反向傳播:

。常用的高斯 - 牛頓及其衍生算法通過迭代優(yōu)化求解
,其迭代增量是由代價函數(shù)
的一階和二階導(dǎo)數(shù)決定的。為使 PnP 的解
更接近真值
,可以對代價函數(shù)的導(dǎo)數(shù)進行正則化。設(shè)計正則化損失函數(shù)如下:
為高斯 - 牛頓迭代增量,與代價函數(shù)的一階和二階導(dǎo)數(shù)有關(guān),且可以反向傳播,
表示距離度量,對于位置使用 smooth L1,對于朝向使用 cosine similarity。在
不一致時,該損失函數(shù)促使迭代增量
指向?qū)嶋H真值。
進行歸一化,使其具有類似 attention map 的性質(zhì),可以關(guān)注相對重要的區(qū)域,實驗證明權(quán)重歸一化也是穩(wěn)定收斂的關(guān)鍵。Global weight scaling 反映了位姿分布
的集中程度。該網(wǎng)絡(luò)僅需 EPro-PnP 的蒙特卡洛位姿損失就可以訓(xùn)練,此外可以增加導(dǎo)數(shù)正則化,以及在物體形狀已知的情況下增加額外的 3D 坐標回歸損失。
)。采樣后的 feature 經(jīng)由 attention 操作聚合為 object feature,用于預(yù)測物體級別的結(jié)果(3D score,weight scale,3D box size 等)。此外,采樣后各點的 feature 在加入 object embedding 并經(jīng)由 self attention 處理后輸出各點所對應(yīng)的的 3D 坐標
和關(guān)聯(lián)權(quán)重
。所預(yù)測的
全部可由 EPro-PnP 的蒙特卡洛位姿損失訓(xùn)練得到,不需要額外正則化就可以收斂并有較高的精度。在此基礎(chǔ)上,可以增加導(dǎo)數(shù)正則化損失和輔助損失進一步提升精度。



對圖像中的重要區(qū)域進行了高光,類似于 attention 機制。由損失函數(shù)分析可知,高光區(qū)域?qū)?yīng)的是重投影不確定性較低以及對位姿變動較為敏感的區(qū)域。
水平 X 分量較高的帶你,綠色表示
垂直 Y 分量較高的點。綠色點一般位于物體上下兩端,其主要作用是通過物體高度來推算物體的距離,這一特性并非人為指定,完全是自由訓(xùn)練的結(jié)果。右圖顯示了俯視圖上的檢測結(jié)果,其中藍色云圖表示物體中心點位置的分布密度,反映了物體定位的不確定性。一般遠處的物體定位不確定性大于近處的物體。
評論
圖片
表情
