ECCV 2020 微軟亞洲研究院6篇精選論文集錦

極市導(dǎo)讀
?ECCV(European Conference on Computer Vision)是計(jì)算機(jī)視覺(jué)領(lǐng)域的三大頂會(huì)之一。今年的 ECCV 大會(huì)于8月23日至28日在線(xiàn)上舉行。微軟亞洲研究院在本屆大會(huì)上有21篇論文入選,本文精選了其中6篇有代表性的為大家進(jìn)行介紹。
A Closer Look at Local Aggregation Operators in Point Cloud Analysis
論文鏈接:https://arxiv.org/abs/2007.01294
代碼地址:https://github.com/zeliu98/CloserLook3D
?
近些年涌現(xiàn)了很多不同的 3D 點(diǎn)云網(wǎng)絡(luò)和算子,例如自 PointNet++、DGCN、Continuous Conv、DeepGCN、KPConv 等等,盡管它們?cè)诔R?jiàn)的基準(zhǔn)評(píng)測(cè)集上的性能逐步有所提升,但由于各種網(wǎng)絡(luò)采用不同的局部算子、整體網(wǎng)絡(luò)結(jié)構(gòu)和實(shí)現(xiàn)細(xì)節(jié),所以人們對(duì)該領(lǐng)域的實(shí)質(zhì)進(jìn)步一直缺乏準(zhǔn)確地評(píng)估。
為此,微軟亞洲研究院和中國(guó)科大的研究人員嘗試對(duì)該領(lǐng)域的進(jìn)步進(jìn)行更準(zhǔn)確、公平地評(píng)估,并提出了無(wú)需可學(xué)參數(shù)的新型 3D 點(diǎn)云算子位置池化 PosPool。研究指出:
1)盡管不同 3D 算子的設(shè)計(jì)各異,但在相同整體網(wǎng)絡(luò)和實(shí)現(xiàn)細(xì)節(jié)下,所有算子的性能都驚人的相似。
2)無(wú)需更復(fù)雜的 3D 網(wǎng)絡(luò),經(jīng)典的深度殘差網(wǎng)絡(luò)就能在各種規(guī)模和各種場(chǎng)景的數(shù)據(jù)集上取得優(yōu)異的表現(xiàn)。結(jié)合幾種典型局部算子后,均能在 PartNet 上超過(guò)此前 SOTA 7個(gè)點(diǎn)以上。
3)極簡(jiǎn)無(wú)參的位置池化算子 PosPool (位置池化)即能比肩各種更復(fù)雜的 3D 局部算子。
該論文的方法沒(méi)有引入復(fù)雜的設(shè)計(jì),希望這一基準(zhǔn)方法可以讓今后 3D 點(diǎn)云識(shí)別的研究可以從中受益。

表1:不同?3D?局部算子在標(biāo)準(zhǔn)數(shù)據(jù)集中的表現(xiàn)(其中?S 表示小一些的模型,PosPool?* 表示一種變體)

圖1:位置池化(PosPool)算子示意
多攝像機(jī)多人三維人體姿態(tài)估計(jì) VoxelPose
VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild
論文鏈接:https://arxiv.org/abs/2004.06239v1.pdf
代碼地址:https://github.com/microsoft/voxelpose-pytorch
?
微軟亞洲研究院的研究員在本篇論文中提出了一種新的多攝像機(jī)多人姿態(tài)估計(jì)的方法 VoxelPose。該任務(wù)存在兩個(gè)重要挑戰(zhàn):
(1)將每個(gè)視角中的關(guān)鍵點(diǎn)聚類(lèi)成多個(gè)實(shí)例,
(2)將不同視角中同一個(gè)人的關(guān)鍵點(diǎn)進(jìn)行關(guān)聯(lián)。
在之前的工作中,以上兩個(gè)問(wèn)題通常會(huì)由兩個(gè)獨(dú)立的模型來(lái)完成,然而在圖像背景復(fù)雜、遮擋嚴(yán)重的情況下,因?yàn)槿鄙僮銐虻男畔?,讓這個(gè)任務(wù)變得非常困難,從而使得結(jié)果不盡如人意。在該論文中,研究員們基于 voxel 表達(dá)方式,提出了一種方法可以直接在三維空間進(jìn)行推理,無(wú)需在二維圖像上進(jìn)行任何硬決策。
簡(jiǎn)單來(lái)說(shuō),就是從多個(gè)攝像機(jī)的圖像中構(gòu)建基于 voxel 的對(duì)場(chǎng)景(包括人)的表達(dá),然后提出一個(gè)檢測(cè)網(wǎng)絡(luò)用來(lái)檢測(cè)人在三維空間中的大概位置,最后利用姿態(tài)估計(jì)網(wǎng)絡(luò)在每一個(gè)檢測(cè)出來(lái)的位置附近檢測(cè)精細(xì)的三維人體姿態(tài)。研究員們?cè)?Campus 和 Shelf 數(shù)據(jù)集上都大幅提升了當(dāng)前最好方法的結(jié)果。重要的是,在存在非常多遮擋的場(chǎng)景下,該方法依然能夠穩(wěn)定地估計(jì)出所有人的姿態(tài)。
這是首個(gè)基于計(jì)算機(jī)視覺(jué)方案在復(fù)雜場(chǎng)景里進(jìn)行準(zhǔn)確的姿態(tài)估計(jì)和跟蹤的方法。該方法的優(yōu)化版本已被應(yīng)用到微軟的 Connected Store 項(xiàng)目中,用來(lái)估計(jì)零售商店場(chǎng)景下的多人姿態(tài)。
以下是 VoxelPose 在多個(gè)公開(kāi)數(shù)據(jù)集上的結(jié)果展示。
在?Panoptic 數(shù)據(jù)集上的結(jié)果
在?Campus 數(shù)據(jù)集上的結(jié)果。研究員并沒(méi)有在這個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練,而是直接使用了在?Panoptic 數(shù)據(jù)集上訓(xùn)練好的模型。
在?Shelf 數(shù)據(jù)集上的結(jié)果。同樣,研究員沒(méi)有在這個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練,直接使用了在?Panoptic 數(shù)據(jù)集上訓(xùn)練好的模型。
生成圖片質(zhì)量評(píng)估 GIQA
GIQA:?Generated Image Quality Assessment
論文鏈接:https://arxiv.org/abs/2003.08932.pdf
代碼地址:https://github.com/cientgu/GIQA
?
這些年來(lái),深度生成模型取得了巨大的進(jìn)展,然而并非所有生成的結(jié)果都十分完美。微軟亞洲研究院提出了一個(gè)新的研究領(lǐng)域:生成圖片質(zhì)量評(píng)估 (GIQA),并從兩個(gè)角度提出了三種 GIQA 的方法,對(duì)單張生成圖片的質(zhì)量進(jìn)行打分,并篩選出符合需求的圖片。

圖2:GIQA?對(duì)生成圖片的打分分布
首先是基于學(xué)習(xí)的 GIQA:研究員們發(fā)現(xiàn)在訓(xùn)練 GAN 的時(shí)候,生成圖片的質(zhì)量會(huì)隨著迭代次數(shù)的增加越來(lái)越好。所以,一個(gè)直接的想法就是用迭代次數(shù)當(dāng)質(zhì)量的“偽標(biāo)簽”,通過(guò)監(jiān)督式的學(xué)習(xí)來(lái)學(xué)一個(gè)打分器,從而對(duì)生成圖片的質(zhì)量進(jìn)行打分。該方法被稱(chēng)之為 MBC-GIQA。
另一種思路是基于數(shù)據(jù)驅(qū)動(dòng)的 GIQA:其核心思想是用一張生成圖片來(lái)自于真實(shí)分布的概率去衡量圖片的質(zhì)量,概率越大,質(zhì)量越高。然而這需要對(duì)真實(shí)分布進(jìn)行建模,因此,基于所建模型的不同,研究員們提出了兩種方法 GMM-GIQA 和 KNN-GIQA。
研究員們收集了 LGIQA 質(zhì)量評(píng)估數(shù)據(jù)集,并衡量了此次提出的方法,發(fā)現(xiàn) GMM-GIQA 能取得最好的結(jié)果,遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)的圖像質(zhì)量評(píng)估方法。所以,GMM-GIQA 是目前最推薦使用的方法。

圖3:微軟亞洲研究院的方法和之前的方法挑出的最高質(zhì)量和最低質(zhì)量的圖片
微軟亞洲研究院的新方法還有很多衍生應(yīng)用。其中一個(gè)是模型質(zhì)量評(píng)估。對(duì)于生成模型,可以獨(dú)立的衡量生成圖片的質(zhì)量和多樣性。另一個(gè)有趣的應(yīng)用是通過(guò)后處理丟棄一部分圖片,讓剩下的圖片有更好的生成質(zhì)量。此外,研究員們還通過(guò)結(jié)合 OHEM,在 GAN 的訓(xùn)練過(guò)程中,給低質(zhì)量生成圖片更高的懲罰權(quán)重,從而讓 GAN 生成出更高質(zhì)量的圖片。
整體來(lái)看,GIQA 是一個(gè)新穎且對(duì)學(xué)術(shù)界和產(chǎn)業(yè)界都很有意義的研究方向,經(jīng)驗(yàn)證,新提出的幾種 GIQA 方法,都具有相當(dāng)高的有效性和應(yīng)用價(jià)值。
?
基于物理與神經(jīng)網(wǎng)絡(luò)的光照估計(jì)
Object-based Illumination Estimation with Rendering-aware Neural Networks
論文鏈接:?https://arxiv.org/abs/2008.02514v1.pdf
?
混合現(xiàn)實(shí)(Mixed Reality)技術(shù)允許用戶(hù)將虛擬物體與真實(shí)世界相融合,得以實(shí)現(xiàn)類(lèi)似在現(xiàn)實(shí)世界中觀察虛擬物體的效果。然而,如何將虛擬物體按照真實(shí)的環(huán)境進(jìn)行繪制依然是一個(gè)具有挑戰(zhàn)的問(wèn)題。真實(shí)世界中的物體都是受到周?chē)鎸?shí)環(huán)境的光照照射的,如果繪制混合的虛擬物體無(wú)法保持一致的光照效果,用戶(hù)則會(huì)感受到光照的不一致性,從而影響觀感體驗(yàn)。因此,研究人員需要根據(jù)當(dāng)前的,即將混合虛擬物體的真實(shí)世界照片,來(lái)估計(jì)當(dāng)前真實(shí)環(huán)境中的光照條件。
傳統(tǒng)的基于圖像的光照估計(jì)算法往往從圖像的全局考慮,并假設(shè)輸入圖像是背景環(huán)境光照的一部分,而在一些混合現(xiàn)實(shí)的應(yīng)用中,用戶(hù)的視角往往會(huì)集中于場(chǎng)景的一個(gè)局部。針對(duì)這樣的輸入數(shù)據(jù),傳統(tǒng)基于全局信息的光照估計(jì)算法很難給出穩(wěn)定的光照預(yù)測(cè)。為了解決這一問(wèn)題,微軟亞洲研究院的研究員們提出了一種基于場(chǎng)景局部光影信息來(lái)進(jìn)行光照估計(jì)的算法。僅僅給定一個(gè)場(chǎng)景的局部作為輸入,但這個(gè)局部中物體本身的高光反射、陰影變化等都反映了當(dāng)前環(huán)境光照的信息,可以有效的作為光照估計(jì)的線(xiàn)索。
然而,場(chǎng)景中物體的光影與環(huán)境光照的關(guān)系是一個(gè)比較復(fù)雜的過(guò)程,雖然可以利用基于物理的渲染方法來(lái)模擬這一過(guò)程,但由于這個(gè)關(guān)系的高度非線(xiàn)性性質(zhì)使得從光影反向推導(dǎo)光照的問(wèn)題難于進(jìn)行優(yōu)化。更重要的是,這一反向求解光照的過(guò)程同時(shí)會(huì)受到場(chǎng)景的幾何形體,材質(zhì)屬性等性質(zhì)的影響,因此,純粹基于物理的反向優(yōu)化方法往往難以準(zhǔn)確得到精確、穩(wěn)定的求解。
針對(duì)這一問(wèn)題,微軟亞洲研究院的研究員們將基于物理的光照計(jì)算與基于學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練相結(jié)合,同時(shí)利用基于物理計(jì)算對(duì)于光照與光影之間的已知關(guān)系,以及神經(jīng)網(wǎng)絡(luò)的可學(xué)習(xí)型和魯棒性,得到了基于物理知識(shí)的光照估計(jì)神經(jīng)網(wǎng)絡(luò)。此外,研究員們還設(shè)計(jì)了一個(gè)循環(huán)卷積網(wǎng)絡(luò) (Recurrent-CNN) 通過(guò)利用輸入視頻的時(shí)間序列,提高光照估計(jì)在整個(gè)視頻上的穩(wěn)定性。
實(shí)驗(yàn)表明,本篇論文提出的光照估計(jì)方法可以有效地根據(jù)場(chǎng)景中局部物體上的光影效果來(lái)估計(jì)當(dāng)前的環(huán)境光照。該方法適用于不同場(chǎng)景以及不同的物體材質(zhì)屬性,極大地提高了混合現(xiàn)實(shí)渲染的真實(shí)感和用戶(hù)體驗(yàn)。

圖4:輸入圖像

圖5:嵌入虛擬物體的繪制效果,虛擬物體的光影根據(jù)估計(jì)出的環(huán)境光照計(jì)算得出
SRNet: 提升三維人體姿態(tài)估計(jì)的泛化能力
SRNet:?Improving Generalization in 3D Human Pose Estimation
論文地址:https://arxiv.org/abs/2007.09389
?
許多基于深度學(xué)習(xí)的視覺(jué)識(shí)別任務(wù),在實(shí)際應(yīng)用中,都會(huì)因?yàn)樵馐苡?xùn)練數(shù)據(jù)的“長(zhǎng)尾分布”問(wèn)題而使得性能下降。對(duì)于三維人體姿態(tài)估計(jì)任務(wù)來(lái)說(shuō)也是如此,訓(xùn)練數(shù)據(jù)中很稀少甚至是從來(lái)沒(méi)有見(jiàn)過(guò)的姿態(tài),在測(cè)試時(shí)往往效果不佳,即模型不能很好地泛化。但有趣的是,“局部”的人體姿態(tài),從統(tǒng)計(jì)上并沒(méi)有遭受?chē)?yán)重的長(zhǎng)尾問(wèn)題。比如,一個(gè)在測(cè)試時(shí)從來(lái)沒(méi)有見(jiàn)過(guò)的姿態(tài),它的每一個(gè)“局部”姿態(tài)可能都在訓(xùn)練數(shù)據(jù)里見(jiàn)過(guò),如圖6所示。

圖6:一個(gè)沒(méi)有見(jiàn)過(guò)的測(cè)試姿態(tài)?(b) 可以被分解成若干局部姿態(tài) (c),而這些局部姿態(tài)在訓(xùn)練數(shù)據(jù) (a) 中都見(jiàn)過(guò)。SRNet?方法利用了這個(gè)性質(zhì)來(lái)提升對(duì)于稀少或者是沒(méi)有見(jiàn)過(guò)的人體姿態(tài)的估計(jì)性能
基于這個(gè)觀察,研究員們?cè)O(shè)計(jì)出了一個(gè)如圖7 (c)(d) 所示的網(wǎng)絡(luò)結(jié)構(gòu),命名為 SRNet。該方法首先把所有的人體關(guān)鍵點(diǎn)分解成若干個(gè)組,因?yàn)榻M內(nèi)的各個(gè)關(guān)鍵點(diǎn)有著更強(qiáng)的相互關(guān)聯(lián),而組與組之間關(guān)鍵點(diǎn)的關(guān)聯(lián)則相對(duì)較弱。每個(gè)組內(nèi)的關(guān)鍵點(diǎn)會(huì)先經(jīng)過(guò)一個(gè)獨(dú)立的子網(wǎng)絡(luò)以加強(qiáng)局部關(guān)系(特征)的計(jì)算。然后,通過(guò)從剩下其他組的關(guān)鍵點(diǎn)中計(jì)算出一個(gè)“低維的全局信息”,再加回到這個(gè)組,來(lái)表示組內(nèi)的關(guān)鍵點(diǎn)和組外關(guān)鍵點(diǎn)的弱相關(guān)關(guān)系。通過(guò)控制這個(gè)“全局信息”的維度,組內(nèi)的關(guān)鍵點(diǎn)學(xué)習(xí)既減弱了對(duì)組外的弱相關(guān)關(guān)鍵點(diǎn)的依賴(lài),又沒(méi)有丟失全局的一致性。由于減弱了對(duì)弱相關(guān)關(guān)鍵點(diǎn)的依賴(lài),該模型能夠更好地反映“局部”姿態(tài)的分布,從而可以更好地泛化到新的組合姿態(tài)中去。

圖7:?(a)?全連接層;(b)?分組連接層;(c) SR (split-and-recombine)?連接層;(d) SR?卷積層
研究員們?cè)?Human3.6M,MPI-INF-3DHP 等數(shù)據(jù)集上,通過(guò)詳實(shí)的對(duì)比實(shí)驗(yàn)驗(yàn)證了 SRNet 的有效性。尤其是在跨數(shù)據(jù)集(提升19.3%),跨動(dòng)作(提升12.2%)以及不常見(jiàn)姿態(tài)(提升39.7%)的測(cè)試上,SRNet 都帶來(lái)了大幅的性能提升,超越了之前的方法。
TCGM: 基于信息論的多模態(tài)半監(jiān)督學(xué)習(xí)框架
TCGM: An Information-Theoretic Framework for Semi-Supervised Multi-Modality Learning
論文地址:https://arxiv.org/abs/2007.06793v1.pdf?
?
相比較單模態(tài),利用多模態(tài)數(shù)據(jù)學(xué)習(xí)可以融合多個(gè)角度的信息,從而能夠?qū)W到更加魯邦的模型。如圖8所示,臨床醫(yī)學(xué)上,人們可以利用 X 光片、看病記錄等多個(gè)信息來(lái)進(jìn)行疾病診斷。然而,在很多實(shí)際應(yīng)用中 (比如醫(yī)療),獲取標(biāo)簽成本較高,因此數(shù)據(jù)中會(huì)只有一部分樣本具有標(biāo)注信息,即所謂的半監(jiān)督學(xué)習(xí)。微軟亞洲研究院的研究員們?cè)诒酒撐闹嘘U述了如何利用多模態(tài)信息,更有效率地學(xué)到性能較好的分類(lèi)器。

圖8:左圖-條件獨(dú)立假設(shè)(醫(yī)療),右圖-真實(shí)標(biāo)簽為所有模態(tài)的交叉信息
在多模態(tài)學(xué)習(xí)中,一個(gè)公認(rèn)的假設(shè)是,標(biāo)簽 Y 是所有模態(tài)的“交叉信息”,去除掉標(biāo)簽后,所有模態(tài)信息獨(dú)立,如圖8(右圖)所示。這一交叉信息可以被全相關(guān)這一指標(biāo)所刻畫(huà)。全相關(guān)用來(lái)描述多個(gè)變量間的公共信息,在模態(tài)數(shù)為2時(shí),則退化為互信息。因此,假設(shè)數(shù)據(jù)有 M 個(gè)模態(tài),那么可以選擇在無(wú)標(biāo)簽樣本上最大化 M 個(gè)模態(tài)的全相關(guān)的下界。這一下界可以表達(dá)為 M 個(gè)分類(lèi)器的函數(shù)。理論證明,最大化這一下界可以學(xué)到貝葉斯分類(lèi)器的排列變換。而在有標(biāo)簽的數(shù)據(jù)上,則最小化每個(gè)分類(lèi)器的交叉熵,從而唯一地學(xué)到貝葉斯分類(lèi)器。微軟亞洲研究院的研究員們將該方法稱(chēng)為全相關(guān)收益最大化方法 (TCGM)。
研究員們用 D_u?{x_i^([M]) }_i 表示無(wú)標(biāo)簽數(shù)據(jù),D_l?{(x_i^[M] ,y_i)}_i 表示有標(biāo)簽數(shù)據(jù),其中 x_i^([M])?{x_i^1,…,x_i^M } 和 y_i 分別表示第 i 個(gè)樣本的 M 個(gè)模態(tài)的數(shù)據(jù)和標(biāo)簽,并且用 h_m 來(lái)表示第 m 個(gè)分類(lèi)器,p_c 來(lái)表示第 c 類(lèi)別的先驗(yàn)分布。
本篇論文提出的全相關(guān)收益最大化方法可以概括為在 D_l 上訓(xùn)練各個(gè)分類(lèi)器,并在無(wú)標(biāo)簽數(shù)據(jù) D_u 上最大化 M 個(gè)模態(tài)的全相關(guān)的下界。對(duì)于后者,根據(jù) f-divergence 理論以及標(biāo)簽 Y 是交叉信息的假設(shè),可以將全相關(guān)的對(duì)偶下界表示為 M 個(gè)分類(lèi)器函數(shù),這一函數(shù)的經(jīng)驗(yàn)分布形式為:

該函數(shù)可以看成是兩項(xiàng)相減,第一項(xiàng)表示對(duì)于同一個(gè)樣本,M 個(gè)分類(lèi)器輸出一致的標(biāo)簽,并在第二項(xiàng)上約束這些分類(lèi)器在不同樣本上的表現(xiàn)不同,如圖9所示。

圖9:全相關(guān)收益最大化框架
理論證明,通過(guò)最大化這一函數(shù),學(xué)到的 {h_m }_m 為貝葉斯分類(lèi)器的排列變換。進(jìn)而,研究員們?cè)谟袠?biāo)簽的數(shù)據(jù)上分別訓(xùn)練這 M 個(gè)分類(lèi)器,從而可以唯一地學(xué)到貝葉斯分類(lèi)器。
為了驗(yàn)證方法的有效性,研究員們?cè)谛侣劮诸?lèi),阿爾茨海默疾病以及情緒識(shí)別上做了實(shí)驗(yàn)(如圖10、11、12)。在這些實(shí)驗(yàn)中,TCGM 方法都比已有方法取得了更好的效果,尤其是當(dāng)標(biāo)簽比例較低時(shí)。

圖10:新聞分類(lèi)實(shí)驗(yàn)

圖11:阿爾茨海默疾病預(yù)測(cè)

圖12:情緒識(shí)別
推薦閱讀

