2D秒變3D!視角還能隨意切!華為&上交提出:CIPS-3D:基于GAN的3D感知生成器
點(diǎn)擊下方卡片,關(guān)注“新機(jī)器視覺”公眾號(hào)
視覺/圖像重磅干貨,第一時(shí)間送達(dá)
明敏 發(fā)自 凹非寺
來源:量子位(QbitAI)
如果讓GAN生成的逼真人像變成3D版,會(huì)怎樣?

仿佛有攝像機(jī)對(duì)著人像直拍,正面、側(cè)面、仰視、俯視不同角度都能展現(xiàn)。
真的有種人要從畫中走出來那味兒了。
而且,這些效果都是由靜態(tài)單視角圖片生成的!
甚至能讓卡通人像立體起來。

這就是上海交通大學(xué)和華為的最新研究:CIPS-3D。
它是一種基于GAN的3D感知生成器,只用原始單視角圖像,無需任何上采樣,就能生成分辨率256×256的清晰圖像。

并且創(chuàng)下3D感知圖像合成的新記錄,F(xiàn)ID僅為6.97。
現(xiàn)在,這個(gè)項(xiàng)目在GitHub上已有200+星,作者已將源代碼開源,訓(xùn)練配置文件將在后續(xù)發(fā)布。
搞定鏡像對(duì)稱
在高清人臉數(shù)據(jù)集FFHQ上,CIPS-3D的表現(xiàn)可以說非常nice,連古典畫都能變成立體版。

當(dāng)然也能搞定不同動(dòng)物的face。

看到圖像從2D直接變成3D,可能有人已經(jīng)想到了谷歌大名鼎鼎的NeRF。

它只需要輸入少量靜態(tài)圖片,就能做到多視角的逼真3D效果。
而這次的CIPS-3D,也是基于NeRF開發(fā)。
它主要用到了兩個(gè)網(wǎng)絡(luò):NeRF和INR(隱式神經(jīng)表示法,Implicit Neural Representations)。

淺層是NeRF,它主要負(fù)責(zé)把人像從2D變?yōu)?D。
它將場景的體積表示優(yōu)化為向量函數(shù),輸入為3D位置坐標(biāo)和視圖方向。
具體而言,就是沿相機(jī)射線采樣信息,來合成圖像。
然后,將這樣的場景表示參數(shù)化為一個(gè)完全連接深度網(wǎng)絡(luò)(MLP),輸出對(duì)應(yīng)的顏色和體積密度值。
為了獲得更為準(zhǔn)確的3D圖像,往往需要對(duì)每條光線上多點(diǎn)采樣,這也就造成NeRF所需的內(nèi)存非常大。
因此,如果神經(jīng)網(wǎng)絡(luò)中只用NeRF,就會(huì)限制網(wǎng)絡(luò)的深度,導(dǎo)致生成圖像模糊、缺乏細(xì)節(jié)。
△第一列為NeRF生成,第二列為INR生成
所以在CIFS-3D中,研究人員將深層網(wǎng)絡(luò)設(shè)置為INR,讓它負(fù)責(zé)合成高保真的圖像。
這種方法也能將各種信號(hào)參數(shù)化,輸出RGB值。
而且由于不再與空間分辨率耦合,它可以對(duì)任意空間分辨率進(jìn)行采樣。
論文中也提到,該方法也沒有任何上采樣。
但是受限于CPU內(nèi)存,如果直接訓(xùn)練高分辨率圖像會(huì)有一定難度,為此研究人員提出了一種部分梯度反向傳播的方法。
在訓(xùn)練時(shí),該方法進(jìn)對(duì)隨機(jī)采樣中的綠色光線進(jìn)行梯度反向傳播計(jì)算,其余光線則不計(jì)算。

解決了3D化問題,還能保證高保真,你以為這就結(jié)束了?
NO、NO、NO
在研究過程中,工作人員發(fā)現(xiàn)CIPS-3D還存在鏡像對(duì)稱問題。
這種現(xiàn)象其實(shí)在許多3D GAN中都存在,比如GIRAFFE、StyleNeRF。
比如在下面這個(gè)案例中,初始單角度圖像的劉海是偏左的,但是生成的不同角度圖像中,劉海會(huì)隨著視角的變化而變化,就像是鏡像一樣。

出現(xiàn)這樣的問題,是因?yàn)镹eRF網(wǎng)絡(luò)輸入的坐標(biāo)就有存在鏡像對(duì)稱。

比如圖中a、c兩點(diǎn)的坐標(biāo)就是完全鏡像對(duì)稱的關(guān)系。
這對(duì)于生成完全對(duì)稱的物體而言沒什么問題。
但是放在只給側(cè)面角度的人像上來說,可能就是一場災(zāi)難。
為此,研究人員在神經(jīng)網(wǎng)絡(luò)中添加了一個(gè)鑒別器(discriminator),讓它來輔助鑒別這種問題。
最后結(jié)果表明,與其他可生成3D人像的方法相比,F(xiàn)ID、KID值明顯降低,這兩個(gè)值越低意味著生成圖像質(zhì)量越好。

團(tuán)隊(duì)介紹
值得一提的是,該論文通訊作者為田奇。

田奇,美國伊利諾伊大學(xué)香檳分校博士、IEEE Fellow, 也是原UTSA計(jì)算機(jī)系正教授。
發(fā)表文章約550余篇,包括250+ IEEE TPAMI、IJCV、CVPR/ICCV/ECCV、NeurIPS等國際頂級(jí)期刊和會(huì)議。
2018年加入華為云,研究主要方向?yàn)橛?jì)算機(jī)視覺、自然語言處理和語音交互。
華為謝凌曦博士、上海交通大學(xué)倪冰冰教授也參與了此次研究。
謝凌曦,本科博士均畢業(yè)于清華大學(xué)計(jì)算機(jī)專業(yè),專長計(jì)算機(jī)視覺、自動(dòng)機(jī)器學(xué)習(xí)。目前為華為高級(jí)研究員。

倪冰冰,現(xiàn)為上海交通大學(xué)電子系特別研究員/長聘教軌副教授,博士生導(dǎo)師。
本科畢業(yè)于上海交通大學(xué)電子工程系,之后赴新加坡國立大學(xué)攻讀博士。
博士期間,先后在微軟亞洲研究院和谷歌公司美國總部工作,擔(dān)任算法科學(xué)家。
2010-2015年于美國伊利諾伊大學(xué)香檳分校新加坡高等研究院擔(dān)任研究科學(xué)家。
研究方向?yàn)橛?jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等。

本項(xiàng)研究已經(jīng)由論文一作Peng Zhou(上海交通大學(xué))上傳至其GitHub主頁,感興趣的童鞋可以前去圍觀~

論文地址:
https://arxiv.org/abs/2110.09788
GitHub地址:
https://github.com/PeterouZh/CIPS-3D
—版權(quán)聲明—
僅用于學(xué)術(shù)分享,版權(quán)屬于原作者。
若有侵權(quán),請(qǐng)聯(lián)系微信號(hào):yiyang-sy 刪除或修改!

