CVPR2021 最佳論文 Giraffe,當(dāng)之無(wú)愧的最佳,或開(kāi)創(chuàng)新的篇章
點(diǎn)擊下方“AI算法與圖像處理”,一起進(jìn)步!
重磅干貨,第一時(shí)間送達(dá)
https://github.com/autonomousvision/giraffe http://www.cvlibs.net/publications/Niemeyer2021CVPR.pdf
報(bào)告鏈接:https://www.bilibili.com/video/BV1TX4y1P7ou/
大家好,以后我將開(kāi)一個(gè)新的系列,這個(gè)系列的內(nèi)容,主要是從發(fā)過(guò)頂會(huì)的大佬們公開(kāi)的報(bào)告中總結(jié)(大部分都是英文的),計(jì)劃將一些優(yōu)秀的工作報(bào)告視頻,整理成圖文,供大家一起學(xué)習(xí)。一起學(xué)習(xí)頂會(huì)大佬們?nèi)绾巫鲅芯浚绾畏治鰡?wèn)題,解決問(wèn)題,并驗(yàn)證結(jié)果的正確性以及宣傳包裝自己的科研成果 (highlight 創(chuàng)新點(diǎn))。
計(jì)劃更新頻率一周一篇
求分享,求點(diǎn)贊支持,一起努力做一個(gè) 合格的算法工程師!

解讀匯總:
密集場(chǎng)景下的行人跟蹤替代算法,頭部跟蹤算法 | CVPR 2021

主要內(nèi)容
CVPR 2021年度最佳論文獎(jiǎng)?lì)C發(fā)給Michael Niemeyer和Andreas Geiger,來(lái)自Max普朗克智能系統(tǒng)研究所和蒂賓根大學(xué),他們的論文叫做Giraffe,它負(fù)責(zé)可控圖像合成的任務(wù)。換言之,他們著眼于生成新的圖像和控制將要出現(xiàn)的內(nèi)容、對(duì)象及其位置和方向、背景等。使用改進(jìn)的GAN架構(gòu),他們甚至可以在不影響背景或其他對(duì)象的情況下移動(dòng)圖像中的對(duì)象!CVPR是最近剛剛召開(kāi)的一個(gè)年度會(huì)議,會(huì)上發(fā)表了大量有關(guān)計(jì)算機(jī)視覺(jué)的新研究論文。


傳統(tǒng)的GAN架構(gòu)使用編碼器和解碼器設(shè)置,就像下圖這樣。在訓(xùn)練過(guò)程中,編碼器接收一個(gè)圖像,將其編碼成一個(gè)壓縮的表征,解碼器利用這個(gè)表征來(lái)創(chuàng)建一個(gè)改變樣式的新圖像。在我們的訓(xùn)練數(shù)據(jù)集中的所有圖像中重復(fù)多次,以便編碼器和解碼器學(xué)習(xí)如何在訓(xùn)練期間最大化我們想要實(shí)現(xiàn)的任務(wù)的結(jié)果。一旦訓(xùn)練完成,你可以發(fā)送一個(gè)圖像到編碼器,它會(huì)做同樣的過(guò)程,生成一個(gè)新的和看不見(jiàn)的圖像,根據(jù)你的需要。無(wú)論做什么工作,它都會(huì)起到非常相似的作用,不管是把一張臉的圖像翻譯成卡通畫(huà)家那樣的另一種風(fēng)格,還是用草圖創(chuàng)造出一幅美麗的風(fēng)景。僅使用解碼器,我們也稱(chēng)之為生成器,因?yàn)樗秦?fù)責(zé)創(chuàng)建新圖像的模型,我們可以在這個(gè)編碼信息空間中行走,并對(duì)發(fā)送給生成器的信息進(jìn)行采樣,以生成無(wú)限量的新圖像。這種編碼的信息空間通常被稱(chēng)為潛在空間,而我們用來(lái)生成新圖像的信息就是潛在代碼。我們基本上是在這個(gè)最優(yōu)空間內(nèi)隨機(jī)選擇一些潛在的代碼,然后它會(huì)根據(jù)我們想要完成的任務(wù)生成一個(gè)新的隨機(jī)圖像,當(dāng)然,也會(huì)遵循這個(gè)生成器的訓(xùn)練過(guò)程。這是難以置信的酷,但正如我剛才所說(shuō),圖像是完全隨機(jī)的,我們沒(méi)有或很少的想法,它看起來(lái)像什么,這已經(jīng)是一個(gè)非常少有用的創(chuàng)造者。

這就是他們用這篇論文解決的問(wèn)題。實(shí)際上,通過(guò)獲取物體形狀和外觀的潛在代碼并將其發(fā)送給解碼器或生成器,他們能夠控制物體的姿勢(shì),這意味著他們可以移動(dòng)物體,改變物體的外觀,添加其他物體,改變背景,甚至改變相機(jī)的姿勢(shì)。所有這些變換都可以在每個(gè)對(duì)象或背景上獨(dú)立完成,而不會(huì)影響圖像中的任何其他內(nèi)容!

如你看到的那樣子,它比其他基于GAN的方法要好得多,這些方法通常無(wú)法將對(duì)象彼此分離,并且都會(huì)受到特定對(duì)象修改的影響。
與他們的方法不同的是,他們?cè)谌S場(chǎng)景表示中解決這個(gè)問(wèn)題,就像我們?nèi)绾慰创F(xiàn)實(shí)世界一樣,而不是像其他GANs那樣停留在二維圖像世界中。但除此之外,過(guò)程非常相似。它們對(duì)信息進(jìn)行編碼,識(shí)別對(duì)象,在潛在空間內(nèi)對(duì)其進(jìn)行編輯,然后解碼生成新的圖像。在這里,在這個(gè)潛在的空間里還有更多的步驟要做。我們可以將其視為經(jīng)典GAN圖像合成網(wǎng)絡(luò)與神經(jīng)渲染器的結(jié)合,神經(jīng)渲染器用于從發(fā)送到網(wǎng)絡(luò)的圖像生成3D場(chǎng)景,正如我們看到的。

實(shí)現(xiàn)這一目標(biāo)主要有三個(gè)步驟。對(duì)輸入圖像進(jìn)行編碼后,意味著我們已經(jīng)處于潛在空間中,第一步是將圖像轉(zhuǎn)換為三維場(chǎng)景。但不僅僅是一個(gè)簡(jiǎn)單的3D場(chǎng)景,一個(gè)由3D元素組成的3D場(chǎng)景,即物體和背景。這種將圖像視為由生成的體渲染組成的場(chǎng)景的方式允許它們更改生成圖像中的攝影機(jī)角度并獨(dú)立地控制對(duì)象。這是通過(guò)使用一個(gè)與我之前討論的論文類(lèi)似的模型NERV來(lái)實(shí)現(xiàn)的(https://youtu.be/ZkaTyBvS2w4),但是它們沒(méi)有使用一個(gè)模型從輸入圖像生成整個(gè)鎖定場(chǎng)景,而是使用兩個(gè)單獨(dú)的模型獨(dú)立地生成對(duì)象和背景。這里稱(chēng)為采樣特征字段。該網(wǎng)絡(luò)的參數(shù)也在訓(xùn)練過(guò)程中學(xué)習(xí)。我不想談細(xì)節(jié),但它與NERF非常相似,我在另一篇文章中談到了NERF。如果你想了解更多關(guān)于這類(lèi)網(wǎng)絡(luò)的細(xì)節(jié),你可以觀看這段關(guān)于NERV的視頻,下面的參考資料中也有鏈接。

有了這個(gè)場(chǎng)景和分離的元素,我們可以單獨(dú)編輯它們而不影響圖像的其余部分。這是第二步。他們可以對(duì)物體做任何他們想做的事情,比如改變它的位置和方向。換句話(huà)說(shuō),它們改變了物體或背景的姿勢(shì)。在這一點(diǎn)上,他們甚至可以添加新的對(duì)象放置在他們想要的任何地方。然后,通過(guò)將所有特征字段添加到一起,將它們簡(jiǎn)單地組合到包含所有對(duì)象和背景的最終三維場(chǎng)景中。

最后,我們必須回到自然圖像的二維世界。所以最后一步是把這個(gè)3D場(chǎng)景渲染成一個(gè)規(guī)則的圖像。由于我們?nèi)匀惶幱谌S世界中,我們可以改變相機(jī)的視點(diǎn)來(lái)決定我們將如何看待場(chǎng)景。然后,我們根據(jù)該相機(jī)光線(xiàn)和其他參數(shù)(如alpha值和透射率)對(duì)每個(gè)像素進(jìn)行評(píng)估。這就是他們所說(shuō)的特征圖像,但是這個(gè)特征圖像是由每個(gè)像素的特征向量組成的圖像。由于我們?nèi)蕴幱跐撛诳臻g,這些特征需要轉(zhuǎn)化為RGB顏色和高分辨率圖像。這是通過(guò)使用典型的解碼器來(lái)完成的,就像其他GAN架構(gòu)一樣,將其放大到原始尺寸,同時(shí)學(xué)習(xí)RGB通道的特征轉(zhuǎn)換。瞧à, 你有你的新形象,有更多的控制,什么是生成!

當(dāng)然,正如你所看到的,它在實(shí)際數(shù)據(jù)中使用時(shí)仍然不是完美的。盡管如此,它仍然令人印象深刻,是朝著正確方向邁出的重要一步,特別是考慮到這些都是完全由GANs生成的合成圖像,而且它只是第一篇能夠以這種精度控制生成圖像的論文。

這篇論文真的很有趣,我建議你讀一下,以了解他們的模型是如何工作的。祝賀邁克爾·尼邁耶和安德烈亞斯·蓋革獲得當(dāng)之無(wú)愧的最佳論文獎(jiǎng)。如果你想玩的話(huà),他們還可以在GitHub上使用這些代碼。鏈接在下面的參考資料中謝謝你的閱讀!
努力分享優(yōu)質(zhì)的計(jì)算機(jī)視覺(jué)相關(guān)內(nèi)容,歡迎關(guān)注:
個(gè)人微信(如果沒(méi)有備注不拉群!) 請(qǐng)注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱(chēng)
下載1:何愷明頂會(huì)分享
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:終身受益的編程指南:Google編程風(fēng)格指南
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):c++,即可下載。歷經(jīng)十年考驗(yàn),最權(quán)威的編程規(guī)范!
下載3 CVPR2021 在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文
點(diǎn)亮
,告訴大家你也在看
