CVPR2021 最具創(chuàng)造力的那些工作成果!或許這就是計(jì)算機(jī)視覺(jué)的魅力!

極市導(dǎo)讀
CVPR2021 最具創(chuàng)造力的那些工作成果! >>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺(jué)的最前沿
CVPR 2021 Tutorial 《Unlocking Creativity with Computer Vision: Representations for Animation, Stylization and Manipulation》直譯:用計(jì)算機(jī)視覺(jué)釋放創(chuàng)造力:動(dòng)畫(huà)、造型和操縱的表現(xiàn)。
主頁(yè):https://snap-research.github.io/representations-for-creativity/

簡(jiǎn)介和目錄
什么是創(chuàng)造力(Creativity)!
創(chuàng)造力——運(yùn)用想象力和獨(dú)創(chuàng)性想法進(jìn)行創(chuàng)作的能力——需要掌握各種技能、可用的創(chuàng)造性工具、大量的努力,最重要的是要有創(chuàng)造性的頭腦。物體的風(fēng)格化或編輯要求藝術(shù)家理解物體的結(jié)構(gòu)和變化因素。動(dòng)畫(huà)還需要了解對(duì)象的剛性和非剛性運(yùn)動(dòng)模式。這種復(fù)雜的操作可以通過(guò)使用具有合適表征的計(jì)算機(jī)視覺(jué)系統(tǒng)來(lái)實(shí)現(xiàn)。
我們將引導(dǎo)參會(huì)者通過(guò)設(shè)計(jì)和學(xué)習(xí)來(lái)構(gòu)建創(chuàng)造性工具。選擇正確的表征方式并建立一個(gè)學(xué)習(xí)框架往往是釋放創(chuàng)造力的關(guān)鍵。我們將研究2D和體積對(duì)象表征、圖像和視頻表征、內(nèi)容、樣式和運(yùn)動(dòng)表征。當(dāng)標(biāo)記數(shù)據(jù)可用時(shí),可以以有監(jiān)督的方式學(xué)習(xí)某些表征,否則可以采用自我監(jiān)督。此外,我們還區(qū)分了顯式可解釋表征和隱式表征。我們的研究表明,更好的表征可以更好地理解數(shù)據(jù),進(jìn)而提高生成內(nèi)容的質(zhì)量,最終形成良性循環(huán)。
會(huì)議組織者:

主要內(nèi)容包括下面三個(gè)主題,每個(gè)主題又細(xì)分多個(gè)分支:
一、Representations for controllable image synthesis(可控圖像合成的表征方法)
二、Object representations for manipulation (用于操縱的對(duì)象表征方法)
三、Content and motion representations for video synthesis animation (用于視頻合成動(dòng)畫(huà)的內(nèi)容和運(yùn)動(dòng)表征)
一、Representations for controllable image synthesis
可控圖像合成的表征方法包含下面三部分:
A Brief Introduction to Deep Generative Models Recent Advances in Semantic Image Synthesis Image Outpainting
1、A Brief Introduction to Deep Generative Models
匯報(bào)人:Stéphane Lathuilière 主頁(yè):http://stelat.eu/
作者簡(jiǎn)介:法國(guó)巴黎電信公司(Telecom Paris, France)多媒體團(tuán)隊(duì)的副教授。研究方向:回歸問(wèn)題的深度學(xué)習(xí)、圖像和視頻生成以及有限數(shù)據(jù)的學(xué)習(xí)(無(wú)監(jiān)督領(lǐng)域自適應(yīng)、自監(jiān)督學(xué)習(xí)、持續(xù)學(xué)習(xí))
摘要:本視頻簡(jiǎn)要介紹了深層生成模型。在本教程中,將介紹幾種用于圖像和視頻生成或操作的計(jì)算機(jī)視覺(jué)方法。本演示的目的不是對(duì)有關(guān)深層生成模型的文獻(xiàn)進(jìn)行全面的回顧,而是簡(jiǎn)要介紹本教程中介紹的大多數(shù)方法將采用的關(guān)鍵方法。

2、Recent Advances in Semantic Image Synthesis 語(yǔ)義圖像合成研究進(jìn)展
匯報(bào)人:Ming-Yu Liu 主頁(yè):http://mingyuliu.net/
作者簡(jiǎn)介:杰出的研究科學(xué)家和英偉達(dá)研究公司的經(jīng)理。研究小組專(zhuān)注于深層生成模型及其應(yīng)用。我們?cè)谝曈X(jué)內(nèi)容合成領(lǐng)域創(chuàng)作了多部極具影響力的研究作品,包括pix2pixHD、vid2vid、MoCoGAN、face-vid2vid、SPADE、GANcraft。
在這篇演講中,我回顧了最近幾年的語(yǔ)義圖像合成工作。我把他們放在同一個(gè)角度,并說(shuō)明了架構(gòu)的變化。對(duì)訓(xùn)練這兩個(gè)模型的兩個(gè)主要目標(biāo)函數(shù)進(jìn)行了討論和比較。

3、Image Outpainting 圖像輸出
匯報(bào)人:Hsin-Ying Lee 主頁(yè):http://hsinyinglee.com/
作者簡(jiǎn)介:Creative Vision team at Snap Research的研究科學(xué)家。于2020畢業(yè)于美國(guó)墨爾本大學(xué)ECES,獲Ming Hsuan Yang教授的指導(dǎo),于2016畢業(yè)于加利福尼亞南部大學(xué)電機(jī)工程系,獲臺(tái)灣大學(xué)電氣工程系學(xué)士學(xué)位。
摘要:圖像輸出的目的是對(duì)給定的圖像進(jìn)行任意方向的外推。這項(xiàng)任務(wù)需要了解環(huán)境的結(jié)構(gòu)和質(zhì)地?,F(xiàn)有的方法將任務(wù)建模為一個(gè)圖像到圖像的轉(zhuǎn)換任務(wù),由于強(qiáng)條件上下文的存在,會(huì)導(dǎo)致重復(fù)和單調(diào)的輸出結(jié)果。在這篇演講中,我將首先介紹如何利用GAN反轉(zhuǎn)技術(shù)來(lái)實(shí)現(xiàn)多樣化和可控的圖像輸出。接下來(lái),為了更進(jìn)一步,我將介紹我們解決一個(gè)更基本問(wèn)題的嘗試,即生成模型能否合成結(jié)構(gòu)和紋理一致的無(wú)限分辨率圖像。結(jié)合GAN反轉(zhuǎn)技術(shù),證明了該結(jié)構(gòu)在圖像輸出任務(wù)中的有效性。

二、Object representations for manipulation
用于操縱的對(duì)象表征方法包含下面三個(gè)主題:
Manipulating Hair Face Stylization Volumetric Implicit Representations for Object Manipulation
1、Manipulating Hair 發(fā)型編輯
匯報(bào)人:Kyle Olszewski 主頁(yè):http://hsinyinglee.com/
作者簡(jiǎn)介:南加州大學(xué)的學(xué)生,在Hao Li教授的幾何捕獲實(shí)驗(yàn)室工作。研究方向:實(shí)時(shí)面部表情跟蹤,特別是使用適合新興平臺(tái)的技術(shù),如虛擬和增強(qiáng)現(xiàn)實(shí)。
摘要:從無(wú)約束圖像中獲取、繪制和操縱頭發(fā)的結(jié)構(gòu)和外觀是近十年來(lái)計(jì)算機(jī)視覺(jué)和圖形學(xué)界廣泛關(guān)注的問(wèn)題。隨著神經(jīng)渲染技術(shù)的出現(xiàn),這一領(lǐng)域的進(jìn)展大大加快,它可以在用戶(hù)輸入的指導(dǎo)下,在真實(shí)圖像中實(shí)現(xiàn)高質(zhì)量的頭發(fā)合成,而不依賴(lài)于傳統(tǒng)的頭發(fā)重建技術(shù)或渲染管道。在本次演講中,我們將討論這一領(lǐng)域的一些最新工作,重點(diǎn)討論它們?nèi)绾谓鉀Q關(guān)鍵問(wèn)題,例如如何表示頭發(fā)的形狀和外觀,可以使用什么類(lèi)型的數(shù)據(jù)(真實(shí)的和合成的)來(lái)訓(xùn)練這些系統(tǒng),以及它們可以啟用什么類(lèi)型的用戶(hù)輸入和編輯操作。我們展示了如何使用各種技術(shù),從基于示例的合成到適合新手用戶(hù)的發(fā)型的細(xì)粒度局部編輯,在真實(shí)的面部圖像中交互式地合成和編輯各種發(fā)型的合理圖像和視頻。

2、Face Stylization 人臉風(fēng)格化
匯報(bào)人:Menglei Chai 主頁(yè):https://mlchai.com/
作者簡(jiǎn)介:Snap Research創(chuàng)意愿景小組的高級(jí)研究科學(xué)家。我拿到。浙江大學(xué)的圖形與并行系統(tǒng)實(shí)驗(yàn)室(GAP)的博士學(xué)位,由坤舟教授監(jiān)督。我從事計(jì)算機(jī)視覺(jué)和計(jì)算機(jī)圖形學(xué)的研究,主要研究人類(lèi)數(shù)字化、圖像處理、三維重建和基于物理的動(dòng)畫(huà)
摘要:人臉風(fēng)格化使各種視覺(jué)和圖形應(yīng)用成為可能。這項(xiàng)任務(wù)需要理解內(nèi)容/風(fēng)格的表示以及人臉的語(yǔ)義結(jié)構(gòu)。雖然現(xiàn)有的方法能夠在單張人臉圖像上獲得高質(zhì)量的結(jié)果,但是人臉樣式化可以進(jìn)一步擴(kuò)展,以消除更多創(chuàng)造性用例的阻礙。在這篇演講中,為了將問(wèn)題擴(kuò)展到自動(dòng)圖像樣式化之外,我們將討論幾個(gè)有趣的維度,例如視頻樣式化、幾何樣式化和三維可控樣式化。在每一個(gè)方向上,我們都會(huì)介紹最新的代表性作品和我們的嘗試,包括一個(gè)交互式視頻風(fēng)格化系統(tǒng),它允許通過(guò)關(guān)鍵幀進(jìn)行高保真的藝術(shù)控制,一個(gè)用于三維人臉風(fēng)格化的聯(lián)合外觀和幾何優(yōu)化框架,提出了一種跨域三維引導(dǎo)的人臉操作方法,該方法可以利用人臉的先驗(yàn)信息編輯樣式化的圖像。

3、Volumetric Implicit Representations for Object Manipulation
匯報(bào)人:Kyle Olszewski 主頁(yè):https://kyleolsz.github.io/
摘要:近年來(lái),圖像內(nèi)容的隱式表示在新視圖合成(NVS)和三維重建等任務(wù)中顯示出巨大的潛力。然而,在生成高質(zhì)量的編輯圖像的同時(shí),使用這種表示來(lái)實(shí)現(xiàn)對(duì)該內(nèi)容的可控的、3D感知的操作仍然是一個(gè)挑戰(zhàn)。在這篇演講中,我們描述了一種方法來(lái)解決這個(gè)問(wèn)題使用編碼器-解碼器NVS框架。這個(gè)網(wǎng)絡(luò)學(xué)習(xí)從一個(gè)圖像中推斷出一個(gè)物體的隱式體積表示作為它的瓶頸。盡管在訓(xùn)練期間沒(méi)有使用3D監(jiān)控,但是這種方法的空間解糾纏允許通過(guò)對(duì)體積瓶頸執(zhí)行相應(yīng)的3D變換來(lái)對(duì)所描繪的對(duì)象進(jìn)行任意的空間操作。我們展示了各種應(yīng)用,包括新穎的視圖合成、三維重建和非剛性變換以及圖像內(nèi)容的組合。

三、Content and motion representations for video synthesis animation
用于視頻合成動(dòng)畫(huà)的內(nèi)容和運(yùn)動(dòng)表征包含下面四個(gè)主題:
Video Synthesis and Manipulation Self-supervised Image Animation Supervised and Few-shot Animation Representations for Modeling Human Bodies
1、Video Synthesis and Manipulation 視頻合成與處理
匯報(bào)人:Sergey Tulyakov 主頁(yè):http://www.stulyakov.com/
作者簡(jiǎn)介:Snap Research創(chuàng)新愿景團(tuán)隊(duì)的首席研究科學(xué)家。工作重點(diǎn)是通過(guò)計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)創(chuàng)造操縱世界的方法。這包括樣式轉(zhuǎn)換、真實(shí)感對(duì)象操作和動(dòng)畫(huà)、視頻合成、預(yù)測(cè)和重定目標(biāo)。
摘要:在本視頻中,我們將討論幾種視頻生成模型,如MoCoGAN和MoCoGAN HD,我們將了解這些方法背后的直覺(jué),以及一些重要的實(shí)現(xiàn)細(xì)節(jié)。此外,我們將在視頻生成領(lǐng)域引入一個(gè)新的領(lǐng)域,稱(chēng)為可播放視頻生成,它允許對(duì)視頻內(nèi)容進(jìn)行可控和交互式操作。

2、Self-supervised Image Animation 自監(jiān)督圖像動(dòng)畫(huà)
匯報(bào)人:Aliaksandr Siarohin 主頁(yè):http://www.stulyakov.com/
作者簡(jiǎn)介:特倫托大學(xué)的博士生,我在NICU SEBE的監(jiān)督下工作,在多媒體和人類(lèi)理解小組(MCOP)。研究方向包括機(jī)器學(xué)習(xí)的圖像動(dòng)畫(huà),視頻生成,生成對(duì)抗網(wǎng)絡(luò)和領(lǐng)域適應(yīng)。
摘要:在這個(gè)講座中,我們提出了一套無(wú)監(jiān)督圖像動(dòng)畫(huà)的方法。圖像動(dòng)畫(huà)的任務(wù)是生成一個(gè)視頻,其中來(lái)自源圖像的對(duì)象像來(lái)自另一個(gè)驅(qū)動(dòng)視頻的對(duì)象一樣移動(dòng)。無(wú)監(jiān)督動(dòng)畫(huà)的主要區(qū)別在于,它只需要一組訓(xùn)練視頻,而不需要關(guān)于這些視頻中對(duì)象的任何其他先驗(yàn)知識(shí)。

3、Supervised and Few-shot Animation 監(jiān)督和少樣本動(dòng)畫(huà)
匯報(bào)人:Jian Ren 主頁(yè):https://alanspike.github.io/
作者簡(jiǎn)介:研究科學(xué)家,在Snap公司的Creative Vision小組工作。在加入Snap公司之前,我曾在Adobe、Snap公司和Bytedance Research擔(dān)任研究實(shí)習(xí)生。
摘要:**人體運(yùn)動(dòng)重定目標(biāo)的目的是將源驅(qū)動(dòng)視頻中的運(yùn)動(dòng)信息傳遞給目標(biāo)參考人,從而在對(duì)源驅(qū)動(dòng)視頻進(jìn)行運(yùn)動(dòng)處理的同時(shí)合成包含目標(biāo)人內(nèi)容的真實(shí)感視頻。**在這篇演講中,我們將首先介紹專(zhuān)注于有監(jiān)督運(yùn)動(dòng)傳輸?shù)墓ぷ?,其中需要?lái)自目標(biāo)人的訓(xùn)練視頻,并且專(zhuān)門(mén)設(shè)計(jì)了一個(gè)模型來(lái)為一個(gè)目標(biāo)人生成視頻。然后,我們將轉(zhuǎn)向使用目標(biāo)人物的一個(gè)或幾個(gè)圖像來(lái)生成運(yùn)動(dòng)視頻。通過(guò)少量鏡頭設(shè)置訓(xùn)練的模型可以合成任意人的視頻。

4、Representations for Modeling Human Bodies 人體建模的表征方法
匯報(bào)人:Zeng Huang 主頁(yè):https://alanspike.github.io/
作者簡(jiǎn)介:Snap研究公司的研究科學(xué)家。我主要從事計(jì)算機(jī)圖形學(xué)、三維視覺(jué)和深度學(xué)習(xí)。的研究工作都是圍繞著虛擬人的數(shù)字化,將幾何處理和深度學(xué)習(xí)結(jié)合起來(lái),針對(duì)每個(gè)人都可以訪(fǎng)問(wèn)的尖端AR/VR應(yīng)用程序。
摘要:研究人體是人類(lèi)歷史上一個(gè)長(zhǎng)期的課題。自信息時(shí)代以來(lái),人體數(shù)字化一直是計(jì)算機(jī)圖形學(xué)和動(dòng)畫(huà)領(lǐng)域的一個(gè)重要研究方向。雖然高質(zhì)量的人體掃描和視覺(jué)效果已經(jīng)在電影行業(yè)得到了廣泛的應(yīng)用,但低成本和方便的人體數(shù)字化仍然是一個(gè)挑戰(zhàn)。隨著人們對(duì)這一領(lǐng)域的深入學(xué)習(xí),最近有了一些令人興奮的工作,并真正推動(dòng)了這一任務(wù)的邊界。在這次演講中,我們將介紹近年來(lái)數(shù)字化全身穿著人類(lèi)的研究成果。特別是,我們將回顧最近使用隱式函數(shù)表示身體幾何體的嘗試,以及它與動(dòng)畫(huà)管道和實(shí)時(shí)實(shí)現(xiàn)的結(jié)合。

參考論文鏈接
如果覺(jué)得有用,就請(qǐng)分享到朋友圈吧!
公眾號(hào)后臺(tái)回復(fù)“79”獲取CVPR 2021:TransT 直播鏈接~

# CV技術(shù)社群邀請(qǐng)函 #

備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳)
即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與 10000+來(lái)自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺(jué)開(kāi)發(fā)者互動(dòng)交流~

