<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          川普跳「雞你太美」?這么專業(yè),一定是AI合成的!

          共 4081字,需瀏覽 9分鐘

           ·

          2021-01-07 00:50

          來(lái)源:機(jī)器之心(almosthuman2014)

          物聯(lián)網(wǎng)智庫(kù) 轉(zhuǎn)載

          二次轉(zhuǎn)載請(qǐng)聯(lián)系原作者

          導(dǎo)? 讀

          讓人輕松「跳宅舞」的 Impersonator 更新了。


          去年,來(lái)自上海科技大學(xué)和騰訊 AI Lab 的研究者的研究論文《Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis》入選計(jì)算機(jī)視覺(jué)頂會(huì) ICCV 2019。經(jīng)過(guò)一年的努力,該論文所提方法的改進(jìn)版誕生了。先來(lái)看看效果如何?

          來(lái)炫個(gè)球技吧,看看川普版的「雞你太美」:


          不如跳舞:只需要一張或多張人物圖像,再提供一個(gè)跳舞視頻,原本靜止的人物就能輕松學(xué)會(huì)跳舞。衣服等細(xì)節(jié)信息一致性良好,就是腳步有點(diǎn)飄……


          如下視頻所示,舞蹈的轉(zhuǎn)身和面向背后的動(dòng)作合成效果都有所提升。


          據(jù)新論文《Liquid Warping GAN with Attention: A Unified Framework for Human Image Synthesis》介紹,改進(jìn)版的優(yōu)勢(shì)在于源圖像的數(shù)量從一張變?yōu)橐唤M。以動(dòng)作合成為例,源圖像是一組不同視角的圖像,因此合成結(jié)果從多個(gè)角度看起來(lái)效果更好。


          • 論文地址:https://arxiv.org/pdf/2011.09055.pdf

          • GitHub 地址:https://github.com/iPERDance/iPERCore

          • 項(xiàng)目主頁(yè):https://www.impersonator.org/work/impersonator-plus-plus.html


          該研究在一個(gè)統(tǒng)一的框架內(nèi)處理人體圖像合成,包括人體動(dòng)作模仿、外觀遷移以及新視圖合成。經(jīng)過(guò)訓(xùn)練的模型,能夠處理這些任務(wù)。現(xiàn)有的任務(wù)特定方法多數(shù)使用 2D 關(guān)鍵點(diǎn)(姿態(tài))來(lái)估計(jì)人體結(jié)構(gòu)。然而,此類方法只表達(dá)位置信息,既無(wú)法表征人物的個(gè)性化姿態(tài),也不能對(duì)肢體旋轉(zhuǎn)進(jìn)行建模。

          針對(duì)以上問(wèn)題,該研究提出使用 3D 人體網(wǎng)格復(fù)原模塊來(lái)解析人體姿態(tài)和形狀,這樣不僅可以對(duì)人體關(guān)節(jié)位置和旋轉(zhuǎn)進(jìn)行建模,還可以表征個(gè)性化的人體形狀。為了保存源信息(如紋理、風(fēng)格、顏色、人臉身份信息),該研究提出了一個(gè)新模型 Attentional Liquid Warping GAN,它包含 Attentional Liquid Warping Block (AttLWB),能夠在圖像和特征空間中將源信息傳播到合成參考中。

          具體而言,為了較好地表征源圖像的識(shí)別性信息,該研究采用去噪卷積自動(dòng)編碼器提取源特征。此外,該方法還可以支持來(lái)自多源的更靈活的 warping。為了進(jìn)一步提高未知源圖像的泛化能力,該研究采用了 one/few-shot 對(duì)抗學(xué)習(xí)。

          具體來(lái)說(shuō),它首先在一個(gè)廣泛的訓(xùn)練集中訓(xùn)練一個(gè)模型。然后,通過(guò) one/few-sho 未知圖像以自監(jiān)督的方式進(jìn)行模型優(yōu)化,得到高分辨率(512 × 512 和 1024 × 1024)的生成結(jié)果。

          同時(shí),該研究還建立了一個(gè)新的數(shù)據(jù)集,即 Impersonator(iPER)數(shù)據(jù)集,用于評(píng)估人體運(yùn)動(dòng)模仿、外觀遷移和新視圖合成。大量的實(shí)驗(yàn)證明了本文所用方法在保持面部信息、形態(tài)一致性和衣服細(xì)節(jié)方面的有效性。

          整體架構(gòu)


          該方法包含 3 個(gè)部分:人體網(wǎng)格復(fù)原(body mesh recovery)、流組成(flow composition)、帶有 Liquid Warping Block(LWB)或 Attentional Liquid Warping Block(AttLWB)的 GAN,如下圖 3 所示:

          圖 3:訓(xùn)練 pipeline

          訓(xùn)練流程如下:從視頻中隨機(jī)采樣一組圖像,將源圖像和參考圖像分別表示為 I_s_i 和 I_r。

          1. 人體網(wǎng)格復(fù)原模塊估計(jì)每個(gè)圖像的 3D 網(wǎng)格,并渲染對(duì)應(yīng)圖 C_s 和 C_t。

          2. 流組成模塊首先基于兩張對(duì)應(yīng)圖及其在圖像空間中的投影頂點(diǎn)來(lái)計(jì)算變換流 T。然后它將源圖像 I_s_i 分離成前景圖 I_s_i^ft 和背景蒙版 I_bg。最后該模塊基于變換流 T 對(duì)源圖像進(jìn)行處理,生成扭曲(warped)圖像 I_syn。

          3. 在 GAN 模塊,生成器由 3 個(gè)流組成:生成背景圖像的 G_BG、重建源圖像的 G_SID、在參考條件下合成目標(biāo)圖像的 G_TSF。


          為了保留源圖像的細(xì)節(jié),該研究提出了一種新型的 LWB 和 AttLWB,其中 AttLWB 將 G_SID 的源特征在幾層中傳遞到 G_TSF,并保留源信息(例如紋理、樣式風(fēng)格和顏色)。

          LWB 和 AttLWB 的結(jié)構(gòu)。它們有如圖(b)所示的相同結(jié)構(gòu)。(a)是 AddWB 的結(jié)構(gòu),(b)是 (Attentional) Liquid Warping Block 的共有結(jié)構(gòu),(c) 是 AttWB 的架構(gòu)。

          值得注意的是,Attentional Liquid Warping Block 相比于 Liquid Warping Block,解決了多源問(wèn)題。如上圖所示,以模仿人類動(dòng)作為例,該框架支持多個(gè)輸入源,將源圖像表示為{I_s_1,I_s_2,...,I_s_n},參考圖像是 I_r。其中,s_n 是源圖像的數(shù)目。

          接下來(lái),我們來(lái)看一下上述三個(gè)模塊的具體內(nèi)容。

          人體網(wǎng)格復(fù)原模塊

          如圖 3 (a)所示,給定源圖像 I_s_i 和參考圖像 I_r,該階段的作用是預(yù)測(cè)運(yùn)動(dòng)姿態(tài) (肢體的旋轉(zhuǎn)) 和形態(tài)參數(shù),以及每個(gè)圖像的 3D 網(wǎng)格。為了在準(zhǔn)確率和效率之間取得良好的平衡,該研究采用 HMR 作為 3D 姿態(tài)和形態(tài)估計(jì)器。

          流組成模塊

          在已有估計(jì)的基礎(chǔ)上,該研究首先利用相機(jī)視圖,為每個(gè)源網(wǎng)格和參考網(wǎng)格渲染一個(gè)對(duì)應(yīng)關(guān)系圖和權(quán)重索引圖。這個(gè)步驟主要使用完全可微的渲染器神經(jīng)網(wǎng)格渲染器(NMR)來(lái)完成。

          然后,計(jì)算每個(gè)網(wǎng)格 face 的重心坐標(biāo),得到

          接下來(lái),該方法通過(guò)匹配源對(duì)應(yīng)圖與其網(wǎng)格 face 坐標(biāo) f_s_i 之間的對(duì)應(yīng)關(guān)系,來(lái)計(jì)算變換流,并以同樣的方法計(jì)算參考對(duì)應(yīng)圖的變換流。

          這樣就得到了前景圖像 I_s_i^ft 和蒙版背景圖像 I_s_i^bg,并隨機(jī)選擇一個(gè)蒙版背景圖像充當(dāng) I_bg。

          最后,通過(guò)變換流將每個(gè)源圖像的可見(jiàn)紋理扭曲(warp)到所需條件,從而得到合成圖像 I_t^syn。

          Attentional Liquid Warping GAN

          在 Attentional Liquid Warping GAN 階段,該方法在理想條件下合成高保真的人體圖像。更具體地說(shuō),包括 3 個(gè)部分:

          • 合成背景圖像;

          • 根據(jù)可見(jiàn)部分預(yù)測(cè)不可見(jiàn)部分的顏色;

          • 從 SMPL 的重建中生成衣服、頭發(fā)等像素。


          Attentional Liquid Warping GAN 網(wǎng)絡(luò)架構(gòu)的具體細(xì)節(jié),包括生成器和鑒別器。其中 s 表示卷積和轉(zhuǎn)置卷積中的步長(zhǎng)(stride)大小。

          實(shí)驗(yàn)


          為了評(píng)估所提方法在動(dòng)作模仿、外觀遷移以及新視圖合成幾項(xiàng)任務(wù)上的性能,該研究在 4 個(gè)數(shù)據(jù)集 Impersonator(iPER)、MotionSynthetic、FashionVideo 和 Youtube-Dancer-18 上進(jìn)行了實(shí)驗(yàn)。

          其中,Impersonator(iPER)數(shù)據(jù)集為包含不同服裝風(fēng)格的視頻數(shù)據(jù)集,有 30 名受試者的體型、身高和性別各不相同。每個(gè)受試者穿著不同的衣服,表演一個(gè) A-pose 視頻和一個(gè)隨機(jī)動(dòng)作的視頻。總共有 103 件衣服;MotionSynthetic 數(shù)據(jù)集是該研究為評(píng)估該方法在外觀遷移和新視角合成任務(wù)上的性能所合成的數(shù)據(jù)集。

          人體動(dòng)作模仿結(jié)果

          下表給出了該研究在 iPER、MotionSynthetic 和 FashionVidieo 數(shù)據(jù)集上采用不同方法進(jìn)行人體動(dòng)作模仿的單樣本平均結(jié)果。↑代表越大越好,↓反之。但較高的 SSIM 值并不意味著圖像質(zhì)量更好。

          表 1

          如表 2 所示:在 Youtube-Dancer-18 數(shù)據(jù)集上,對(duì)不同方法的人體動(dòng)作模仿的少樣本結(jié)果。源圖像 s_n 的數(shù)目為 2。↑表示越大越好,↓表示越小越好。

          表 2

          外觀遷移結(jié)果

          如表 3 所示:該研究在 iPER 數(shù)據(jù)集上,列出了對(duì) LWB 以及 AttLWB 在外觀遷移的結(jié)果,這里報(bào)告了 PSNR、SSIM、lpip, Body-CS 和 Face-CS。↑表示越大越好。更大的 SSIM 可能并不意味著圖像質(zhì)量更好[63]。

          表 3

          新視圖合成結(jié)果

          下表給出了在新視圖合成任務(wù)上,基于 iPER 和 MotionSynthetic 數(shù)據(jù)集,幾種方法的合成結(jié)果,包括 AppFlow、MV2NV、LWB 和 AttLWB,可以看到,新方法的 AttLWB 表現(xiàn)良好。



          最后,來(lái)看下可視化的合成效果:

          圖 9:基于 iPER 和 FashionVideo 數(shù)據(jù)集,該方法與其他動(dòng)作模仿合成方法的比較。所有結(jié)果的分辨率都為 512×512。用紅色和藍(lán)色矩形突出顯示細(xì)節(jié)。

          版權(quán)聲明:“物聯(lián)網(wǎng)智庫(kù)”除發(fā)布原創(chuàng)干貨以外,致力于優(yōu)秀科技/研究/投資類文章精選、精讀。部分文章推送時(shí)未能與原作者取得聯(lián)系。若涉及版權(quán)問(wèn)題,或由于二次轉(zhuǎn)載標(biāo)錯(cuò)了轉(zhuǎn)載來(lái)源,敬請(qǐng)?jiān)髡呗?lián)系我們。聯(lián)系方式:微信My_lordmiss


          往期精選


          哈工大也太難了!曝在全國(guó)大學(xué)生

          數(shù)學(xué)建模競(jìng)賽中被禁用......

          終極殺招!美國(guó)對(duì)華為啟動(dòng)

          “無(wú)限追溯”,又拉黑38家......

          華為高端麒麟芯片或?qū)⒔^版,

          余承東:應(yīng)對(duì)方案已出!

          剛剛,美國(guó)宣布“凈網(wǎng)”行動(dòng):

          封殺中國(guó)運(yùn)營(yíng)商,禁用 BAT 云......

          科技史將記住今天,我們被美帝

          強(qiáng)盜“明搶”成功!字節(jié)跳動(dòng)同意......

          華為要進(jìn)軍光刻機(jī)制造,兩年

          量產(chǎn)5nm光刻機(jī)?......



          瀏覽 76
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  成人在线无码 | 操逼逼逼 | 色婷婷激情AV在线 | 亚洲无码在线播放视频 | 韩国三级片在线视频 |