<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          快手Y-tech:GAN在短視頻中的AI特效實踐

          共 7181字,需瀏覽 15分鐘

           ·

          2021-04-13 13:40

          導讀

          近年來,以GAN為代表的生成式技術在學術界取得蓬勃發(fā)展。在工業(yè)界,基于生成式技術的真實感效果也引領了一批爆款特效和應用。快手Y-tech在國內(nèi)率先將GAN落地于短視頻特效制作,并積累了豐富的實踐經(jīng)驗,為快手各類人臉爆款特效提供有力技術支持。本文主要介紹快手在高精度人臉屬性編輯方面的實踐,包括性別、年齡、頭發(fā)、表情等的生成。

          文章來源 快手Ytech 編輯 智東西公開課


          01

          背景介紹


          人臉特效是輔助短視頻內(nèi)容生產(chǎn)的重要組成部分,生動好玩的特效有利于促進短視頻內(nèi)容的消費。傳統(tǒng)的人臉特效主要依賴于人臉二維和三維的語義理解,并結合圖形圖像處理、優(yōu)秀的產(chǎn)品設計達到吸引用戶的目的,但該特效制作存在真實感缺失的局限。


          近些年,生成式技術如VAE、GAN、AutoRegressive Model、Normalizing Flow Model等[1]在學術界取得了蓬勃發(fā)展。在這其中,GAN[2]是杰出的代表,GAN通過生成器和判別器的相互博弈,使得生成器生成的數(shù)據(jù)分布接近真實數(shù)據(jù)分布。自2014年GAN提出以來,GAN生成效果逐漸逼真和高清,廣泛應用于圖像翻譯、圖像修復和增強、圖像和視頻合成等領域[1]。



          GAN技術對于特效生產(chǎn)具有重要意義。第一,GAN生成效果真實感強、清晰度高,可以做到傳統(tǒng)特效無法實現(xiàn)的效果。第二, GAN是端到端的效果輸出,可節(jié)約特效制作成本。第三,GAN可進一步實現(xiàn)自動化的圖片和視頻生產(chǎn),降低短視頻生產(chǎn)的門檻。


          在工業(yè)界,GAN技術造就一批爆款特效和應用,海外如FaceAPP的變老、Snapchat的變性別,在國內(nèi),快手是最早將GAN落地于短視頻特效制作的公司,本文從高精度人臉屬性編輯方面介紹GAN在快手的實踐工作,如性別、年齡、頭發(fā)、表情等的生成和變化。


          02

          業(yè)務應用


          目前,生成式技術在高精度人臉屬性方面,主要應用于快手、一甜相機等App的特效模塊。


          第一,快手魔表。在快手手機端魔表拍攝功能上,我們自2019年8月陸續(xù)推出多款魔表,如變小孩、我的一生、變性別、大笑嘟嘴等表情, 給大家?guī)硇缕骟w驗。


          變小孩


          我的一生


          變性別


          表情套系


          第二,一甜相機的服務端頭發(fā)自然生長。發(fā)型對于人的美感及形象是至關重要的。與臉型和五官適配的發(fā)型可以修飾面部的缺陷,提高一個人的氣質(zhì)與魅力。但是,人們往往沒辦法很快的改變自己的發(fā)型,比如自己本身是短發(fā),想看看變成長發(fā)是否能為自己的形象氣質(zhì)加分,那就需要等待數(shù)月來讓頭發(fā)長長。傳統(tǒng)特效采用假發(fā)貼片效果很假,側臉角度容易露怯,利用生成式技術可實現(xiàn)高精度的真實感頭發(fā)生成。


               (a) 原圖           (b) faceapp結果            (c) 快手結果  


          03

          問題分析


          在落地實踐中, 需要解決如下幾個關鍵問題。


          第一,GAN訓練不穩(wěn)定,容易出現(xiàn)斑點、偽影、局部區(qū)域扭曲等問題。在落地過程中,我們將GAN模型分為兩個階段,分別為造數(shù)據(jù)模型和pixel2pixel模型。GAN訓練不穩(wěn)定會導致造數(shù)據(jù)階段生成的配對數(shù)據(jù)失敗率高,無法造出大量合格數(shù)據(jù)提供給后續(xù)的pixeltopixel模型,影響了項目的整體進度。


          第二,不同落地終端和場景對效果要求不一。


          (1)服務端。服務端算力足,可采用離線處理方式,時延要求不高。但服務端上傳用戶圖片清晰度和分辨率不一、光照角度等復雜性高。故服務端方案需要做到高清、魯棒性好。


          (2)手機端。從算力角度看,手機端算力不一,算法需跨越幾百塊手機到上萬塊手機性能,需解決低延遲和算力低的矛盾。從拍攝場景看,大部分是近距離、正常光照、小角度自拍。故需設計不同機型的細分方案,保證效果的良好體驗。


          第三,用戶體驗決定算法目標和優(yōu)先級。特效最終服務于用戶,拍攝體驗決定算法優(yōu)化方案的目標和優(yōu)先級,比如頭發(fā)生長需要考慮頭發(fā)蓬松度和長度,變老需要考慮真實感和美觀度的統(tǒng)一。


          04

          技術實踐


          接下來我們介紹具體落地環(huán)節(jié)遇到的難點和解決方案。特效生產(chǎn)涉及到數(shù)據(jù)準備、算法開發(fā)、工程部署、素材設計和制作、產(chǎn)品玩法包裝、運營推廣等各方面,參與環(huán)節(jié)多,需整體考慮各環(huán)節(jié)對用戶體驗影響。


          第一,數(shù)據(jù)準備。在實踐過程中,我們無法收集到合理的配對數(shù)據(jù),比如一個人從小到老的相同pose下的圖片,同一個男性變成女性的照片,大部分人臉屬性的變化只能收集到非配對的數(shù)據(jù)。數(shù)據(jù)收集的質(zhì)量、多樣性、數(shù)量影響了最終的效果。以頭發(fā)生成為例, 收集頭發(fā)圖片的清晰度和美感等質(zhì)量決定生成效果的理論上限。用戶頭發(fā)的長度、顏色、走向、厚薄、彎曲程度等都不一樣,要求收集數(shù)據(jù)需涵蓋各種發(fā)型,否則模型泛化性效果較差。數(shù)據(jù)的數(shù)量也影響了造數(shù)據(jù)模型的泛化性。在該環(huán)節(jié)中,需多方聯(lián)合把控數(shù)據(jù)的整體質(zhì)量。作為算法人員,需要關注數(shù)據(jù)分布情況是否能涵蓋實際落地場景,可使用數(shù)據(jù)擴增、StyleGAN[3]產(chǎn)生的虛擬數(shù)據(jù)等方式擴充數(shù)據(jù)的多樣性和數(shù)量,有效利用數(shù)據(jù)增強、人工修圖等多種方式提升數(shù)據(jù)質(zhì)量。


          非配對人臉數(shù)據(jù)收集


          非配對頭發(fā)數(shù)據(jù)收集


          第二, 造數(shù)據(jù)模型生產(chǎn)效率和成品率提升, 經(jīng)過人工審核后得到合格配對數(shù)據(jù)。人臉屬性變化本質(zhì)上是圖像翻譯的問題,在拿到unpairs數(shù)據(jù)后, 我們有三種方式生成pairs數(shù)據(jù)。


          (1)domain translation methods,常見如cyclegan[4]、MUNIT[5]、ugatit[6]、starganV2[7]等,此類技術將數(shù)據(jù)劃分為不同的domain,通過對每個domain設計單獨的生成器、單獨的style、單獨的分支等來實現(xiàn)domain之間的變換,比如可實現(xiàn)性別變換、季節(jié)變換等。該方法相對成熟,在實踐中,我們針對人臉和頭發(fā)生成項目做了一系列改進。


          在人臉變化上,引入自適應空間注意力機制,讓模型更關注變化區(qū)域,引入人工篩選得到合格pairs數(shù)據(jù),半監(jiān)督自循環(huán)訓練模型,提升模型的收斂速度、訓練穩(wěn)定性和成品率。


          在固定發(fā)型生成上,頭發(fā)的多樣性以及缺乏準確的參數(shù)化描述方式使得想要精細控制生成的頭發(fā)比較困難,但是如果不能精細控制頭發(fā)的形狀、顏色、發(fā)絲走向,那么在實時拍攝時生成的頭發(fā)就會抖動,缺乏真實性。我們提出了相應的解決方案,引入了設計師繪制的3D發(fā)型模板,并將3D發(fā)型抽象為代表形狀的mask、代表發(fā)絲走向的edge,通過將這些抽象的信息與真實圖像進行融合來達到控制生成頭發(fā)的目的。在該方案中,我們通過deform操作來改善生成頭發(fā)與臉部的貼合度,并通過高低頻分離的方式將紋理與顏色解耦,從而保證了實時情況下生成頭發(fā)的紋理與顏色都是穩(wěn)定的,該方法可以擴展至多種應用,詳情可見我們的論文[8]。


          在頭發(fā)自然生長上,我們將頭發(fā)數(shù)據(jù)劃分為短發(fā)和長發(fā)兩個domain,每個domain有自己的style code,并利用其來控制StyleGAN,從而得到對應domain的輸出圖像。在該方案中,我們采用了局部-全局優(yōu)化策略實現(xiàn)了人臉與頭發(fā)解耦,保證頭發(fā)生長的同時臉部不發(fā)生變化;使用了multi-scale的生成器來得到細致的頭發(fā)紋理;采用半監(jiān)督訓練提升了數(shù)據(jù)成品率。



          (2)基于StyleGAN的隱變量操控方法,如論文[9-11]通過在stylegan中對隱變量施加相關人臉屬性控制,使得生成圖片滿足指定的屬性變化?;诖祟惙椒?,我們自研了基于視頻的可微分3DMM,更好解耦表情參數(shù)和人臉形狀參數(shù),并加入StyleGAN隱變量控制中,實現(xiàn)各種表情的生成。

          (3)Mask guided methods:這類方法主要有MaskGAN[12],SEAN[13],MichiGAN[14]等,他們的核心是用mask限定了待編輯區(qū)域的范圍,以SEAN為例,其對一張圖像的五官及頭發(fā)分區(qū)域提取style得到style matrix,并將其與各區(qū)域的mask作為semantic region-adaptive normalization模塊的輸入,從而達到分區(qū)域控制生成結果的目的。

          第三,基于合格的配對數(shù)據(jù)訓練pixel2pixel模型。利用知識蒸餾思想,將unpairs模型轉(zhuǎn)化為pairs模型,模型效果更穩(wěn)定和魯棒。為保證模型能在不同算力手機的實時效果,我們做了如下優(yōu)化。


          (1)基于自研的ycnn手機端高效推理引擎,針對不同底層架構如NPU、METAL、DSP、OpenCL、NEON等適配高效網(wǎng)絡結構模型。


          (2)提升判別器效果:在對抗訓練階段中引入預訓練特征以提升判別器對細節(jié)紋理的判斷能力,同時穩(wěn)定判別器的訓練過程,最終強化模型對細節(jié)紋理的生成能力;采用多尺度、全局-局部判別器進一步優(yōu)化局部清晰度。(3)設計計算高效的逐像素空間注意力機制, 改進生成器網(wǎng)絡的淺層和深層特征融合方式,在領域特征變化的同時保留更多原圖細節(jié)特征。



          第四,模型部署和素材制作。素材制作可使用輕量級的操作讓模型的最終效果更上一層樓,比如美顏、美型、美妝、銳化、氛圍添加等常見操作,提升用戶對美的感受。素材操作可以是落地的最后一環(huán),也可以作為造數(shù)據(jù)模型的必要環(huán)節(jié),提升造數(shù)據(jù)階段的數(shù)據(jù)質(zhì)量。比如,在變小孩造數(shù)據(jù)階段引入美型可以降低圖像翻譯過程中的形變帶來的學習困難,提升造數(shù)據(jù)成功率。


          05

          總結


          近年來,GAN在人臉屬性變化上的研究眾多,似乎GAN對于人臉屬性的變換和生成是一個已解決的問題,但在實際應用過程中,要想在有限的項目周期內(nèi)達到極致的用戶體驗還有很多技術挑戰(zhàn)。在算法方面,我們持續(xù)研發(fā)基于少量數(shù)據(jù)的StyleGAN屬性操控方案,進一步縮短算法研發(fā)周期。在用戶體驗方面,我們使用超分、美顏、多模型融合等方法提升數(shù)據(jù)質(zhì)量,使用合理的數(shù)據(jù)擴增和訓練方式提升低畫質(zhì)生成效果。在有限算力和內(nèi)存情況下,我們緊密結合工程和模型設計,提升低算力設備的性能和效果體驗。未來, 這些方面都需要我們緊跟學術發(fā)展,持續(xù)的創(chuàng)新和認真細致的努力, 創(chuàng)作更優(yōu)質(zhì)和有吸引力的短視頻內(nèi)容。


          引用

          [1]Liu, M., Huang, X., Yu, J., Wang, T., & Mallya, A. (2020). Generative Adversarial Networks for Image and Video Synthesis:Algorithms and Applications. ArXiv, abs/2008.02793.
          [2] Goodfellow, I.J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A.C., & Bengio, Y. (2014).Generative Adversarial Networks. ArXiv, abs/1406.2661.
          [3]Karras, T., Laine, S., Aittala, M., Hellsten, J., Lehtinen, J., & Aila, T. (2020). Analyzing and Improving the Image Quality of StyleGAN. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 8107-8116.
          [4]Zhu, J., Park, T., Isola, P., & Efros, A.A. (2017). Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks. 2017 IEEE International Conference on Computer Vision (ICCV), 2242-2251.
          [5]Huang, X., Liu, M., Belongie, S.J., & Kautz, J. (2018). Multimodal Unsupervised Image-to-Image Translation. ArXiv, abs/1804.04732.
          [6]Kim, J., Kim, M., Kang, H., & Lee, K. (2020). U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation. ArXiv, abs/1907.10830.
          [7]Choi, Y., Uh, Y., Yoo, J., & Ha, J. (2020). StarGAN v2: Diverse Image Synthesis for Multiple Domains. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 8185-8194.
          [8] Cai, M., Zhang, H., Huang, H., Geng, Q., Huang G. (2020). Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving  (cite arxiv:2011.13611)
          [9]Shen, Y., Gu, J., Tang, X., & Zhou, B. (2020). Interpreting the Latent Space of GANs for Semantic Face Editing. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 9240-9249.
          [10]Tewari, A., Elgharib, M., Bharaj, G., Bernard, F., Seidel, H., Pérez, P., Zollh?fer, M., & Theobalt, C. (2020). StyleRig: Rigging StyleGAN for 3D Control Over Portrait Images. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 6141-6150.
          [11]Shoshan, A., Bhonker, N., Kviatkovsky, I., & Medioni, G. (2021). GAN-Control: Explicitly Controllable GANs. ArXiv, abs/2101.02477.
          [12] Lee, C.-H., Liu, Z., Wu, L. & Luo, P. (2020). MaskGAN: Towards Diverse and Interactive Facial Image Manipulation.. CVPR (p./pp. 5548-5557), : IEEE. ISBN: 978-1-7281-7168-5
          [13] Zhu, P., Abdal, R., Qin, Y. & Wonka, P. (2020). SEAN: Image Synthesis With Semantic Region-Adaptive Normalization.. CVPR (p./pp. 5103-5112), : IEEE. ISBN: 978-1-7281-7168-5
          [14] Tan, Z., Chai, M., Chen, D., Liao, J., Chu, Q., Yuan, L., Tulyakov,S.&Yu,N.(2020). MichiGAN: multi-input-conditioned hair image generation for portrait editing.. ACM Trans. Graph., 39, 95.

          猜您喜歡:


          等你著陸!【GAN生成對抗網(wǎng)絡】知識星球!

          超100篇!CVPR 2020最全GAN論文梳理匯總!

          附下載 | 《Python進階》中文版

          附下載 | 經(jīng)典《Think Python》中文版

          附下載 | 《Pytorch模型訓練實用教程》

          附下載 | 最新2020李沐《動手學深度學習》

          附下載 | 《可解釋的機器學習》中文版

          附下載 |《TensorFlow 2.0 深度學習算法實戰(zhàn)》

          附下載 | 超100篇!CVPR 2020最全GAN論文梳理匯總!

          附下載 |《計算機視覺中的數(shù)學方法》分享

          瀏覽 139
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  极品探花外围高端 | 极品探花外围高端 | 毛茸茸的孕妇孕交视频无码 | 好色综合 | 黄色小视频免费看 |