<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          圖像生成王者不是GAN?擴(kuò)散模型最近有點(diǎn)火:靠加入類別條件,效果...

          共 2154字,需瀏覽 5分鐘

           ·

          2022-02-12 07:39

          點(diǎn)擊上方“邁微AI研習(xí)社”,選擇“星標(biāo)★”公眾號

          重磅干貨,第一時(shí)間送達(dá)


          OpenAI剛剛推出的年末新作GLIDE,又讓擴(kuò)散模型小火了一把。

          這個(gè)基于擴(kuò)散模型的文本圖像生成大模型參數(shù)規(guī)模更小,但生成的圖像質(zhì)量卻更高。

          于是,依舊是OpenAI出品,論文標(biāo)題就直接號稱“在圖像生成上打敗GAN”的ADM-G模型也重新進(jìn)入了大眾眼中:

          238d5f6436b7054efb298432b9fc62c0.webp

          光看Papers with Code上基于ImageNet數(shù)據(jù)集的圖像生成模型榜單,從64 x 64到512 x 512分辨率都由這一模型占據(jù)榜首:

          9223d416870bc9a54efe7117e51f0818.webp

          對比曾號稱史上最強(qiáng)圖像生成器的BigGAN-deep也不落下風(fēng),甚至還能在LSUN和ImageNet 64 × 64的圖像生成效果上達(dá)到SOTA。

          d9e8dbf7a9aa5f8e9433fb327790b76f.webp

          有網(wǎng)友對此感嘆:前幾年圖像生成領(lǐng)域一直由GAN主導(dǎo),現(xiàn)在看來,似乎要變成擴(kuò)散模型了。

          3ecb64ea3d0bcd83beb0011ea6922673.webp

          加入類別條件的擴(kuò)散模型

          我們先來看看擴(kuò)散模型的定義。

          這是一種新的圖像生成的方法,其名字中的“擴(kuò)散”本質(zhì)上是一個(gè)迭代過程。

          具體到推理中,就是從一幅完全由噪聲構(gòu)成的圖像開始,通過預(yù)測每個(gè)步驟濾除的噪聲,迭代去噪得到一個(gè)高質(zhì)量的樣本,然后再逐步添加更多的細(xì)節(jié)。

          129dadb8560bd564bf9edcacfdebc6f9.webp

          而OpenAI的這個(gè)ADM-G模型,則是在此基礎(chǔ)上向圖像生成任務(wù)中加入了類別條件,形成了一種獨(dú)特的消融擴(kuò)散模型。

          研究人員分別從以下幾個(gè)方面做了改進(jìn):

          基本架構(gòu)

          基于UNet結(jié)構(gòu)做了五點(diǎn)改進(jìn):

          • 在保持模型大小不變的前提下,增加深度與寬度

          • 增加注意頭(Attention Head)數(shù)量

          • 在32×32、16×16和8×8的分辨率下都使用注意力機(jī)制

          • 使用BigGAN殘差塊對激活函數(shù)進(jìn)行上采樣和下采樣

          • 將殘差連接(Residual Connections)縮小為原來的1/根號2

          15039cc7cb1f8b7ad000fd04a12d47ff.webp

          類別引導(dǎo)(Classifier Guidance)

          在噪聲逐步轉(zhuǎn)換到信號的過程中,研究人員引入了一個(gè)預(yù)先訓(xùn)練好的分類網(wǎng)絡(luò)。

          它能夠?yàn)橹虚g生成圖像預(yù)測并得到一個(gè)標(biāo)簽,也就是可以對生成的圖片進(jìn)行分類。

          之后,再基于分類分?jǐn)?shù)和目標(biāo)類別之間的交叉熵?fù)p失計(jì)算梯度,用梯度引導(dǎo)下一步的生成采樣。

          縮放分類梯度(Scaling Classifier Gradients)

          按超參數(shù)縮放分類網(wǎng)絡(luò)梯度,以此來控制生成圖像的多樣性和精度。

          比如像這樣,左邊是1.0規(guī)模大小的分類網(wǎng)絡(luò),右邊是10.0大小的分類網(wǎng)絡(luò),可以看到,右邊的生成圖像明顯類別更加一致:

          bcfa52b2b9ac352ef0992457dc31dbb5.webp

          也就是說,分類網(wǎng)絡(luò)梯度越高,類別就越一致,精度也越高,而同時(shí)多樣性也會(huì)變小。

          生成領(lǐng)域的新熱點(diǎn)

          目前,這一模型在GitHub上已有近千標(biāo)星:

          8c14b084d13b36a6c7c60ff27b023f9e.webp

          而與GAN比起來,擴(kuò)散模型生成的圖像還更多樣、更復(fù)雜。

          基于同樣的訓(xùn)練數(shù)據(jù)集時(shí),擴(kuò)散模型可以生成擁有全景、局部特寫、不同角度的圖像:

          55cba80bb39d226640bc378f718e0732.webp左:BigGAN-deep 右:ADM

          其實(shí),自2020年谷歌發(fā)表DDPM后,擴(kuò)散模型就逐漸成為了生成領(lǐng)域的一個(gè)新熱點(diǎn),

          除了文章中提到的OpenAI的兩篇論文之外,還有Semantic Guidence Diffusion、Classifier-Free Diffusion Guidence等多個(gè)基于擴(kuò)散模型設(shè)計(jì)的生成模型。

          擴(kuò)散模型接下來還會(huì)在視覺任務(wù)上有哪些新的應(yīng)用呢,我們來年再看。

          論文鏈接:
          https://arxiv.org/abs/2105.05233

          開源鏈接:
          https://github.com/openai/guided-diffusion

          參考鏈接:
          [1]https://www.casualganpapers.com/guided_diffusion_langevin_dynamics_classifier_guidance/Guided-Diffusion-explained.html

          [2]https://www.reddit.com/r/MachineLearning/comments/rq1cnm/d_diffusion_models_beat_gans_on_image_synthesis/


          更多細(xì)節(jié)可參考論文原文,更多精彩內(nèi)容請關(guān)注邁微AI研習(xí)社,每天晚上七點(diǎn)不見不散!


          ??THE END?

          投稿或?qū)で髨?bào)道微信:MaiweiE_com



          GitHub中文開源項(xiàng)目《計(jì)算機(jī)視覺實(shí)戰(zhàn)演練:算法與應(yīng)用》,“免費(fèi)”“全面“”前沿”,以實(shí)戰(zhàn)為主,編寫詳細(xì)的文檔、可在線運(yùn)行的notebook和源代碼。


          ba963ccd2dbfa3f850db6e8712584f71.webp


          • 項(xiàng)目地址?https://github.com/Charmve/computer-vision-in-action

          • 項(xiàng)目主頁?https://charmve.github.io/L0CV-web/




          推薦閱讀

          (更多“摳圖”最新成果)

          邁微AI研習(xí)社

          微信號: MaiweiE_com

          GitHub:?@Charmve

          CSDN、知乎: @Charmve

          投稿: [email protected]

          主頁: github.com/Charmve


          如果覺得有用,就請點(diǎn)贊、轉(zhuǎn)發(fā)吧!

          瀏覽 45
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  最近好看的2019中文在线小说 | 亚洲成人网在线 | 欧美狠狠狠 | 一级片在线视频播放 | 玖玖精品视频一区二区三区四区 |