<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          零樣本風(fēng)格遷移:多模態(tài)CLIP文本驅(qū)動(dòng)圖像生成

          共 2626字,需瀏覽 6分鐘

           ·

          2021-09-07 00:43

          點(diǎn)擊上方視學(xué)算法”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)

          來源:GitHub ,新智元

          【導(dǎo)讀】零樣本的風(fēng)格遷移聽說過沒有?英偉達(dá)一個(gè)實(shí)習(xí)生小哥集文本CLIP和圖像生成StyleGAN于一身,只需要輸入幾個(gè)單詞就可以完成你想要的風(fēng)格遷移效果!再也不用為了風(fēng)格遷移找數(shù)據(jù)啦!


          StyleGAN想必大家都不陌生了,它借助生成對抗網(wǎng)絡(luò)(GAN)對捕獲豐富語義的潛在空間和模擬圖像分布的能力,可以用來換臉、風(fēng)格遷移、換膚色等等,一般的輸入數(shù)據(jù)都是源域的圖像和目標(biāo)域的圖像。
           
          但這些模型的應(yīng)用范圍僅限于可以收集大量圖像的域,這一要求嚴(yán)重限制了其適用性。事實(shí)上,在許多情況下(例如某個(gè)特定藝術(shù)家的繪畫),可能沒有足夠的數(shù)據(jù)來訓(xùn)練一個(gè)GAN,甚至面臨根本沒有任何數(shù)據(jù)的情況。
           
          根據(jù)以往的經(jīng)驗(yàn),大規(guī)模預(yù)訓(xùn)練模型已經(jīng)見到了足夠多的域的數(shù)據(jù),也就是說直接使用Vision語言模型也許可以不用收集數(shù)據(jù),直接根據(jù)文本就可以召回相關(guān)域的圖像。
           
          有了數(shù)據(jù)就可以建立一個(gè)文本驅(qū)動(dòng)的圖像生成器啦!
           
          英偉達(dá)的實(shí)習(xí)生 Rinon Gal 最近提出這樣一個(gè)模型,不需要圖像輸入就可以做StyleGAN,秘訣就是利用CLIP模型的多模態(tài)能力
           
           
          這種文本驅(qū)動(dòng)的方法域外(out-of-domain)的圖像生成,研究人員引入了一個(gè)訓(xùn)練方案,該方案只使用文本提示詞,就可以將預(yù)訓(xùn)練的模型的域轉(zhuǎn)移到一個(gè)新的域。

          域轉(zhuǎn)移(domain shift)的實(shí)現(xiàn)是通過修改生成器對與文本對齊的圖像的權(quán)重來實(shí)現(xiàn)的。
           
           
          例如上圖中,研究人員修改了針對真實(shí)人臉和汽車的圖像生成器,就可以生成特定藝術(shù)風(fēng)格的繪畫。還可以在教堂里訓(xùn)練生成器以生成紐約市的圖像。
           
          但這種模型是相當(dāng)于是「盲目」訓(xùn)練(train blindly)的,在訓(xùn)練過程中看不到目標(biāo)域的任何圖像,也就是說這符合zero-shot的設(shè)定。
           
           
          這個(gè)模型主要由兩個(gè)核心組件構(gòu)成,StyleGAN和CLIP。
           
          近年來,StyleGAN及其后繼模型已然是無條件圖像生成領(lǐng)域的老大哥,能夠合成質(zhì)量非常高圖像。
           
          StyleGAN生成器由兩部分組成,首先,映射網(wǎng)絡(luò)將從高斯分布采樣的隱編碼轉(zhuǎn)換為學(xué)習(xí)的隱空間中的向量。然后把這些隱向量輸入到第二個(gè)組件合成網(wǎng)絡(luò),用來控制網(wǎng)絡(luò)中不同層的特征。
           
          之前的研究也證明了,通過遍歷這個(gè)中間隱空間W,或者通過在不同的網(wǎng)絡(luò)層上混合不同的W編碼,能夠?qū)ι蓤D像中語義屬性的細(xì)粒度控制。
           
          但這種潛在空間傳輸通常僅限于域內(nèi)修改,也就是說,它被約束到具有與初始訓(xùn)練集匹配的屬性的圖像的流形。相比之下,這篇論文的目標(biāo)是在不同域之間轉(zhuǎn)換生成器,而不只是在隱空間內(nèi)編輯或是微調(diào)語義感知。
           
          結(jié)合StyleGAN的生成能力和CLIP的語義知識(shí)能力的模型最近也有人提出,模型叫StyleCLIP,并且提出三種方法來利用CLIP的語義表達(dá)能力
           
          1、隱優(yōu)化技術(shù)(latent optimization technique),使用標(biāo)準(zhǔn)的反向傳播方法修改給定的潛編碼,使得生成的圖像和給定的目標(biāo)文本之間的CLIP-space內(nèi)距離最小。研究人員將這個(gè)損失函數(shù)命名為全局CLIP損失。
          2、隱映射(latent mapper),訓(xùn)練網(wǎng)絡(luò)將輸入的隱編碼轉(zhuǎn)換為修改生成圖像中文本描述屬性的編碼。這個(gè)映射器使用相同的全局CLIP損失進(jìn)行訓(xùn)練,從而最小化到目標(biāo)文本的CLIP-space距離。對于一些劇烈的形狀修改,我們發(fā)現(xiàn)訓(xùn)練這樣一個(gè)潛在的映射器可以幫助提高識(shí)別結(jié)果-
           
          3、通過確定修改哪些維度的隱編碼會(huì)導(dǎo)致圖像空間變,從而發(fā)現(xiàn)GAN隱空間中有意義的變化方向。
           
          這三個(gè)方法訓(xùn)練和推理時(shí)間變化很大,但它們都與其他隱空間編輯方法有一個(gè)共同的特點(diǎn),它們應(yīng)用于給定圖像的修改在很大程度上受限于預(yù)訓(xùn)練生成器的圖像域。

          所以,StyleCLIP能夠改變發(fā)型、表情,甚至可以將狼變成獅子,但他們不能將照片變成其他風(fēng)格的繪畫。
           
          為此研究人員主要從兩方面基于StyleCLIP又做了改進(jìn)
          (1) 如何才能最好地提取封裝在CLIP中的語義信息?
          (2)應(yīng)該如何正則化優(yōu)化過程以避免模式崩潰?
           
          首先就是損失函數(shù)的修改,除了之前提到的全局CLIP損失,第二個(gè)損失函數(shù)用來保留多樣性和防止圖像崩潰。一個(gè)圖像對包含兩個(gè)圖像,一個(gè)由參考生成器生成,另一個(gè)由修改的可訓(xùn)練的生成器使用相同的隱編碼生成。
           
           
          把參考圖像和目標(biāo)圖像的embedding按照CLIP-space中源文本和目標(biāo)文本的embedding方向?qū)R。

          這個(gè)損失函數(shù)可以克服全局CLIP損失的缺點(diǎn),如果目標(biāo)生成器僅創(chuàng)建單個(gè)圖像,則從所有源到該目標(biāo)圖像的剪輯空間方向?qū)⒉煌?,所以它們不能全部與文本方向一致。

          其次,網(wǎng)絡(luò)很難收斂到通用的解決方案,因此必須加入干擾來欺騙CLIP。
           
          在實(shí)驗(yàn)部分,下圖可以看到如何從狗生成到各種動(dòng)物。對于所有動(dòng)物翻譯實(shí)驗(yàn),在每次迭代中將可訓(xùn)練層的數(shù)量設(shè)置為三層,并訓(xùn)練隱映射器以減少源域數(shù)據(jù)的泄漏。

          可以看到變化主要集中在樣式或較小的形狀調(diào)整上。例如,許多動(dòng)物都會(huì)豎起右耳,而大多數(shù)AFHQ數(shù)據(jù)集中的狗品種則不會(huì)。
           
           
          除了zero-shot外,研究人員還將方法與兩種few-shot方案進(jìn)行比較,即Ojha提出的模型和MineGAN進(jìn)行比較。

          第一種方法側(cè)重于保持源域的多樣性,同時(shí)適應(yīng)目標(biāo)域的風(fēng)格,而后一種方法則通過引導(dǎo)GAN朝向更好地匹配目標(biāo)集分布的隱空間域來穩(wěn)定訓(xùn)練,但會(huì)犧牲一定的多樣性。

          下圖可以看到雖然論文中提出的模型生成的圖片可以看出來有人工生成的痕跡,但它成功地避免了備選方案顯示的過度擬合和模式崩潰結(jié)果,保持了高度的多樣性,并且能夠在不提供任何目標(biāo)域圖像的情況下實(shí)現(xiàn)了這一點(diǎn)。
           

           

          參考資料:

          https://stylegan-nada.github.io/


          點(diǎn)個(gè)在看 paper不斷!

          瀏覽 58
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  特黄特色一级特黄大片 | 91麻豆产精品久久久久久 | 欧美第一网站 | 超碰网站最新 | 色香蕉网|