<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          港中文博士提出首個基于Transformer的條件GAN:成像質(zhì)量仍不如CNN

          共 3228字,需瀏覽 7分鐘

           ·

          2021-11-14 23:59



          ??新智元報道??

          編輯:LRS

          【新智元導(dǎo)讀】Transformer在圖像分類任務(wù)上經(jīng)過充分訓(xùn)練已經(jīng)足以完全超越CNN模型,但GAN仍然是Transformer無法踏足的領(lǐng)域。最近港中文博士提出首個基于Transformer的條件GAN模型STransGAN,緩解了Transformer的部分問題,但成像質(zhì)量仍不如CNN。


          Transformer不僅在自然語言表達(dá)方面表現(xiàn)出色,在計算機(jī)視覺方面的潛力也被挖掘出來,不斷稱霸各大CV榜單。
          ?
          Transformer的成功主要歸功于注意力層的表示學(xué)習(xí)能力,這種能力也能夠支持Transformer模型在其他領(lǐng)域上的應(yīng)用。
          ?
          最近,有研究人員將生成對抗網(wǎng)絡(luò)(GAN)中常用的CNN主干網(wǎng)絡(luò)替換為Transformer用于圖像合成。一些前期研究結(jié)果表明,將Transformer直接用于GAN中并不是一件很容易的事,特別是之前被設(shè)計用于分類的GAN中經(jīng)常會導(dǎo)致CNN圖像合成性能的下降。
          ?
          例如與基于CNN的StyleGAN2實現(xiàn)的3.16 FID相比,ViT作為主干網(wǎng)絡(luò)的GAN模型僅在64×64 Celeba數(shù)據(jù)集中實現(xiàn)了8.92的FID。Frechet Inception Distance (FID) 計算結(jié)果為真實圖像計算的特征向量與生成的圖像之間的距離。
          ?
          ?
          此外,這種Transformer結(jié)構(gòu)也會使GAN網(wǎng)絡(luò)的訓(xùn)練變得更加不穩(wěn)定,嚴(yán)重依賴于手工調(diào)整超參數(shù)。
          ?
          針對這個問題,來自香港中文大學(xué)的研究人員發(fā)表了一篇論文,旨在了解GAN 模型中Transformer 的內(nèi)在行為,以縮小基于Transformer的GAN模型與基于CNN主干的GAN模型之間的性能差距。文中不僅研究了無條件的圖像合成,而且還研究了如何更少地探索的條件設(shè)置。
          ?
          這項研究也是首次在條件設(shè)計(conditional setting)下成功使用基于Transformer的GAN模型。
          ?
          ?
          文章的第一作者是徐瑞,目前是香港中文大學(xué)多媒體實驗室四年級博士生,導(dǎo)師是湯曉鷗教授,本科畢業(yè)于清華大學(xué)電子工程系。主要研究方向為深入學(xué)習(xí)及其在計算機(jī)視覺中的應(yīng)用,正在進(jìn)行的工作包括圖像/視頻繪畫和圖像合成。他在圖像/視頻分割、檢測和實例分割方面有豐富的研究經(jīng)驗。
          ?
          ?
          研究結(jié)果主要為Transformer 在GAN 中的使用提供了三點實踐和設(shè)計原則:
          ?
          1、局部性(locality)很重要。

          特征提取的局部性對于圖像分類中Transformer的效率和性能至關(guān)重要,在GAN 圖像生成實驗中也可以觀察到同樣的結(jié)果。特別是,在現(xiàn)有基于Transformer 的GANs 中實施的全局自注意力操作會降低圖像合成性能,并且在計算上無法應(yīng)用于高分辨率圖像生成。在這些方法中,Swin Layer被證明是提供局部感應(yīng)偏差的最有效的模塊。
          ?
          文中提出了一種新的基于Transformer的GAN網(wǎng)絡(luò)架構(gòu)設(shè)計,生成器部分稱為STrans-G。
          ?
          模型首先從一個簡單的基線結(jié)構(gòu)Trans-G開始,它由標(biāo)準(zhǔn)的視覺Transformer 塊組成。然而,Trans-G生成的樣本通常包含嚴(yán)重的人工痕跡(artifacts)和違和的細(xì)節(jié),從而導(dǎo)致在視覺上看質(zhì)量比較差。
          ?
          ?
          通過分析注意力層的內(nèi)在行為,可以發(fā)現(xiàn)全局注意力總是打破圖像數(shù)據(jù)的局部性,特別是在合成高分辨率特征時。
          ?
          這一發(fā)現(xiàn)也促使研究人員探索各種局部注意機(jī)制在生成真實高分辨率圖像中的作用。在仔細(xì)比較了不同的局部注意機(jī)制之后,最終選擇了Swin架構(gòu)作為模型架構(gòu)塊,構(gòu)建了一個無CNN的生成器STrans-G。對注意力距離(attention distance)的進(jìn)一步分析清楚地顯示了全局注意和局部注意之間的差異。
          ?
          2、留意判別器(discriminator)中的殘差連接。

          Transformer 在每個自注意力層的子層和點全連接層(pointwise fully connected layer)上使用殘差連接。通過對范數(shù)比的詳細(xì)分析,可以發(fā)現(xiàn)在基于Transformer 的判別器中,殘差連接往往主導(dǎo)信息流。在判別器中執(zhí)行自注意力和全連接操作的子層在訓(xùn)練過程中被無意中繞過,從而導(dǎo)致圖像合成質(zhì)量低下和收斂緩慢。研究人員通過將每個殘差連接替換為跳躍投影層來解決這個問題,這樣可以更好地保持殘差塊中的信息流。
          ?
          判別器部分稱為STrans-D,包括了一些經(jīng)驗上的策略。
          ?
          ?
          首先采用輕量級卷積塊將原始輸入采樣降低4倍,并將圖像張量投影到任意維度,而不是像大多數(shù)視覺Transformer那樣從embedding模塊開始。卷積token 抽取器與patch embedding相比,采用了重疊的patch,保留了更多的細(xì)節(jié)信息。
          ?
          第二,研究人員在所有注意力模塊和MLP中采用均衡學(xué)習(xí)率(equalized learning rate)。這是由判別器中的Transformer塊在使用小學(xué)習(xí)率來穩(wěn)定其訓(xùn)練時的緩慢和不滿意的收斂所做出的改變。通過在整個判別器中設(shè)置一個更大的學(xué)習(xí)率可以解決這一問題,并引入了一種特殊的sclaer,在運行時將Transformer 塊的可學(xué)習(xí)參數(shù)相乘。
          ?
          此外,研究人員將GeLU替換為LeakyRelu,并在注意和MLP模塊的末尾添加非線性激活函數(shù)。
          ?
          3、為Transformer 單獨設(shè)計策略,而非條件正則化。

          研究人員發(fā)現(xiàn),傳統(tǒng)的注入條件信息的方法對基于Transformer的條件GAN沒有很好的效果。罪魁禍?zhǔn)资峭ㄟ^Transformer生成器中的殘差連接在大信息流中。如果將條件信息注入主分支,那基本上都被忽略掉了,對最終輸出幾乎沒有任何影響。研究人員提出了一種在主干中采用條件歸一化層的可行方法,有助于在整個Transformer生成器中保留條件信息。
          ?
          ?
          一個嘗試是在Transformer塊中直接采用AdaLN,但沒有取得效果。特別是研究人員發(fā)現(xiàn)FID在前期的訓(xùn)練不再下降了。為了找到故障的發(fā)生處,研究人員又繪制了此基線配置的標(biāo)準(zhǔn)比率。存在多個具有高范數(shù)比的塊,表明主分支中的一些AdaNorm層對中間特征的貢獻(xiàn)很小,導(dǎo)致條件信息丟失。
          ?
          為了保證條件信息的注入,一個簡單的解決方案是將AdaNorm應(yīng)用于trunk。通過這種方式,保證了shortcut 和MLP分支的特性都包含類別的信息。
          ?
          在實驗部分,為了降低計算成本,研究人員將Transformer塊中MLP模塊的信道擴(kuò)展率設(shè)置為2。輸入token維度為512,默認(rèn)采用四個注意力header。選擇Adam優(yōu)化器(β1=0,β2=0.99)來訓(xùn)練生成器和判別器。Strans-G和Strans-D分別以0.0001和0.002的學(xué)習(xí)率進(jìn)行優(yōu)化。
          ?
          在無條件的生成中,Strans-G在Celeba 64x64中顯著地超出了之前的所有方法。它在FFHQ 256x256的高分辨率設(shè)置方面也取得了相當(dāng)?shù)男阅堋?/span>
          ?
          ?
          對于條件圖像生成,在提出的Adain-T層中,Strans-G將CIFAR10上的SOTA起始分?jǐn)?shù)從10.14提高到11.62。由于CIFAR10是一個被廣泛采用的數(shù)據(jù)基準(zhǔn),這一結(jié)果也表明了STrans-G在有限數(shù)據(jù)下模擬真實分布的穩(wěn)健性。
          ?
          在成像評估中,可以觀察到Strans-G和基于CNN的Biggan模型之間存在相當(dāng)大的差距。結(jié)果表明,與廣泛使用的CNN 模型相比,基于Transformer 的GAN 仍然有改進(jìn)的空間。
          ?
          ?
          此外,這項研究首次顯示了Transformer在ImageNet數(shù)據(jù)集中的潛力。


          參考資料:

          https://arxiv.org/abs/2110.13107



          瀏覽 40
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产黄色在线观看 | 中国一级黄色电影网 | 大鸡吧视频网站 | 免费一级电影网 | 国产精品福利免费在线观看 |