国际黄色在线观看,欧美怡红院视频,品精久久,新国产在线观看色情,婷婷基地在线,一本到高清色情久久无码中文,午夜网亚洲无码,www,大香蕉在

點擊上方“機器學習與生成對抗網(wǎng)絡”，關(guān)注星標

獲取有趣、好玩的前沿干貨！

文章新智元來源：arXiv 編輯：Priscilla LQ

CNN地位不穩(wěn)。加州大學圣地亞哥分校聯(lián)合谷歌進行研究：用視覺Transformer訓練GAN，結(jié)果表明，ViTGAN性能可以與卷積GAN媲美。

卷積神經(jīng)網(wǎng)絡（convoluitonal neural networks，CNN）憑借強大的卷積和池化（pooling）能力，在計算機視覺領(lǐng)域占領(lǐng)主導地位。

而最近Transformer架構(gòu)的興起，開始在圖像和視頻識別任務中與CNN「掰頭」。特別是視覺Transformer（ViT）。

Dosovitskiy等人的研究已經(jīng)展示了將圖像解釋為一系列類似于自然語言中的單詞的標記（token）。在ImageNet基準測試中，以較小的FLOP實現(xiàn)可比的分類精度。

現(xiàn)在盡管ViT及其變體仍然處于起步階段，但鑒于ViT在圖像識別方面表現(xiàn)出對競爭性，以及需要較少的視覺特定歸納偏差，ViT能不能擴展應用到圖像生成呢？

由谷歌和加州大學圣地亞哥分校組成的研究團隊對這個問題進行了研究，并發(fā)表了論文：ViTGAN：用視覺Transformer訓練生成對抗網(wǎng)絡（GAN）。

△ https://arxiv.org/pdf/2107.04589.pdf

論文研究的問題是：ViT是否可以在不使用卷積或池化的情況下完成圖像生成任務，即ViT是否能用具有競爭質(zhì)量的GAN訓練出基于CNN的GAN。

研究團隊將ViT架構(gòu)集成到中GAN中，發(fā)現(xiàn)現(xiàn)有的GAN正則化方法與自我注意機制的交互很差，導致訓練過程中嚴重的不穩(wěn)定。

因此，團隊引入了新的正則化技術(shù)來訓練帶有ViT的GAN，得出以下研究結(jié)果：

1. ViTGAN模型遠優(yōu)于基于Transformer的GAN模型，在不使用卷積或池化的情況下，性能與基于CNN的GAN（如Style-GAN2）相當。

2. ViTGAN模型是首個在GAN中利用視覺Transformer的模型之一。

3. ViTGAN模型展示了在標準圖像生成基準（包括CIFAR、CelebA和LSUN bedroom數(shù)據(jù)集）中，這種Transformer與最先進的卷積架構(gòu)具有可比性的方法。

實驗方法

上圖說明了ViTGAN的架構(gòu)，包括一個ViT鑒別器和一個基于ViT的生成器。

實驗發(fā)現(xiàn)，直接使用ViT作為鑒別器會使訓練變得不穩(wěn)定。作者對生成器和鑒別器都引入了新的技術(shù)，用來穩(wěn)定訓練動態(tài)并促進收斂。(1)ViT鑒別器的正則化；(2)生成器的新架構(gòu)。

由于現(xiàn)有的 GAN 正則化方法與 self-attention 的交互很差，在訓練過程中導致嚴重的不穩(wěn)定。

為了解決這個問題，作者引入了新穎的「正則化」技術(shù)來訓練帶有 ViT 的 GAN數(shù)據(jù)集上實現(xiàn)了與最先進的基于CNN 的 StyleGAN2 相當?shù)男阅堋?/span>

利普希茨連續(xù)（Lipschitz continuity）在GAN鑒別器中很重要，首先它作為WGAN中近似Wasserstein距離的一個條件而引入注意力，后來在其他GAN設(shè)置中被證實超出了 Wasserstein損失。特別是，證明了Lipschitz鑒別器保證了最優(yōu)鑒別函數(shù)的存在以及唯一納什均衡的存在。

然而，最近的一項工作表明，標準dot product self-attention（即Equation 5）層的Lipschitz常數(shù)可以是無界的，使Lipschitz連續(xù)在ViTs中被違反。

如Equation 7所示，實驗用歐氏距離代替點積相似度，query 和 key的投影矩陣的權(quán)重也是一樣的。