Transformer也能生成圖像
Transformer 已經(jīng)為多種自然語言任務(wù)帶來了突飛猛進(jìn)的進(jìn)步,并且最近也已經(jīng)開始向計(jì)算機(jī)視覺領(lǐng)域滲透,開始在一些之前由 CNN 主導(dǎo)的任務(wù)上暫露頭角。近日,加州大學(xué)圣迭戈分校與 Google Research 的一項(xiàng)研究提出了使用視覺 Transformer 來訓(xùn)練 GAN。為了有效應(yīng)用該方法,研究者還提出了多項(xiàng)改進(jìn)技巧,使新方法在一些指標(biāo)上可比肩前沿 CNN 模型。



自調(diào)制型層范數(shù)(SLN)。新的做法不是將噪聲向量 z 作為輸入發(fā)送給 ViT,而是使用 z 來調(diào)制層范數(shù)運(yùn)算。之所以稱這樣的操作為自調(diào)制,是因?yàn)樵撨^程無需外部信息;
用于圖塊生成的隱式神經(jīng)表征。為了學(xué)習(xí)從 patch 嵌入到 patch 像素值的連續(xù)映射,研究者使用了隱式神經(jīng)表征。當(dāng)結(jié)合傅里葉特征或正弦激活函數(shù)一起使用時(shí),隱式表征可將所生成的樣本空間約束到平滑變化的自然信號空間。研究發(fā)現(xiàn),在使用基于 ViT 的生成器訓(xùn)練 GAN 時(shí),隱式表征的作用尤其大。




? THE END
轉(zhuǎn)載請聯(lián)系原公眾號獲得授權(quán)
投稿或?qū)で髨?bào)道:[email protected]

點(diǎn)個(gè)在看 paper不斷!
評論
圖片
表情
