自回歸解碼加速64倍,谷歌提出圖像合成新模型MaskGIT

來源:機(jī)器之心 本文約2200字,建議閱讀5分鐘
一種使用雙向 transformer 解碼器的新型圖像合成模型 MaskGIT,在性能和速度上都獲得了大幅改進(jìn)。
來自谷歌研究院的研究者提出了一種使用雙向 transformer 解碼器的新型圖像合成模型 MaskGIT,在性能和速度上都獲得了大幅改進(jìn)。
生成式 transformer 在合成高保真和高分辨率圖像方面得到了快速普及。但迄今為止最好的生成式 transformer 模型仍是將圖像視為一系列 token,并按照光柵掃描順序(即逐行)解碼圖像。然而這種策略既不是最優(yōu)的,也不高效。
近日,來自谷歌研究院的研究者提出了一種使用雙向 transformer 解碼器的新型圖像合成模型 MaskGIT。在訓(xùn)練期間,MaskGIT 通過關(guān)注各個(gè)方向的 token 來學(xué)習(xí)預(yù)測隨機(jī)掩碼 token。在推理階段,模型首先同時(shí)生成圖像的所有 token,然后以上一次生成為條件迭代地細(xì)化圖像。實(shí)驗(yàn)表明,MaskGIT 在 ImageNet 數(shù)據(jù)集上顯著優(yōu)于 SOTA transformer 模型,并將自回歸解碼的速度提高了 64 倍。

論文地址:https://arxiv.org/abs/2202.04200
?tokenize 成潛在嵌入 E(x);
,以將嵌入量化為視覺 token;
。
表示將圖像輸入到 VQ 編碼器獲得的潛在 token,其中 N 是重構(gòu)后的 token 矩陣的長度,
?是對應(yīng)的二進(jìn)制掩碼。在訓(xùn)練期間,該研究采樣 token 的子集,并用一個(gè)特殊的 [MASK] token 替代它們。如果 m_i=1,就用 [MASK] 取代 token y_i;如果 m_i=0,y_i 保留。
?進(jìn)行參數(shù)化,然后按照如下步驟:
?個(gè) token 來放置掩碼,其中 N 是長度。掩碼調(diào)度顯著影響了圖像的生成質(zhì)量。
。該研究提出的迭代解碼方法,每次迭代的算法運(yùn)行步驟如下:
對掩碼過程進(jìn)行建模,該函數(shù)負(fù)責(zé)計(jì)算給定潛在 token 的掩碼比率。在推理期間,函數(shù)
用
的輸入代表解碼的進(jìn)度;在訓(xùn)練期間,該研究在 [0,1) 中隨機(jī)采樣一個(gè)比率 r 來模擬各種解碼場景。






評論
圖片
表情
