逼真度超越「AI設(shè)計(jì)師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型Imagen













大型預(yù)訓(xùn)練凍結(jié)文本編碼器對(duì)于文本到圖像的任務(wù)來說非常有效; 縮放預(yù)訓(xùn)練的文本編碼器大小比縮放擴(kuò)散模型大小更重要; 引入一種新的閾值擴(kuò)散采樣器,這種采樣器可以使用非常大的無分類器指導(dǎo)權(quán)重; 引入一種新的高效U-Net架構(gòu),這種架構(gòu)具有更高的計(jì)算效率、更高的內(nèi)存效率和更快的收斂速度; Imagen在COCO數(shù)據(jù)集上獲得了最先進(jìn)的FID分?jǐn)?shù)7.27,而沒有對(duì)COCO進(jìn)行任何訓(xùn)練,人類評(píng)分者發(fā)現(xiàn),Imagen樣本在圖像-文本對(duì)齊方面與COCO數(shù)據(jù)本身不相上下。

并排人類評(píng)估; 對(duì)語意合成性、基數(shù)性、空間關(guān)系、長(zhǎng)文本、生詞和具有挑戰(zhàn)性的提示幾方面提出了系統(tǒng)化的考驗(yàn); 由于圖像-文本對(duì)齊和圖像保真度的優(yōu)勢(shì),相對(duì)于其他方法,用戶強(qiáng)烈傾向于使用Imagen。





評(píng)論
圖片
表情
