文本生成圖像的新SOTA:Google的XMC-GAN
點擊上方“機器學習與生成對抗網(wǎng)絡”,關注星標
獲取有趣、好玩的前沿干貨!
來源:新智元
【導讀】從圖像到生成文本、從文本生成圖像,多模態(tài)模型的探索一直未停止。最近Google又出從文本到圖像的新模型,75%的人類都說超過了傳統(tǒng)的SOTA模型,直呼腦子里有畫面了!
文本到圖像的自動合成(automatic text-to-image synthesis)是一個具有挑戰(zhàn)性的研究課題,也逐漸引起了學界的重視,模型的訓練輸入只有文本,輸出為一個圖像。
這項研究能夠讓研究人員了解機器學習(ML)模型如何獲得視覺屬性,并將它們與文本聯(lián)系起來。
與素描圖、物體遮罩或矢量圖等其他類型的圖像創(chuàng)建的輸入相比,描述性的句子是一種更直觀和靈活的視覺概念表達方式。
“別說了,有畫面了”就是這個意思。

因此,一個強大的自動文本到圖像生成系統(tǒng)也可以成為快速創(chuàng)建內(nèi)容的有用工具,并且可以應用于許多其他創(chuàng)造性應用,類似于將機器學習融入藝術創(chuàng)作。
一個典型的例子是Magenta,由谷歌大腦創(chuàng)造的,旨在推進 AI 在藝術領域的發(fā)展,可以進行包括 AI 音樂、繪畫、笑話生成在內(nèi)的多個項目。計算機能否具有創(chuàng)造力,這個問題也許還沒有答案,但 AI 能創(chuàng)作出富有趣味的音樂和畫作,則已經(jīng)被Magenta帶進了現(xiàn)實。
最先進的圖像合成結果通常使用生成對抗性網(wǎng)絡(GANs)來實現(xiàn),該網(wǎng)絡訓練兩個模型: 一個是試圖創(chuàng)造真實圖像的生成器,另一個是試圖判斷圖像是真實還是虛構的鑒別器。
許多文本到圖像的生成模型都是有限制條件的,例如類別標簽等,它使用文本輸入來生成語義相關的圖像。
這個任務是非常具有挑戰(zhàn)性的,特別是在提供長而模糊的描述時。
此外,GAN 的訓練還很容易出現(xiàn)模式崩潰,也是訓練過程中常見的失敗案例,在這種情況下,生成器學習只產(chǎn)生有限的一組輸出,因此鑒別器無法學習識別偽造圖像的穩(wěn)健策略。為了減少模式崩潰,一些方法使用多階段細化網(wǎng)絡迭代細化圖像。
然而,這種系統(tǒng)需要多階段的培訓,并且效率遠低于簡單的單階段端到端模型。其他的工作則依賴于分層的方法,即在最終合成一個真實的圖像之前,首先對模型對象進行布局。這需要使用帶標簽的分段數(shù)據(jù),這可能很難獲得。
基于這個問題,Google在CVPR 2021上發(fā)表了一篇論文《跨模態(tài)對比學習: 文本到圖像的生成》,提出了一個跨模態(tài)對比生成語法網(wǎng)絡(XMC-GAN) ,該網(wǎng)絡通過學習使圖像和文本之間的互信息最大化,利用圖像-文本和圖像-圖像之間的對比丟失來實現(xiàn)文本到圖像的生成。

這種方法有助于判比器學習更健壯和鑒別特征,因此即使是一階段的訓練, XMC-GAN 也更不容易模式崩潰。
重要的是,與以前的多級或分級方法相比,XMC-GAN 通過簡單的一階段生成就實現(xiàn)了sota性能。它是端到端可訓練的,只需要圖像-文本對(相對于標記分割或邊界框數(shù)據(jù))即可訓練。
文本到圖像合成的對比損失文本到圖像合成系統(tǒng)的目標是生成清晰的、具有高語義逼真度的、符合條件的文本描述的真實場景。為了實現(xiàn)這一目標,Google提出最大化相應對之間的互信息: (1)圖像(真實的或生成的)與描述場景的句子; (2)生成的圖像和具有相同描述的真實圖像; (3)圖像的區(qū)域(真實的或生成的)和與之相關的單詞或短語。
在 XMC-GAN通過對比損失來增強效果。與其他 GANs 類似,XMC-GAN 包含了一個合成圖像的生成器,以及一個判別器,它被訓練成為真實圖像和生成圖像之間的判別器。
三組數(shù)據(jù)共同構成系統(tǒng)的對比損失,即真實圖像、描述圖像的文本以及由文本描述生成的圖像。生成器和鑒別器的單個損失函數(shù)是從整個圖像計算的損失與全文描述的損失的組合,再加上從帶有相關單詞或短語的細分圖像計算的損失。
對于每一批訓練數(shù)據(jù),計算每一個文本描述和真實圖像之間的余弦距離得分,同樣,每一個文本描述和生成的圖像之間的得分,目標是使匹配對(文本到圖像和真實圖像到生成的圖像)具有較高的相似性得分,而非匹配對的相似性得分較低。執(zhí)行這樣的對比損失可以使鑒別器學習更健壯和鑒別特征。

XMC-GAN 成功應用于三個具有挑戰(zhàn)性的數(shù)據(jù)集,一個是 MS-COCO 圖像的描述集,另外兩個是帶有局部敘事注釋的數(shù)據(jù)集,其中一個包括 MS-COCO 圖像(也稱為 LN-COCO) ,另一個描述開放圖像數(shù)據(jù)(LN-OpenImages)。
結果發(fā)現(xiàn),XMC-GAN 實現(xiàn)了一個新的國家的藝術在每一個。由 XMC-GAN 生成的圖像所描繪的場景質(zhì)量高于使用其他技術生成的圖像。在 MS-COCO 上,XMC-GAN 將最先進的 Fréchet 起始距離(FID)評分從24.7提高到9.3,并且明顯受到人類評估者的青睞。

同樣,其他三個sota模型相比(CP-GAN,SD-GAN,和 OP-GAN),77.3%的人類評分員更喜歡 XMC-GAN 生成的圖像質(zhì)量,和74.1% 的認為模型圖像文本對齊更好。

XMC-GAN 也很好地概括了具有挑戰(zhàn)性的本地化敘事數(shù)據(jù)集,其中包含更長和更詳細的描述。我們之前的工作 TReCS 解決了文本到圖像生成的本地化敘事使用鼠標跟蹤輸入,以改善圖像生成質(zhì)量。盡管沒有收到鼠標跟蹤注釋,但 XMC-GAN 能夠在 LN-COCO 上顯著優(yōu)于 TReCS 的圖像生成,將最先進的 FID 從48.7提高到14.1。將鼠標軌跡和其他額外輸入納入端到端模型,如 XMC-GAN,將是今后工作中值得研究的。
此外,我們還在 LN-OpenImages 上進行培訓和評估,這比 MS-COCO 更具挑戰(zhàn)性,因為數(shù)據(jù)集更大,圖像覆蓋的主題范圍更廣,也更復雜(平均8.4個對象)。據(jù)我們所知,XMC-GAN 是第一個在開放圖像上訓練和評估的文本到圖像合成模型。XMC-GAN 能夠產(chǎn)生高質(zhì)量的結果,并在這個非常具有挑戰(zhàn)性的任務上設置了一個強大的基準 FID 分數(shù)26.9。

在這項工作中,Google提出了一個跨模態(tài)對比學習框架,用于文本到圖像合成的 GAN 模型的訓練,并研究了幾種加強圖像和文本對應的跨模態(tài)對比損失。
對于人類評估和定量指標,XMC-GAN 建立了一個顯著改進以前的模型對多個數(shù)據(jù)集。它生成高質(zhì)量的圖像,很好地匹配他們的輸入描述,包括長的、詳細的敘述,這樣做的同時,還能夠保持一個簡單的端到端模型。
研究人員相信這代表了從自然語言描述生成圖像的創(chuàng)造性應用的一個重大進步。隨著這項研究的繼續(xù),根據(jù)人類社會的人工智能原則,還應該不斷評估方法、潛在的應用和風險緩解方案。
參考資料:
https://ai.googleblog.com/2021/05/cross-modal-contrastive-learning-for.html
猜您喜歡:
附下載 |《TensorFlow 2.0 深度學習算法實戰(zhàn)》
《基于深度神經(jīng)網(wǎng)絡的少樣本學習綜述》
