CVPR 2022 | 基于GAN生成 藝術(shù)文字logo及布局
來源 | 機(jī)器之心
下圖的每對(duì) logo 中,一個(gè)是設(shè)計(jì)師設(shè)計(jì)的 logo,另一個(gè)是 AI 模型生成的,順序不確定,你能分辨出哪些是 AI 模型生成的嗎?(答案在文末揭曉)


論文: https://arxiv.org/abs/2204.02701
數(shù)據(jù)集和代碼: https://github.com/yizhiwang96/TextLogoLayout
一、數(shù)據(jù)集


二、模型設(shè)計(jì)

首先利用輸入元素的雙模態(tài)的特征(即字形視覺特征和文本語(yǔ)義特征),將其編碼成條件特征。
坐標(biāo)生成器采用條件特征和一個(gè)隨機(jī)噪聲作為輸入, 為每個(gè)字符預(yù)測(cè)位置坐標(biāo),即字形外接框的中心點(diǎn)坐標(biāo),寬和高。
每個(gè)字符的位置坐標(biāo)形成一條軌跡序列,故采用一個(gè)序列判別器去根據(jù)條件對(duì)序列和做真假判別。注意到本任務(wù)中坐標(biāo)值是連續(xù)的,保證了序列判別器可以傳播梯度。
通過可微分拼接, 合并每個(gè)字形得到的 logo 圖像。
引入圖像判別器,作為序列判別器的補(bǔ)充,目的是進(jìn)一步捕捉到標(biāo)志圖像的細(xì)節(jié)信息,保證不同的字形之間不會(huì)有較大的重疊,字形間距合理等。

是序列判別器損失,
是圖像判別器損失,
是顯式的字形重疊損失(詳情見論文)。E 代表?xiàng)l件編碼器,G 代表坐標(biāo)生成器,
和
分別代碼表序列判別器和圖像判別器。其中,可微分拼接和雙判別器的具體技術(shù)細(xì)節(jié)在后續(xù)小節(jié)進(jìn)一步介紹。

三、實(shí)驗(yàn)






四、結(jié)論
評(píng)論
圖片
表情
