<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          CVPR 2022|極具創(chuàng)意&美感的文字生成方法!支持任意輸入

          共 4292字,需瀏覽 9分鐘

           ·

          2022-06-28 18:52

          來源:CSIG文檔圖像分析與識(shí)別專委會(huì)

          本文簡要介紹CVPR 2022錄用的論文“Aesthetic Text Logo Synthesis via Content-aware Layout Inferring” 。該論文旨在探究文字標(biāo)識(shí)圖像設(shè)計(jì)過程 中的布局自動(dòng)生成問題。該論文基于條件式對(duì)抗生成網(wǎng)絡(luò)(conditional-GAN),提出雙判別器結(jié)構(gòu)和可微分拼接模塊,根據(jù)輸入文字的視覺和語義信息,推理得到每個(gè)字形的布局幾何參數(shù),從而合成文字標(biāo)識(shí)圖像。該方法可以輔助平面設(shè)計(jì)和其他與文字相關(guān)的視覺任務(wù)。該工作相關(guān)數(shù)據(jù)集和代碼已經(jīng)開源(見文末)。

          一、研究背景



          文字標(biāo)志(Text Logo)的設(shè)計(jì)非常依賴于設(shè)計(jì)師的創(chuàng)意和經(jīng)驗(yàn),其中,如何安排每個(gè)文字元素的布局是一個(gè)核心問題。布局設(shè)計(jì)需要考慮到很多因素,如字形、文字語義、主題等。如圖1所示,不同的文字之間通常不能有形狀重疊;中文標(biāo)識(shí)中換行或換列通常在詞元(Token)之后;對(duì)于要強(qiáng)調(diào)語義的文字,通常使用較大的尺寸;斜切和旋轉(zhuǎn)等幾何變換可以分別體現(xiàn)力量感和歡樂感等主題。業(yè)內(nèi)現(xiàn)有的方案大多是設(shè)計(jì)一套易于執(zhí)行的規(guī)則,按照一些預(yù)先設(shè)定好的模板來設(shè)計(jì)布局,但是生成的結(jié)果往往會(huì)比較單調(diào)且缺乏創(chuàng)意和美感。針對(duì)這個(gè)問題,本論文提出了一種內(nèi)容感知的文字標(biāo)志圖像生成模型,從大量現(xiàn)有的文字Logo中隱式地學(xué)習(xí)布局設(shè)計(jì)規(guī)則,從而能夠?qū)θ我廨斎氲淖中紊尚碌腖ogo。

          圖1 文字標(biāo)識(shí)圖像中常見的布局類型

          二、數(shù)據(jù)集



          訓(xùn)練AI模型通常需要大量的數(shù)據(jù),然而業(yè)內(nèi)尚不存在針對(duì)該任務(wù)的數(shù)據(jù)集。為了解決該問題,本文提出了TextLogo3K數(shù)據(jù)集,借助騰訊視頻平臺(tái),收集、標(biāo)注了3,470張精心挑選的文字Logo圖,這些Logo來源于電影、電視劇和動(dòng)漫的封面圖。如圖2和圖3所示,該數(shù)據(jù)集對(duì)字形進(jìn)行了像素級(jí)別的精準(zhǔn)標(biāo)注,也標(biāo)注了字形包圍框、字符類別。

          圖2 TextLogo3K中Logo圖像的標(biāo)注

          同時(shí),它們在原海報(bào)圖片中的位置和分割信息也一并提供:

          圖3 TextLogo3K中海報(bào)圖像的標(biāo)注

          該數(shù)據(jù)集免費(fèi)提供給用戶做學(xué)術(shù)研究使用(禁止任何商業(yè)用途)。除了文字Logo生成,該數(shù)據(jù)集同樣可以應(yīng)用于文本檢測和識(shí)別、藝術(shù)字體生成、紋理特效遷移、場景文字編輯等任務(wù)。

          三、模型設(shè)計(jì)



          3.1 流程框圖

          本模型的流程框圖如下圖所示:

          圖4 本文模型流程框圖

          本模型基于Conditional GAN來生成文字Logo,創(chuàng)新性地使用雙判別器結(jié)構(gòu)(序列判別器和圖像判別器),對(duì)字形的軌跡序列和整體Logo圖像分別做判別;同時(shí)借助可微分拼接(Differentiable Composition),構(gòu)建位置坐標(biāo)到Logo圖像的可微分渲染過程。其主要的流程包括:

          • 首先利用輸入元素的雙模態(tài)的特征(即字形視覺特征和文本語義特征),將其編碼成條件特征。

          • 坐標(biāo)生成器采用條件特征和一個(gè)隨機(jī)噪聲作為輸入, 為每個(gè)字符預(yù)測位置坐標(biāo),即字形外接框的中心點(diǎn)坐標(biāo),寬和高。

          • 每個(gè)字符的位置坐標(biāo)形成一條軌跡序列,故采用一個(gè)序列判別器去根據(jù)條件對(duì)序列和做真假判別。注意到本任務(wù)中坐標(biāo)值是連續(xù)的,保證了序列判別器可以傳播梯度。

          • 通過可微分拼接,合并每個(gè)字形得到的Logo圖像。

          • 引入圖像判別器,作為序列判別器的補(bǔ)充,目的是進(jìn)一步捕捉到標(biāo)志圖像的細(xì)節(jié)信息,保證不同的字形之間不會(huì)有較大的重疊,字形間距合理等。

          網(wǎng)絡(luò)的整體優(yōu)化目標(biāo)函數(shù)如下:

          其中,是序列判別器損失,是圖像判別器損失,是顯式的字形重疊損失(詳情見論文)。E代表?xiàng)l件編碼器,G代表坐標(biāo)生成器,分別代碼表序列判別器和圖像判別器。其中,可微分拼接和雙判別器的具體技術(shù)細(xì)節(jié)在后續(xù)小節(jié)進(jìn)一步介紹。

          3.2 可微分拼接

          在獲得預(yù)測的幾何參數(shù)之后,需要進(jìn)一步將每個(gè)字形圖像按照這些幾何參數(shù)拼接成一個(gè)文字Logo。更重要的是,這個(gè)拼接過程必須是可微分的,以讓整個(gè)模型可以端到端地被優(yōu)化。為了達(dá)成這個(gè)目的,本文設(shè)計(jì)了一個(gè)基于STN(Spatial Transform Networks)變種的可微分拼接方法。在原始的STN中,仿射變換參數(shù)是使用神經(jīng)網(wǎng)絡(luò)直接直接預(yù)測。本文方法先預(yù)測得到了目標(biāo)字形位置坐標(biāo),于是先建立原坐標(biāo)到目標(biāo)坐標(biāo)的映射關(guān)系(下圖左),手動(dòng)解出仿射變換的參數(shù)(下圖右)。通過這種方式,既可以保證目標(biāo)字形的位置坐標(biāo)在畫布的范圍之內(nèi),又可以利用STN的可微分采樣算法。

          圖5 顯式求解仿射變換參數(shù)

          通常來說,在文字Logo中不同字形之間不會(huì)有重疊(有一些故意的設(shè)計(jì)除外),因此不需要考慮每個(gè)字形之間的圖層關(guān)系。如圖6所示,將每個(gè)字形變換的圖像直接進(jìn)行加法操作,即可得到Logo圖像,結(jié)合上述步驟,可微分拼接的整體過程都是可微分的。

          圖6 根據(jù)求解參數(shù)合成Logo圖像

          3.3 雙判別器結(jié)構(gòu)

          字符的放置軌跡應(yīng)該既符合人們的閱讀習(xí)慣,又呈現(xiàn)出多樣的風(fēng)格。然而,這兩個(gè)特性不容易被圖像生成模型中常用的卷積神經(jīng)網(wǎng)絡(luò)(CNNs)所捕獲到。為了解決這個(gè)問題,本文設(shè)計(jì)了一個(gè)雙判別器的模塊,包括一個(gè)序列判別器和一個(gè)圖像判別器。序列判別器以條件特征作為初始狀態(tài),將幾何參數(shù)的序列作為輸入,去分析這個(gè)放置軌跡的合理性。

          序列判別器并不能夠捕捉到細(xì)粒度的信息(如筆畫等),因?yàn)樗鼉H僅接收幾何參數(shù)作為輸入。于是,本模型引入圖像判別器去進(jìn)一步探究Logo圖像(人工設(shè)計(jì)的或者本模型生成的)的合理性,并預(yù)測它們的真假。根據(jù)業(yè)內(nèi)的常見做法,將條件特征進(jìn)行堆疊再放置到的第一個(gè)卷積層之后,用作判別條件。

          四、實(shí)驗(yàn)



          4.1 布局生成結(jié)果展示

          如圖7和圖8所示,本模型可以生成英文Logo圖,也可以生成中文Logo。

          圖7 本模型在英文數(shù)據(jù)集上結(jié)果

          圖8 本模型在中文數(shù)據(jù)集上結(jié)果

          其中,“Ours”所在列表示本模型生成結(jié)果,“GT”表示設(shè)計(jì)師設(shè)計(jì)的結(jié)果。本模型生成的布局具有豐富的多樣性:在英文結(jié)果里:(1)使用多行風(fēng)格的布局,如“Welcome TO OUR HOMe”;(2)使用尺度變換起強(qiáng)調(diào)作用,如“POSTER HOUSE CAKE 8”中的數(shù)字“8”;(3)比較和諧的平移效果,如“Be Kind”。在中文結(jié)果里:(1)根據(jù)具體字形安排布局,如“B+偵探”中,將“+”號(hào)巧妙地安排到“B”右下角和“偵”左下角之間;(2)根據(jù)語義進(jìn)行換行,如“神探包青天”和“春風(fēng)十里不如你”。

          4.2 與其他方法對(duì)比

          本文與2D圖形布局生成工作LayoutGAN[1]和LayoutNet[2]進(jìn)行了對(duì)比,這兩種方法沒有考慮到空間布局上的序列信息,以及輸入元素的自身本文語義信息,所以不能很好地處理該任務(wù)。如圖9所示,本模型生成了更好的結(jié)果。

          圖9 與現(xiàn)有方法對(duì)比

          4.3 布局風(fēng)格分析

          通過主成分分析方法(PCA),對(duì)隱空間噪聲z進(jìn)行了可視化實(shí)驗(yàn),結(jié)果展示在圖10中。結(jié)果發(fā)現(xiàn),(1)垂直的布局(B2, C2, H2, E3)傾向于落在平面的左邊;(2)水平的布局(A1-E1, H1, G2)傾向于落在平面的中間和上方;(3)多行的布局(A2, D2, E2, F2)傾向于落在平面的右下方;(4)不規(guī)則的布局(F1,G1)傾向落在平面的邊緣。隱空間噪聲z和輸入文本的長度變量是正交的。該可視化方法可以引導(dǎo)設(shè)計(jì)師探索布局風(fēng)格的隱空間,幫助他們挑選喜歡的風(fēng)格。

          圖10 隱空間噪聲z的可視化結(jié)果

          4.4 主觀評(píng)價(jià)

          本文開展了一項(xiàng)用戶調(diào)查,用于收集用戶對(duì)于本模型生成結(jié)果的主觀評(píng)價(jià),用戶群體包括27個(gè)專業(yè)設(shè)計(jì)師和52個(gè)其他職業(yè)者。使用了20對(duì)測試圖片(模型生成和人工設(shè)計(jì)的),讓用戶(1)選擇哪個(gè)是AI生成的:下表中的“準(zhǔn)確率”表示用戶挑出本模型結(jié)果的概率,越低越好;(2)選擇自己更傾向于哪個(gè):下表中的“選擇率”表示用戶選擇本模型結(jié)果的概率,越高越好;(3)給AI生成的質(zhì)量打分(1-5):體現(xiàn)為下表中的“生成質(zhì)量”,越高越好。從結(jié)果可以看出本模型取得了不錯(cuò)的效果,平均準(zhǔn)確率接近50%,平均選擇率40%。我們也觀察到設(shè)計(jì)師群體更容易鑒別出AI結(jié)果,對(duì)質(zhì)量要求也更苛刻,說明本工作還有進(jìn)一步提升的空間。

          表1 主觀調(diào)查結(jié)果

          4.5 Logo圖生成系統(tǒng)

          受字體生成模型和紋理遷移模型的啟發(fā),本文也建立了一個(gè)全自動(dòng)的文字Logo圖生成系統(tǒng)。該系統(tǒng)首先根據(jù)用戶輸入的文本和主題生成對(duì)應(yīng)的字體,接著,將合成的字形圖像和文本送到本文提出的布局生成網(wǎng)絡(luò)中,得到字形擺放的布局,最后使用紋理遷移模型得到修飾后的Logo圖像。圖11展示了一些合成的樣例,證明了本系統(tǒng)的有效性。

          圖11 Logo圖像生成系統(tǒng)

          五、結(jié)論



          本文提出了一種用于合成文字Logo圖的布局生成模型。該模型創(chuàng)新性地提出了一個(gè)雙判別器的模塊,用于同時(shí)評(píng)估字符的放置軌跡和渲染后文字Logo圖的細(xì)節(jié)信息。同時(shí),本文提出一種可微分拼接的方法,構(gòu)建了布局參數(shù)到文字Logo的可微分渲染過程。本文構(gòu)建了一個(gè)大規(guī)模的數(shù)據(jù)集TextLogo3K,并實(shí)施大量實(shí)驗(yàn)來驗(yàn)證模型的有效性,該數(shù)據(jù)同樣可以應(yīng)用于其他任務(wù),如文本檢測與識(shí)別、藝術(shù)字體生成、紋理特效遷移等。

          六、相關(guān)資源



          論文: https://arxiv.org/abs/2204.02701

          數(shù)據(jù)集和代碼: https://github.com/yizhiwang96/TextLogoLayout

          參考文獻(xiàn)



          [1] Li, Jianan, et al. LayoutGAN: Generating Graphic Layouts with Wireframe Discriminators.International Conference on Learning Representations. 2018.

          [2] Zheng, Xinru, et al. Content-aware generative modeling of graphic design layouts.ACM Transactions on Graphics (TOG). 2019.



          原文作者:Yizhi Wang, Guo Pu, Wenhan Luo, Yexin Wang, Pengfei Xiong, Hongwen Kang, Zhouhui Lian


          撰稿:王逸之

          編排:高 學(xué)
          審校:連宙輝
          發(fā)布:金連文

           


          免責(zé)聲明:1)本文僅代表撰稿者觀點(diǎn),撰稿者不一定是原文作者,其個(gè)人理解及總結(jié)不一定準(zhǔn)確及全面,論文完整思想及論點(diǎn)應(yīng)以原論文為準(zhǔn)。(2)本文觀點(diǎn)不代表本公眾號(hào)立場。



          瀏覽 96
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩激情视频一区二区三区 | 国广富姐搭讪坐顺风车 | 97综合 | 大香蕉一级av | 人人爱人人做人人草 |