<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          [ACM MM 2020] EFIFSTR: 基于字體風(fēng)格無關(guān)特征學(xué)習(xí)的場景文本識別(有源碼)

          共 3381字,需瀏覽 7分鐘

           ·

          2020-12-27 23:11

          點(diǎn)擊上方AI算法與圖像處理”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時間送達(dá)

          本文簡要介紹ACM Multimedia 2020錄用論文:“Exploring Font-independent Features for Scene Text Recognition”的主要工作。該工作旨在對場景文字圖片提取字體風(fēng)格無關(guān)特征,從而增強(qiáng)文本識別模型對文字風(fēng)格的魯棒性。

          一、研究背景


          如圖1(a) 所示,現(xiàn)有的場景文字識別模型對于字體風(fēng)格的魯棒性不佳,面對不同字體風(fēng)格的同種類別文字,常常會產(chǎn)生不一致的預(yù)測。本文嘗試通過學(xué)習(xí)風(fēng)格無關(guān)特征,來解決這個問題。具體來說,對于CNN提取的文字圖像特征,我們結(jié)合字體風(fēng)格嵌入向量(Font Embedding)和空間注意力機(jī)制,來重建同種類別、其他多種風(fēng)格的標(biāo)準(zhǔn)形態(tài)文字,使得CNN學(xué)習(xí)的特征盡可能地只與本身字符類別有關(guān),與其本身的風(fēng)格盡可能解耦。同時,我們提出一個新的數(shù)據(jù)集NFSTNovel Font Scene Text),如圖1(b)所示,來驗證模型的有效性以及幫助大家更好地測試模型的魯棒性。?

          圖1 (a)?研究背景 (b) NFST數(shù)據(jù)集

          二、原理簡述


          2 模型框架
          EFIFSTR的主要模型結(jié)構(gòu)如圖2所示,其主要分為如下幾個模塊:
          2.1?CNN 特征提取網(wǎng)絡(luò)(CNN Feature Extractor
          使用基于ResNetCNN網(wǎng)絡(luò)對輸入圖片提取特征。網(wǎng)絡(luò)結(jié)構(gòu)基于ASTER[1],但的高度不會被下采樣到維度是1,目的是為了保留更多的空間信息。
          2.2??序列編碼器和解碼器Sequence EncoderDecoder)和注意力模塊(Attention Module
          該模塊的結(jié)構(gòu)有較多選擇,如RNN+1AttentionRNN+2AttentionTransformer+2Attention。這里我們選擇的是SAR[2]中所述方案:在編碼的每個時刻,在寬度方向的每個特征會沿著高度方向進(jìn)行池化,然后送入到LSTM 編碼器;解碼的時刻LSTM解碼器的隱藏狀態(tài)一起送入到注意力模塊。注意力模塊用于計算注意力掩膜矩陣(Attention Mask):

          代表每個位置特征在時刻相對重要性,其計算方式如下:

          其中;然后,的每個通道的特征進(jìn)行點(diǎn)乘,得到注意力內(nèi)容向量,又稱Glimpse向量。
          2.3???字符分類
          字符分類采用Softmax分類的方法:

          2.4???標(biāo)準(zhǔn)字形生成

          3 ?字形生成網(wǎng)絡(luò)結(jié)構(gòu)
          如圖3所示,我們使用基于反卷積的字形生成網(wǎng)絡(luò)(Glyph Generator),由Glimpse向量和Font Embedding引導(dǎo),結(jié)合多層級CNN特征的跳躍式連接(Skip-connection),來生成不同風(fēng)格的目標(biāo)字形:

          其中,是第種字體的嵌入向量,。最開始,所有字體的Font Embedding隨機(jī)初始化,訓(xùn)練過程中使用梯度下降的方法,對它進(jìn)行不斷的優(yōu)化,使得Font Embedding更加符合字體的風(fēng)格特征。同時,我們也加入了一個字形辨別器(Glyph Discriminator)對生成的字形和真實的字形進(jìn)行判別,其給出字形為真的概率為:

          2.5???損失函數(shù)和優(yōu)化方式
          當(dāng)不采用對抗訓(xùn)練時,損失函數(shù)有兩部分構(gòu)成,分別是交叉熵?fù)p失和L1損失:

          其中,是每個訓(xùn)練Step時隨機(jī)采樣的目標(biāo)字體風(fēng)格的索引。
          當(dāng)采用對抗訓(xùn)練的時候,我們迭代優(yōu)化:

          其中是超參數(shù),設(shè)為0.01。采用Adam優(yōu)化器對模型進(jìn)行優(yōu)化,初始學(xué)習(xí)率設(shè)置為0.001,每4萬步衰減為原來的0.9倍。我們采用Microsoft Typography字體庫中325種字體作為實驗中的目標(biāo)字體。

          三、實驗結(jié)果


          3.1??? 學(xué)習(xí)風(fēng)格無關(guān)特征對注意力效果的改善

          4 學(xué)習(xí)風(fēng)格無關(guān)特征對注意力效果的改善?
          4為學(xué)習(xí)風(fēng)格無關(guān)特征前后的Attention Mask熱力圖對比,熱力圖下面的劃線的字母代表某個時刻模型預(yù)測的字符標(biāo)簽。以第1組圖片為例,學(xué)習(xí)風(fēng)格無關(guān)特征的模型將注意力集中在花體字“L”的下半部分,并將其正確識別為“L”;而不學(xué)習(xí)風(fēng)格無關(guān)特征的模型將注意力集中在花體字“L”的上半部分,將其錯誤識別為“R”
          3.2??? 對于字體風(fēng)格新穎文本的識別效果

          圖5 使用可訓(xùn)練的Font Embedding的識別結(jié)果和生成字形展示?
          3.3識別準(zhǔn)確率
          ??????? 我們在NFST數(shù)據(jù)上對比了我們的方法和ASTER[1]SAR[2]的準(zhǔn)確率,表1結(jié)果顯示我們的模型具有較大的優(yōu)勢。同時,我們在通用數(shù)據(jù)集上也具有一定的優(yōu)勢(見表2)。
          1 ?NFST數(shù)據(jù)集上與其他SOTA方法的對比

          2? 在通用數(shù)據(jù)集上與其他現(xiàn)有方法的對比
          3.4 ?????? 字體風(fēng)格嵌入向量(Font Embedding)的分布圖及學(xué)習(xí)過程

          6 字體風(fēng)格嵌入向量的分布圖及學(xué)習(xí)過程

          6展示了字體風(fēng)格嵌入向量的分布圖及學(xué)習(xí)過程,在訓(xùn)練結(jié)束時,我們使用PCA(主成分分析)將所有字體風(fēng)格嵌入向量降為2維坐標(biāo),并在每個點(diǎn)坐標(biāo)上貼上每個字體對應(yīng)的字符“A”圖片;右上角展示了向量值的分布隨著訓(xùn)練Step變化的過程。可以看出,向量值的分布在一定訓(xùn)練步數(shù)后趨于穩(wěn)定,最終呈現(xiàn)的分布較好得體現(xiàn)了字體風(fēng)格特征的分布,即風(fēng)格越相近的字體,其Embedding在分布圖中也越相近。?

          四、總結(jié)


          本文針對自然場景文字識別提出了一種風(fēng)格無關(guān)特征學(xué)習(xí)方法,該方法使用空間注意力機(jī)制、可訓(xùn)練的字體風(fēng)格嵌入向量,來重建不同字體風(fēng)格的標(biāo)準(zhǔn)字形,使得抽取的場景文本特征盡可能地與自身風(fēng)格無關(guān)。實驗結(jié)果證明本方法有效地提升了模型對于字體風(fēng)格的魯棒性。可改進(jìn)的方面包括:(1)結(jié)合最新的圖像生成方法,提升字形生成的效果;(2)使用基于TransformerBERT的模型,更好地對文字序列進(jìn)行建模。

          五、相關(guān)資源


          ?
          ·?????EFIFSTR論文地址:https://arxiv.org/pdf/2009.07447.pdf

          ·?????EFIFSTR開源代碼:https://github.com/Actasidiot/EFIFSTR?

          參考文獻(xiàn)


          [1] BaoguangShi, Mingkun Yang, Xinggang Wang, Pengyuan Lyu, Cong Yao, and Xiang Bai. 2018.ASTER: An Attentional Scene Text Recognizer with Flexible Rectification. IEEE TPAMI (2018), 1–1.

          [2]?Hui Li, Peng Wang, Chunhua Shen, andGuyu Zhang. 2019. Show, attend and read: A simple and strong baseline for irregular text recognition. In AAAI, Vol. 33. 8610–8617.?

          ?

          原文作者Yizhi Wang,??Zhouhui Lian?
          撰稿:唐國志
          編排:高?學(xué)

          審校:殷 飛

          發(fā)布:金連文



          免責(zé)聲明:1)本文僅代表撰稿者觀點(diǎn),撰稿者不一定是原文作者,其個人理解及總結(jié)不一定準(zhǔn)確及全面,論文完整思想及論點(diǎn)應(yīng)以原論文為準(zhǔn)。(2)本文觀點(diǎn)不代表本公眾號立場。?


          下載1:何愷明頂會分享


          AI算法與圖像處理」公眾號后臺回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


          下載2:leetcode?開源


          AI算法與圖像處理」公眾號后臺回復(fù):leetcode,即可下載。每題都 runtime beats 100% 的開源好書,你值得擁有!



          下載3 CVPR2020

          AI算法與圖像處公眾號后臺回復(fù):CVPR2020即可下載1467篇CVPR?2020論文
          個人微信(如果沒有備注不拉群!
          請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱


          覺得不錯就點(diǎn)亮在看吧


          瀏覽 39
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  A级成人网站 | 天天插网站 | 欧美在线日韩在线 | 给我下载一个三级片黄色录像毛片 | 免费看的黄色 |