[ACM MM 2020] EFIFSTR: 基于字體風(fēng)格無關(guān)特征學(xué)習(xí)的場景文本識別(有源碼)
點(diǎn)擊上方“AI算法與圖像處理”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達(dá)

本文簡要介紹ACM Multimedia 2020錄用論文:“Exploring Font-independent Features for Scene Text Recognition”的主要工作。該工作旨在對場景文字圖片提取字體風(fēng)格無關(guān)特征,從而增強(qiáng)文本識別模型對文字風(fēng)格的魯棒性。
一、研究背景

圖1 (a)?研究背景 (b) NFST數(shù)據(jù)集
二、原理簡述

提取特征
。網(wǎng)絡(luò)結(jié)構(gòu)基于ASTER[1],但
的高度
不會被下采樣到維度是1,目的是為了保留更多的空間信息。
在寬度
方向的每個特征會沿著高度
方向進(jìn)行池化,然后送入到LSTM 編碼器;解碼的時刻
,LSTM解碼器的隱藏狀態(tài)
和
一起送入到注意力模塊。注意力模塊用于計算注意力掩膜矩陣(Attention Mask):
每個位置特征在時刻相對重要性,其計算方式如下:
;然后,
和
的每個通道的特征進(jìn)行點(diǎn)乘,得到注意力內(nèi)容向量
,又稱Glimpse向量。


是第
種字體的嵌入向量,
。最開始,所有字體的Font Embedding隨機(jī)初始化,訓(xùn)練過程中使用梯度下降的方法,對它進(jìn)行不斷的優(yōu)化,使得Font Embedding更加符合字體的風(fēng)格特征。同時,我們也加入了一個字形辨別器(Glyph Discriminator)對生成的字形和真實的字形進(jìn)行判別,其給出字形為真的概率為:

是每個訓(xùn)練Step時隨機(jī)采樣的目標(biāo)字體風(fēng)格的索引。
和
:
其中
是超參數(shù),設(shè)為0.01。采用Adam優(yōu)化器對模型進(jìn)行優(yōu)化,初始學(xué)習(xí)率設(shè)置為0.001,每4萬步衰減為原來的0.9倍。我們采用Microsoft Typography字體庫中325種字體作為實驗中的目標(biāo)字體。
三、實驗結(jié)果





圖6展示了字體風(fēng)格嵌入向量的分布圖及學(xué)習(xí)過程,在訓(xùn)練結(jié)束時,我們使用PCA(主成分分析)將所有字體風(fēng)格嵌入向量降為2維坐標(biāo),并在每個點(diǎn)坐標(biāo)上貼上每個字體對應(yīng)的字符“A”圖片;右上角展示了向量值的分布隨著訓(xùn)練Step變化的過程。可以看出,向量值的分布在一定訓(xùn)練步數(shù)后趨于穩(wěn)定,最終呈現(xiàn)的分布較好得體現(xiàn)了字體風(fēng)格特征的分布,即風(fēng)格越相近的字體,其Embedding在分布圖中也越相近。?
四、總結(jié)
本文針對自然場景文字識別提出了一種風(fēng)格無關(guān)特征學(xué)習(xí)方法,該方法使用空間注意力機(jī)制、可訓(xùn)練的字體風(fēng)格嵌入向量,來重建不同字體風(fēng)格的標(biāo)準(zhǔn)字形,使得抽取的場景文本特征盡可能地與自身風(fēng)格無關(guān)。實驗結(jié)果證明本方法有效地提升了模型對于字體風(fēng)格的魯棒性。可改進(jìn)的方面包括:(1)結(jié)合最新的圖像生成方法,提升字形生成的效果;(2)使用基于Transformer、BERT的模型,更好地對文字序列進(jìn)行建模。
五、相關(guān)資源
·?????EFIFSTR開源代碼:https://github.com/Actasidiot/EFIFSTR?
參考文獻(xiàn)
[1] BaoguangShi, Mingkun Yang, Xinggang Wang, Pengyuan Lyu, Cong Yao, and Xiang Bai. 2018.ASTER: An Attentional Scene Text Recognizer with Flexible Rectification. IEEE TPAMI (2018), 1–1.
[2]?Hui Li, Peng Wang, Chunhua Shen, andGuyu Zhang. 2019. Show, attend and read: A simple and strong baseline for irregular text recognition. In AAAI, Vol. 33. 8610–8617.?
?
審校:殷 飛
發(fā)布:金連文
免責(zé)聲明:(1)本文僅代表撰稿者觀點(diǎn),撰稿者不一定是原文作者,其個人理解及總結(jié)不一定準(zhǔn)確及全面,論文完整思想及論點(diǎn)應(yīng)以原論文為準(zhǔn)。(2)本文觀點(diǎn)不代表本公眾號立場。?
下載1:何愷明頂會分享
在「AI算法與圖像處理」公眾號后臺回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:leetcode?開源書
在「AI算法與圖像處理」公眾號后臺回復(fù):leetcode,即可下載。每題都 runtime beats 100% 的開源好書,你值得擁有!
下載3 CVPR2020 在「AI算法與圖像處理」公眾號后臺回復(fù):CVPR2020,即可下載1467篇CVPR?2020論文 個人微信(如果沒有備注不拉群!) 請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱
覺得不錯就點(diǎn)亮在看吧


