新視角:用圖像分類來建模文字識別也可以SOTA!

極市導(dǎo)讀
?本文介紹了一個文字識別的新工作:CSTR,通過文字識別任務(wù)建模為圖像分類,且不需要字符級別的標(biāo)注。該模型像其他圖像分類模型一樣容易實現(xiàn),因為是純卷積所以訓(xùn)練、推理非常高效。?>>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿
我們最近做了一個文字識別的工作:CSTR: A Classification Perspective on Scene Text Recognition(https://arxiv.org/abs/2102.10884),簡單介紹如下。
當(dāng)前文字識別有兩種建模視角:seq2seq-based和segmentation-based。
seq2seq-based的方法首先將圖片encode為特征序列(比如CNN、RNN、Transformer encoder或者它們的組合),然后對特征序列進行decode(比如CTC、RNN、attention based RNN、Transformer decoder等)。
segmentation-based的方法首先定位出字符的位置,然后識別出各個位置的字符,最后將字符組合成字符串。
過去達到SOTA的文字識別方法大部分是seq2seq-based,但是seq2seq-based的方法pipeline復(fù)雜(大部分還需要STN模塊來對圖像進行矯正)。
segmentation-based的方法簡潔很多,但是需要字符級別的標(biāo)注,字符級別的標(biāo)注成本高昂,在實際生產(chǎn)環(huán)境中不太可能使用這樣精細(xì)的標(biāo)注方式。
我們提出了一種圖像分類的建模視角:classification-based。即將文字識別任務(wù)建模為圖像分類,整體pipeline比segmentation-based的方法更簡單,而且不需要字符級別的標(biāo)注。classification-based的模型像其他圖像分類模型一樣容易實現(xiàn),因為是純卷積所以訓(xùn)練、推理非常高效。

我們的classification-based模型即CSTR,在六個常用的公開數(shù)據(jù)集上的效果如下表所示。我們的模型沒有STN模塊,僅僅只有一個圖像分類器,訓(xùn)練數(shù)據(jù)集為常用的兩個合成的數(shù)據(jù)集SynthText (ST)和MJSynth (MJ),僅使用單詞級別的標(biāo)注,測試的時候沒用任何TTA,整體效果基本達到SOTA。

CSTR與業(yè)界經(jīng)典模型指標(biāo)比較
代碼將在我們的文字識別工具箱vedastr(https://github.com/Media-Smart/vedastr)中開源。
CSTR: A Classification Perspective on Scene Text Recognitionarxiv.org
https://arxiv.org/abs/2102.10884
Media-Smart/vedastr
https://github.com/Media-Smart/vedastr
推薦閱讀
2021-02-12
2021-02-15
2021-02-16

# CV技術(shù)社群邀請函?#
備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)
即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

