免费中文字幕免日本美中文字幕日免 ,少妇大战28厘米黑人,精品免费一区二区三区四区,俺也去大香蕉,jiujiuav,国产女人AV第一,国产第八页,久久色在线播放

↑ 點擊藍(lán)字?關(guān)注極市平臺

作者丨mileistone@知乎（已授權(quán)）

來源丨h(huán)ttps://zhuanlan.zhihu.com/p/352348349?

編輯丨極市平臺

極市導(dǎo)讀

本文介紹了一個文字識別的新工作：CSTR，通過文字識別任務(wù)建模為圖像分類，且不需要字符級別的標(biāo)注。該模型像其他圖像分類模型一樣容易實現(xiàn)，因為是純卷積所以訓(xùn)練、推理非常高效。?>>加入極市CV技術(shù)交流群，走在計算機視覺的最前沿

我們最近做了一個文字識別的工作：CSTR: A Classification Perspective on Scene Text Recognition（https://arxiv.org/abs/2102.10884），簡單介紹如下。

當(dāng)前文字識別有兩種建模視角：seq2seq-based和segmentation-based。

seq2seq-based的方法首先將圖片encode為特征序列（比如CNN、RNN、Transformer encoder或者它們的組合），然后對特征序列進行decode（比如CTC、RNN、attention based RNN、Transformer decoder等）。

segmentation-based的方法首先定位出字符的位置，然后識別出各個位置的字符，最后將字符組合成字符串。

過去達到SOTA的文字識別方法大部分是seq2seq-based，但是seq2seq-based的方法pipeline復(fù)雜（大部分還需要STN模塊來對圖像進行矯正）。

segmentation-based的方法簡潔很多，但是需要字符級別的標(biāo)注，字符級別的標(biāo)注成本高昂，在實際生產(chǎn)環(huán)境中不太可能使用這樣精細(xì)的標(biāo)注方式。

我們提出了一種圖像分類的建模視角：classification-based。即將文字識別任務(wù)建模為圖像分類，整體pipeline比segmentation-based的方法更簡單，而且不需要字符級別的標(biāo)注。classification-based的模型像其他圖像分類模型一樣容易實現(xiàn)，因為是純卷積所以訓(xùn)練、推理非常高效。

我們的classification-based模型即CSTR，在六個常用的公開數(shù)據(jù)集上的效果如下表所示。我們的模型沒有STN模塊，僅僅只有一個圖像分類器，訓(xùn)練數(shù)據(jù)集為常用的兩個合成的數(shù)據(jù)集SynthText (ST)和MJSynth (MJ)，僅使用單詞級別的標(biāo)注，測試的時候沒用任何TTA，整體效果基本達到SOTA。