mileistone
0獲贊0關(guān)注0粉絲
場(chǎng)景文字識(shí)別模型梳理
STR pipeline
場(chǎng)景文字識(shí)別(scene text recognition),簡(jiǎn)稱(chēng)為STR。最近對(duì)STR做了一下調(diào)研,相關(guān)論文可以記錄在scene text recognition papers中。當(dāng)前流行的各種方法經(jīng)過(guò)抽象和模塊化,可以得到文章開(kāi)頭的pipeline圖和文章末尾的framework。
具體而言,STR可以分為三個(gè)模塊Image Rectifier、Image To Feature Sequence、Seq2seq。
IMAGE RECTIFIER
這個(gè)模塊隱式地學(xué)習(xí)如何把文字圖像進(jìn)行矯正,使得模型對(duì)于彎曲和視角具備一定的魯棒性。該模塊輸入和輸出均為圖像。該模塊是可選項(xiàng),可要可不要。
IMAG
mileistone
0
新視角:用圖像分類(lèi)來(lái)建模文字識(shí)別也可以SOTA
我們最近做了一個(gè)文字識(shí)別的工作:CSTR: A Classification Perspective on Scene Text Recognition,簡(jiǎn)單介紹如下。
當(dāng)前文字識(shí)別有兩種建模視角:seq2seq-based和segmentation-based。
seq2seq-based的方法首先將圖片encode為特征序列(比如CNN、RNN、Transformer encoder或者它們的組合),然后對(duì)特征序列進(jìn)行decode(比如CTC、RNN、attention based RNN、Transformer decoder等)。
segmentation-based的方法首先定位出字符的位置,然后識(shí)別出各個(gè)位置的字符
mileistone
0
