OCR光學(xué)字符識別方法匯總
作者丨吳建明wujianming@知乎
編輯丨計算機(jī)視覺與機(jī)器學(xué)習(xí)
鏈接丨h(huán)ttps://zhuanlan.zhihu.com/p/121074333
工業(yè)場景的圖像文字識別更加復(fù)雜,出現(xiàn)在很多不同的場合。例如醫(yī)藥品包裝上的文字、各種鋼制部件上的文字、容器表面的噴涂文字、商店標(biāo)志上的個性文字等。在這樣的圖像中,字符部分可能出現(xiàn)在彎曲陣列、曲面異形、斜率分布、皺紋變形、不完整等各種形式中,并且與標(biāo)準(zhǔn)字符的特征大不相同,因此難以檢測和識別圖像字符。
對于文字識別,實際中一般首先需要通過文字檢測定位文字在圖像中的區(qū)域,然后提取區(qū)域的序列特征,在此基礎(chǔ)上進(jìn)行專門的字符識別。但是隨著CV發(fā)展,也出現(xiàn)很多端到端的End2End OCR。?
文字區(qū)域定位:連通區(qū)域分析、MSER .文字矯正:旋轉(zhuǎn)、仿射變換 文字分割:二值化、過濾噪聲
分類器識別:邏輯回歸、SVM、Adaboost








Robust Scene Text Recognition with Automatic Rectification. CVPR2016.

Scene Text Recognition from Two-Dimensional Perspective. AAAI2018.



定位網(wǎng)絡(luò):針對輸入圖像預(yù)測N個變換矩陣,相應(yīng)的輸出N個文本區(qū)域,最后借助雙線性差值提取相應(yīng)區(qū)域; 識別網(wǎng)絡(luò):使用N個提取的文本圖像進(jìn)行文本識別。 

卷積共享:從輸入圖象中提取特征,并將底層和高層的特征進(jìn)行融合; 文本檢測:通過轉(zhuǎn)化共享特征,輸出每像素的文本預(yù)測; ROIRotate:將有角度的文本塊,通過仿射變換轉(zhuǎn)化為正常的軸對齊的本文塊; 文本識別:使用ROIRotate轉(zhuǎn)換的區(qū)域特征來得到文本標(biāo)簽。

提供輕量的backone檢測模型psenet(8.5M),crnn_lstm_lite(9.5M) 和行文本方向分類網(wǎng)絡(luò)(1.5M) 任意方向文字檢測,識別時判斷行文本方向 crnn\crnn_lite lstm\dense識別(ocr-dense和ocr-lstm是搬運(yùn)chineseocr的) 支持豎排文本識別 ncnn 實現(xiàn) (支持lstm) mnn 實現(xiàn)





Ubuntu 18.04 Python 3.6.9 Pytorch 1.5.0.dev20200227+cpu
nihui 大佬實現(xiàn)的 crnn_lstm 推理 升級 crnn_lite_lstm_dw.pth 模型 crnn_lite_lstm_dw_v2.pth , 精度更高 提供豎排文字樣例以及字體庫(旋轉(zhuǎn) 90 度的字體)
猜您喜歡:
?戳我,查看GAN的系列專輯~!附下載 |?《可解釋的機(jī)器學(xué)習(xí)》中文版
附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實戰(zhàn)》
附下載 |《計算機(jī)視覺中的數(shù)學(xué)方法》分享
《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》
評論
圖片
表情
