文字識別經(jīng)驗
共 515字,需瀏覽 2分鐘
·
2022-02-09 17:36
整個文字識別的算法流程可以分成四部分:預(yù)處理、文本行檢測、文字識別、后處理。預(yù)處理包括圖像方向校正(例如圖像偏轉(zhuǎn)90度,倒置)、文本行校正、圖像質(zhì)量增強(例如去除屏拍摩爾紋等)。預(yù)處理是為了處理特殊情況、提高檢測和識別的精度。文本行檢測目前以EAST和PSENET比較常見,目前來看,psenet精度更高,適用的場景豐富,對于文本行比較密集的場景和彎曲文本性能更優(yōu),但是psenet速度低于EAST,尤其是文本行越多,后處理占用時間較長。對于單字符情況,psenet的文本框的置信度較低,在較高置信度閾值時,容易導(dǎo)致最終檢測不到,而較小的閾值容易引入噪聲,所以需要根據(jù)具體場景設(shè)置一個合理的閾值。對于文本行識別,CRNN、attention ocr、bert等算法占據(jù)主流。后處理部分包括文字糾正、結(jié)構(gòu)化輸出等內(nèi)容。
算法通用性:以檢測算法為例,單一場景的數(shù)據(jù)訓(xùn)練往往只能在某一些場景中達到比較好的效果,當(dāng)需要擴展新業(yè)務(wù)時,需要重新訓(xùn)練,費時費力。采用十幾個場景的數(shù)據(jù)集訓(xùn)練檢測算法則可以解決該問題,提升算法的通用性。
(后續(xù)更新...)
算法優(yōu)化\ 算法工程化經(jīng)驗
評論
圖片
表情
