<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          文字識(shí)別方法全面整理

          共 6983字,需瀏覽 14分鐘

           ·

          2022-02-22 12:35

          點(diǎn)擊上方小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)

          來自 | 知乎? ??作者 |?白裳

          鏈接 |?https://zhuanlan.zhihu.com/p/65707543

          本文僅供交流,如有侵權(quán),請(qǐng)聯(lián)系刪除。


          文字識(shí)別也是目前CV的主要研究方向之一。本文主要總結(jié)目前文字識(shí)別方向相關(guān)內(nèi)容,包括單獨(dú)文字識(shí)別以及結(jié)合文字檢測(cè)和文字識(shí)別的端到端的文字識(shí)別。希望這篇文章能夠幫助各位。
          圖0 文字檢測(cè)Detection與文字識(shí)別Recognition

          對(duì)于文字識(shí)別,實(shí)際中一般首先需要通過文字檢測(cè)定位文字在圖像中的區(qū)域,然后提取區(qū)域的序列特征,在此基礎(chǔ)上進(jìn)行專門的字符識(shí)別。但是隨著CV發(fā)展,也出現(xiàn)很多端到端的End2End OCR。


          ? ?文字檢測(cè)(Text Detection)


          文字檢測(cè)定位圖片中的文本區(qū)域,而Detection定位精度直接影響后續(xù)Recognition結(jié)果。

          圖1.1

          如圖1.1中,紅框代表“LAN”字符ground truth(GT),綠色框代表detection box。在GT與detection box有相同IoU的情況下,識(shí)別結(jié)果差異巨大。所以Detection對(duì)后續(xù)Recognition影響非常大!?

          目前已經(jīng)有很多文字檢測(cè)方法,包括:
          EAST/CTPN/SegLink/PixelLink/TextBoxes/TextBoxes++/TextSnake/MSR/...?

          其中CTPN方法的介紹如下:
          場(chǎng)景文字檢測(cè)—CTPN原理與實(shí)現(xiàn)
          https://zhuanlan.zhihu.com/p/34757009


          ???文字識(shí)別(Text Recognition)


          識(shí)別水平文本行,一般用CRNN或Seq2Seq兩種方法(歡迎移步本專欄相關(guān)文章):

          • CRNN:CNN+RNN+CTC

            一文讀懂CRNN+CTC文字識(shí)別

            https://zhuanlan.zhihu.com/p/43534801


          • CNN+Seq2Seq+Attention
            Seq2Seq+Attention原理介紹
            https://zhuanlan.zhihu.com/p/51383402

            對(duì)應(yīng)OCR代碼如下
            https://github.com/bai-shang/crnn_seq2seq_ocr_pytorch

          對(duì)于特定的彎曲文本行識(shí)別,早在CVPR2016就已經(jīng)有了相關(guān)paper:
          • Robust Scene Text Recognition with Automatic Rectification. CVPR2016.
            arxiv.org/abs/1603.03915
          圖2.1

          對(duì)于彎曲不規(guī)則文本,如果按照之前的識(shí)別方法,直接將整個(gè)文本區(qū)域圖像強(qiáng)行送入CNN+RNN,由于有大量的無效區(qū)域會(huì)導(dǎo)致識(shí)別效果很差。所以這篇文章提出一種通過STN網(wǎng)絡(luò)學(xué)習(xí)變換參數(shù),將Rectified Image對(duì)應(yīng)的特征送入后續(xù)RNN中識(shí)別。
          圖2.2

          其中Spatial Transformer Network(STN)指:
          arxiv.org/abs/1506.02025

          核心就是將傳統(tǒng)二維圖像變換(如旋轉(zhuǎn)/縮放/仿射等)End2End融入到網(wǎng)絡(luò)中。具體二維圖像變換知識(shí)請(qǐng)翻閱:

          Homograph單應(yīng)性從傳統(tǒng)算法到深度學(xué)習(xí):
          https://zhuanlan.zhihu.com/p/74597564

          • Scene Text Recognition from Two-Dimensional Perspective. AAAI2018.

          該篇文章于MEGVII 2019年提出。首先在文字識(shí)別網(wǎng)絡(luò)中加入語義分割分支,獲取每個(gè)字符的相對(duì)位置。
          圖2.4

          其次,在獲取每個(gè)字符位置后對(duì)字符進(jìn)行分類,獲得文字識(shí)別信息。該方法采用分類解決識(shí)別問題,并沒有像傳統(tǒng)方法那樣使用RNN。
          圖2.5

          除此之外,在文章中還是使用了Deformable Convolution可變形卷積。相比傳統(tǒng)3x3卷積,可變形卷積可以提取文字區(qū)域不同形狀的特征。
          圖2.6

          • SqueezedText: A Real-time Scene Text Recognition by Binary Convolutional Encoderdecoder Network. AAAI2018.
            https://ren-fengbo.lab.asu.edu/sites/default/files/16354-77074-1-pb.pdf

          該文章引入二值層(-1 or +1)部分替換CRNN中的float浮點(diǎn)卷積,核心是使用很小的網(wǎng)絡(luò)進(jìn)行識(shí)別。

          • Handwriting Recognition in Low-resource Scripts using Adversarial Learning. CVPR2019.
            arxiv.org/pdf/1811.01396.pdf

          • ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification. CVPR2019.

            http:openaccess.thecvf.com/content_CVPR_2019/papers/Zhan_ESIR_End-To-End_Scene_Text_Recognition_via_Iterative_Image_Rectification_CVPR_2019_paper.pdf


          圖2.7

          ESIR采用cascade R-CNN級(jí)聯(lián)思路,通過3次變換將彎曲字符變換為水平,再經(jīng)過LSTM識(shí)別。具體變換思路請(qǐng)查閱論文。


          ???End2End OCR (Detection+ Recognition)


          由于End2End OCR同時(shí)涉及文字檢測(cè)+文字識(shí)別兩個(gè)方向,對(duì)于不熟悉的讀者建議首先閱讀上述CTPN/CRNN/Seq2Seq三篇文章了解相關(guān)內(nèi)容(當(dāng)然求點(diǎn)贊嘍)。在之前介紹的算法中,文字檢測(cè)和文字識(shí)別是分為兩個(gè)網(wǎng)絡(luò)分別完成的,所以一直有研究希望將OCR中的Detection+ Recognition合并成一個(gè)End2End網(wǎng)絡(luò)。目前End2End OCR相關(guān)研究如下:

          • Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks.?ICCV2017.
            http:openaccess.thecvf.com/content_ICCV_2017/papers/Li_Towards_End-To-End_Text_ICCV_2017_paper.pdf
          圖3.1

          該篇文章采用Faster R-CNN的Two-stage結(jié)構(gòu):首先Text Proposal Network(即RPN)生成對(duì)應(yīng)的文本區(qū)域Text Proposal,后續(xù)通過Bounding Box regression和Box Classification進(jìn)一步精修文本位置。但是不同的是,在RoI Pooling后接入一個(gè)LSTM+Attention的文字識(shí)別分支中,如圖3.2。由于識(shí)別與之前介紹的文字識(shí)別方法大同小異,后續(xù)不再重復(fù)介紹。
          圖3.2

          但是這樣的結(jié)構(gòu)存在問題。舉例說明:Faster R-CNN的RPN只是初步產(chǎn)生Proposal,后續(xù)還需要再經(jīng)過一次Bounding Box regression才能獲取準(zhǔn)確的檢測(cè)框,該問題在CTPN論文(arxiv.org/abs/1609.03605)中有說明,如圖3.3:

          圖3.3 CTPN文章中提及RPN生成Proposal不準(zhǔn)的問題

          所以Text Proposal不一定很準(zhǔn)會(huì)對(duì)后續(xù)識(shí)別分支產(chǎn)生巨大影響,導(dǎo)致該算法在復(fù)雜數(shù)據(jù)集上其實(shí)并不是很work。

          • Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework. ICCV2017.
            http:openaccess.thecvf.com/content_ICCV_2017/papers/Busta_Deep_TextSpotter_An_ICCV_2017_paper.pdf
          圖3.4 Deep TextSpotter

          在與Faster R-CNN不同,Deep TextSpotter生成的Region Proposal包含6個(gè)數(shù)值:??其中??代表Proposal box在圖像中的位置,??代表Proposal box與水平方向的夾角,??代表置信度confidence。?對(duì)于Region Proposal所在的特征??,通過雙線性插值可以獲得??固定高度的變換后的特征??,??其中??代表雙線性采樣核,本質(zhì)就是傳統(tǒng)的圖像旋轉(zhuǎn)+縮放插值變換。
          圖3.5

          在獲得??后,顯然可以后接RNN+CTC進(jìn)行識(shí)別??梢钥吹紻eep TextSpotter通過學(xué)習(xí)角度??,將proposal通過雙線性插值變換為固定高度的水平特征,然后再進(jìn)行識(shí)別,達(dá)到一種End2End的效果。與同時(shí)期的上一個(gè)方法類似,同樣存在RPN生成Proposal不準(zhǔn)導(dǎo)致識(shí)別率低的問題,所以在復(fù)雜數(shù)據(jù)集實(shí)際效果可能并不是太好。
          圖3.6 Deep TextSpotter對(duì)應(yīng)的CTC識(shí)別

          • Attention-based Extraction of Structured Information from Street View Imagery.?ICDAR2017.
            arxiv.org/abs/1704.03549
          圖3.7 spatial attention ocr

          該文章由Google在2017年提出,主要針對(duì)多視角的街景采集數(shù)據(jù)進(jìn)行OCR,其關(guān)鍵點(diǎn)為:

          1. 利用CNN提取不同視角的圖片的特征,并將特征concat為一個(gè)大的特征矩陣?
          2. 計(jì)算圖片中文的spatial attention??,??越大該區(qū)域?yàn)槲淖謪^(qū)域的概率越大
          3. 通過??抽取??中文字區(qū)域特征??,并送入后續(xù)RNN進(jìn)行識(shí)別

          該方法利用spatial attention(arxiv.org/pdf/1502.03044v3.pdf)進(jìn)行端到端OCR,相比檢測(cè)+檢測(cè)方法更加新穎。

          • Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes. ECCV2018.
            arxiv.org/abs/1807.02242
          圖3.8 Mask TextSpotter

          該方法由曠視科技 (www.zhihu.com/people/c26b4202ed6af1379f52a967235d94b2) 在2018年提出,主要用于解決不規(guī)則彎曲字符End2End的識(shí)別問題。相比傾斜字符,處理彎曲不規(guī)則字符更難,無法簡(jiǎn)單通過Proposal角度??對(duì)特征進(jìn)行變換。Mask TextSpotter借鑒了Mask RCNN,首先由RPN網(wǎng)絡(luò)生成Proposal,再由Faster R-CNN分支對(duì)Proposal做進(jìn)一步分類和位置回歸,同時(shí)通過Mask分支分割出文本所在區(qū)域Global word map和每個(gè)字符所在中心Background map。這樣不僅可以獲得整個(gè)文本word區(qū)域,還可以獲得每個(gè)字符character區(qū)域。

          圖3.9 Mask TextSpotter進(jìn)行文字識(shí)別

          在文字識(shí)別方面Mask TextSpotter設(shè)計(jì)0~1和A~Z共計(jì)36個(gè)“one-hot”形式的Character map進(jìn)行分類,即沒有使用RNN直接強(qiáng)行分類。如果用Mask TextSpotter識(shí)別漢字,則需要設(shè)計(jì)4000+ Character map,這顯然是不科學(xué)的。另外該方法在識(shí)別過程中也沒有用到文字的序列信息(總體來說該方法與之前的Scene Text Recognition from Two-Dimensional Perspective思路類似)。

          • Towards End-to-End License Plate Detection and Recognition: A Large Dataset and Baseline. ECCV2018.
            http:openaccess.thecvf.com/content_ECCV_2018/papers/Zhenbo_Xu_Towards_End-to-End_License_ECCV_2018_paper.pdf

          在該文章中提出一個(gè)包含250k圖的中國車牌數(shù)據(jù)集CCPD,每個(gè)標(biāo)注包含1個(gè)box+4個(gè)定位點(diǎn)+識(shí)別文字GT:

          圖3.10 車牌數(shù)據(jù)集CCPD

          在網(wǎng)絡(luò)方面該文章提出一種PRNet:

          1. 利用Box Regression layer層預(yù)測(cè)車牌位置??;
          2. 檢測(cè)出來??確定位置后,采集對(duì)應(yīng)不同尺度的特征圖進(jìn)行ROI Pooling;
          3. 把不同尺度特征拼接在一起,進(jìn)行識(shí)別。
          圖3.11 PRNet

          該文章核心內(nèi)容就是推出了一個(gè)車牌OCR數(shù)據(jù)集CCPD,并在這個(gè)數(shù)據(jù)集上提出一種BaseLine方法。該方向研究人員可以嘗試使用該數(shù)據(jù)集。

          在這里特別感謝一下所有開放數(shù)據(jù)集的研究人員!數(shù)據(jù)才是cv第一生產(chǎn)力!

          • An end-to-end TextSpotter with Explicit Alignment and Attention. CVPR2018.
            http:openaccess.thecvf.com/content_cvpr_2018/papers/He_An_End-to-End_TextSpotter_CVPR_2018_paper.pdf
          圖3.12

          改文章與Deep TextSpotter比較類似,首先生成帶有角度??的傾斜Text Proposal,然后通過類似于RoI Pooling的Text-alignment提取固定長度的feature sequence,再送入RNN+Seq2Seq+Attention結(jié)構(gòu)進(jìn)行識(shí)別。
          圖3.13
          與Deep TextSpotter不同的是,Text-alignment在通過雙線性插值提取到整個(gè)Proposal特征后,再通過一組Inception卷積獲取feature sequence送入RNN,而不是直接把雙線性插值結(jié)果送入RNN。
          圖3.15

          • FOTS: Fast Oriented Text Spotting with a Unified Network. CVPR2018.
            arxiv.org/abs/1801.01671

          FOTS采用Single-Shot結(jié)構(gòu)結(jié)合(arxiv.org/abs/1612.03144)直接檢測(cè)文字區(qū)域,輸出帶角度??的Bounding Box;之后利用雙線性插值RoIRotate獲取固定大小的特征,送入雙向LSTM進(jìn)行識(shí)別。
          圖3.16 FOTS Architecture
          圖3.17 FPN
          圖3.18 RoIRotate

          由于使用Single-Shot結(jié)構(gòu),所以應(yīng)該是相對(duì)“Fast”一點(diǎn)。

          • SEE: Towards Semi-Supervised End-to-End Scene Text Recognition. AAAI2018.
            arxiv.org/abs/1712.05404
          圖3.19
          圖3.20
          另外SEE作者2017年在arXiv上放出STN-OCR的論文,應(yīng)該是沒有中任何會(huì)議。考慮到完整性也掛在這里。
          arxiv.org/abs/1707.08831
          下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
          在「小白學(xué)視覺」公眾號(hào)后臺(tái)回復(fù):擴(kuò)展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實(shí)戰(zhàn)項(xiàng)目52講
          小白學(xué)視覺公眾號(hào)后臺(tái)回復(fù):Python視覺實(shí)戰(zhàn)項(xiàng)目即可下載包括圖像分割、口罩檢測(cè)、車道線檢測(cè)、車輛計(jì)數(shù)、添加眼線、車牌識(shí)別、字符識(shí)別、情緒檢測(cè)、文本內(nèi)容提取、面部識(shí)別等31個(gè)視覺實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計(jì)算機(jī)視覺。

          下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講
          小白學(xué)視覺公眾號(hào)后臺(tái)回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

          交流群


          歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請(qǐng)按照格式備注,否則不予通過。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~


          瀏覽 107
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  91青青草 | 日本免费色视频 | 欧美性大战久久久久XXX | 国产一区二区AV | 91成人视频精品麻豆 |