99视频免费看,超碰在线免费成人午夜剧场97,北条麻妃久久,可以免费看的黄色电影,人妻三区,日韩精品九九九,亚洲人无码网,欧美V亚洲V日韩v

點(diǎn)擊上方“小白學(xué)視覺”，選擇加"星標(biāo)"或“置頂”

重磅干貨，第一時(shí)間送達(dá)

來自 | 知乎? ??作者 |?白裳

鏈接 |?https://zhuanlan.zhihu.com/p/65707543

本文僅供交流，如有侵權(quán)，請(qǐng)聯(lián)系刪除。

文字識(shí)別也是目前CV的主要研究方向之一。本文主要總結(jié)目前文字識(shí)別方向相關(guān)內(nèi)容，包括單獨(dú)文字識(shí)別以及結(jié)合文字檢測(cè)和文字識(shí)別的端到端的文字識(shí)別。希望這篇文章能夠幫助各位。

圖0 文字檢測(cè)Detection與文字識(shí)別Recognition

對(duì)于文字識(shí)別，實(shí)際中一般首先需要通過文字檢測(cè)定位文字在圖像中的區(qū)域，然后提取區(qū)域的序列特征，在此基礎(chǔ)上進(jìn)行專門的字符識(shí)別。但是隨著CV發(fā)展，也出現(xiàn)很多端到端的End2End OCR。

? ?文字檢測(cè)（Text Detection）

文字檢測(cè)定位圖片中的文本區(qū)域，而Detection定位精度直接影響后續(xù)Recognition結(jié)果。

圖1.1

如圖1.1中，紅框代表“LAN”字符ground truth(GT)，綠色框代表detection box。在GT與detection box有相同IoU的情況下，識(shí)別結(jié)果差異巨大。所以Detection對(duì)后續(xù)Recognition影響非常大！?

目前已經(jīng)有很多文字檢測(cè)方法，包括：
EAST/CTPN/SegLink/PixelLink/TextBoxes/TextBoxes++/TextSnake/MSR/...?

其中CTPN方法的介紹如下：

場(chǎng)景文字檢測(cè)—CTPN原理與實(shí)現(xiàn)

https://zhuanlan.zhihu.com/p/34757009

???文字識(shí)別（Text Recognition）

識(shí)別水平文本行，一般用CRNN或Seq2Seq兩種方法（歡迎移步本專欄相關(guān)文章）：

CRNN：CNN+RNN+CTC
一文讀懂CRNN+CTC文字識(shí)別
https://zhuanlan.zhihu.com/p/43534801

CNN+Seq2Seq+Attention
Seq2Seq+Attention原理介紹
https://zhuanlan.zhihu.com/p/51383402

對(duì)應(yīng)OCR代碼如下
https://github.com/bai-shang/crnn_seq2seq_ocr_pytorch

對(duì)于特定的彎曲文本行識(shí)別，早在CVPR2016就已經(jīng)有了相關(guān)paper：

Robust Scene Text Recognition with Automatic Rectification. CVPR2016.
arxiv.org/abs/1603.03915

圖2.1

對(duì)于彎曲不規(guī)則文本，如果按照之前的識(shí)別方法，直接將整個(gè)文本區(qū)域圖像強(qiáng)行送入CNN+RNN，由于有大量的無效區(qū)域會(huì)導(dǎo)致識(shí)別效果很差。所以這篇文章提出一種通過STN網(wǎng)絡(luò)學(xué)習(xí)變換參數(shù)，將Rectified Image對(duì)應(yīng)的特征送入后續(xù)RNN中識(shí)別。

圖2.2

其中Spatial Transformer Network(STN)指：

arxiv.org/abs/1506.02025

核心就是將傳統(tǒng)二維圖像變換（如旋轉(zhuǎn)/縮放/仿射等）End2End融入到網(wǎng)絡(luò)中。具體二維圖像變換知識(shí)請(qǐng)翻閱：

Homograph單應(yīng)性從傳統(tǒng)算法到深度學(xué)習(xí)：

https://zhuanlan.zhihu.com/p/74597564

Scene Text Recognition from Two-Dimensional Perspective. AAAI2018.

該篇文章于MEGVII 2019年提出。首先在文字識(shí)別網(wǎng)絡(luò)中加入語義分割分支，獲取每個(gè)字符的相對(duì)位置。

圖2.4

其次，在獲取每個(gè)字符位置后對(duì)字符進(jìn)行分類，獲得文字識(shí)別信息。該方法采用分類解決識(shí)別問題，并沒有像傳統(tǒng)方法那樣使用RNN。

圖2.5

除此之外，在文章中還是使用了Deformable Convolution可變形卷積。相比傳統(tǒng)3x3卷積，可變形卷積可以提取文字區(qū)域不同形狀的特征。

圖2.6

SqueezedText: A Real-time Scene Text Recognition by Binary Convolutional Encoderdecoder Network. AAAI2018.
https://ren-fengbo.lab.asu.edu/sites/default/files/16354-77074-1-pb.pdf

該文章引入二值層(-1 or +1)部分替換CRNN中的float浮點(diǎn)卷積，核心是使用很小的網(wǎng)絡(luò)進(jìn)行識(shí)別。

Handwriting Recognition in Low-resource Scripts using Adversarial Learning. CVPR2019.
arxiv.org/pdf/1811.01396.pdf
ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification. CVPR2019.
http:openaccess.thecvf.com/content_CVPR_2019/papers/Zhan_ESIR_End-To-End_Scene_Text_Recognition_via_Iterative_Image_Rectification_CVPR_2019_paper.pdf

圖2.7

ESIR采用cascade R-CNN級(jí)聯(lián)思路，通過3次變換將彎曲字符變換為水平，再經(jīng)過LSTM識(shí)別。具體變換思路請(qǐng)查閱論文。

???End2End OCR (Detection+ Recognition)

由于End2End OCR同時(shí)涉及文字檢測(cè)+文字識(shí)別兩個(gè)方向，對(duì)于不熟悉的讀者建議首先閱讀上述CTPN/CRNN/Seq2Seq三篇文章了解相關(guān)內(nèi)容（當(dāng)然求點(diǎn)贊嘍）。在之前介紹的算法中，文字檢測(cè)和文字識(shí)別是分為兩個(gè)網(wǎng)絡(luò)分別完成的，所以一直有研究希望將OCR中的Detection+ Recognition合并成一個(gè)End2End網(wǎng)絡(luò)。目前End2End OCR相關(guān)研究如下：

Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks.?ICCV2017.
http:openaccess.thecvf.com/content_ICCV_2017/papers/Li_Towards_End-To-End_Text_ICCV_2017_paper.pdf

圖3.1

該篇文章采用Faster R-CNN的Two-stage結(jié)構(gòu)：首先Text Proposal Network（即RPN）生成對(duì)應(yīng)的文本區(qū)域Text Proposal，后續(xù)通過Bounding Box regression和Box Classification進(jìn)一步精修文本位置。但是不同的是，在RoI Pooling后接入一個(gè)LSTM+Attention的文字識(shí)別分支中，如圖3.2。由于識(shí)別與之前介紹的文字識(shí)別方法大同小異，后續(xù)不再重復(fù)介紹。

圖3.2

但是這樣的結(jié)構(gòu)存在問題。舉例說明：Faster R-CNN的RPN只是初步產(chǎn)生Proposal，后續(xù)還需要再經(jīng)過一次Bounding Box regression才能獲取準(zhǔn)確的檢測(cè)框，該問題在CTPN論文(arxiv.org/abs/1609.03605)中有說明，如圖3.3：

圖3.3 CTPN文章中提及RPN生成Proposal不準(zhǔn)的問題

所以Text Proposal不一定很準(zhǔn)會(huì)對(duì)后續(xù)識(shí)別分支產(chǎn)生巨大影響，導(dǎo)致該算法在復(fù)雜數(shù)據(jù)集上其實(shí)并不是很work。

Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework. ICCV2017.
http:openaccess.thecvf.com/content_ICCV_2017/papers/Busta_Deep_TextSpotter_An_ICCV_2017_paper.pdf

圖3.4 Deep TextSpotter

在與Faster R-CNN不同，Deep TextSpotter生成的Region Proposal包含6個(gè)數(shù)值：??其中??代表Proposal box在圖像中的位置，??代表Proposal box與水平方向的夾角，??代表置信度confidence。?對(duì)于Region Proposal所在的特征??，通過雙線性插值可以獲得??固定高度的變換后的特征??，?

?其中??代表雙線性采樣核，本質(zhì)就是傳統(tǒng)的圖像旋轉(zhuǎn)+縮放插值變換。

圖3.5

在獲得??后，顯然可以后接RNN+CTC進(jìn)行識(shí)別?？梢钥吹紻eep TextSpotter通過學(xué)習(xí)角度??，將proposal通過雙線性插值變換為固定高度的水平特征，然后再進(jìn)行識(shí)別，達(dá)到一種End2End的效果。與同時(shí)期的上一個(gè)方法類似，同樣存在RPN生成Proposal不準(zhǔn)導(dǎo)致識(shí)別率低的問題，所以在復(fù)雜數(shù)據(jù)集實(shí)際效果可能并不是太好。

圖3.6 Deep TextSpotter對(duì)應(yīng)的CTC識(shí)別

Attention-based Extraction of Structured Information from Street View Imagery.?ICDAR2017.
arxiv.org/abs/1704.03549

圖3.7 spatial attention ocr

該文章由Google在2017年提出，主要針對(duì)多視角的街景采集數(shù)據(jù)進(jìn)行OCR，其關(guān)鍵點(diǎn)為：

利用CNN提取不同視角的圖片的特征，并將特征concat為一個(gè)大的特征矩陣?
計(jì)算圖片中文的spatial attention??，??越大該區(qū)域?yàn)槲淖謪^(qū)域的概率越大
通過??抽取??中文字區(qū)域特征??，并送入后續(xù)RNN進(jìn)行識(shí)別

該方法利用spatial attention(arxiv.org/pdf/1502.03044v3.pdf)進(jìn)行端到端OCR，相比檢測(cè)+檢測(cè)方法更加新穎。

Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes. ECCV2018.
arxiv.org/abs/1807.02242

圖3.8 Mask TextSpotter

該方法由曠視科技 (www.zhihu.com/people/c26b4202ed6af1379f52a967235d94b2) 在2018年提出，主要用于解決不規(guī)則彎曲字符End2End的識(shí)別問題。相比傾斜字符，處理彎曲不規(guī)則字符更難，無法簡(jiǎn)單通過Proposal角度??對(duì)特征進(jìn)行變換。Mask TextSpotter借鑒了Mask RCNN，首先由RPN網(wǎng)絡(luò)生成Proposal，再由Faster R-CNN分支對(duì)Proposal做進(jìn)一步分類和位置回歸，同時(shí)通過Mask分支分割出文本所在區(qū)域Global word map和每個(gè)字符所在中心Background map。這樣不僅可以獲得整個(gè)文本word區(qū)域，還可以獲得每個(gè)字符character區(qū)域。

圖3.9 Mask TextSpotter進(jìn)行文字識(shí)別

在文字識(shí)別方面Mask TextSpotter設(shè)計(jì)0～1和A～Z共計(jì)36個(gè)“one-hot”形式的Character map進(jìn)行分類，即沒有使用RNN直接強(qiáng)行分類。如果用Mask TextSpotter識(shí)別漢字，則需要設(shè)計(jì)4000+ Character map，這顯然是不科學(xué)的。另外該方法在識(shí)別過程中也沒有用到文字的序列信息（總體來說該方法與之前的Scene Text Recognition from Two-Dimensional Perspective思路類似）。

Towards End-to-End License Plate Detection and Recognition: A Large Dataset and Baseline. ECCV2018.
http:openaccess.thecvf.com/content_ECCV_2018/papers/Zhenbo_Xu_Towards_End-to-End_License_ECCV_2018_paper.pdf

在該文章中提出一個(gè)包含250k圖的中國車牌數(shù)據(jù)集CCPD，每個(gè)標(biāo)注包含1個(gè)box+4個(gè)定位點(diǎn)+識(shí)別文字GT：

圖3.10 車牌數(shù)據(jù)集CCPD

在網(wǎng)絡(luò)方面該文章提出一種PRNet：

利用Box Regression layer層預(yù)測(cè)車牌位置??；
檢測(cè)出來??確定位置后，采集對(duì)應(yīng)不同尺度的特征圖進(jìn)行ROI Pooling；
把不同尺度特征拼接在一起，進(jìn)行識(shí)別。

圖3.11 PRNet

該文章核心內(nèi)容就是推出了一個(gè)車牌OCR數(shù)據(jù)集CCPD，并在這個(gè)數(shù)據(jù)集上提出一種BaseLine方法。該方向研究人員可以嘗試使用該數(shù)據(jù)集。

在這里特別感謝一下所有開放數(shù)據(jù)集的研究人員！數(shù)據(jù)才是cv第一生產(chǎn)力！

An end-to-end TextSpotter with Explicit Alignment and Attention. CVPR2018.
http:openaccess.thecvf.com/content_cvpr_2018/papers/He_An_End-to-End_TextSpotter_CVPR_2018_paper.pdf

圖3.12

改文章與Deep TextSpotter比較類似，首先生成帶有角度??的傾斜Text Proposal，然后通過類似于RoI Pooling的Text-alignment提取固定長度的feature sequence，再送入RNN+Seq2Seq+Attention結(jié)構(gòu)進(jìn)行識(shí)別。

圖3.13

與Deep TextSpotter不同的是，Text-alignment在通過雙線性插值提取到整個(gè)Proposal特征后，再通過一組Inception卷積獲取feature sequence送入RNN，而不是直接把雙線性插值結(jié)果送入RNN。

圖3.15

FOTS: Fast Oriented Text Spotting with a Unified Network. CVPR2018.
arxiv.org/abs/1801.01671

FOTS采用Single-Shot結(jié)構(gòu)結(jié)合(arxiv.org/abs/1612.03144)直接檢測(cè)文字區(qū)域，輸出帶角度??的Bounding Box；之后利用雙線性插值RoIRotate獲取固定大小的特征，送入雙向LSTM進(jìn)行識(shí)別。

圖3.16 FOTS Architecture

圖3.17 FPN

圖3.18 RoIRotate

由于使用Single-Shot結(jié)構(gòu)，所以應(yīng)該是相對(duì)“Fast”一點(diǎn)。

SEE: Towards Semi-Supervised End-to-End Scene Text Recognition. AAAI2018.
arxiv.org/abs/1712.05404

圖3.19

圖3.20

另外SEE作者2017年在arXiv上放出STN-OCR的論文，應(yīng)該是沒有中任何會(huì)議。考慮到完整性也掛在這里。

arxiv.org/abs/1707.08831

下載1：OpenCV-Contrib擴(kuò)展模塊中文版教程

在「小白學(xué)視覺」公眾號(hào)后臺(tái)回復(fù)：擴(kuò)展模塊中文教程，即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版，涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

下載2：Python視覺實(shí)戰(zhàn)項(xiàng)目52講

在「小白學(xué)視覺」公眾號(hào)后臺(tái)回復(fù)：Python視覺實(shí)戰(zhàn)項(xiàng)目，即可下載包括圖像分割、口罩檢測(cè)、車道線檢測(cè)、車輛計(jì)數(shù)、添加眼線、車牌識(shí)別、字符識(shí)別、情緒檢測(cè)、文本內(nèi)容提取、面部識(shí)別等31個(gè)視覺實(shí)戰(zhàn)項(xiàng)目，助力快速學(xué)校計(jì)算機(jī)視覺。

下載3：OpenCV實(shí)戰(zhàn)項(xiàng)目20講

在「小白學(xué)視覺」公眾號(hào)后臺(tái)回復(fù)：OpenCV實(shí)戰(zhàn)項(xiàng)目20講，即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目，實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

交流群

歡迎加入公眾號(hào)讀者群一起和同行交流，目前有SLAM、三維視覺、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群（以后會(huì)逐漸細(xì)分），請(qǐng)掃描下面微信號(hào)加群，備注：”昵稱+學(xué)校/公司+研究方向“，例如：”張三?+?上海交大?+?視覺SLAM“。請(qǐng)按照格式備注，否則不予通過。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告，否則會(huì)請(qǐng)出群，謝謝理解~

文字識(shí)別方法全面整理