<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          OCR入門(附數(shù)據(jù)集鏈接)

          共 1744字,需瀏覽 4分鐘

           ·

          2022-05-19 12:23

          點擊下方卡片,關(guān)注“新機器視覺”公眾號

          重磅干貨,第一時間送達

          近日,“大學生用OCR+正則表達式快速核查學生核酸報告”的新聞火了,細心觀察我們就能發(fā)現(xiàn),生活里OCR的身影到處都是:文檔掃描、車牌識別、證件識別等等。在這個信息技術(shù)高速發(fā)展的時代,越來越多的小事可以“智能化”、“信息化”,曾經(jīng)需要浪費諸多人力物力才能完成的事,可以通過新的技術(shù)輕松地解決。


          01

          OCR是解決什么問題的技術(shù)


          文章開頭提到的新聞里,OCR技術(shù)到底解決了什么問題?上圖是一張上海市健康云截圖,復旦大學博士生使用OCR技術(shù)監(jiān)測到文本,再提取其中的文字信息,每次核查數(shù)百人的截圖僅需幾分鐘。抽象的字符讓人感覺技術(shù)深不可測,但是等讀者們稍作了解之后,會發(fā)現(xiàn)高科技是非常親切實用的。OCR中文名叫做“光學字符識別”,它可以將名片、票據(jù)、身份證、駕照等文檔資料中的文字和數(shù)字信息轉(zhuǎn)換成文本信息,以電子形式保存,實現(xiàn)信息采集的快速錄入。現(xiàn)在有非常多實現(xiàn)OCR功能的免費接口,傳入圖片路徑,就可以調(diào)用接口函數(shù),識別圖片中的文字信息。

          02

          OCR的常見流程


          常見OCR方法的具體過程通常分為以下四個步驟:
          預處理:是對圖像進行初步的處理,目的是減少圖像中的無用信息,方便提取特征。常用的步驟有:灰度化、降噪、二值化、字符切分、歸一化等。
          特征提取和降維:是識別文字、數(shù)字的關(guān)鍵步驟之一。特征是識別文字的關(guān)鍵信息,每個不同的文字通過特征來和其他文字進行區(qū)分。數(shù)字和英文字符相對中文字符來說更容易區(qū)分。為了提高后續(xù)分類器的效果和效率,往往還要進行降維,進一步減少特征中的無用信息,同時把有用信息盡可能多地保留下來。
          分類器設(shè)計:對特征進行識別,是進行文字、數(shù)字識別的關(guān)鍵步驟之一。在這一步中,分類器對特征進行分類,將其識別成對應的字符。分類器一般需要提前訓練,常見的分類器有:支持向量機、神經(jīng)網(wǎng)絡等。
          后處理:是對分類結(jié)果進行優(yōu)化處理的步驟。經(jīng)過分類器分類得到的結(jié)果是不完全準確的,比如對形近字的識別錯誤率比較高、識別結(jié)果存在排版錯誤,后處理就可以有針對性地解決這些問題。例如,通過語言模型校正將“存哪里”校正為“在哪里”,并對識別結(jié)果進行格式化。


          03

          正則表達式是什么


          正則表達式在人物場景中承擔的是什么責任呢?經(jīng)過前面敘述的流程,從圖片中提取出來的文字信息,需要進一步整理提取,實現(xiàn)自動化核查。正則表達式通常被用來檢索、替換符合特定模式的文本。正則表達式可以提取出文本中的特定文本,即:姓名、證件號碼、采樣時間、檢測結(jié)果等,再輸出到Excel中。


          04

          OCR數(shù)據(jù)集


          目前主流的OCR任務會使用深度學習方法,這意味著數(shù)據(jù)集是其中的關(guān)鍵。
          文本檢測數(shù)據(jù)集SynthText:
          https://www.robots.ox.ac.uk/~vgg/data/scenetext/
          ICDAR是競賽數(shù)據(jù)集,2003年、2013年、2015年、2017年分別開放了以下數(shù)據(jù)集:?
          http://www.iapr-tc11.org/mediawiki/index.php/ICDAR_2003_Robust_Reading_Competitions
          https://rrc.cvc.uab.es/?ch=2
          https://rrc.cvc.uab.es/?ch=4
          https://rrc.cvc.uab.es/?ch=5&com=introduction
          谷歌圖像中收集整理得到的IIIT 5K words數(shù)據(jù)集:
          http://cvit.iiit.ac.in/projects/SceneTextUnderstanding/IIIT5K.html
          還有一些公開數(shù)據(jù)集,如:SVT、CUTE等。Github上有一個OCR數(shù)據(jù)匯總可以查看:
          https://github.com/WenmuZhou/OCR_DataSet
          大多數(shù)OCR數(shù)據(jù)集包含的圖像數(shù)量比較少,并不足以訓練出一個模型,需要合成新的數(shù)據(jù)集使用。

          05

          小結(jié)


          OCR技術(shù)不算是最新的技術(shù),早在十年前它就火過,隨著近年深度學習的迅速發(fā)展,基于深度學習的OCR技術(shù)也逐漸成熟,能夠更好更靈活地應對不同場景,已經(jīng)成為科技公司的能力標配。

          本文僅做學術(shù)分享,如有侵權(quán),請聯(lián)系刪文。

          —THE END—
          瀏覽 129
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  学生妹无码内射 | 久久久午夜 | 黄色AV免费看 | 亚洲 在线视频 | 一区二区三区四区有码 |