本文由云計算基礎(chǔ)發(fā)表于云+社區(qū)專欄 前言 2018年3月27日騰訊云云+社區(qū)聯(lián)合騰訊云智能圖像團隊共同在客戶群舉辦了騰訊云OCR文字識別——智能圖像分享活動,活動舉辦期間用戶耐心聽分享嘉賓的介紹,并提出了相關(guān)的問題,智能圖像團隊的科學(xué)家和工程師也耐心解答可用戶的疑問。以下就是活動分享的全部內(nèi)容。 正文 在日常生活工作中,我們難免會遇到一些問題,比如自己辛辛苦苦寫完的資料,好不容易打印出來卻發(fā)現(xiàn)源文件丟了。難" />
<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          如何精準(zhǔn)實現(xiàn)OCR文字識別?

          共 5248字,需瀏覽 11分鐘

           ·

          2022-02-09 17:36

          歡迎大家前往騰訊云+社區(qū),獲取更多騰訊海量技術(shù)實踐干貨哦~

          本文由云計算基礎(chǔ)發(fā)表于云+社區(qū)專欄



          前言

          2018年3月27日騰訊云云+社區(qū)聯(lián)合騰訊云智能圖像團隊共同在客戶群舉辦了騰訊云OCR文字識別——智能圖像分享活動,活動舉辦期間用戶耐心聽分享嘉賓的介紹,并提出了相關(guān)的問題,智能圖像團隊的科學(xué)家和工程師也耐心解答可用戶的疑問。以下就是活動分享的全部內(nèi)容。

          正文

          在日常生活工作中,我們難免會遇到一些問題,比如自己辛辛苦苦寫完的資料,好不容易打印出來卻發(fā)現(xiàn)源文件丟了。難的收集了一些名片,卻要很麻煩的一個一個錄入信息。快遞公司的業(yè)務(wù)越來越好,但每天卻需要花費很多時間登記錄入運單,效率非常的低。

          那么,有沒有什么技術(shù)能幫助我們解決這些難題呢?有的,那就是OCR文字識別技術(shù)。今天我們請到了騰訊云大數(shù)據(jù)AI產(chǎn)品中心的AI科學(xué)家冀永楠、產(chǎn)品經(jīng)理Florali、陳英恬,高級工程師肖西華為咱們分享一下騰訊云近年來在這一領(lǐng)域的探索情況。

          什么是OCR?

          OCR 是實時高效的定位與識別圖片中的所有文字信息,返回文字框位置與文字內(nèi)容。支持多場景、任意版面下整 圖文字的識別,以及中英文、字母、數(shù)字的識別。通俗的來說,就是將圖片上的文字內(nèi)容,智能識別成為可編輯的文本,例如:



          OCR的技術(shù)原理是什么?

          OCR本質(zhì)是圖像識別。其原理也和其他的圖像識別問題基本一樣。包含兩大關(guān)鍵技術(shù):文本檢測和文字識別。先將圖像中的特征的提取并檢測目標(biāo)區(qū)域,之后對目標(biāo)區(qū)域的的字符進(jìn)行分割和分類。

          以深度學(xué)習(xí)興起的時間為分割點,直至近五年之前,業(yè)界最為廣泛使用的仍然是傳統(tǒng)的OCR識別技術(shù)框架,而隨著深度學(xué)習(xí)的崛起,基于這一技術(shù)的OCR識別框架以另外一種新的思路迅速突破了原有的技術(shù)瓶頸(如文字定位、二值化和文字分割等),并已在工業(yè)界得到廣泛應(yīng)用。

          首先文本定位,接著進(jìn)行傾斜文本矯正,之后分割出單字后,并對單字識別,最后基于統(tǒng)計模型(如隱馬爾科夫鏈,HMM)進(jìn)行語義糾錯。

          OCR技術(shù)的難點是什么?

          復(fù)雜背景、藝術(shù)字體、低分辨率、非均勻光照、圖像退化、字符形變、多語言混合、文本行復(fù)雜版式、檢測框字符殘缺,等等。

          如克服這些難點的?

          從幾個方面入手。一是使用場景,另一方面是從技術(shù)上的改進(jìn)騰訊優(yōu)圖實驗室在文本檢測技術(shù)方進(jìn)行了深度優(yōu)化,提出了Compact Inception,通過設(shè)計合理的網(wǎng)絡(luò)結(jié)構(gòu)來提升各尺度的文字檢測/提取能力。同時引入RNN多層自適應(yīng)網(wǎng)絡(luò)和Refinement結(jié)構(gòu)來提升檢測完整性和準(zhǔn)確性。


          img

          騰訊云OCR目前支持什么功能?

          基于騰訊優(yōu)圖實驗室世界領(lǐng)先的深度學(xué)習(xí)技術(shù),目前我們已支持: 身份證識別,銀行卡識別,名片識別,營業(yè)執(zhí)照識別,行駛證駕駛證識別,車牌號識別,通用印刷體識別,手寫體識別。

          大家可以掃文章頭部的小程序二維碼體驗下我們的小程序。

          通用印刷體的技術(shù)難點,使用場景

          我們知道身份證識別可廣泛應(yīng)用在金融行業(yè)中,有用戶的身份認(rèn)證中,可以減少用戶的信息輸入,提升效率,提高用戶體驗,營業(yè)執(zhí)照的識別完全省去了手工錄入的繁瑣,還可以為企業(yè)省去大量的人力資源成本,這些場景大家都已經(jīng)比較熟悉。

          對于通用印刷體,騰訊優(yōu)圖實驗室自主設(shè)計一整套全方位多尺度文字識別引擎,可攻破模糊,散焦,透視,文字部分遮擋的問題,識別準(zhǔn)確率高達(dá)90%以上,處于業(yè)界領(lǐng)先水平。使用場景廣泛,例如對任意版面上圖像的文字識別,可廣泛應(yīng)用在印刷文檔、廣告圖、醫(yī)療、物流等行業(yè)中的識別。

          對于通用印刷體有沒有什么好的例子?

          例如這個廣告,內(nèi)容多字體,中英文與數(shù)字混合,背景也比較隨意。咱們的OCR通過透視矯正、去模糊等,能大幅還原圖像真實度,極大提升算法的魯棒性。



          再例如識別文字密集,行間距小,透視畸變等的海報。人工識別需要不僅耗費時間,肉眼也比較難識別。但騰訊云OCR 設(shè)計了小而精的特征提取網(wǎng)絡(luò),配合先進(jìn)的預(yù)處理技術(shù),識別準(zhǔn)確率高達(dá)93%以上。



          有時候也會遇到識別率不理想的情況,如何可以提高識別準(zhǔn)確率?

          首先會確認(rèn)下當(dāng)前的場景,造成準(zhǔn)確度不高的原因。評估可提高的空間設(shè)計,之后做出相應(yīng)的修改,列入預(yù)處理等等。

          關(guān)于騰訊云手寫體識別這塊有沒有什么案例?

          騰訊是國內(nèi)首家將手寫體識別應(yīng)用在復(fù)雜場景下的服務(wù)商,數(shù)字識別準(zhǔn)確率高達(dá)90%以上,單字識別速度在15ms以內(nèi),復(fù)雜漢字準(zhǔn)確率超過80%。

          騰訊云手寫體OCR已運用到的運單識別場景,解決了物流行業(yè)每日快遞單人工輸入工作量極大且極易出錯,非常低效等問題。


          img

          運單識別與傳統(tǒng)人工識別有什么區(qū)別呢?

          如果傳統(tǒng)人工識別按照3min/單,1000單需要6.25個人/天,保證運單時效則需要耗費大量人力,考慮人力成本則影響運單及時性,成本和服務(wù)難兩全。

          我們的運單識別速度可以達(dá)到毫秒級/單,并支持24小時識別服務(wù) ,業(yè)務(wù)增長時只需要投入計算用服務(wù)器資源即可,彈性較大。

          與傳統(tǒng)識別相比,不僅成本可以降低,提高準(zhǔn)確性,還可以保護用戶的隱私泄露風(fēng)險。

          目前OCR應(yīng)用現(xiàn)實中有很廣泛的應(yīng)用場景,騰訊云OCR有什么優(yōu)勢?

          咱們的OCR文字識別技術(shù),目前支持中文簡繁體、英文、數(shù)字、標(biāo)點共10000+標(biāo)簽,覆蓋上百種字體,生僻字版本更支持2W+標(biāo)簽 。

          那咱們在行業(yè)中也有不少落地客戶了吧?

          新版手Q就用到了咱們的技術(shù),在掃一掃、聊天窗口和空間圖片大圖預(yù)覽共三個入口上支持了提取圖片中文字的功能。

          方便用戶閱讀、編輯、保存圖片上的文字,從而可以對提取出的文字進(jìn)行翻譯、搜索。在多種場景下可以極大提升用戶對圖片上文字的閱讀和記錄效率。



          企業(yè)微信中的名片識也用到了咱們OCR技術(shù)。用戶只需拍照或選擇名片圖片,就能準(zhǔn)確快速地識別出名片中的文字,并自動提取為對應(yīng)的字段,極大簡化了名片錄入流程,也避免了手動錄入過程可能出現(xiàn)的錯誤。



          互動QA

          經(jīng)過上面的分享,用戶也提出了不少問題,我們來看看用戶都問了什么?

          Q:您好,我想問下OCR 識別是否支持H5開發(fā)呢?

          A:支持,接口是基于http協(xié)議,只要支持http協(xié)議都可以使用。

          Q:通用印刷體識別剩下的10%,有提高的思路嗎?

          A:整體思路還是要回到我們的三大引擎上。逐一進(jìn)行優(yōu)化。

          1. 背景識別
          2. 定位引擎
          3. 字段識別引擎

          Q:目前印刷體識別上使用的思路是先分割后識別嗎?OCR支持離線識別嗎?

          A:思路是先分割后識別,我們的OCR支持離線識別的。

          Q:OCR遇到無法分割或者分割錯誤的情況如何處理呢

          A:很少有無法分割的情況。分割錯誤肯定會對最后的結(jié)果又影響。我們的技術(shù),即便是再字符重疊的情況下也可以做出正確的分割。

          Q:我想問下如果針對運單識別場景,請問是否可以智能糾正客戶的地址呢?例如深圳,寫成了深土川。

          A:我們會結(jié)合NLP技術(shù),結(jié)合上下文進(jìn)行智能糾錯。

          Q:目前市面已提供有相關(guān)服務(wù),那么咱們在這塊有什么與眾不同的地方或者更有優(yōu)勢的一面呢?

          A:我們在OCR上積累的很多的相關(guān)經(jīng)驗,也是國內(nèi)首家將手寫體識別應(yīng)用在復(fù)雜場景下的服務(wù)商。

          Q:那請問騰訊云OCR業(yè)務(wù)支持什么語言呀,對文字大小字體等有要求嘛?

          A:中文(簡體和繁體),英文及數(shù)字。

          Q:之前有提到總的分類高達(dá)2w+,這種大分類模型是怎么訓(xùn)練的。

          A:分級,分批訓(xùn)練。

          Q:那我還想問您下車牌自動識別已應(yīng)用于日常生活場景中。想了解下這個的技術(shù)難點是什么呢?

          A:相比于證照類輸入圖來說,車牌輸入圖受限于實際場景配置的攝像監(jiān)控設(shè)備,及車輛位置的隨機變化,產(chǎn)生各種極端角度及光照案例,其質(zhì)量變化范圍遠(yuǎn)大于證照類采集圖像。

          Q:您剛才展示都是平整的圖片,對于手機拍的紙質(zhì)文檔有一定弧度,比如折過的紙沒壓平,就會有一定弧度,這個能處理嗎?

          A:輕微的弧度我們可以通過技術(shù)處理,嚴(yán)重變形的相對比較困難。

          Q:除了支持標(biāo)準(zhǔn)車牌,我們支持識別新能源車嗎?

          A:支持的,我們目前已支持藍(lán)牌、黃牌、軍牌、警牌、教練車牌、新能源車牌等,目前識別率可達(dá)到97%-98%~

          Q:請問針對物流公司司機手機拍的照片,一是面單不平整,二是光線有的不理想,三是拍照角度有傾斜。針對以上情況技術(shù)方面有沒有解決辦法?

          A:拍照角度可以通過幾何算法矯正。光線的問題也可以通過圖像的歸一化增強。單面不平整,這個得看不平整到什么程度了。

          Q:車輛運行中,您這個80%的準(zhǔn)確率是指車輛運動過程中拍攝下來的圖還是車輛停止時候拍的圖?

          A:我們是按幀處理的。

          Q:是否可以經(jīng)過一定數(shù)據(jù)積累,糾錯等訓(xùn)練,從而使其能識別手寫文字?

          A:我們已實現(xiàn)手寫體識別~

          Q:OCR對運動模糊的場景識別率有多高

          A:模糊的程度差異性很大。不好做標(biāo)準(zhǔn)化的統(tǒng)計。圖像質(zhì)量不佳,最直白的處理方法是做圖像的增強。

          Q:貴司技術(shù)有相關(guān)paper可以查閱嗎?

          A:

          cloud.tencent.com/devel

          cloud.tencent.com/devel

          cloud.tencent.com/devel

          可以看看咱們社區(qū)的文章哦~很多文章都是鵝廠的精華呢~

          Q:圖片有點模糊,能不能說下比較好具體算法,這個太籠統(tǒng)了

          A:有很多的濾波器都可以處理不同程度的模糊圖像。也有采用神經(jīng)網(wǎng)絡(luò)的的方式處理。

          我們看到不管是復(fù)雜文字識別場景還是小程序應(yīng)用騰訊云OCR都可以解決,對本文提問有任何疑問的同學(xué),大家都可以去騰訊云問答社區(qū)(cloud.tencent.com/devel)提出自己的疑問,屆時會有邀請相關(guān)的產(chǎn)品同學(xué)回答您的問題。

          感謝大家對騰訊云云+社區(qū)及騰訊云智能圖像的支持,如需了解更多騰訊云OCR識別,請點擊:cloud.tencent.com/produ。了解騰訊云OCR接入流程請點擊:cloud.tencent.com/docum。想體驗騰訊云AI更多產(chǎn)品請掃描下方小程序碼。騰訊云AI合作請聯(lián)系郵箱[email protected],或添加智能圖像QQ群:188257726。 沒有及時參加本次活動的小伙伴,請查看歷史聊天記錄或等待工作人員將聊天記錄總結(jié)后的文章分享。更多優(yōu)秀文章請關(guān)注云+社區(qū)(cloud.tencent.com/devel)。




          騰訊云OCR接入流程

          第 1 步:登陸賬號注冊并通過實名認(rèn)證后,您可以登錄【騰訊云控制臺】(鏈接:console.cloud.tencent.com)進(jìn)行使用。如果沒有賬號,請參考 【賬號注冊教程】(鏈接:cloud.tencent.com/docum)。

          第 2 步:創(chuàng)建秘鑰完成注冊后,您需要在【訪問管理】(鏈接:console.cloud.tencent.com )創(chuàng)建秘鑰。AppID、SecretID和SecretKey是您進(jìn)行應(yīng)用開發(fā)的唯一憑證,請妥善保管。

          第 3 步:生成簽名通過簽名來驗證請求的合法性,用戶可以使用AppID、SecretID和SecretKey生成簽名,具體簽名生成方法請參閱【簽名鑒權(quán)】(鏈接:cloud.tencent.com/docum

          第 4 步:調(diào)用API我們?yōu)槟峁┝素S富多樣的API接口,您可以查看并調(diào)用【OCR】(鏈接:cloud.tencent.com/docum)服務(wù)。

          第 5 步:查看調(diào)用您可以登錄【騰訊云控制臺】(鏈接:console.cloud.tencent.com),查OCR的各服務(wù)調(diào)用情況。

          問答
          OCR文字識別技術(shù)有哪些應(yīng)用?
          相關(guān)閱讀
          文字識別OCR知識資料全集(入門/進(jìn)階/論文/綜述/代碼/專家,附查看)
          我的AI之路 —— OCR文字識別快速體驗版
          借你一雙“慧眼”:一文讀懂OCR文字識別︱技術(shù)派
          【每日課程推薦】機器學(xué)習(xí)實戰(zhàn)!快速入門在線廣告業(yè)務(wù)及CTR相應(yīng)知識

          此文已由作者授權(quán)騰訊云+社區(qū)發(fā)布,更多原文請點擊

          搜索關(guān)注公眾號「云加社區(qū)」,第一時間獲取技術(shù)干貨,關(guān)注后回復(fù)1024 送你一份技術(shù)課程大禮包!

          海量技術(shù)實踐經(jīng)驗,盡在云加社區(qū)!

          瀏覽 18
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  麻豆大屌性交 | 爱视频福利广场 | 中文字幕在线观看就是爽 | 久久国内精品一区二区三区 | 特大黄片视屏 |