<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          嘿,OCR文字識(shí)別了解下!

          共 4944字,需瀏覽 10分鐘

           ·

          2022-02-09 17:36

          歡迎大家前往騰訊云+社區(qū),獲取更多騰訊海量技術(shù)實(shí)踐干貨哦~

          本文由云+社區(qū)運(yùn)營團(tuán)隊(duì)發(fā)布在騰訊云+社區(qū)

          前言

          2018年3月27日騰訊云云+社區(qū)聯(lián)合騰訊云智能圖像團(tuán)隊(duì)共同在客戶群舉辦了騰訊云OCR文字識(shí)別——智能圖像分享活動(dòng),活動(dòng)舉辦期間用戶耐心聽分享嘉賓的介紹,并提出了相關(guān)的問題,智能圖像團(tuán)隊(duì)的科學(xué)家和工程師也耐心解答可用戶的疑問。以下就是活動(dòng)分享的全部?jī)?nèi)容。

          正文

          在日常生活工作中,我們難免會(huì)遇到一些問題,比如自己辛辛苦苦寫完的資料,好不容易打印出來卻發(fā)現(xiàn)源文件丟了。難的收集了一些名片,卻要很麻煩的一個(gè)一個(gè)錄入信息。快遞公司的業(yè)務(wù)越來越好,但每天卻需要花費(fèi)很多時(shí)間登記錄入運(yùn)單,效率非常的低。

          那么,有沒有什么技術(shù)能幫助我們解決這些難題呢?有的,那就是OCR文字識(shí)別技術(shù)。今天我們請(qǐng)到了騰訊云大數(shù)據(jù)AI產(chǎn)品中心的AI科學(xué)家冀永楠、產(chǎn)品經(jīng)理Florali、陳英恬,高級(jí)工程師肖西華為咱們分享一下騰訊云近年來在這一領(lǐng)域的探索情況。

          什么是OCR?

          OCR 是實(shí)時(shí)高效的定位與識(shí)別圖片中的所有文字信息,返回文字框位置與文字內(nèi)容。支持多場(chǎng)景、任意版面下整 圖文字的識(shí)別,以及中英文、字母、數(shù)字的識(shí)別。通俗的來說,就是將圖片上的文字內(nèi)容,智能識(shí)別成為可編輯的文本,例如:



          OCR的技術(shù)原理是什么?

          OCR本質(zhì)是圖像識(shí)別。其原理也和其他的圖像識(shí)別問題基本一樣。包含兩大關(guān)鍵技術(shù):文本檢測(cè)和文字識(shí)別。先將圖像中的特征的提取并檢測(cè)目標(biāo)區(qū)域,之后對(duì)目標(biāo)區(qū)域的的字符進(jìn)行分割和分類。

          以深度學(xué)習(xí)興起的時(shí)間為分割點(diǎn),直至近五年之前,業(yè)界最為廣泛使用的仍然是傳統(tǒng)的OCR識(shí)別技術(shù)框架,而隨著深度學(xué)習(xí)的崛起,基于這一技術(shù)的OCR識(shí)別框架以另外一種新的思路迅速突破了原有的技術(shù)瓶頸(如文字定位、二值化和文字分割等),并已在工業(yè)界得到廣泛應(yīng)用。

          首先文本定位,接著進(jìn)行傾斜文本矯正,之后分割出單字后,并對(duì)單字識(shí)別,最后基于統(tǒng)計(jì)模型(如隱馬爾科夫鏈,HMM)進(jìn)行語義糾錯(cuò)。

          OCR技術(shù)的難點(diǎn)是什么?

          復(fù)雜背景、藝術(shù)字體、低分辨率、非均勻光照、圖像退化、字符形變、多語言混合、文本行復(fù)雜版式、檢測(cè)框字符殘缺,等等。

          如克服這些難點(diǎn)的?

          從幾個(gè)方面入手。一是使用場(chǎng)景,另一方面是從技術(shù)上的改進(jìn)騰訊優(yōu)圖實(shí)驗(yàn)室在文本檢測(cè)技術(shù)方進(jìn)行了深度優(yōu)化,提出了Compact Inception,通過設(shè)計(jì)合理的網(wǎng)絡(luò)結(jié)構(gòu)來提升各尺度的文字檢測(cè)/提取能力。同時(shí)引入RNN多層自適應(yīng)網(wǎng)絡(luò)和Refinement結(jié)構(gòu)來提升檢測(cè)完整性和準(zhǔn)確性。


          img

          騰訊云OCR目前支持什么功能?

          基于騰訊優(yōu)圖實(shí)驗(yàn)室世界領(lǐng)先的深度學(xué)習(xí)技術(shù),目前我們已支持: 身份證識(shí)別,銀行卡識(shí)別,名片識(shí)別,營業(yè)執(zhí)照識(shí)別,行駛證駕駛證識(shí)別,車牌號(hào)識(shí)別,通用印刷體識(shí)別,手寫體識(shí)別。

          大家可以掃文章頭部的小程序二維碼體驗(yàn)下我們的小程序。

          通用印刷體的技術(shù)難點(diǎn),使用場(chǎng)景

          我們知道身份證識(shí)別可廣泛應(yīng)用在金融行業(yè)中,有用戶的身份認(rèn)證中,可以減少用戶的信息輸入,提升效率,提高用戶體驗(yàn),營業(yè)執(zhí)照的識(shí)別完全省去了手工錄入的繁瑣,還可以為企業(yè)省去大量的人力資源成本,這些場(chǎng)景大家都已經(jīng)比較熟悉。

          對(duì)于通用印刷體,騰訊優(yōu)圖實(shí)驗(yàn)室自主設(shè)計(jì)一整套全方位多尺度文字識(shí)別引擎,可攻破模糊,散焦,透視,文字部分遮擋的問題,識(shí)別準(zhǔn)確率高達(dá)90%以上,處于業(yè)界領(lǐng)先水平。使用場(chǎng)景廣泛,例如對(duì)任意版面上圖像的文字識(shí)別,可廣泛應(yīng)用在印刷文檔、廣告圖、醫(yī)療、物流等行業(yè)中的識(shí)別。

          對(duì)于通用印刷體有沒有什么好的例子?

          例如這個(gè)廣告,內(nèi)容多字體,中英文與數(shù)字混合,背景也比較隨意。咱們的OCR通過透視矯正、去模糊等,能大幅還原圖像真實(shí)度,極大提升算法的魯棒性。



          再例如識(shí)別文字密集,行間距小,透視畸變等的海報(bào)。人工識(shí)別需要不僅耗費(fèi)時(shí)間,肉眼也比較難識(shí)別。但騰訊云OCR 設(shè)計(jì)了小而精的特征提取網(wǎng)絡(luò),配合先進(jìn)的預(yù)處理技術(shù),識(shí)別準(zhǔn)確率高達(dá)93%以上。



          有時(shí)候也會(huì)遇到識(shí)別率不理想的情況,如何可以提高識(shí)別準(zhǔn)確率?

          首先會(huì)確認(rèn)下當(dāng)前的場(chǎng)景,造成準(zhǔn)確度不高的原因。評(píng)估可提高的空間設(shè)計(jì),之后做出相應(yīng)的修改,列入預(yù)處理等等。

          關(guān)于騰訊云手寫體識(shí)別這塊有沒有什么案例?

          騰訊是國內(nèi)首家將手寫體識(shí)別應(yīng)用在復(fù)雜場(chǎng)景下的服務(wù)商,數(shù)字識(shí)別準(zhǔn)確率高達(dá)90%以上,單字識(shí)別速度在15ms以內(nèi),復(fù)雜漢字準(zhǔn)確率超過80%。

          騰訊云手寫體OCR已運(yùn)用到的運(yùn)單識(shí)別場(chǎng)景,解決了物流行業(yè)每日快遞單人工輸入工作量極大且極易出錯(cuò),非常低效等問題。


          img

          運(yùn)單識(shí)別與傳統(tǒng)人工識(shí)別有什么區(qū)別呢?

          如果傳統(tǒng)人工識(shí)別按照3min/單,1000單需要6.25個(gè)人/天,保證運(yùn)單時(shí)效則需要耗費(fèi)大量人力,考慮人力成本則影響運(yùn)單及時(shí)性,成本和服務(wù)難兩全。

          我們的運(yùn)單識(shí)別速度可以達(dá)到毫秒級(jí)/單,并支持24小時(shí)識(shí)別服務(wù) ,業(yè)務(wù)增長時(shí)只需要投入計(jì)算用服務(wù)器資源即可,彈性較大。

          與傳統(tǒng)識(shí)別相比,不僅成本可以降低,提高準(zhǔn)確性,還可以保護(hù)用戶的隱私泄露風(fēng)險(xiǎn)。

          目前OCR應(yīng)用現(xiàn)實(shí)中有很廣泛的應(yīng)用場(chǎng)景,騰訊云OCR有什么優(yōu)勢(shì)?

          咱們的OCR文字識(shí)別技術(shù),目前支持中文簡(jiǎn)繁體、英文、數(shù)字、標(biāo)點(diǎn)共10000+標(biāo)簽,覆蓋上百種字體,生僻字版本更支持2W+標(biāo)簽 。

          那咱們?cè)谛袠I(yè)中也有不少落地客戶了吧?

          新版手Q就用到了咱們的技術(shù),在掃一掃、聊天窗口和空間圖片大圖預(yù)覽共三個(gè)入口上支持了提取圖片中文字的功能。

          方便用戶閱讀、編輯、保存圖片上的文字,從而可以對(duì)提取出的文字進(jìn)行翻譯、搜索。在多種場(chǎng)景下可以極大提升用戶對(duì)圖片上文字的閱讀和記錄效率。



          企業(yè)微信中的名片識(shí)也用到了咱們OCR技術(shù)。用戶只需拍照或選擇名片圖片,就能準(zhǔn)確快速地識(shí)別出名片中的文字,并自動(dòng)提取為對(duì)應(yīng)的字段,極大簡(jiǎn)化了名片錄入流程,也避免了手動(dòng)錄入過程可能出現(xiàn)的錯(cuò)誤。



          互動(dòng)QA

          經(jīng)過上面的分享,用戶也提出了不少問題,我們來看看用戶都問了什么?

          Q:您好,我想問下OCR 識(shí)別是否支持H5開發(fā)呢?

          A:支持,接口是基于http協(xié)議,只要支持http協(xié)議都可以使用。

          Q:通用印刷體識(shí)別剩下的10%,有提高的思路嗎?

          A:整體思路還是要回到我們的三大引擎上。逐一進(jìn)行優(yōu)化。

          1. 背景識(shí)別
          2. 定位引擎
          3. 字段識(shí)別引擎

          Q:目前印刷體識(shí)別上使用的思路是先分割后識(shí)別嗎?OCR支持離線識(shí)別嗎?

          A:思路是先分割后識(shí)別,我們的OCR支持離線識(shí)別的。

          Q:OCR遇到無法分割或者分割錯(cuò)誤的情況如何處理呢

          A:很少有無法分割的情況。分割錯(cuò)誤肯定會(huì)對(duì)最后的結(jié)果又影響。我們的技術(shù),即便是再字符重疊的情況下也可以做出正確的分割。

          Q:我想問下如果針對(duì)運(yùn)單識(shí)別場(chǎng)景,請(qǐng)問是否可以智能糾正客戶的地址呢?例如深圳,寫成了深土川。

          A:我們會(huì)結(jié)合NLP技術(shù),結(jié)合上下文進(jìn)行智能糾錯(cuò)。

          Q:目前市面已提供有相關(guān)服務(wù),那么咱們?cè)谶@塊有什么與眾不同的地方或者更有優(yōu)勢(shì)的一面呢?

          A:我們?cè)贠CR上積累的很多的相關(guān)經(jīng)驗(yàn),也是國內(nèi)首家將手寫體識(shí)別應(yīng)用在復(fù)雜場(chǎng)景下的服務(wù)商。

          Q:那請(qǐng)問騰訊云OCR業(yè)務(wù)支持什么語言呀,對(duì)文字大小字體等有要求嘛?

          A:中文(簡(jiǎn)體和繁體),英文及數(shù)字。

          Q:之前有提到總的分類高達(dá)2w+,這種大分類模型是怎么訓(xùn)練的。

          A:分級(jí),分批訓(xùn)練。

          Q:那我還想問您下車牌自動(dòng)識(shí)別已應(yīng)用于日常生活場(chǎng)景中。想了解下這個(gè)的技術(shù)難點(diǎn)是什么呢?

          A:相比于證照類輸入圖來說,車牌輸入圖受限于實(shí)際場(chǎng)景配置的攝像監(jiān)控設(shè)備,及車輛位置的隨機(jī)變化,產(chǎn)生各種極端角度及光照案例,其質(zhì)量變化范圍遠(yuǎn)大于證照類采集圖像。

          Q:您剛才展示都是平整的圖片,對(duì)于手機(jī)拍的紙質(zhì)文檔有一定弧度,比如折過的紙沒壓平,就會(huì)有一定弧度,這個(gè)能處理嗎?

          A:輕微的弧度我們可以通過技術(shù)處理,嚴(yán)重變形的相對(duì)比較困難。

          Q:除了支持標(biāo)準(zhǔn)車牌,我們支持識(shí)別新能源車嗎?

          A:支持的,我們目前已支持藍(lán)牌、黃牌、軍牌、警牌、教練車牌、新能源車牌等,目前識(shí)別率可達(dá)到97%-98%~

          Q:請(qǐng)問針對(duì)物流公司司機(jī)手機(jī)拍的照片,一是面單不平整,二是光線有的不理想,三是拍照角度有傾斜。針對(duì)以上情況技術(shù)方面有沒有解決辦法?

          A:拍照角度可以通過幾何算法矯正。光線的問題也可以通過圖像的歸一化增強(qiáng)。單面不平整,這個(gè)得看不平整到什么程度了。

          Q:車輛運(yùn)行中,您這個(gè)80%的準(zhǔn)確率是指車輛運(yùn)動(dòng)過程中拍攝下來的圖還是車輛停止時(shí)候拍的圖?

          A:我們是按幀處理的。

          Q:是否可以經(jīng)過一定數(shù)據(jù)積累,糾錯(cuò)等訓(xùn)練,從而使其能識(shí)別手寫文字?

          A:我們已實(shí)現(xiàn)手寫體識(shí)別~

          Q:OCR對(duì)運(yùn)動(dòng)模糊的場(chǎng)景識(shí)別率有多高

          A:模糊的程度差異性很大。不好做標(biāo)準(zhǔn)化的統(tǒng)計(jì)。圖像質(zhì)量不佳,最直白的處理方法是做圖像的增強(qiáng)。

          Q:貴司技術(shù)有相關(guān)paper可以查閱嗎?

          A:

          cloud.tencent.com/devel

          cloud.tencent.com/devel

          cloud.tencent.com/devel

          可以看看咱們社區(qū)的文章哦~很多文章都是鵝廠的精華呢~

          Q:圖片有點(diǎn)模糊,能不能說下比較好具體算法,這個(gè)太籠統(tǒng)了

          A:有很多的濾波器都可以處理不同程度的模糊圖像。也有采用神經(jīng)網(wǎng)絡(luò)的的方式處理。

          我們看到不管是復(fù)雜文字識(shí)別場(chǎng)景還是小程序應(yīng)用騰訊云OCR都可以解決,對(duì)本文提問有任何疑問的同學(xué),大家都可以去騰訊云問答社區(qū)(cloud.tencent.com/devel)提出自己的疑問,屆時(shí)會(huì)有邀請(qǐng)相關(guān)的產(chǎn)品同學(xué)回答您的問題。

          感謝大家對(duì)騰訊云云+社區(qū)及騰訊云智能圖像的支持,如需了解更多騰訊云OCR識(shí)別,請(qǐng)點(diǎn)擊:cloud.tencent.com/produ。了解騰訊云OCR接入流程請(qǐng)點(diǎn)擊:cloud.tencent.com/docum想體驗(yàn)騰訊云AI更多產(chǎn)品請(qǐng)掃描下方小程序碼。騰訊云AI合作請(qǐng)聯(lián)系郵箱[email protected],或添加智能圖像QQ群:188257726。 沒有及時(shí)參加本次活動(dòng)的小伙伴,請(qǐng)查看歷史聊天記錄或等待工作人員將聊天記錄總結(jié)后的文章分享。更多優(yōu)秀文章請(qǐng)關(guān)注云+社區(qū)(cloud.tencent.com/devel)。

          騰訊云OCR接入流程

          第 1 步:登陸賬號(hào)注冊(cè)并通過實(shí)名認(rèn)證后,您可以登錄【騰訊云控制臺(tái)】(鏈接:console.cloud.tencent.com)進(jìn)行使用。如果沒有賬號(hào),請(qǐng)參考 【賬號(hào)注冊(cè)教程】(鏈接:cloud.tencent.com/docum)。

          第 2 步:創(chuàng)建秘鑰完成注冊(cè)后,您需要在【訪問管理】(鏈接:console.cloud.tencent.com )創(chuàng)建秘鑰。AppID、SecretID和SecretKey是您進(jìn)行應(yīng)用開發(fā)的唯一憑證,請(qǐng)妥善保管。

          第 3 步:生成簽名通過簽名來驗(yàn)證請(qǐng)求的合法性,用戶可以使用AppID、SecretID和SecretKey生成簽名,具體簽名生成方法請(qǐng)參閱【簽名鑒權(quán)】(鏈接:cloud.tencent.com/docum

          第 4 步:調(diào)用API我們?yōu)槟峁┝素S富多樣的API接口,您可以查看并調(diào)用【OCR】(鏈接:cloud.tencent.com/docum)服務(wù)。

          第 5 步:查看調(diào)用您可以登錄【騰訊云控制臺(tái)】(鏈接:console.cloud.tencent.com),查OCR的各服務(wù)調(diào)用情況。


          此文已由作者授權(quán)騰訊云+社區(qū)發(fā)布,轉(zhuǎn)載請(qǐng)注明文章出處

          原文鏈接:cloud.tencent.com/devel


          weixin.qq.com/r/6TlxaU- (二維碼自動(dòng)識(shí)別)

          瀏覽 24
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  三级电影在线91 | 欧美三级台湾三级少妇 | 五月丁香六月婷婷网 | 东京热久久 | 18禁成人网站 |