有哪些好用的文字識(shí)別工具?
共 4183字,需瀏覽 9分鐘
·
2022-02-09 17:36
OCR是什么 ?
OCR (Optical Character Recognition,光學(xué)字符識(shí)別)是指電子設(shè)備檢查紙上打印的字符,通過(guò)檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程。
說(shuō)白了就是識(shí)別圖片上的文字,然后提取出來(lái),變成可編輯的文檔
今天我就推薦一些好用的OCR網(wǎng)站、軟件。
一、前言
而由于技術(shù)門檻相當(dāng)?shù)母撸茏鲋形腛CR識(shí)別的公司并不多,所以那些獨(dú)立開發(fā)者開發(fā)的OCR軟件,一般都是借用大公司的API接口。(比如好評(píng)如潮的「白描」,使用的其實(shí)是百度的OCR接口),所以這種時(shí)候認(rèn)準(zhǔn)大公司、老牌公司一般沒(méi)錯(cuò)。
- 本文參考了多篇網(wǎng)上的評(píng)測(cè),和別人的使用感想
- 為了不使文章顯得過(guò)于冗長(zhǎng),就不展示測(cè)試過(guò)程了,直接上結(jié)果
- 正文不提供軟件使用教程,而且均為中文軟件,幾乎無(wú)操作難度,部分軟件的使用教程會(huì)在文末的下載方式中給出。
1.OCR Space
網(wǎng)址:https://ocr.space/
之前推薦過(guò)的截圖軟件ShareX,就是用這個(gè)引擎,而且ShareX可以截圖OCR,可謂方便不少。
使用說(shuō)明:網(wǎng)站全英文,OCR前請(qǐng)自行選擇上傳圖片中的對(duì)應(yīng)語(yǔ)言。
2.極客OCR
網(wǎng)址:http://www.gkocr.com/
每日免費(fèi)限10張圖像,每次識(shí)別需輸入驗(yàn)證碼,但識(shí)別效果還是挺不錯(cuò)的
3.效果一般的
誠(chéng)華OCR
- https://zhcn.109876543210.com/
- 最大限10MB,不能在線看結(jié)果,需要下載轉(zhuǎn)換后的文件
Onnline OCR
- https://www.onlineocr.net/
- 最大限15M,中文識(shí)別垃圾,英文識(shí)別完美
New OCR
- https://www.newocr.com/
- 中文識(shí)別垃圾,英文識(shí)別完美
OCR Maker
- http://www.ocrmaker.com/
- 識(shí)別效果一般
Super Tools在線文字識(shí)別轉(zhuǎn)換
- http://ocr.wdku.net/
- 效果垃圾
三、瀏覽器擴(kuò)展
對(duì)擴(kuò)展支持最好的是Chrome瀏覽器,其次是Firefox
1.取字
官網(wǎng):http://willingstudio.com/
國(guó)人制作的Chrome擴(kuò)展,平常對(duì)網(wǎng)頁(yè)OCR需求比較高的話,這款擴(kuò)展會(huì)很方便。
2.CopyFish
官網(wǎng):https://a9t9.com/copyfish (打開速度較慢)
打開官網(wǎng),下載對(duì)應(yīng)瀏覽器的擴(kuò)展
除Chorme谷歌、火狐瀏覽器之外,360、QQ、搜狗、UC、2345、百度、115、Cent、Yandex 等支持谷歌插件的瀏覽器都可以使用
如果不會(huì)安裝插件,可以參考一下:《知道WIFI萬(wàn)能鑰匙,那你知道云盤萬(wàn)能鑰匙嗎?》這篇教程中的插件安裝辦法
二、電腦端
以下如果無(wú)特殊說(shuō)明,均只支持Windows,支持Mac的軟件均會(huì)備注
1.天若OCR開源版(WIN)
天若OCR文字識(shí)別開源版是吾愛破解論壇的 @shelher 基于 @天若幽心 開源的代碼 進(jìn)行完善制作而成。
- 軟件下載方式請(qǐng)看文末
- 作者表示天若OCR開源版不再進(jìn)行維護(hù)。
- 由于采用了第三方OCR接口,所以必須聯(lián)網(wǎng)才能識(shí)別,識(shí)別效果非常不錯(cuò),不滿意可以嘗試換接口。
- 無(wú)需安裝直接可以使用。
2.樹洞OCR(WIN / MAC)
此軟件的作者也是@shelher,是他基于開源的天若OCR開發(fā)的跨平臺(tái)版應(yīng)用,支持MAC,MAC用戶首推這個(gè)。
- 軟件下載方式請(qǐng)看文末
- 相當(dāng)于天若OCR的升級(jí)版,且推出了Mac版,因?yàn)樽髡弑硎咎烊鬙CR開源版不再進(jìn)行維護(hù),其實(shí)比起天若OCR,更推薦大家用這個(gè)。
- 同樣的必須聯(lián)網(wǎng)才能OCR識(shí)別。
3.天若批量文字識(shí)別(WIN)
軟件支持jpg,jpeg,png,bmp以及pdf幾種格式,識(shí)別文字之后自動(dòng)轉(zhuǎn)換成word文件,支持簡(jiǎn)單的排版。
- 軟件下載方式請(qǐng)看文末
- 同樣的必須聯(lián)網(wǎng)才能OCR識(shí)別。
4.漢王OCR(WIN)
漢王是國(guó)內(nèi)中文識(shí)別的老字號(hào)了,推出的軟件也是十分給力的。
- 軟件下載方式請(qǐng)看文末
- 阿虛提供一個(gè)漢王OCR單文件版,無(wú)需安裝就能直接使用,無(wú)需聯(lián)網(wǎng)就能使用,準(zhǔn)確率還很高。
5.文通TH-OCR(WIN)
文通和漢王一樣,是國(guó)內(nèi)老牌的做中文識(shí)別公司了,盡管很久沒(méi)更新了,但是識(shí)別率相當(dāng)不錯(cuò)!無(wú)需聯(lián)網(wǎng)即可OCR,下圖的測(cè)試圖片識(shí)別率100%(包括拼音)
- 軟件下載方式請(qǐng)看文末
- 每日可識(shí)別100頁(yè),也不怕用完,因?yàn)榻鉀Q這個(gè)其實(shí)很簡(jiǎn)單,點(diǎn)擊電腦桌面右下角把系統(tǒng)時(shí)間改一下,馬上又能識(shí)別100頁(yè)了。
6.其他推薦
軟件下載方式請(qǐng)看文末
OmniPage(WIN)
Nuance OmniPage Ultimate 19.0 Multilingual (ISO),據(jù)說(shuō)是世界最強(qiáng)英文OCR,辨識(shí)率超過(guò) 99%。軟件特別大,如果對(duì)英文識(shí)別要求特別特別高的可以用用這款軟件。
One Note(WIN / Mac )
官網(wǎng)下載:http://www.onenote.com/download/
在One Note中插入一張圖片,然后右鍵點(diǎn)擊圖片區(qū)域選擇「復(fù)制圖片中的文本」,即會(huì)完成OCR,接著在其他地方「Ctrl+V」粘貼即可。
iText(MAC)
App Store直接搜索接可以下載。但關(guān)于這個(gè)軟件使用上的“小技巧”,請(qǐng)查看文末后在公眾號(hào)上回復(fù)
iText 是 macOS 平臺(tái)的 OCR 工具,自帶截圖功能,選擇屏幕任意區(qū)域,即可識(shí)別其中的文字。
Cisdem = PDF Element > Acrobat
以上排名是對(duì)PDF的OCR效果
- Cisdem PDF Converter OCR(Mac)
- PDFElement Pro(WIN / Mac)
- Adobe Acrobat DC(WIN / Mac)
評(píng)測(cè)詳情可以看:蜜蜂軟件說(shuō),公眾號(hào) PDFElement、FineReade、Adobe Acrobat DC、Cisdem (Mac 單系統(tǒng))對(duì)比評(píng)測(cè) https://mp.weixin.qq.com/s/7EQy_inoPmmZ09olfOjVUg
7.關(guān)于PDF識(shí)別
PDF識(shí)別其實(shí)是個(gè)偽需求
如果是一般的PDF,那么你的需求應(yīng)該是PDF轉(zhuǎn)WORD,而不該是PDF文字識(shí)別。
- PDF轉(zhuǎn)WORD的軟件我已經(jīng)分享過(guò)了,請(qǐng)去看《兩個(gè)軟件,解決你所有的PDF轉(zhuǎn)換問(wèn)題》
- 而且實(shí)際上很多PDF編輯軟件也能直接導(dǎo)出WORD格式的文件,比如之前教程中提到的Adobe Acrobat DC,和上面提到的 PDFElement 都是可以完美把PDF導(dǎo)出為word格式的
如果是掃描版的PDF,你也不該是需求PDF識(shí)別,因?yàn)殡y免OCR識(shí)別會(huì)有錯(cuò)誤,那么你識(shí)別完之后依然需要挨著每頁(yè)對(duì)比查錯(cuò),那和你一頁(yè)一頁(yè)識(shí)別有什么差別呢?
所以推薦用上面介紹的樹洞OCR挨著截圖進(jìn)行識(shí)別。或者把你PDF導(dǎo)出為一張張的圖片,再用軟件一張張識(shí)別、對(duì)比查錯(cuò)。
作者:礪心
鏈接:https://www.zhihu.com/question/299395309/answer/645053956
來(lái)源:知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。
三、移動(dòng)端
QQ的掃一掃(騰訊OCR)、有道云筆記、Office lens、全能掃描王實(shí)測(cè)效果一般,甚至說(shuō)不佳,Adobe Scan,安卓手機(jī)需裝Google服務(wù)(門檻較高)這幾個(gè)就不推薦了
針對(duì)不同需求,阿虛推薦以下4個(gè)軟件
1.白描、Textgrabber(安卓 / IOS)
白描受眾人所捧,其實(shí)使用的是百度的OCR接口,眾人所知百度目前的核心是發(fā)展AI技術(shù),OCR做的不錯(cuò)也是理所應(yīng)當(dāng)?shù)摹#ò俣鹊腛CR接口不免費(fèi),這也是白描收費(fèi)的原因之一)
而Textgrabber是ABBYY公司出品的,可想而知識(shí)別效果會(huì)不錯(cuò)。
白描、Textgrabber安卓版下載方式請(qǐng)看文末
IOS用戶直接在App Store搜索即可下載
- 中文識(shí)別率排名:白描>Textgrabber>掃描全能王
- 英文識(shí)別率排名:Textgrabber>掃描全能王>白描
- 中英文混排識(shí)別率排名:Textgrabber>白描>掃描全能王
總的來(lái)說(shuō),識(shí)別中文文檔推薦白描,識(shí)別英文文檔推薦 Textgrabber。
馬小帥,知乎 Textgrabber、掃描全能王、白描對(duì)比評(píng)測(cè)
2.ABBYY FineScanner(IOS)
這款軟件App Store搜索即可下載
Vanilla(少數(shù)派)寫了一篇關(guān)于ABBYY FineScanner、Scanner Pro 和 Scanbot的評(píng)測(cè),簡(jiǎn)單直接可以看出差別:
Vanilla,少數(shù)派 ABBYY FineScanner、Scanner Pro 和 Scanbot對(duì)比評(píng)測(cè)
3.貓圖鷹(安卓 / IOS)
Android貓圖鷹下載方式請(qǐng)看文末,IOS在App Store搜索即可下載
白描和貓圖鷹對(duì)拍攝清晰的印刷體識(shí)別率基本上能達(dá)到準(zhǔn)確率100%
對(duì)手寫字的識(shí)別上,白描和貓圖鷹都很強(qiáng),識(shí)別率很高了。
貓圖鷹依然是會(huì)員制,但日常使用其實(shí)足夠,畢竟能批量OCR呢。
麥麥吃飯飯,公眾號(hào):海上羅欣 掃描全能王、白描、貓圖鷹對(duì)比評(píng)測(cè)
四、微信小程序
微信——發(fā)現(xiàn)——小程序——搜索小程序名
1.傳圖識(shí)字
一周進(jìn)步,知乎 https://www.zhihu.com/question/34873811/answer/465257494
2.微軟AI識(shí)圖
_ 方方面_,微博 https://weibo.com/2168219490/H7Lxu23LW
3.來(lái)降重
免費(fèi)額度計(jì)算用完也是仍能繼續(xù)免費(fèi)識(shí)別的。
測(cè)試了很多小程序,只有這一款能把左邊這段文字完美一字不差(符號(hào)也不差)的識(shí)別出來(lái)。
4.不推薦的小程序
迅捷文字識(shí)別
- 識(shí)別完之后只能看到識(shí)別結(jié)果,看不到原圖,不方便對(duì)比查錯(cuò)
圖片文字識(shí)別
- 識(shí)別效果不錯(cuò)(文字100%正確,部分符號(hào)識(shí)別有點(diǎn)問(wèn)題)
- 每天有限定次數(shù),但是可以每日簽到獲取次數(shù)
五、下載方式
以上提到的所有Windows、Mac、Android軟件的下載地址
- 聯(lián)網(wǎng)情況下,電腦上推薦用樹洞OCR(Windows+Mac)
- 未聯(lián)網(wǎng)情況下,電腦上推薦漢王OCR(無(wú)需安裝)或者文通OCR(需要安裝)
- 手機(jī)端,中文識(shí)別推薦白描,英文識(shí)別推薦Textgrabber
- 對(duì)手寫識(shí)別有需求推薦用白描、貓圖鷹、漢王OCR、文通OCR
- 輕度用戶推薦網(wǎng)頁(yè)版ocr.space、http://gkocr.com 或者 微信小程序:傳圖識(shí)字、微軟AI識(shí)圖、來(lái)降重
