【回顧】支持 90+ 語言的文檔 OCR 工具包
共 1693字,需瀏覽 4分鐘
·
2024-07-23 19:30
大家好,又見面了,我是 GitHub 精選君!
背景介紹
隨著科技的發(fā)展和全球化的進(jìn)程,我們經(jīng)常遇到需要處理多語種文檔的情況,例如商業(yè)合同、學(xué)術(shù)論文等。然而,當(dāng)前主流的 OCR(Optical Character Recognition 光學(xué)字符識(shí)別)工具或許可以精準(zhǔn)地識(shí)別英文文本,但對(duì)其他語種的文本識(shí)別能力卻略顯薄弱。此外,真實(shí)世界的文檔常常包含表格、圖表等復(fù)雜布局,充斥著線性、非線性排列的文本,這也增加了文本識(shí)別的難度。因此,我們急需一個(gè)精確度高、支持多語種、能智能識(shí)別文本和表格的 OCR 工具。
今天要給大家推薦一個(gè) GitHub 開源項(xiàng)目 VikParuchuri/surya,該項(xiàng)目在 GitHub 有超過 3.5k Star,一句話介紹該項(xiàng)目:Accurate line-level text detection and recognition (OCR) in any language.
項(xiàng)目介紹
Surya 一個(gè)多語言文檔 OCR 工具包。其功能不僅包括精確的行級(jí)文本檢測(cè),還將解決更為復(fù)雜的文本識(shí)別和表格/圖表識(shí)別問題。該項(xiàng)目對(duì)多種文檔和語言作了優(yōu)化,可應(yīng)用于新聞、科學(xué)論文、掃描文件等眾多場(chǎng)景。
以下是 Surya 與 Tesseract 的性能對(duì)比:
如何使用
你需要有 python 3.9+ 版本和 PyTorch,然后你可以用命令 pip install surya-ocr 來安裝。模型將在你第一次運(yùn)行 surya 時(shí)自動(dòng)下載。在運(yùn)行程序時(shí),可以通過環(huán)境變量來更改 surya/settings.py 中的設(shè)置。您還可以用以下代碼檢測(cè)文本行:
from PIL import Image
from surya.detection import batch_detection
from surya.model.segformer import load_model, load_processor
image = Image.open(IMAGE_PATH)
model, processor = load_model(), load_processor()
# predictions is a list of dicts, one per image
predictions = batch_detection([image], model, processor)
更多語言的代碼示例項(xiàng)目也提供了:
項(xiàng)目推介
盡管 Surya 仍處于初期階段,其精準(zhǔn)度和效率在一定程度上已經(jīng)超過了如 Tesseract 等其他 OCR 工具,且將逐漸開發(fā)出對(duì)文本識(shí)別和表格/圖表識(shí)別的功能。
以下是該項(xiàng)目 Star 趨勢(shì)圖(代表項(xiàng)目的活躍程度):
更多項(xiàng)目詳情請(qǐng)查看如下鏈接。
開源項(xiàng)目地址:https://github.com/VikParuchuri/surya
開源項(xiàng)目作者:VikParuchuri
開源協(xié)議:GNU General Public License v3.0
關(guān)注我們,一起探索有意思的開源項(xiàng)目。
點(diǎn)擊如下卡片后臺(tái)回復(fù):加群,與技術(shù)極客們一起交流人工智能、開源項(xiàng)目,一起成長。如果你正在尋求開源項(xiàng)目推廣、DevOps、AIGC 大模型、軟件開發(fā)等領(lǐng)域的付費(fèi)服務(wù),可參考推文了解詳情。
