色播婷婷丁香五月天,久久久一卡二卡,波多野结衣亚洲,操逼免费无码,女人高潮在线看91,国产在线资源,亚洲人77777,色婷婷在线视频网站

關(guān)注 "GitHub精選"，設(shè)為 "星標(biāo)"

探索有意思的開源項(xiàng)目

大家好，又見面了，我是 GitHub 精選君！

背景介紹

隨著科技的發(fā)展和全球化的進(jìn)程，我們經(jīng)常遇到需要處理多語種文檔的情況，例如商業(yè)合同、學(xué)術(shù)論文等。然而，當(dāng)前主流的 OCR（Optical Character Recognition 光學(xué)字符識(shí)別）工具或許可以精準(zhǔn)地識(shí)別英文文本，但對(duì)其他語種的文本識(shí)別能力卻略顯薄弱。此外，真實(shí)世界的文檔常常包含表格、圖表等復(fù)雜布局，充斥著線性、非線性排列的文本，這也增加了文本識(shí)別的難度。因此，我們急需一個(gè)精確度高、支持多語種、能智能識(shí)別文本和表格的 OCR 工具。

今天要給大家推薦一個(gè) GitHub 開源項(xiàng)目 VikParuchuri/surya，該項(xiàng)目在 GitHub 有超過 3.5k Star，一句話介紹該項(xiàng)目：Accurate line-level text detection and recognition (OCR) in any language.

項(xiàng)目介紹

Surya 一個(gè)多語言文檔 OCR 工具包。其功能不僅包括精確的行級(jí)文本檢測(cè)，還將解決更為復(fù)雜的文本識(shí)別和表格/圖表識(shí)別問題。該項(xiàng)目對(duì)多種文檔和語言作了優(yōu)化，可應(yīng)用于新聞、科學(xué)論文、掃描文件等眾多場(chǎng)景。

以下是 Surya 與 Tesseract 的性能對(duì)比：

如何使用

你需要有 python 3.9+ 版本和 PyTorch，然后你可以用命令 pip install surya-ocr 來安裝。模型將在你第一次運(yùn)行 surya 時(shí)自動(dòng)下載。在運(yùn)行程序時(shí)，可以通過環(huán)境變量來更改 surya/settings.py 中的設(shè)置。您還可以用以下代碼檢測(cè)文本行：

from PIL import Image
from surya.detection import batch_detection
from surya.model.segformer import load_model, load_processor

image = Image.open(IMAGE_PATH)
model, processor = load_model(), load_processor()

# predictions is a list of dicts, one per image
predictions = batch_detection([image], model, processor)

更多語言的代碼示例項(xiàng)目也提供了：

項(xiàng)目推介

盡管 Surya 仍處于初期階段，其精準(zhǔn)度和效率在一定程度上已經(jīng)超過了如 Tesseract 等其他 OCR 工具，且將逐漸開發(fā)出對(duì)文本識(shí)別和表格/圖表識(shí)別的功能。

以下是該項(xiàng)目 Star 趨勢(shì)圖（代表項(xiàng)目的活躍程度）：

更多項(xiàng)目詳情請(qǐng)查看如下鏈接。

開源項(xiàng)目地址：https://github.com/VikParuchuri/surya

開源項(xiàng)目作者：VikParuchuri

開源協(xié)議：GNU General Public License v3.0

關(guān)注我們，一起探索有意思的開源項(xiàng)目。

點(diǎn)擊如下卡片后臺(tái)回復(fù)：加群，與技術(shù)極客們一起交流人工智能、開源項(xiàng)目，一起成長。如果你正在尋求開源項(xiàng)目推廣、DevOps、AIGC 大模型、軟件開發(fā)等領(lǐng)域的付費(fèi)服務(wù)，可參考推文了解詳情。

點(diǎn)擊在看支持一下吧

【回顧】支持 90+ 語言的文檔 OCR 工具包

背景介紹

項(xiàng)目介紹

如何使用

項(xiàng)目推介