Tesseract OCR圖像識別類庫
Tesseract OCR 該軟件包包含一個OCR引擎 - libtesseract和一個命令行程序 - tesseract。 Tesseract 4增加了一個基于OCR引擎的新神經(jīng)網(wǎng)絡(LSTM),該引擎專注于線路識別,但仍然支持Tesseract 3的傳統(tǒng)Tesseract OCR引擎,該引擎通過識別字符模式來工作。通過使用Legacy OCR Engine模式(--oem 0)啟用與Tesseract 3的兼容性。它還需要訓練有素的數(shù)據(jù)文件,這些文件支持傳統(tǒng)引擎,例如來自tessdata存儲庫的文件。
Tesseract 架構:
首席開發(fā)人員是Ray Smith。維護者是Zdenko Podobny。有關貢獻者的列表,請參閱AUTHORS和GitHub的貢獻者日志。
Tesseract 支持 unicode(UTF-8),可以“開箱即用” 識別100多種語言。
Tesseract支持各種輸出格式:純文本,hOCR(HTML),PDF,不可見文本的PDF,TSV。主分支還具有ALTO(XML)輸出的實驗支持。
您應該注意,在許多情況下,為了獲得更好的OCR結果,需要提高您給Tesseract的圖像質(zhì)量。
該項目不包括GUI應用程序。如果您需要,請參閱3rdParty維基頁面。
可以訓練Tesseract識別其他語言。有關詳細信息,請參閱Tesseract培訓。
支持的編譯器:
- GCC 4.8 and above
- Clang 3.4 and above
- MSVC 2015, 2017, 2019
評論
圖片
表情
