docTROCR 文檔文本識別庫
由 TensorFlow 2 和 PyTorch 提供支持,任何人都可以無縫訪問光學字符識別
獲取預訓練模型
使用兩階段方法在 docTR 中實現(xiàn)端到端 OCR:文本檢測(定位單詞),然后文本識別(識別單詞中的所有字符)。因此,可以從可用實現(xiàn)列表中選擇用于文本檢測的架構(gòu)和用于文本識別的架構(gòu)。
from doctr.models import ocr_predictor model = ocr_predictor(det_arch='db_resnet50', reco_arch='crnn_vgg16_bn', pretrained=True)
讀取文件
可以從 PDF 或圖像解釋文檔:
from doctr.io import DocumentFile # PDF pdf_doc = DocumentFile.from_pdf("path/to/your/doc.pdf").as_images() # Image single_img_doc = DocumentFile.from_images("path/to/your/img.jpg") # Webpage webpage_doc = DocumentFile.from_url("https://www.yoursite.com").as_images() # Multiple page images multi_img_doc = DocumentFile.from_images(["path/to/page1.jpg", "path/to/page2.jpg"])
以默認的預訓練模型為例:
from doctr.io import DocumentFile from doctr.models import ocr_predictor model = ocr_predictor(pretrained=True) # PDF doc = DocumentFile.from_pdf("path/to/your/doc.pdf").as_images() # Analyze result = model(doc)
安裝
安裝 docTR 需要 Python 3.6(或更高版本)和 pip。
由于使用了 weasyprint,如果沒有運行在 Linux 系統(tǒng)之上,將需要額外的依賴項。
對于 macOS 用戶,可以按如下方式安裝它們:
brew install cairo pango gdk-pixbuf libffi
對于 Windows 用戶,這些依賴項包含在 GTK 中。
最新版本
可以使用 pypi 安裝最新版本的軟件包,如下所示:
pip install python-doctr
評論
圖片
表情
