MindOCROCR 開發(fā)及應(yīng)用工具箱
MindOCR是一個基于 MindSpore 框架的 OCR 開發(fā)及應(yīng)用的開源工具箱,可以幫助用戶訓(xùn)練、應(yīng)用業(yè)界最有優(yōu)的文本檢測、文本識別模型,例如DBNet/DBNet++和CRNN/SVTR,以實現(xiàn)圖像文本理解的需求。
主要特性:
- 模塊化設(shè)計: MindOCR將OCR任務(wù)解耦成多個可配置模塊,用戶只需修改幾行代碼,就可以輕松地在定制化的數(shù)據(jù)和模型上配置訓(xùn)練、評估的全流程;
- 高性能: MindOCR提供的預(yù)訓(xùn)練權(quán)重和訓(xùn)練方法可以使其達(dá)到OCR任務(wù)上具有競爭力的表現(xiàn);
- 易用性: MindOCR提供易用工具幫助在真實世界數(shù)據(jù)中進(jìn)行文本的檢測和識別(敬請期待)。
支持模型及性能
文本檢測
下表是目前支持的文本檢測模型和它們在ICDAR2015測試數(shù)據(jù)集上的精度數(shù)據(jù):
| 模型 | 骨干網(wǎng)絡(luò) | 預(yù)訓(xùn)練 | Recall | Precision | F-score | 配置文件 |
|---|---|---|---|---|---|---|
| DBNet | ResNet-50 | ImageNet | 81.97% | 86.05% | 83.96% | YAML |
| DBNet++ | ResNet-50 | ImageNet | 82.02% | 87.38% | 84.62% | YAML |
文本識別
下表是目前支持的文本識別模型和它們在公開測評數(shù)據(jù)集 (IIIT, SVT, IC03, IC13, IC15, SVTP, CUTE) 上的精度數(shù)據(jù):
| 模型 | 骨干網(wǎng)絡(luò) | 平均準(zhǔn)確率 | 配置文件 |
|---|---|---|---|
| CRNN | VGG7 | 82.03% | YAML |
| CRNN | Resnet34_vd | 84.45% | YAML |
評論
圖片
表情
