document-ocr文檔分析和識別項目
document-ocr
一個相對完整的文檔分析和識別項目含以下五部分:
1. 文檔分析數(shù)據(jù),
2. 識別數(shù)據(jù)合成工具,
3. 文檔版面分析模型,
4. 文本行識別模型,
5. 單字識別模型
數(shù)據(jù)
數(shù)據(jù)從網(wǎng)絡(luò)抓取的公開上市公司年報數(shù)據(jù) PDF 文件解析生成,有圖片和文本的位置信息
網(wǎng)盤下載地 提取碼: nn1g
文本數(shù)據(jù)是標注到文本行的,部分數(shù)據(jù)會有些瑕疵,共34000樣本
可以根據(jù)標注數(shù)據(jù)生成文本行識別數(shù)據(jù)
識別數(shù)據(jù)合成
單字和文本行數(shù)據(jù)合成工具 能比較好的過濾字體中不支持的字符
相關(guān)算法實現(xiàn)
所有代碼依賴 Tensorflow 1.14 和 opencv 3.x
注
- 代碼還有很多需要完善的地方,不在此列舉,歡迎各種 issue
- 代碼中有很多參數(shù)沒有提出到命令行比如 learning_rate 等,希望使用的時候多讀下代碼
評論
圖片
表情
