<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          document-ocr文檔分析和識別項目

          聯(lián)合創(chuàng)作 · 2023-09-30 13:31

           document-ocr

          一個相對完整的文檔分析和識別項目含以下五部分:

          1. 文檔分析數(shù)據(jù),
          2. 識別數(shù)據(jù)合成工具,
          3. 文檔版面分析模型,
          4. 文本行識別模型,
          5. 單字識別模型

          Github地址

          Gitee地址

           數(shù)據(jù)

          數(shù)據(jù)從網(wǎng)絡(luò)抓取的公開上市公司年報數(shù)據(jù) PDF 文件解析生成,有圖片和文本的位置信息

          網(wǎng)盤下載地 提取碼: nn1g

          文本數(shù)據(jù)是標注到文本行的,部分數(shù)據(jù)會有些瑕疵,共34000樣本


          可以根據(jù)標注數(shù)據(jù)生成文本行識別數(shù)據(jù)

          識別數(shù)據(jù)合成

          單字和文本行數(shù)據(jù)合成工具 能比較好的過濾字體中不支持的字符

           相關(guān)算法實現(xiàn)


          所有代碼依賴 Tensorflow 1.14 和 opencv 3.x

          1. 版面分析
          2. 文本行識別
          3. 單字識別

           注

           - 代碼還有很多需要完善的地方,不在此列舉,歡迎各種 issue

           - 代碼中有很多參數(shù)沒有提出到命令行比如 learning_rate 等,希望使用的時候多讀下代碼
           

          瀏覽 23
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          編輯 分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          編輯 分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  天天干天天透天天操 | 伊人色香蕉 | 大香蕉论坛伊人在线网 | 久99久视频 | 精品在线观看视频 |