<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Github標星13.6k!一行代碼從PDF提取Excel文件

          共 4568字,需瀏覽 10分鐘

           ·

          2021-08-10 01:32

           Datawhale干貨 
          開源技術:OCR開源技術

          我們在工作生活中經(jīng)常會遇到表格識別的問題,比如導師說,把下面PDF文件里面的表格取出來整理成Excel表。


          只要稍微會一點Python,這個開源項目神器幾行代碼解決!



          使用展示


          版面分析+表格識別


          如圖所示,針對一張完整的PDF圖片,這個開源項目可以對文檔圖片中的文本、表格、圖片、標題與列表區(qū)域進行分類。同時還可以利用表格識別技術完整地提取表格結構信息,使得表格圖片變?yōu)榭删庉嫷腅xcel文件。


          不僅僅是PDF文件轉excel,如果編程能力再強一些,結合版面分析技術,PDF轉Word都不在話下。


          而且使用也是非常方便,在完成Python whl包安裝之后,簡單幾行代碼即可完成快速試用。


          最終結果會輸出圖片文件夾,Excel表和文字識別結果。

           

          開源地址:

          https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.2/ppstructure/README_ch.md





          版面分析與表格識別核心技術概述


          不管是版面分析還是表格識別,現(xiàn)有方案可大致分為基于圖像處理的傳統(tǒng)方法和基于深度學習的方法。


          1.傳統(tǒng)方法:版面分析比較著名的是O’Gorman在1993年TPAMI中發(fā)表的算法Docstrum。通過自下而上的方法依次將圖像中的黑白連通域劃分為文字、文本行與文本塊,從而得到版面布局。表格識別的傳統(tǒng)方法通過腐蝕、膨脹等操作獲得表格線、劃分行列區(qū)域,然后將單元格與文本內容相結合重構為表格對象。但是傳統(tǒng)算法主要問題在于,對于版面布局分析和表格結構的提取,圖像處理的方法依賴各種閾值和參數(shù)的選擇,對于不同場景下的文檔圖片難以保證泛化性。


          2.深度學習方法:除了直接使用檢測模型來對版面內容進行分類以外,還融合了檢測、分割、圖神經(jīng)網(wǎng)絡、注意力機制等眾多前沿技術能力。依賴算法工程師對于深度神經(jīng)網(wǎng)絡的精心設計,可以不再依賴閾值與參數(shù),具有更好的泛化性。




          PP-Structure核心技術解讀



          • 版面分析技術
          PP-Structure的版面分析技術,主要是對圖片形式的文檔進行版面分析,將文檔劃分為文字、標題、表格、圖片以及列表5類區(qū)域(與Layout-Parser聯(lián)合使用)。其核心技術思路與Layout-Parser項目密切合作,參考了Layout-Parser的工程結構設計,配合PaddleDetection開源的高效檢測算法PP-YOLO v2,在數(shù)據(jù)集TableBank和PubLayNet上mAP分別達到93.6和96.2, NVIDIA Tesla P40 耗時僅需66.6ms,且可以支持用戶根據(jù)自己的數(shù)據(jù)自定義訓練。

          Layout-Parser是開源的基于深度學習的文檔圖像分析工具箱,可用于布局檢測,字符識別和許多其他文檔處理任務,包含大量豐富模型,支持自定義DL模型,支持多個文檔布局檢測數(shù)據(jù)集。

          GitHub地址:

          https://github.com/Layout-Parser/layout-parser


          • 表格識別技術
          表格識別技術則主要使用基于注意力機制的圖片描述模型RARE,整體流程如下圖所示,對于其中的表格區(qū)域進行表格識別處理。


          表格識別的難點主要在于表格結構的提取,以及將表格信息與OCR信息融合。整體流程可以分為上下兩部分,其中上半部分(黑色支路)是普通的OCR過程,通過(1)文本檢測模塊對表格圖片進行單行文字檢測,獲得坐標,然后通過(2)文本識別模塊識別模型得到文字結果。

          而在下半部分的在藍色支路中,表格圖片首先經(jīng)過(3)表格結構預測模塊,獲得每個Excel單元格的四點坐標與表格結構信息。結合黑色支路文本檢測獲得的單行文字文本框4點坐標,共同輸入(4)Cell坐標聚合模塊,再通過(5)Cell文本聚合模塊,將屬于同一單元格的文本拼接在一起。最后結合表格結構信息,通過(6)Excel導出模塊獲得Excel形式的表格數(shù)據(jù)。

          下面分別針每個模塊分別展開介紹。

          1. 文本檢測模塊  2. 文本識別模塊
          主要使用PP-OCR提供的檢測和識別算法。

          3. 表格結構預測模塊,主要使用基于Attention的圖片描述模型RARE,RARE模型可以實現(xiàn):輸入一張圖片,通過帶有注意力機制的網(wǎng)絡輸出一段文字,描述圖片的內容,而針對于表格圖片的圖片描述網(wǎng)絡,輸入一張經(jīng)過版面分析的表格圖片,輸出的是一串HTML字符(如下圖所示)。表格的結構通過HTML的結構標記表示,其中的內容即為表格文本中的內容。通過進一步的HTML解析,可以獲得每個文本的單元格四點坐標和表格結構信息。


          4. Cell坐標聚合模塊,主要用來解決如何將跨行單元格的文本重新拼接在一個單元格內的問題。它通過計算由文本檢測算法獲得的文本框坐標(紅色框)與表格結構預測模塊得到的Cell坐標(藍色框)之間的IOU和頂點距離來進行單行到多行的聚合。使用IOU判斷哪些紅色框同屬于一個藍色框,使用頂點距離和IOU判斷紅色框的排列順序。



          5. Cell文本聚合模塊,根據(jù)已有的紅色文本框順序,按照從上到下從左到右順序利用(4)Cell坐標聚合模塊的結果將(2)文本識別結果和進行拼接,這樣對于多行文本的單元格內容即可拼接成一個字符串。


          6. Excel導出模塊,將(3)表格結構預測結果html結果與(5)Cell文本聚合模塊文本結果結合,最終導出為Excel輸出。


          以上所有內容均在PaddleOCR項目開源,目前star數(shù)量超過13.5k




          延伸閱讀:

          PaddleOCR歷史表現(xiàn)回顧


          • 2020年6月,8.6M超輕量模型發(fā)布,GitHub Trending 全球趨勢榜日榜第一。

          • 2020年8月,開源CVPR2020頂會算法,再上GitHub趨勢榜單!

          • 2020年10月,發(fā)布PP-OCR算法,開源3.5M超超輕量模型,再下Paperswithcode 趨勢榜第一。

          • 2021年1月,發(fā)布Style-Text文本合成算法,PPOCRLabel數(shù)據(jù)標注工具,star數(shù)量突破10000+,截至目前已經(jīng)達到11.5k,在《Github 2020數(shù)字洞察報告》中被評為中國GithubTop20活躍項目。

          • 2021年4月,開源AAAI頂會論文PGNet端到端識別算法,Star突破13k

          • 2021年8月,開源版面分析與表格識別算法。



          文本檢測識別效果:



          這個最強OCR項目,值得擁有:

          https://github.com/PaddlePaddle/PaddleOCR




          相關學習


          8月12日(周四)20:15-21:30百度高級研發(fā)工程師將帶我們解讀文檔分析技術PP-Structure及PaddleOCR應用落地經(jīng)驗,歡迎大家踴躍報名直播課!

           

          掃描二維碼,加入交流群


          點擊閱讀原文可直接報名

          瀏覽 73
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本免费黄色 | 中国一区二区毛片 | 99在线观看| 国产乱婬A∨片免费视频牛牛 | 91AV免费在线观看 |