拒絕加班狗,PDF一行代碼提取Excel文件
導(dǎo) 讀
相信大家在工作生活中經(jīng)常會遇到表格識別的問題,比如導(dǎo)師說,把下面 PDF 文件里面的表格取出來整理成 Excel 表。


這種情況下你會怎么做呢,新建一個 Excel 一個一個數(shù)據(jù)敲么,辛辛苦苦半天趕出來,領(lǐng)導(dǎo)還會來一句,怎么這么慢,簡直郁悶死……

效果展示
版面分析 + 表格識別


如圖所示,針對一張完整的 PDF 圖片,這個開源項目可以對文檔圖片中的文本、表格、圖片、標題與列表區(qū)域進行分類。同時還可以利用表格識別技術(shù)完整地提取表格結(jié)構(gòu)信息,使得表格圖片變?yōu)榭删庉嫷?Excel 文件。
不僅僅是 PDF 文件轉(zhuǎn) excel,如果編程能力再強一些,結(jié)合版面分析技術(shù),PDF 轉(zhuǎn) Word 都不在話下。
而且使用也是非常方便,在完成 Python whl 包安裝之后,簡單幾行代碼即可完成快速試用。

最終結(jié)果會輸出圖片文件夾,Excel 表和文字識別結(jié)果,確實是非常方便。
傳送門:
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.2/ppstructure/README_ch.md
版面分析與表格識別核心技術(shù)概述
(1)傳統(tǒng)方法:版面分析比較著名的是 O’Gorman 在 1993 年 TPAMI 中發(fā)表的算法 Docstrum。通過自下而上的方法依次將圖像中的黑白連通域劃分為文字、文本行與文本塊,從而得到版面布局。表格識別的傳統(tǒng)方法通過腐蝕、膨脹等操作獲得表格線、劃分行列區(qū)域,然后將單元格與文本內(nèi)容相結(jié)合重構(gòu)為表格對象。但是傳統(tǒng)算法主要問題在于,對于版面布局分析和表格結(jié)構(gòu)的提取,圖像處理的方法依賴各種閾值和參數(shù)的選擇,對于不同場景下的文檔圖片難以保證泛化性。
(2)深度學(xué)習方法:除了直接使用檢測模型來對版面內(nèi)容進行分類以外,還融合了檢測、分割、圖神經(jīng)網(wǎng)絡(luò)、注意力機制等眾多前沿技術(shù)能力。依賴算法工程師對于深度神經(jīng)網(wǎng)絡(luò)的精心設(shè)計,可以不再依賴閾值與參數(shù),具有更好的泛化性。
PP-Structure 核心技術(shù)解讀

版面分析技術(shù)
Layout-Parser 是開源的基于深度學(xué)習的文檔圖像分析工具箱,可用于布局檢測,字符識別和許多其他文檔處理任務(wù),包含大量豐富模型,支持自定義 DL 模型,支持多個文檔布局檢測數(shù)據(jù)集。

GitHub 地址:
https://github.com/Layout-Parser/layout-parser
表格識別技術(shù)


(4)Cell 坐標聚合模塊,主要用來解決如何將跨行單元格的文本重新拼接在一個單元格內(nèi)的問題。它通過計算由文本檢測算法獲得的文本框坐標(紅色框)與表格結(jié)構(gòu)預(yù)測模塊得到的 Cell 坐標(藍色框)之間的 IOU 和頂點距離來進行單行到多行的聚合。使用 IOU 判斷哪些紅色框同屬于一個藍色框,使用頂點距離和 IOU 判斷紅色框的排列順序。

(5)Cell 文本聚合模塊,根據(jù)已有的紅色文本框順序,按照從上到下從左到右順序利用(4)Cell 坐標聚合模塊的結(jié)果將(2)文本識別結(jié)果和進行拼接,這樣對于多行文本的單元格內(nèi)容即可拼接成一個字符串。
(6)Excel 導(dǎo)出模塊,將(3)表格結(jié)構(gòu)預(yù)測結(jié)果 html 結(jié)果與(5)Cell 文本聚合模塊文本結(jié)果結(jié)合,最終導(dǎo)出為 Excel 輸出。
以上所有內(nèi)容均在 PaddleOCR 項目開源,目前 star 數(shù)量超過 13.5k
相關(guān)延伸閱讀:
PaddleOCR 歷史表現(xiàn)回顧
2020 年 6 月,8.6M 超輕量模型發(fā)布,GitHub Trending 全球趨勢榜日榜第一。
2020 年 8 月,開源 CVPR2020 頂會算法,再上 GitHub 趨勢榜單!
2020 年 10 月,發(fā)布 PP-OCR 算法,開源 3.5M 超超輕量模型,再下 Paperswithcode 趨勢榜第一
2021 年 1 月,發(fā)布 Style-Text 文本合成算法,PPOCRLabel 數(shù)據(jù)標注工具,star 數(shù)量突破 10000+,截至目前已經(jīng)達到 11.5k,在《Github 2020 數(shù)字洞察報告》中被評為中國 GithubTop20 活躍項目。
2021 年 4 月,開源 AAAI 頂會論文 PGNet 端到端識別算法,Star 突破 13k
2021 年 8 月,開源版面分析與表格識別算法

文本檢測識別效果:

這個最強 OCR 項目,你值得擁有:
https://github.com/PaddlePaddle/PaddleOCR

8 月 12 日(周四)20:15-21:30 百度高級研發(fā)工程師將帶我們解讀文檔分析技術(shù) PP-Structure 及 PaddleOCR 應(yīng)用落地經(jīng)驗,歡迎大家踴躍報名直播課!
掃描二維碼報名,立即加入交流群

?PaddleOCR 項目地址?
Gitee:
https://gitee.com/paddlepaddle/PaddleOCR
官網(wǎng)地址
戳原文,更有料!
