GitHub Star 13.6k,頂級(jí)項(xiàng)目全新開源表格識(shí)別算法
導(dǎo) 讀


這種情況下你會(huì)怎么做呢,新建一個(gè)Excel一個(gè)一個(gè)數(shù)據(jù)敲么,辛辛苦苦半天趕出來(lái),領(lǐng)導(dǎo)還會(huì)來(lái)一句,怎么這么慢,簡(jiǎn)直郁悶死……

效果展示
版面分析+表格識(shí)別


如圖所示,針對(duì)一張完整的PDF圖片,這個(gè)開源項(xiàng)目可以對(duì)文檔圖片中的文本、表格、圖片、標(biāo)題與列表區(qū)域進(jìn)行分類。同時(shí)還可以利用表格識(shí)別技術(shù)完整地提取表格結(jié)構(gòu)信息,使得表格圖片變?yōu)榭删庉嫷腅xcel文件。
不僅僅是PDF文件轉(zhuǎn)excel,如果編程能力再?gòu)?qiáng)一些,結(jié)合版面分析技術(shù),PDF轉(zhuǎn)Word都不在話下。
而且使用也是非常方便,在完成Python whl包安裝之后,簡(jiǎn)單幾行代碼即可完成快速試用。

最終結(jié)果會(huì)輸出圖片文件夾,Excel表和文字識(shí)別結(jié)果,確實(shí)是非常方便。
傳送門:
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.2/ppstructure/README_ch.md
版面分析與表格識(shí)別核心技術(shù)概述
(1)傳統(tǒng)方法:版面分析比較著名的是O’Gorman在1993年TPAMI中發(fā)表的算法Docstrum。通過(guò)自下而上的方法依次將圖像中的黑白連通域劃分為文字、文本行與文本塊,從而得到版面布局。表格識(shí)別的傳統(tǒng)方法通過(guò)腐蝕、膨脹等操作獲得表格線、劃分行列區(qū)域,然后將單元格與文本內(nèi)容相結(jié)合重構(gòu)為表格對(duì)象。但是傳統(tǒng)算法主要問(wèn)題在于,對(duì)于版面布局分析和表格結(jié)構(gòu)的提取,圖像處理的方法依賴各種閾值和參數(shù)的選擇,對(duì)于不同場(chǎng)景下的文檔圖片難以保證泛化性。
(2)深度學(xué)習(xí)方法:除了直接使用檢測(cè)模型來(lái)對(duì)版面內(nèi)容進(jìn)行分類以外,還融合了檢測(cè)、分割、圖神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制等眾多前沿技術(shù)能力。依賴算法工程師對(duì)于深度神經(jīng)網(wǎng)絡(luò)的精心設(shè)計(jì),可以不再依賴閾值與參數(shù),具有更好的泛化性。
PP-Structure核心技術(shù)解讀

版面分析技術(shù)
Layout-Parser是開源的基于深度學(xué)習(xí)的文檔圖像分析工具箱,可用于布局檢測(cè),字符識(shí)別和許多其他文檔處理任務(wù),包含大量豐富模型,支持自定義DL模型,支持多個(gè)文檔布局檢測(cè)數(shù)據(jù)集。

GitHub地址:
https://github.com/Layout-Parser/layout-parser
表格識(shí)別技術(shù)


(4)Cell坐標(biāo)聚合模塊,主要用來(lái)解決如何將跨行單元格的文本重新拼接在一個(gè)單元格內(nèi)的問(wèn)題。它通過(guò)計(jì)算由文本檢測(cè)算法獲得的文本框坐標(biāo)(紅色框)與表格結(jié)構(gòu)預(yù)測(cè)模塊得到的Cell坐標(biāo)(藍(lán)色框)之間的IOU和頂點(diǎn)距離來(lái)進(jìn)行單行到多行的聚合。使用IOU判斷哪些紅色框同屬于一個(gè)藍(lán)色框,使用頂點(diǎn)距離和IOU判斷紅色框的排列順序。

(5)Cell文本聚合模塊,根據(jù)已有的紅色文本框順序,按照從上到下從左到右順序利用(4)Cell坐標(biāo)聚合模塊的結(jié)果將(2)文本識(shí)別結(jié)果和進(jìn)行拼接,這樣對(duì)于多行文本的單元格內(nèi)容即可拼接成一個(gè)字符串。
(6)Excel導(dǎo)出模塊,將(3)表格結(jié)構(gòu)預(yù)測(cè)結(jié)果html結(jié)果與(5)Cell文本聚合模塊文本結(jié)果結(jié)合,最終導(dǎo)出為Excel輸出。
以上所有內(nèi)容均在PaddleOCR項(xiàng)目開源,目前star數(shù)量超過(guò)13.5k
相關(guān)延伸閱讀:
PaddleOCR歷史表現(xiàn)回顧
2020年6月,8.6M超輕量模型發(fā)布,GitHub Trending 全球趨勢(shì)榜日榜第一。
2020年8月,開源CVPR2020頂會(huì)算法,再上GitHub趨勢(shì)榜單!
2020年10月,發(fā)布PP-OCR算法,開源3.5M超超輕量模型,再下Paperswithcode 趨勢(shì)榜第一
2021年1月,發(fā)布Style-Text文本合成算法,PPOCRLabel數(shù)據(jù)標(biāo)注工具,star數(shù)量突破10000+,截至目前已經(jīng)達(dá)到11.5k,在《Github 2020數(shù)字洞察報(bào)告》中被評(píng)為中國(guó)GithubTop20活躍項(xiàng)目。
2021年4月,開源AAAI頂會(huì)論文PGNet端到端識(shí)別算法,Star突破13k
2021年8月,開源版面分析與表格識(shí)別算法

文本檢測(cè)識(shí)別效果:

這個(gè)最強(qiáng)OCR項(xiàng)目,你值得擁有:
https://github.com/PaddlePaddle/PaddleOCR

8月12日(周四)20:15-21:30百度高級(jí)研發(fā)工程師將帶我們解讀文檔分析技術(shù)PP-Structure及PaddleOCR應(yīng)用落地經(jīng)驗(yàn),歡迎大家踴躍報(bào)名直播課!
掃描二維碼報(bào)名,立即加入交流群

·PaddleOCR項(xiàng)目地址·
Gitee:
https://gitee.com/paddlepaddle/PaddleOCR
