综合一区二区,色婷婷中文字幕,小早川怜子无码在线,国产一级a一级a看免费视频,国产黄色成人网站,伊人色色影院,欧美一区二区三区四区五区视频 ,在线观看的黄色小视频

導(dǎo) 讀

相信大家在工作生活中經(jīng)常會遇到表格識別的問題，比如導(dǎo)師說，把下面 PDF 文件里面的表格取出來整理成 Excel 表。

也可能會遇到，公司領(lǐng)導(dǎo)或者客戶發(fā)來一張截圖，需要里面的表格取出來轉(zhuǎn)成 Excel 表。

這種情況下你會怎么做呢，新建一個 Excel 一個一個數(shù)據(jù)敲么，辛辛苦苦半天趕出來，領(lǐng)導(dǎo)還會來一句，怎么這么慢，簡直郁悶死……

別著急，只要稍微會一點 Python 代碼，這個開源項目神器拯救你！

效果展示

版面分析 + 表格識別

如圖所示，針對一張完整的 PDF 圖片，這個開源項目可以對文檔圖片中的文本、表格、圖片、標題與列表區(qū)域進行分類。同時還可以利用表格識別技術(shù)完整地提取表格結(jié)構(gòu)信息，使得表格圖片變?yōu)榭删庉嫷?Excel 文件。

不僅僅是 PDF 文件轉(zhuǎn) excel，如果編程能力再強一些，結(jié)合版面分析技術(shù)，PDF 轉(zhuǎn) Word 都不在話下。

而且使用也是非常方便，在完成 Python whl 包安裝之后，簡單幾行代碼即可完成快速試用。

最終結(jié)果會輸出圖片文件夾，Excel 表和文字識別結(jié)果，確實是非常方便。

傳送門：

https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.2/ppstructure/README_ch.md

版面分析與表格識別核心技術(shù)概述

不管是版面分析還是表格識別，現(xiàn)有方案可大致分為基于圖像處理的傳統(tǒng)方法和基于深度學(xué)習的方法。

（1）傳統(tǒng)方法：版面分析比較著名的是 O’Gorman 在 1993 年 TPAMI 中發(fā)表的算法 Docstrum。通過自下而上的方法依次將圖像中的黑白連通域劃分為文字、文本行與文本塊，從而得到版面布局。表格識別的傳統(tǒng)方法通過腐蝕、膨脹等操作獲得表格線、劃分行列區(qū)域，然后將單元格與文本內(nèi)容相結(jié)合重構(gòu)為表格對象。但是傳統(tǒng)算法主要問題在于，對于版面布局分析和表格結(jié)構(gòu)的提取，圖像處理的方法依賴各種閾值和參數(shù)的選擇，對于不同場景下的文檔圖片難以保證泛化性。

（2）深度學(xué)習方法：除了直接使用檢測模型來對版面內(nèi)容進行分類以外，還融合了檢測、分割、圖神經(jīng)網(wǎng)絡(luò)、注意力機制等眾多前沿技術(shù)能力。依賴算法工程師對于深度神經(jīng)網(wǎng)絡(luò)的精心設(shè)計，可以不再依賴閾值與參數(shù)，具有更好的泛化性。

PP-Structure 核心技術(shù)解讀

版面分析技術(shù)

PP-Structure 的版面分析技術(shù)，主要是對圖片形式的文檔進行版面分析，將文檔劃分為文字、標題、表格、圖片以及列表 5 類區(qū)域（與 Layout-Parser 聯(lián)合使用）。其核心技術(shù)思路與 Layout-Parser 項目密切合作，參考了 Layout-Parser 的工程結(jié)構(gòu)設(shè)計，配合 PaddleDetection 開源的高效檢測算法 PP-YOLO v2，在數(shù)據(jù)集 TableBank 和 PubLayNet 上 mAP 分別達到 93.6 和 96.2， NVIDIA Tesla P40 耗時僅需 66.6ms，且可以支持用戶根據(jù)自己的數(shù)據(jù)自定義訓(xùn)練。

Layout-Parser 是開源的基于深度學(xué)習的文檔圖像分析工具箱，可用于布局檢測，字符識別和許多其他文檔處理任務(wù)，包含大量豐富模型，支持自定義 DL 模型，支持多個文檔布局檢測數(shù)據(jù)集。

GitHub 地址：

https://github.com/Layout-Parser/layout-parser

表格識別技術(shù)

表格識別技術(shù)則主要使用基于注意力機制的圖片描述模型 RARE，整體流程如下圖所示，對于其中的表格區(qū)域進行表格識別處理。

表格識別的難點主要在于表格結(jié)構(gòu)的提取，以及將表格信息與 OCR 信息融合。整體流程可以分為上下兩部分，其中上半部分（黑色支路）是普通的 OCR 過程，通過（1）文本檢測模塊對表格圖片進行單行文字檢測，獲得坐標，然后通過（2）文本識別模塊識別模型得到文字結(jié)果。

而在下半部分的在藍色支路中，表格圖片首先經(jīng)過（3）表格結(jié)構(gòu)預(yù)測模塊，獲得每個 Excel 單元格的四點坐標與表格結(jié)構(gòu)信息。結(jié)合黑色支路文本檢測獲得的單行文字文本框 4 點坐標，共同輸入（4）Cell 坐標聚合模塊，再通過（5）Cell 文本聚合模塊，將屬于同一單元格的文本拼接在一起。最后結(jié)合表格結(jié)構(gòu)信息，通過（6）Excel 導(dǎo)出模塊獲得 Excel 形式的表格數(shù)據(jù)。

下面分別針每個模塊分別展開介紹。

（1）文本檢測模塊 和（2）文本識別模塊：

主要使用 PP-OCR 提供的檢測和識別算法。

（3）表格結(jié)構(gòu)預(yù)測模塊，主要使用基于 Attention 的圖片描述模型 RARE，RARE 模型可以實現(xiàn)：輸入一張圖片，通過帶有注意力機制的網(wǎng)絡(luò)輸出一段文字，描述圖片的內(nèi)容，而針對于表格圖片的圖片描述網(wǎng)絡(luò)，輸入一張經(jīng)過版面分析的表格圖片，輸出的是一串 HTML 字符（如下圖所示）。表格的結(jié)構(gòu)通過 HTML 的結(jié)構(gòu)標記表示，其中的內(nèi)容即為表格文本中的內(nèi)容。通過進一步的 HTML 解析，可以獲得每個文本的單元格四點坐標和表格結(jié)構(gòu)信息。

（4）Cell 坐標聚合模塊，主要用來解決如何將跨行單元格的文本重新拼接在一個單元格內(nèi)的問題。它通過計算由文本檢測算法獲得的文本框坐標（紅色框）與表格結(jié)構(gòu)預(yù)測模塊得到的 Cell 坐標（藍色框）之間的 IOU 和頂點距離來進行單行到多行的聚合。使用 IOU 判斷哪些紅色框同屬于一個藍色框，使用頂點距離和 IOU 判斷紅色框的排列順序。

（5）Cell 文本聚合模塊，根據(jù)已有的紅色文本框順序，按照從上到下從左到右順序利用（4）Cell 坐標聚合模塊的結(jié)果將（2）文本識別結(jié)果和進行拼接，這樣對于多行文本的單元格內(nèi)容即可拼接成一個字符串。

（6）Excel 導(dǎo)出模塊，將（3）表格結(jié)構(gòu)預(yù)測結(jié)果 html 結(jié)果與（5）Cell 文本聚合模塊文本結(jié)果結(jié)合，最終導(dǎo)出為 Excel 輸出。

以上所有內(nèi)容均在 PaddleOCR 項目開源，目前 star 數(shù)量超過 13.5k

相關(guān)延伸閱讀：

PaddleOCR 歷史表現(xiàn)回顧

2020 年 6 月，8.6M 超輕量模型發(fā)布，GitHub Trending 全球趨勢榜日榜第一。
2020 年 8 月，開源 CVPR2020 頂會算法，再上 GitHub 趨勢榜單！
2020 年 10 月，發(fā)布 PP-OCR 算法，開源 3.5M 超超輕量模型，再下 Paperswithcode 趨勢榜第一
2021 年 1 月，發(fā)布 Style-Text 文本合成算法，PPOCRLabel 數(shù)據(jù)標注工具，star 數(shù)量突破 10000+，截至目前已經(jīng)達到 11.5k，在《Github 2020 數(shù)字洞察報告》中被評為中國 GithubTop20 活躍項目。
2021 年 4 月，開源 AAAI 頂會論文 PGNet 端到端識別算法，Star 突破 13k
2021 年 8 月，開源版面分析與表格識別算法