Any2Excel基于 Python 的圖像內(nèi)表格數(shù)據(jù)提取工具
Any2Excel 是一款使用 Python 編寫的圖像內(nèi)表格數(shù)據(jù)提取工具,可以高效識別 PDF 原件、掃描件、復(fù)印件、彩色(黑白)照片、截圖內(nèi)的數(shù)據(jù)表格,提取后轉(zhuǎn)為 Excel 文件輸出。
這是一款開源工具,我給它取名叫Any2Excel。顧名思義,往后的目標(biāo)就是提取任意格式文件中的數(shù)據(jù)圖表到可被結(jié)構(gòu)化處理的 Excel 文件。
識別度高,操作簡單,使用場景廣泛。
支持手機(jī)拍照、掃描件、原件、復(fù)印件等等。
快速開始
Python PIP 依賴
pip install -r .\requirements.txt
外部依賴
poppler 安裝后將其bin路徑加入系統(tǒng)變量中
配置騰訊云
cp config+sample.yml config.yml后補全config.yml中的配置信息。
工作原理
-
將 PDF 按每頁轉(zhuǎn)為 JPG 圖像文件
-
暫時只取 PDF 第一頁內(nèi)容
-
提交 OCR 識別這個圖像文件
-
將識別結(jié)果轉(zhuǎn)為 Excel 導(dǎo)出
-
清除 Excel 文件的全部樣式
命令行(CLI)
PDF 轉(zhuǎn) Excel
cd PDF2Excel python3 pdf2excel.py test.pdf
圖片 轉(zhuǎn) Excel
cd PDF2Excel python3 image2excel.py capture.jpg
可視化拖拽
將需要轉(zhuǎn)換的 PDF 文件/圖片文件,拖拽到程序上就會自動執(zhí)行
輸出文件
*.xlsx 包含了樣式的 Excel 文件,可能會因為樣式過多而文件過大。
*.xls 移除了樣式的 Excel 文件,推薦。
配置
config.yml 內(nèi)包含了騰訊云的相關(guān)鑒權(quán)信息
評論
圖片
表情
