国产福利视频导航,免费看日韩毛片,精品少妇人妻AV无码专区在线,国产精品免费AV,青娱乐在线视频精品,中文字幕在线观看二区,免费成人高清,伊久大香蕉

如果你有從PDF中批量提取表格的需求，那么這篇文章就是你的福音。

Python 第三方模塊 Camelot 能夠精準識別PDF中的表格信息，并提取為pandas數(shù)據(jù)結構，而且還能導出為多種格式：JSON，Excel，HTML和Sqlite。

下面給大家介紹這個模塊的使用方法：

1.準備

開始之前，你要確保Python和pip已經(jīng)成功安裝在電腦上，如果沒有，可以訪問這篇文章：超詳細Python安裝指南進行安裝。

如果你用Python的目的是數(shù)據(jù)分析，可以直接安裝Anaconda：Python數(shù)據(jù)分析與挖掘好幫手—Anaconda，它內(nèi)置了Python和pip.

此外，推薦大家用VSCode編輯器，它有許多的優(yōu)點：Python 編程的最好搭檔—VSCode 詳細指南。

請選擇以下任一種方式輸入命令安裝依賴：
1. Windows 環(huán)境打開 Cmd (開始-運行-CMD)。
2. MacOS 環(huán)境打開 Terminal (command+空格輸入Terminal)。
3. 如果你用的是 VSCode編輯器或 Pycharm，可以直接使用界面下方的Terminal.

pip install camelot-py[cv]

2.使用

最簡單的使用方式如下：

import camelot
# 1.讀取pdf
tables = camelot.read_pdf('foo.pdf', flavor='stream')
# 2.導出pdf所有的表格為csv文件
tables.export('foo.csv', f='csv') # json, excel, html, sqlite

第一行，導入了camelot這個模塊。

第二行，以stream的模式讀取當前目錄的foo.pdf文件。

第三行，將所有表格數(shù)據(jù)導出為 foo.csv 文件，并保存在當前文件夾下。

相當簡單，請注意，read_pdf 的 flavor 參數(shù)是可選的，如果你不帶這個參數(shù)，請注意需要安裝 ghostscript 這個驅動，因為它默認使用 ghostscript 去用 lattice 模式。

3.進階

3.1 處理背景線：

可以看到，很多表格的線都隱藏在背景中。這種表格默認是不支持的，這時候我們需要讓程序能夠自動識別這樣的表格：

tables = camelot.read_pdf('background_lines.pdf', process_background=True)

增加 process_background=True 參數(shù)即可。

3.2 指定表格區(qū)域

某些情況下無法正確識別到PDF中的表格，此時手動設定左上角和右下角的邊界可能是有效果的：

tables = camelot.read_pdf('table_areas.pdf', flavor='stream', table_areas=['316,499,566,337'])

其中 table_areas 接受格式為 x1，y1，x2，y2 的字符串，其中(x1，y1) -> 左上角, (x2，y2) -> 右下角。在PDF坐標空間中，頁面的左下角是原點，坐標為（0，0）。

本文的代碼和示例，以及Camelot源倉庫可在 Python實用寶典公眾號后臺回復 camelot 下載。

我們的文章到此就結束啦，如果你喜歡今天的Python 實戰(zhàn)教程，請持續(xù)關注Python實用寶典。

有任何問題，可以在公眾號后臺回復：加群，回答相應紅字驗證信息，進入互助群詢問。

原創(chuàng)不易，希望你能在下面點個贊和在看支持我繼續(xù)創(chuàng)作，謝謝！

點擊下方閱讀原文可獲得更好的閱讀體驗

Python實用寶典 (pythondict.com)
不只是一個寶典
歡迎關注公眾號：Python實用寶典

Python 超強大的PDF表格提取器 — Camelot