<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Python 超強大的PDF表格提取器 — Camelot

          共 1703字,需瀏覽 4分鐘

           ·

          2021-04-25 12:58

          如果你有從PDF中批量提取表格的需求,那么這篇文章就是你的福音。

          Python 第三方模塊 Camelot 能夠精準識別PDF中的表格信息,并提取為pandas數(shù)據(jù)結構,而且還能導出為多種格式:JSON,Excel,HTML和Sqlite。

          下面給大家介紹這個模塊的使用方法:

          1.準備



          開始之前,你要確保Python和pip已經(jīng)成功安裝在電腦上,如果沒有,可以訪問這篇文章:超詳細Python安裝指南 進行安裝。

          如果你用Python的目的是數(shù)據(jù)分析,可以直接安裝Anaconda:Python數(shù)據(jù)分析與挖掘好幫手—Anaconda,它內(nèi)置了Python和pip.

          此外,推薦大家用VSCode編輯器,它有許多的優(yōu)點:Python 編程的最好搭檔—VSCode 詳細指南

          請選擇以下任一種方式輸入命令安裝依賴
          1. Windows 環(huán)境 打開 Cmd (開始-運行-CMD)。
          2. MacOS 環(huán)境 打開 Terminal (command+空格輸入Terminal)。
          3. 如果你用的是 VSCode編輯器 或 Pycharm,可以直接使用界面下方的Terminal.

          pip install camelot-py[cv]


          2.使用



          最簡單的使用方式如下:

          import camelot
          # 1.讀取pdf
          tables = camelot.read_pdf('foo.pdf', flavor='stream')
          # 2.導出pdf所有的表格為csv文件
          tables.export('foo.csv', f='csv') # json, excel, html, sqlite


          第一行,導入了camelot這個模塊。

          第二行,以stream的模式讀取當前目錄的foo.pdf文件。

          第三行,將所有表格數(shù)據(jù)導出為 foo.csv 文件,并保存在當前文件夾下。

          相當簡單,請注意,read_pdf 的 flavor 參數(shù)是可選的,如果你不帶這個參數(shù),請注意需要安裝 ghostscript 這個驅動,因為它默認使用 ghostscript 去用 lattice 模式。

          3.進階



          3.1 處理背景線:



          可以看到,很多表格的線都隱藏在背景中。這種表格默認是不支持的,這時候我們需要讓程序能夠自動識別這樣的表格:


          tables = camelot.read_pdf('background_lines.pdf', process_background=True)


          增加 process_background=True 參數(shù)即可。

          3.2 指定表格區(qū)域

          某些情況下無法正確識別到PDF中的表格,此時手動設定左上角和右下角的邊界可能是有效果的:

          tables = camelot.read_pdf('table_areas.pdf', flavor='stream', table_areas=['316,499,566,337'])


          其中 table_areas 接受格式為 x1,y1,x2,y2 的字符串,其中(x1,y1) -> 左上角, (x2,y2) -> 右下角。在PDF坐標空間中,頁面的左下角是原點,坐標為(0,0)。

          本文的代碼和示例,以及Camelot源倉庫可在 Python實用寶典 公眾號后臺回復 camelot 下載。

          我們的文章到此就結束啦,如果你喜歡今天的Python 實戰(zhàn)教程,請持續(xù)關注Python實用寶典。

          有任何問題,可以在公眾號后臺回復:加群,回答相應紅字驗證信息,進入互助群詢問。

          原創(chuàng)不易,希望你能在下面點個贊和在看支持我繼續(xù)創(chuàng)作,謝謝!

          點擊下方閱讀原文可獲得更好的閱讀體驗

          Python實用寶典 (pythondict.com)
          不只是一個寶典
          歡迎關注公眾號:Python實用寶典

          瀏覽 22
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产高清成人a片 | 男人天堂社区 | 色老板最新地址 | 91aaa欧美 | 国产一级a毛一级a看免费视频乱 |