<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          還不會用 Python 提取 PDF 表格?三種類型數(shù)據(jù),輕松轉(zhuǎn)換成 Excel

          共 7472字,需瀏覽 15分鐘

           ·

          2021-03-23 21:21

                 
                     
          ↑↑↑關(guān)注后"星標(biāo)"簡說Python
                      
          人人都可以簡單入門Python、爬蟲、數(shù)據(jù)分析
           簡說Python推薦 
          來源|早起Python
          作者|自動化工作組

          大家好,我是老表

          從PDF中提取信息是辦公場景中經(jīng)常需要用到的操作,也是經(jīng)常又讀者在后臺問的一個(gè)操作。

          內(nèi)容少的話我們可以手動復(fù)制粘貼,但如果需要批量提取就可以考慮使用Python,之前我也轉(zhuǎn)載過相關(guān)文章,提到主要就是使用pdfplumber庫,今天我們再次舉例講解。

          通常PDF里的表格分為圖片型和文本型。文本型又分簡單型和復(fù)雜型。本文就針對這三部分舉例講解。

          • 提取簡單型表格
          • 提取較為復(fù)雜型表格
          • 提取圖片型表格

          用到的模塊主要有

          • pdfplumber
          • pandas
          • Tesseract
          • PIL

          文中出現(xiàn)的PDF材料是在巨潮資訊官網(wǎng)下載的公開PDF文件,主題是關(guān)于理財(cái)?shù)模嚓P(guān)發(fā)布信息等信息如下:

          內(nèi)容總共有6頁,后文中的例子會有展示。

          一、簡單文本類型數(shù)據(jù)

          簡單文本類型表格就是一頁P(yáng)DF中只有一個(gè)表格,并且表格內(nèi)容完整可復(fù)制,例如我們選定內(nèi)容為PDF中的第四頁,內(nèi)容如下:

          可以看到,該頁只有一個(gè)表格,下面我們將這個(gè)表寫入Excel中,先上代碼

          import pdfplumber as pr
          import pandas as pd
          pdf = pr.open('關(guān)于使用自有資金購買銀行理財(cái)產(chǎn)品的進(jìn)展公告.PDF')
          ps = pdf.pages
          pg = ps[3]
          tables = pg.extract_tables()
          table = tables[0]
          print(table)
          df = pd.DataFrame(table[1:],columns = table[0])
          for i in range(len(table)):
              for j in range(len(table[i])):
                  table[i][j] = table[i][j].replace('\n','')
          df1 = pd.DataFrame(table[1:],columns = table[0])
          df1.to_excel('page2.xlsx')

          得到的結(jié)果如下:

          通過與PDF上原表格對比,在內(nèi)容上是完全一致的,唯一不同的是由于主營業(yè)務(wù)內(nèi)容較多,導(dǎo)致顯示的不全面,現(xiàn)在來說說這段代碼。

          首先導(dǎo)入要用到的兩個(gè)庫。在pdfplumber中,open()函數(shù)是用來打開PDF文件,該代碼用的是相對路徑。.open().pages則是獲取PDF的頁數(shù),打印ps值可以得到如下

          pg = ps[3]代表的就是我們所選的第三頁。

          pg.extract_tables():可輸出頁面中所有表格,并返回一個(gè)嵌套列表,其結(jié)構(gòu)層次為table→row→cell。此時(shí),頁面上的整個(gè)表格被放入一個(gè)大列表中,原表格中的各行組成該大列表中的各個(gè)子列表。若需輸出單個(gè)外層列表元素,得到的便是由原表格同一行元素構(gòu)成的列表。

          與其類似的是pg.extract_table( ):返回多個(gè)獨(dú)立列表,其結(jié)構(gòu)層次為row→cell。若頁面中存在多個(gè)行數(shù)相同的表格,則默認(rèn)輸出頂部表格;否則,僅輸出行數(shù)最多的一個(gè)表格。此時(shí),表格的每一行都作為一個(gè)單獨(dú)的列表,列表中每個(gè)元素即為原表格的各個(gè)單元格內(nèi)容。

          由于該頁面中只有一個(gè)表格,我們需要tables集合中的第一個(gè)元素。打印table值,如下:

          可以看到在上述中是存在\n這種沒不要的字符,它的作用其實(shí)是換行但我們在Excel中是不需要的。所以需要剔除它,用代碼中的for循環(huán)與replace函數(shù)將控制替換成空格(即刪除\n)。觀察table是一個(gè)裝有2個(gè)元素的列表。

          最后df1 = pd.DataFrame(table[1:],columns = table[0])這段代碼的作用就是創(chuàng)建一個(gè)數(shù)據(jù)框,將內(nèi)容放到對應(yīng)的行列中。

          本代碼只是簡單將數(shù)據(jù)存入到Excel,如果你需要進(jìn)一步對樣式進(jìn)行調(diào)整,可以使用openpyxl等模塊進(jìn)行修改,具體可以看之前文章Python操作Excel詳解

          二、復(fù)雜型表格提取

          復(fù)雜型表格即表格樣式不統(tǒng)一或一頁中有多個(gè)表格,以PDF中的第五頁為例:

          可以看到本頁中有兩個(gè)大的表格,并且細(xì)看的話,其實(shí)是4個(gè)表格,按照簡單型表格類型提取方法,得到的效果如下:

          可以看到,只是將全部表格文本提取出來,但實(shí)際上第一個(gè)表格又細(xì)分為兩個(gè)表,所以需要我們進(jìn)一步修改,將這張表再次拆分!例如提取上半部分代碼如下:

          import pdfplumber as pr
          import pandas as pd
          pdf = pr.open('關(guān)于使用自有資金購買銀行理財(cái)產(chǎn)品的進(jìn)展公告.PDF')
          ps = pdf.pages
          pg = ps[4]
          tables = pg.extract_tables()
          table = tables[0]
          print(table)
          df = pd.DataFrame(table[1:],columns = table[0])
          for i in range(len(table)):
              for j in range(len(table[i])):
                  table[i][j] = table[i][j].replace('\n','')
          df1 = pd.DataFrame(table[1:],columns = table[0])
          df2 = df1.iloc[2:,:]
          df2 = df2.rename(columns = {"2019年12月31日":"2019年1-12月","2020年9月30日":"2020年1-9月"})
          df2 = df2.loc[3:,:]
          df1 = df1.loc[:1,:]
          with pd.ExcelWriter('公司影響.xlsx'as i:
              df1.to_excel(i,sheet_name='資產(chǎn)', index=False, header=True#放入資產(chǎn)數(shù)據(jù)
              df2.to_excel(i,sheet_name='營業(yè)',index=False, header=True#放入營業(yè)數(shù)據(jù)

          這段代碼在簡單型表格提取的基礎(chǔ)上進(jìn)行了修改,第十四行代碼的作用就是提取另外一個(gè)表頭的信息,并將他賦值給df2,而后對df2進(jìn)行重命名操作(用到rename函數(shù))。

          打印df2可以看出columns列名和第一行信息重復(fù)了,因此我們需要重復(fù)剛剛的步驟,利用loc()函數(shù)切割數(shù)據(jù)框。

          注意,我們這里用了罕見的pandas.Excelwriter函數(shù)套for循環(huán),這個(gè)是為了避免直接寫入導(dǎo)致的最后數(shù)據(jù)覆蓋原數(shù)據(jù),感興趣可以嘗試一下不用withopen這種方法后結(jié)果。最終得到的效果如下:

          可以看到,現(xiàn)在這個(gè)表格就被放在兩個(gè)sheet中單獨(dú)展示,當(dāng)然用于對比放在一張表中也是可以的

          說到底復(fù)雜型表格的主觀性是非常大的,需要根據(jù)不同情況進(jìn)行不同處理,想寫出一個(gè)一勞永逸的辦法是比較困難的!

          三、圖片型表格提取

          最后也是最難處理的就是圖片型表格,經(jīng)常有人會問如何提取圖片型PDF中的表格/文本等信息。

          其實(shí)本質(zhì)上就是提取圖片,之后如何對圖片進(jìn)一步處理提取信息就與Python提取PDF表格這個(gè)主題沒有太大關(guān)系了!

          這里我們也簡單進(jìn)行介紹,也就是先提取圖片再進(jìn)行OCR識別提取表格,在Python中可以使用Tesseract庫,首先需要pip安裝

          pip install pytesseract

          在Python中安裝完這個(gè)庫之后我們需要安裝exe文件以在后面代碼用到。

          http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

          下載安裝完即可,注意目前如果按照正常步驟安裝的話是不會識別中文的,所以需要安裝簡體中文語言包,下載地址為https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata,將其放到Tesseract-OCR的tessdata目錄下即可。

          接下來我們使用一個(gè)簡單的圖片型pdf如下:

          第一步,提取圖片,這里使用在GUI辦公自動化系列中的圖片提取軟件來提取PDF中的圖片,得到如下圖片:

          接著執(zhí)行下方代碼識別圖片內(nèi)容:

          import pytesseract
          from PIL import Image
          import pandas as pd
          pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
          tiqu = pytesseract.image_to_string(Image.open('圖片型.jpg'))
          print(tiqu)
          tiqu = tiqu.split('\n')
          while '' in tiqu:    #不能使用for
            tiqu.remove('')
            first = tiqu[:6]
            second = tiqu[6:12]
            third =  tiqu[12:]
            df = pd.DataFrame()
            df[first[0]] = first[1:]
            df[second[0]] = second[1:]
            df[third[0]] = third[1:]
          #df.to_excel('圖片型表格.xlsx')  #轉(zhuǎn)為xlsx文件

          我們的思路是用Tesseract-OCR來解析圖片,得到一個(gè)字符串,接著對字符串運(yùn)用split函數(shù),把字符串變成列表同時(shí)刪除\n

          接著可以發(fā)現(xiàn)我們的列表里還存在空格,這時(shí)我們用while循環(huán)來刪除這些空字符,注意,這里不能用for循環(huán),因?yàn)槊看蝿h除一個(gè),列表里的元素就會前進(jìn)一個(gè),這樣會刪不完全。最后就是用pandas把這些變成數(shù)據(jù)框形式。最終得到的效果如下:

          可以看到,該圖片型表格內(nèi)容被完美解析與處理!當(dāng)然能輕松搞定的原因也與這個(gè)表格足夠簡單有關(guān),在真實(shí)場景中的圖片可能會有更復(fù)雜的干擾因素,而這就需要大家在處理的同時(shí)自行找到一個(gè)最合適的辦法!

          如果你喜歡本文的話,可以給我來一波三連(點(diǎn)贊+再看+轉(zhuǎn)發(fā)),如果你有想看的文章主題,可以給我留言,如果你想快速進(jìn)階Python辦公自動化可以點(diǎn)擊閱讀原文~

          -END-


          文末推薦一本《用Python輕松處理Excel數(shù)據(jù)本書是寫給非IT領(lǐng)域職場辦公人員的Python數(shù)據(jù)處理基礎(chǔ)指南。為了讓讀者在學(xué)習(xí)時(shí)對Python的知識點(diǎn)有更深刻的印象,書本采用了即學(xué)即用的寫作方式:在介紹知識點(diǎn)的同時(shí),及時(shí)將知識點(diǎn)穿插到案例應(yīng)用中。主要內(nèi)容包括Python基礎(chǔ)、Python第三方庫、Python自定義函數(shù)、常用高階函數(shù)應(yīng)用、openpyxl庫及PythonExcel綜合應(yīng)用案例等??????

                 
          【贈書規(guī)則】

          本文留言說說你對自動化辦公的認(rèn)識或者為什么想要這本書,留言字?jǐn)?shù)需要超過15個(gè)字,留言點(diǎn)贊倒數(shù)第一倒數(shù)第三以及獲得點(diǎn)贊最多的朋友將獲得贈書用Python輕松處理Excel數(shù)據(jù)一本。

          活動截止時(shí)間:2021.3.28 20:00

          注意:公眾號留言僅展示前100條留言;活動截止前一天內(nèi)的留言不入選;與留言主題無關(guān)留言或者留言字?jǐn)?shù)不足15字的中獎無效,順延至相關(guān)留言;最終排名順序以我的截圖為準(zhǔn)。


          【更多福利】

          掃下方二維碼添加我的私人微信,可以在我的朋友圈獲取最新的Python學(xué)習(xí)資料,以及近期推文中的源碼或者其他資源,另外不定期開放學(xué)習(xí)交流群,以及朋友圈福利(送書、紅包、學(xué)習(xí)資源等)。

          掃碼查看我朋友圈

          獲取最新學(xué)習(xí)資源

                          
          學(xué)習(xí)更多:
          整理了我開始分享學(xué)習(xí)筆記到現(xiàn)在超過250篇優(yōu)質(zhì)文章,涵蓋數(shù)據(jù)分析、爬蟲、機(jī)器學(xué)習(xí)等方面,別再說不知道該從哪開始,實(shí)戰(zhàn)哪里找了

          點(diǎn)贊”傳統(tǒng)美德不能丟 

          瀏覽 56
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  青青草中文字幕 | 男人天堂2024在线 | 先锋影音人妻 | 香蕉视频色 | 牛牛影视一区二区 |