激情综合色综合啪,蜜桃视频人妻,影音先锋色噜噜av,日韩天堂AV,黑人大鸡巴视频,国产日日日,亚洲狼友视频,高清视频在线观看一区

大家伙，我是菜鳥哥

辦公自動(dòng)化應(yīng)該算是打工人上班摸魚的極致追求了，況且對于 Python 愛好者來說，辦公自動(dòng)化簡直是太簡單了

比如，今天的辦公自動(dòng)化主題：Python 操作 PDF

今天的具體內(nèi)容將會(huì)從以下幾個(gè)小節(jié)展開：

相關(guān)介紹
批量拆分
批量合并
提取文字內(nèi)容
提起表格內(nèi)容
提起圖片內(nèi)容
轉(zhuǎn)換為PDF圖片
添加水印
加密與解碼

上述操作比較常用，也可以解決較多的辦公內(nèi)容，下面直接開始本節(jié)內(nèi)容：

1. 相關(guān)介紹

Python 操作 PDF 會(huì)用到兩個(gè)庫，分別是：PyPDF2 和 pdfplumber

其中 PyPDF2 可以更好的讀取、寫入、分割、合并PDF文件，而 pdfplumber 可以更好的讀取 PDF 文件中內(nèi)容和提取 PDF 中的表格

對應(yīng)的官網(wǎng)分別是：

PyPDF2：https://pythonhosted.org/PyPDF2/
pdfplumber：https://github.com/jsvine/pdfplumber

由于這兩個(gè)庫都不是 Python 的標(biāo)準(zhǔn)庫，所以在使用之前都需要單獨(dú)安裝

win+r 后輸入 cmd 打開 command 窗口，依次輸入如下命令進(jìn)行安裝：

pip install PyPDF2
pip install pdfplumber

安裝完成后顯示 success 則表示安裝成功

2. 批量拆分

將一個(gè)完整的 PDF 拆分成幾個(gè)小的 PDF，因?yàn)橹饕婕暗?PDF 整體的操作，所以本小節(jié)需要用到 PyPDF2 這個(gè)庫

拆分的大概思路如下：

讀取 PDF 的整體信息、總頁數(shù)等
遍歷每一頁內(nèi)容，以每個(gè) step 為間隔將 PDF 存成每一個(gè)小的文件塊
將小的文件塊重新保存為新的 PDF 文件

需要注意的是，在拆分的過程中，可以手動(dòng)設(shè)置間隔，例如：每5頁保存成一個(gè)小的 PDF 文件

拆分的代碼如下：

import os
from PyPDF2 import PdfFileWriter, PdfFileReader

def split_pdf(filename, filepath, save_dirpath, step=5):
    """
    拆分PDF為多個(gè)小的PDF文件，
    @param filename:文件名
    @param filepath:文件路徑
    @param save_dirpath:保存小的PDF的文件路徑
    @param step: 每step間隔的頁面生成一個(gè)文件，例如step=5，表示0-4頁、5-9頁...為一個(gè)文件
    @return:
    """
    if not os.path.exists(save_dirpath):
        os.mkdir(save_dirpath)
    pdf_reader = PdfFileReader(filepath)
    # 讀取每一頁的數(shù)據(jù)
    pages = pdf_reader.getNumPages()
    for page in range(0, pages, step):
        pdf_writer = PdfFileWriter()
        # 拆分pdf，每 step 頁的拆分為一個(gè)文件
        for index in range(page, page+step):
            if index < pages:
                pdf_writer.addPage(pdf_reader.getPage(index))
        # 保存拆分后的小文件
        save_path = os.path.join(save_dirpath, filename+str(int(page/step)+1)+'.pdf')
        print(save_path)
        with open(save_path, "wb") as out:
            pdf_writer.write(out)

    print("文件已成功拆分，保存路徑為："+save_dirpath)
    
split_pdf(filename, filepath, save_dirpath, step=5)

以“易方達(dá)中小盤混合型證券投資基金2020年中期報(bào)告”為例，整個(gè) PDF 文件一共 46 頁，每5頁為間隔，最終生成了10個(gè)小的 PDF 文件

3. 批量合并

比起拆分來，合并的思路更加簡單：

確定要合并的 文件順序
循環(huán)追加到一個(gè)文件塊中
保存成一個(gè)新的文件

對應(yīng)的代碼比較簡單：

import os
from PyPDF2 import PdfFileReader, PdfFileWriter

def concat_pdf(filename, read_dirpath, save_filepath):
    """
    合并多個(gè)PDF文件
    @param filename:文件名
    @param read_dirpath:要合并的PDF目錄
    @param save_filepath:合并后的PDF文件路徑
    @return:
    """
    pdf_writer = PdfFileWriter()
    # 對文件名進(jìn)行排序
    list_filename = os.listdir(read_dirpath)
    list_filename.sort(key=lambda x: int(x[:-4].replace(filename, "")))
    for filename in list_filename:
        print(filename)
        filepath = os.path.join(read_dirpath, filename)
        # 讀取文件并獲取文件的頁數(shù)
        pdf_reader = PdfFileReader(filepath)
        pages = pdf_reader.getNumPages()
        # 逐頁添加
        for page in range(pages):
            pdf_writer.addPage(pdf_reader.getPage(page))
    # 保存合并后的文件
    with open(save_filepath, "wb") as out:
        pdf_writer.write(out)
    print("文件已成功合并，保存路徑為："+save_filepath)
    
concat_pdf(filename, read_dirpath, save_filepath)

4. 提取文字內(nèi)容

涉及到具體的 PDF 內(nèi)容操作，本小節(jié)需要用到 pdfplumber 這個(gè)庫

在進(jìn)行文字提取的時(shí)候，主要用到 extract_text 這個(gè)函數(shù)

具體代碼如下：

import os
import pdfplumber

def extract_text_info(filepath):
    """
    提取PDF中的文字
    @param filepath:文件路徑
    @return:
    """
    with pdfplumber.open(filepath) as pdf:
        # 獲取第2頁數(shù)據(jù)
        page = pdf.pages[1]
        print(page.extract_text())
        
# 提取文字內(nèi)容
extract_text_info(filepath)

可以看到，直接通過下標(biāo)即可定位到相應(yīng)的頁碼，從而通過 extract_text 函數(shù)提取該也的所有文字

而如果想要提取所有頁的文字，只需要改成：

with pdfplumber.open(filepath) as pdf:
 # 獲取全部數(shù)據(jù)
 for page in pdf.pages
     print(page.extract_text())

例如，提取“易方達(dá)中小盤混合型證券投資基金2020年中期報(bào)告” 第一頁的內(nèi)容時(shí)，源文件是這樣的：

運(yùn)行代碼后提取出來是這樣的：

5. 提取表格內(nèi)容

同樣的，本節(jié)是對具體內(nèi)容的操作，所以也需要用到 pdfplumber 這個(gè)庫

和提取文字十分類似的是，提取表格內(nèi)容只是將 extract_text 函數(shù)換成了 extract_table 函數(shù)

對應(yīng)的代碼如下：

import os
import pandas as pd
import pdfplumber

def extract_table_info(filepath):
    """
    提取PDF中的圖表數(shù)據(jù)
    @param filepath:
    @return:
    """
    with pdfplumber.open(filepath) as pdf:
        # 獲取第18頁數(shù)據(jù)
        page = pdf.pages[17]
        # 如果一頁有一個(gè)表格，設(shè)置表格的第一行為表頭，其余為數(shù)據(jù)
        table_info = page.extract_table()
        df_table = pd.DataFrame(table_info[1:], columns=table_info[0])
        df_table.to_csv('dmeo.csv', index=False, encoding='gbk')
        
# 提取表格內(nèi)容
extract_table_info(filepath)

上面代碼可以獲取到第 18 頁的第一個(gè)表格內(nèi)容，并且將其保存為 csv 文件存在本地

但是，如果說第 18 頁有多個(gè)表格內(nèi)容呢？

因?yàn)樽x取的表格會(huì)被存成二維數(shù)組，而多個(gè)二維數(shù)組就組成一個(gè)三維數(shù)組

遍歷這個(gè)三位數(shù)組，就可以得到該頁的每一個(gè)表格數(shù)據(jù)，對應(yīng)的將 extract_table 函數(shù) 改成 extract_tables 即可

具體代碼如下：

# 如果一頁有多個(gè)表格，對應(yīng)的數(shù)據(jù)是一個(gè)三維數(shù)組
tables_info = page.extract_tables()
for index in range(len(tables_info)):
    # 設(shè)置表格的第一行為表頭，其余為數(shù)據(jù)
    df_table = pd.DataFrame(tables_info[index][1:], columns=tables_info[index][0])
    print(df_table)
    # df_table.to_csv('dmeo.csv', index=False, encoding='gbk')

以“易方達(dá)中小盤混合型證券投資基金2020年中期報(bào)告” 第 xx 頁的第一個(gè)表格為例：

源文件中的表格是這樣的：

提取并存入 excel 之后的表格是這樣的：

6. 提取圖片內(nèi)容

提取 PDF 中的圖片和將 PDF 轉(zhuǎn)存為圖片是不一樣的（下一小節(jié)），需要區(qū)分開。

提取圖片：顧名思義，就是將內(nèi)容中的圖片都提取出來；

轉(zhuǎn)存為圖片：則是將每一頁的 PDF 內(nèi)容存成一頁一頁的圖片，下一小節(jié)會(huì)詳細(xì)說明

轉(zhuǎn)存為圖片中，需要用到一個(gè)模塊叫 fitz，fitz 的最新版 1.18.13，非最新版的在部分函數(shù)名稱上存在差異，代碼中會(huì)標(biāo)記出來

使用 fitz 需要先安裝 PyMuPDF 模塊，安裝方式如下：

pip install PyMuPDF

提取圖片的整體邏輯如下：

使用 fitz 打開文檔，獲取文檔詳細(xì)數(shù)據(jù)
遍歷每一個(gè)元素，通過正則找到圖片的索引位置
使用 Pixmap 將索引對應(yīng)的元素生成圖片
通過 size 函數(shù)過濾較小的圖片

實(shí)現(xiàn)的具體代碼如下：

import os
import re
import fitz

def extract_pic_info(filepath, pic_dirpath):
    """
    提取PDF中的圖片
    @param filepath:pdf文件路徑
    @param pic_dirpath:要保存的圖片目錄路徑
    @return:
    """
    if not os.path.exists(pic_dirpath):
        os.makedirs(pic_dirpath)
    # 使用正則表達(dá)式來查找圖片
    check_XObject = r"/Type(?= */XObject)"
    check_Image = r"/Subtype(?= */Image)"
    img_count = 0

    """1. 打開pdf，打印相關(guān)信息"""
    pdf_info = fitz.open(filepath)
    # 1.16.8版本用法 xref_len = doc._getXrefLength()
    # 最新版本
    xref_len = pdf_info.xref_length()
    # 打印PDF的信息
    print("文件名：{}, 頁數(shù): {}, 對象: {}".format(filepath, len(pdf_info), xref_len-1))

    """2. 遍歷PDF中的對象，遇到是圖像才進(jìn)行下一步，不然就continue"""
    for index in range(1, xref_len):
        # 1.16.8版本用法 text = doc._getXrefString(index)
        # 最新版本
        text = pdf_info.xref_object(index)

        is_XObject = re.search(check_XObject, text)
        is_Image = re.search(check_Image, text)
        # 如果不是對象也不是圖片，則不操作
        if is_XObject or is_Image:
            img_count += 1
            # 根據(jù)索引生成圖像
            pix = fitz.Pixmap(pdf_info, index)
            pic_filepath = os.path.join(pic_dirpath, 'img_' + str(img_count) + '.png')
            """pix.size 可以反映像素多少，簡單的色素塊該值較低，可以通過設(shè)置一個(gè)閾值過濾。以閾值 10000 為例過濾"""
            # if pix.size < 10000:
            #     continue

            """三、 將圖像存為png格式"""
            if pix.n >= 5:
                # 先轉(zhuǎn)換CMYK
                pix = fitz.Pixmap(fitz.csRGB, pix)
            # 存為PNG
            pix.writePNG(pic_filepath)
            
# 提取圖片內(nèi)容
extract_pic_info(filepath, pic_dirpath)

以本節(jié)示例的“易方達(dá)中小盤混合型證券投資基金2020年中期報(bào)告” 中的圖片為例，代碼運(yùn)行后提取的圖片如下：

這個(gè)結(jié)果和文檔中的共 1 張圖片的 結(jié)果符合

7. 轉(zhuǎn)換為圖片

轉(zhuǎn)換為照片比較簡單，就是將一頁頁的 PDF 轉(zhuǎn)換為一張張的圖片。大致過程如下：

安裝 pdf2image

首先需要安裝對應(yīng)的庫，最新的 pdf2image 庫版本應(yīng)該是 1.14.0

它的 github地址為：https://github.com/Belval/pdf2image ，感興趣的可以自行了解

安裝方式如下：

pip install pdf2image

安裝組件

對于不同的平臺(tái)，需要安裝相應(yīng)的組件，這里以 windows 平臺(tái)和 mac 平臺(tái)為例：

Windows 平臺(tái)

對于 windows 用戶需要安裝 poppler for Windows，安裝鏈接是：http://blog.alivate.com.au/poppler-windows/

另外，還需要添加環(huán)境變量，將 bin 文件夾的路徑添加到環(huán)境變量 PATH 中

注意這里配置之后需要重啟一下電腦才會(huì)生效，不然會(huì)報(bào)錯(cuò)

Mac

對于 mac 用戶，需要安裝 poppler for Mac，具體可以參考這個(gè)鏈接：http://macappstore.org/poppler/

詳細(xì)代碼如下：

import os
from pdf2image import convert_from_path, convert_from_bytes

def convert_to_pic(filepath, pic_dirpath):
    """
    每一頁的PDF轉(zhuǎn)換成圖片
    @param filepath:pdf文件路徑
    @param pic_dirpath:圖片目錄路徑
    @return:
    """
    print(filepath)
    if not os.path.exists(pic_dirpath):
        os.makedirs(pic_dirpath)

    images = convert_from_bytes(open(filepath, 'rb').read())
    # images = convert_from_path(filepath, dpi=200)
    for image in images:
        # 保存圖片
        pic_filepath = os.path.join(pic_dirpath, 'img_'+str(images.index(image))+'.png')
        image.save(pic_filepath, 'PNG')
        
# PDF轉(zhuǎn)換為圖片
convert_to_pic(filepath, pic_dirpath)

以本節(jié)示例的“易方達(dá)中小盤混合型證券投資基金2020年中期報(bào)告” 中的圖片為例，該文檔共 46 頁，保存后的 PDF 照片如下：

一共 46 張圖片

8. 添加水印

添加水印后的效果如下：

在制作水印的時(shí)候，可以自定義水印內(nèi)容、透明度、斜度、字間寬度等等，可操作性比較好。

前面專門寫過一篇文章，講的特別詳細(xì)：Python快速給PDF文件添加自定義水印

9. 文檔加密與解密

你可能在打開部分 PDF 文件的時(shí)候，會(huì)彈出下面這個(gè)界面：

這種就是 PDF 文件被加密了，在打開的時(shí)候需要相應(yīng)的密碼才行

本節(jié)所提到的也只是基于 PDF 文檔的加密解密，而不是所謂的 PDF 密碼破解。

在對 PDF 文件加密需要使用 encrypt 函數(shù)，對應(yīng)的加密代碼也比較簡單：

import os
from PyPDF2 import PdfFileReader, PdfFileWriter

def encrypt_pdf(filepath, save_filepath, passwd='xiaoyi'):
    """
    PDF文檔加密
    @param filepath:PDF文件路徑
    @param save_filepath:加密后的文件保存路徑
    @param passwd:密碼
    @return:
    """
    pdf_reader = PdfFileReader(filepath)
    pdf_writer = PdfFileWriter()

    for page_index in range(pdf_reader.getNumPages()):
        pdf_writer.addPage(pdf_reader.getPage(page_index))

    # 添加密碼
    pdf_writer.encrypt(passwd)
    with open(save_filepath, "wb") as out:
        pdf_writer.write(out)
        
# 文檔加密
encrypt_pdf(filepath, save_filepath, passwd='xiaoyi')

代碼執(zhí)行成功后再次打開 PDF 文件則需要輸入密碼才行

根據(jù)這個(gè)思路，破解 PDF 也可以通過暴力求解實(shí)現(xiàn)，例如：通過本地密碼本一個(gè)個(gè)去嘗試，或者根據(jù)數(shù)字+字母的密碼形式循環(huán)嘗試，最終成功打開的密碼就是破解密碼

上述破解方法耗時(shí)耗力，不建議嘗試

另外，針對已經(jīng)加密的 PDF 文件，也可以使用 decrypt 函數(shù)進(jìn)行解密操作

解密代碼如下：

def decrypt_pdf(filepath, save_filepath, passwd='xiaoyi'):
    """
    解密 PDF 文檔并且保存為未加密的 PDF
    @param filepath:PDF文件路徑
    @param save_filepath:解密后的文件保存路徑
    @param passwd:密碼
    @return:
    """
    pdf_reader = PdfFileReader(filepath)
    # PDF文檔解密
    pdf_reader.decrypt('xiaoyi')

    pdf_writer = PdfFileWriter()
    for page_index in range(pdf_reader.getNumPages()):
        pdf_writer.addPage(pdf_reader.getPage(page_index))

    with open(save_filepath, "wb") as out:
        pdf_writer.write(out)
        
# 文檔解密
decrypt_pdf(filepath, save_filepath, passwd='xiaoyi')

解密完成后的 PDF 文檔打開后不再需要輸入密碼，如需加密可再次執(zhí)行加密代碼。

以上就是 Python 操作 PDF 的全部內(nèi)容，文中貼出的代碼都已經(jīng)測試過，可正常運(yùn)行。




推薦閱讀:
入門: 最全的零基礎(chǔ)學(xué)Python的問題  | 零基礎(chǔ)學(xué)了8個(gè)月的Python  | 實(shí)戰(zhàn)項(xiàng)目 |學(xué)Python就是這條捷徑

干貨:爬取豆瓣短評(píng)，電影《后來的我們》 | 38年NBA最佳球員分析 |   從萬眾期待到口碑撲街！唐探3令人失望  | 笑看新倚天屠龍記 | 燈謎答題王 ｜用Python做個(gè)海量小姐姐素描圖 ｜碟中諜這么火，我用機(jī)器學(xué)習(xí)做個(gè)迷你推薦系統(tǒng)電影

趣味:彈球游戲  | 九宮格  | 漂亮的花 | 兩百行Python《天天酷跑》游戲!

AI: 會(huì)做詩的機(jī)器人 | 給圖片上色 | 預(yù)測收入 | 碟中諜這么火，我用機(jī)器學(xué)習(xí)做個(gè)迷你推薦系統(tǒng)電影

小工具: Pdf轉(zhuǎn)Word，輕松搞定表格和水?。?/a> | 一鍵把html網(wǎng)頁保存為pdf！|  再見PDF提取收費(fèi)！ | 用90行代碼打造最強(qiáng)PDF轉(zhuǎn)換器，word、PPT、excel、markdown、html一鍵轉(zhuǎn)換 | 制作一款釘釘?shù)蛢r(jià)機(jī)票提示器！ ｜60行代碼做了一個(gè)語音壁紙切換器天天看小姐姐！｜

年度爆款文案
1).臥槽！Pdf轉(zhuǎn)Word用Python輕松搞定！
2).學(xué)Python真香！我用100行代碼做了個(gè)網(wǎng)站，幫人PS旅行圖片，賺個(gè)雞腿吃
3).首播過億，火爆全網(wǎng)，我分析了《乘風(fēng)破浪的姐姐》，發(fā)現(xiàn)了這些秘密 
4).80行代碼！用Python做一個(gè)哆來A夢分身 
5).你必須掌握的20個(gè)python代碼，短小精悍，用處無窮 
6).30個(gè)Python奇淫技巧集 
7).我總結(jié)的80頁《菜鳥學(xué)Python精選干貨.pdf》,都是干貨 
8).再見Python！我要學(xué)Go了！2500字深度分析！
9).發(fā)現(xiàn)一個(gè)舔狗福利！這個(gè)Python爬蟲神器太爽了，自動(dòng)下載妹子圖片

真心實(shí)用！Python 辦公自動(dòng)化之 PDF 的詳細(xì)操作（全）