在公眾號后臺回復：JGNB，可獲取杰哥原創(chuàng)的 PDF 手冊。
1、PyMuPDF簡介

1. 介紹

在介紹PyMuPDF之前，先來了解一下MuPDF，從命名形式中就可以看出，PyMuPDF是MuPDF的Python接口形式。

MuPDF

MuPDF 是一個輕量級的 PDF、XPS和電子書查看器。MuPDF 由軟件庫、命令行工具和各種平臺的查看器組成。

MuPDF 中的渲染器專為高質量抗鋸齒圖形量身定制。它以精確到像素的幾分之一內的度量和間距呈現(xiàn)文本，以在屏幕上再現(xiàn)打印頁面的外觀時獲得最高保真度。

這個觀察器很小，速度很快，但是很完整。它支持多種文檔格式，如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2。您可以使用移動查看器對PDF文檔進行注釋和填寫表單(這個功能很快也將應用于桌面查看器)。

命令行工具允許您注釋、編輯文檔，并將文檔轉換為其他格式，如HTML、SVG、PDF和CBZ。您還可以使用Javascript編寫腳本來操作文檔。

PyMuPDF

PyMuPDF(當前版本1.18.17)是支持MuPDF(當前版本1.18.*)的Python綁定。

使用PyMuPDF，你可以訪問擴展名為“.pdf”、“.xps”、“.oxps”、“.cbz”、“.fb2”或“.epub”。此外，大約10種流行的圖像格式也可以像文檔一樣處理:“.png”，“.jpg”，“.bmp”，“.tiff”等。

2. 功能

對于所有支持的文檔類型可以：

解密文件
訪問元信息、鏈接和書簽
以柵格格式（PNG和其他格式）或矢量格式SVG呈現(xiàn)頁面
搜索文本
提取文本和圖像
轉換為其他格式：PDF, (X)HTML, XML, JSON, text
對于PDF文檔，存在大量的附加功能:它們可以創(chuàng)建、合并或拆分。頁面可以通過多種方式插入、刪除、重新排列或修改(包括注釋和表單字段)。
可以提取或插入圖像和字體
完全支持嵌入式文件
pdf文件可以重新格式化，以支持雙面打印，色調分離，應用標志或水印
完全支持密碼保護:解密、加密、加密方法選擇、權限級別和用戶/所有者密碼設置
支持圖像、文本和繪圖的 PDF 可選內容概念
可以訪問和修改低級 PDF 結構
命令行模塊"python -m fitz…"具有以下特性的多功能實用程序
新:布局保存文本提取!
腳本fitzcliy .py通過子命令“gettext”提供不同格式的文本提取。特別有趣的當然是布局保存，它生成的文本盡可能接近原始物理布局，周圍有圖像的區(qū)域，或者在表格和多列文本中復制文本。

加密/解密/優(yōu)化
創(chuàng)建子文檔
文檔連接
圖像/字體提取
完全支持嵌入式文件
保存布局的文本提取(所有文檔)

2、安裝

PyMuPDF可以從源碼安裝，也可以從wheels安裝。

對于Windows, Linux和Mac OSX平臺，在PyPI的下載部分有wheels。這包括Python 64位版本3.6到3.9。Windows版本也有32位版本。從最近開始，Linux ARM架構也出現(xiàn)了一些問題——查找平臺標簽manylinux2014_aarch64。

除了標準庫，它沒有強制性的外部依賴項。只有在安裝了某些包時，才會有一些不錯的方法:

Pillow：當使用Pixmap.pil_save()和 Pixmap.pil_tobytes()時需要
fontTools：當使用Document.subset_fonts()時需要
pymupdf-fonts 是一個不錯的字體選擇，可以用于文本輸出方法

使用pip安裝命令：

pip install PyMuPDF

導入庫：

import?fitz

關于命名`fitz`的說明

這個庫的標準Python導入語句是import fitz。這是有歷史原因的:
MuPDF的原始渲染庫被稱為Libart。

在Artifex軟件獲得MuPDF項目后，開發(fā)的重點轉移到編寫一種新的現(xiàn)代圖形圖書館稱為“Fitz”。Fitz最初是作為一個研發(fā)項目，以取代老化的Ghostscript圖形庫，但卻成為了MuPDF的渲染引擎(引用自維基百科)。

3、使用方法

1. 導入庫，查看版本

import?fitz
print(fitz.__doc__)
PyMuPDF?1.18.16:?Python?bindings?for?the?MuPDF?1.18.0?library.
Version?date:?2021-08-05?00:00:01.
Built?for?Python?3.8?on?linux?(64-bit).

2. 打開文檔

doc?=?fitz.open(filename)

這將創(chuàng)建Document對象doc。文件名必須是一個已經(jīng)存在的文件的python字符串。也可以從內存數(shù)據(jù)打開文檔，或創(chuàng)建新的空PDF。您還可以將文檔用作上下文管理器。

3. Document的方法和屬性

示例：

>>>?doc.count_page
1
>>>?doc.metadata
{'format':?'PDF?1.7',
?'title':?'',
?'author':?'',
?'subject':?'',
?'keywords':?'',
?'creator':?'',
?'producer':?'福昕閱讀器PDF打印機?版本?10.0.130.3456',
?'creationDate':?"D:20210810173328+08'00'",
?'modDate':?"D:20210810173328+08'00'",
?'trapped':?'',
?'encryption':?None}

4. 獲取元數(shù)據(jù)

PyMuPDF完全支持標準元數(shù)據(jù)。Document.metadata是一個具有以下鍵的Python字典。

它適用于所有文檔類型，但并非所有條目都始終包含數(shù)據(jù)。元數(shù)據(jù)字段為字符串，如果未另行指示，則為無。還要注意的是，并非所有數(shù)據(jù)都始終包含有意義的數(shù)據(jù)——即使它們不是一個都沒有。

5. 獲取目標大綱

toc?=?doc.get_toc()

6. 頁面(`Page`)

頁面處理是MuPDF功能的核心。
? 您可以將頁面呈現(xiàn)為光柵或矢量（SVG）圖像，可以選擇縮放、旋轉、移動或剪切頁面。
? 您可以提取多種格式的頁面文本和圖像，并搜索文本字符串。
? 對于PDF文檔，可以使用更多的方法向頁面添加文本或圖像。

首先，必須創(chuàng)建一個頁面Page。這是Document的一種方法：

page?=?doc.load_page(pno)?#?loads?page?number?'pno'?of?the?document?(0-based)
page?=?doc[pno]?#?the?short?form

這里可以使用任何整數(shù)-inf。負數(shù)從末尾開始倒數(shù)，所以doc[-1]是最后一頁，就像Python序列一樣。

更高級的方法是將文檔用作頁面的迭代器：

for?page?in?doc:
????#?do?something?with?'page'
????
#?...?or?read?backwards
for?page?in?reversed(doc):
????#?do?something?with?'page'
????
#?...?or?even?use?'slicing'
for?page?in?doc.pages(start,?stop,?step):
????#?do?something?with?'page'

接下來，主要介紹Page的常用操作！

a. 檢查頁面的鏈接、批注或表單字段

使用某些查看器軟件顯示文檔時，鏈接顯示為==“熱點區(qū)域”==。如果您在光標顯示手形符號時單擊，您通常會被帶到該熱點區(qū)域中編碼的標記。以下是如何獲取所有鏈接：

#?get?all?links?on?a?page
links?=?page.get_links()

links是一個Python字典列表。

還可以作為迭代器使用：

for?link?in?page.links():
????#?do?something?with?'link'

如果處理PDF文檔頁面，還可能存在注釋（Annot）或表單字段（Widget），每個字段都有自己的迭代器：

for?annot?in?page.annots():
????#?do?something?with?'annot'
????
for?field?in?page.widgets():
????#?do?something?with?'field'

b. 呈現(xiàn)頁面

此示例創(chuàng)建頁面內容的光柵圖像：

pix?=?page.get_pixmap()

pix是一個Pixmap對象，它（在本例中）包含頁面的RGB圖像，可用于多種用途。

方法Page.get_pixmap()提供了許多用于控制圖像的變體：分辨率、顏色空間（例如，生成灰度圖像或具有減色方案的圖像）、透明度、旋轉、鏡像、移位、剪切等。

例如：創(chuàng)建RGBA圖像（即，包含alpha通道），指定pix=page.get_pixmap（alpha=True）。\

Pixmap包含以下引用的許多方法和屬性。其中包括整數(shù)寬度、高度（每個像素）和跨距（一個水平圖像行的字節(jié)數(shù)）。屬性示例表示表示圖像數(shù)據(jù)的矩形字節(jié)區(qū)域（Python字節(jié)對象）。

還可以使用page.get_svg_image()創(chuàng)建頁面的矢量圖像。

c. 將頁面圖像保存到文件中

我們可以簡單地將圖像存儲在PNG文件中：

pix.save("page-%i.png"?%?page.number)

d. 提取文本和圖像

我們還可以以多種不同的形式和細節(jié)級別提取頁面的所有文本、圖像和其他信息：

text?=?page.get_text(opt)

對opt使用以下字符串之一以獲取不同的格式：

"text"：（默認）帶換行符的純文本。無格式、無文字位置詳細信息、無圖像
"blocks"：生成文本塊（段落）的列表
"words"：生成單詞列表（不包含空格的字符串）
"html"：創(chuàng)建頁面的完整視覺版本，包括任何圖像。這可以通過internet瀏覽器顯示
"dict"/"json"：與HTML相同的信息級別，但作為Python字典或resp.JSON字符串。
"rawdict"/"rawjson"："dict"/"json"的超級集合。它還提供諸如XML之類的字符詳細信息。
"xhtml"：文本信息級別與文本版本相同，但包含圖像。
"xml"：不包含圖像，但包含每個文本字符的完整位置和字體信息。使用XML模塊進行解釋。

e. 搜索文本

您可以找到某個文本字符串在頁面上的確切位置：

areas?=?page.search_for("mupdf")

這將提供一個矩形列表，每個矩形都包含一個字符串“mupdf”（不區(qū)分大小寫）。您可以使用此信息來突出顯示這些區(qū)域（僅限PDF）或創(chuàng)建文檔的交叉引用。

7. PDF操作

PDF是唯一可以使用PyMuPDF修改的文檔類型。其他文件類型是只讀的。

但是，您可以將任何文檔（包括圖像）轉換為PDF，然后將所有PyMuPDF功能應用于轉換結果,Document.convert_to_pdf()。

Document.save()始終將PDF以其當前（可能已修改）狀態(tài)存儲在磁盤上。

通常，您可以選擇是保存到新文件，還是僅將修改附加到現(xiàn)有文件（“增量保存”），這通常要快得多。

下面介紹如何操作PDF文檔。

a. 修改、創(chuàng)建、重新排列和刪除頁面

有幾種方法可以操作所謂頁面樹（描述所有頁面的結構）：

PDF:Document.delete_page()和Document.delete_pages()刪除頁面
Document.copy_page()、Document.fullcopy_page()和Document.move_page()將頁面復制或移動到同一文檔中的其他位置。
Document.select()將PDF壓縮到選定頁面，參數(shù)是要保留的頁碼序列。這些整數(shù)都必須在0<=i范圍內。執(zhí)行時，此列表中缺少的所有頁面都將被刪除。剩余的頁面將按順序出現(xiàn)，次數(shù)相同（！）正如您所指定的那樣。
因此，您可以輕松地使用創(chuàng)建新的PDF：
保存的新文檔將包含仍然有效的鏈接、注釋和書簽（i.a.w.指向所選頁面或某些外部資源）。

第一頁或最后10頁
僅奇數(shù)頁或偶數(shù)頁（用于雙面打印）
包含或不包含給定文本的頁
顛倒頁面順序

Document.insert_page()和Document.new_page()插入新頁面。
此外，頁面本身可以通過一系列方法進行修改（例如頁面旋轉、注釋和鏈接維護、文本和圖像插入）。

b. 連接和拆分PDF文檔

方法Document.insert_pdf()在不同的pdf文檔之間復制頁面。下面是一個簡單的joiner示例（doc1和doc2在PDF中打開）：

#?append?complete?doc2?to?the?end?of?doc1
doc1.insert_pdf(doc2)

下面是一個拆分doc1的片段。它將創(chuàng)建第一頁和最后10頁的新文檔：

doc2?=?fitz.open()?#?new?empty?PDF
doc2.insert_pdf(doc1,?to_page?=?9)?#?first?10?pages
doc2.insert_pdf(doc1,?from_page?=?len(doc1)?-?10)?#?last?10?pages
doc2.save("first-and-last-10.pdf")

c. 保存

Document.save()將始終以當前狀態(tài)保存文檔。

您可以通過指定選項incremental=True將更改寫回原始PDF。這個過程（通常）非常快，因為更改會附加到原始文件，而不會完全重寫它。

d. 關閉

在程序繼續(xù)運行時，通常需要“關閉”文檔以將底層文件的控制權交給操作系統(tǒng)。

這可以通過Document.close()方法實現(xiàn)。除了關閉基礎文件外，還將釋放與文檔關聯(lián)的緩沖區(qū)。

來源：網(wǎng)絡

Python處理PDF神器：PyMuPDF的安裝與使用

在公眾號后臺回復：JGNB，可獲取杰哥原創(chuàng)的 PDF 手冊。
1、`PyMuPDF`簡介

在公眾號后臺回復：JGNB，可獲取杰哥原創(chuàng)的 PDF 手冊。

1. 介紹

2. 功能

2、安裝

關于命名`fitz`的說明

3、使用方法

1. 導入庫，查看版本

2. 打開文檔

3. Document的方法和屬性

4. 獲取元數(shù)據(jù)

5. 獲取目標大綱

6. 頁面(`Page`)

a. 檢查頁面的鏈接、批注或表單字段

b. 呈現(xiàn)頁面

c. 將頁面圖像保存到文件中

d. 提取文本和圖像

e. 搜索文本

7. PDF操作

a. 修改、創(chuàng)建、重新排列和刪除頁面

b. 連接和拆分PDF文檔

c. 保存

d. 關閉

推薦閱讀：

Python處理PDF神器：PyMuPDF的安裝與使用

在公眾號后臺回復：JGNB，可獲取杰哥原創(chuàng)的 PDF 手冊。1、PyMuPDF簡介

在公眾號后臺回復：JGNB，可獲取杰哥原創(chuàng)的 PDF 手冊。

1. 介紹

2. 功能

2、安裝

關于命名fitz的說明

3、使用方法

1. 導入庫，查看版本

2. 打開文檔

3. Document的方法和屬性

4. 獲取元數(shù)據(jù)

5. 獲取目標大綱

6. 頁面(Page)

a. 檢查頁面的鏈接、批注或表單字段

b. 呈現(xiàn)頁面

c. 將頁面圖像保存到文件中

d. 提取文本和圖像

e. 搜索文本

7. PDF操作

a. 修改、創(chuàng)建、重新排列和刪除頁面

b. 連接和拆分PDF文檔

c. 保存

d. 關閉

推薦閱讀：

在公眾號后臺回復：JGNB，可獲取杰哥原創(chuàng)的 PDF 手冊。
1、`PyMuPDF`簡介

關于命名`fitz`的說明

6. 頁面(`Page`)