Python 將 PDF 轉(zhuǎn)換為 Word
大家好,我是水滴~
在平時的工作中,我們總會希望將需要的 PDF 文件轉(zhuǎn)換為 Word 文件,而市面上很多工具都是收費的,這無疑增加了我們的成本。
所以,我使用 Python 編寫了一個轉(zhuǎn)換代碼,可以 將 PDF 轉(zhuǎn)換為 Word,完全是免費的,在這里分享給大家。
上面的 GIF 圖片就是轉(zhuǎn)換的過程。在使用前,需要安裝
pdf2docx庫,下面是詳細(xì)教程。
安裝 pdf2docx 庫
該庫可以將 PDF 文件轉(zhuǎn)換為 Word 文件,它使用 PyMuPDF 從 PDF 中提取數(shù)據(jù),使用規(guī)則解析布局,并使用 python-docx 生成 docx 文件。
當(dāng)然該庫還有一些限制,并不是所有 PDF 都能解析的:
-
? 必須是基于文本的 PDF 文件
-
? 文字必須從左到右
-
? 閱讀方向正常,無文字變換/旋轉(zhuǎn)
-
? 基于規(guī)則的方法也不能 100% 轉(zhuǎn)換 PDF 布局
pip install pdf2docx
轉(zhuǎn)換代碼
將 pdf 文件轉(zhuǎn)換為 docx 文件:
# 將 pdf 文件轉(zhuǎn)換為 docx 文件
def
pdf2docx
(
pdf_file
,
docx_file
):
cv
=
Converter
(
pdf_file
)
cv
.
convert
(
docx_file
)
cv
.
close
()
轉(zhuǎn)換效果:
獲取源碼,請在下方「水滴技術(shù)」公眾號回復(fù):20230427
評論
圖片
表情
