辦公室小姐姐的福利!用Python批量提取word文檔中的表格和圖片內(nèi)容
點(diǎn)上方“菜鳥學(xué)Python”,選擇“星標(biāo)”
第491篇原創(chuàng)干貨,第一時(shí)間送達(dá)

最近有許多小伙伴想要一些自動(dòng)化辦公的福利小程序,今天就滿足大家的需求。日常的辦公過程中,總少不了批量提取word文檔中的內(nèi)容,例如表格和圖片。
前面菜鳥哥也為大家分享過從PDF文件中提取文字和圖片的提取文案:
再見PDF提取收費(fèi)!我用100行Python代碼搞定!
肝了一夜,用90行代碼打造最強(qiáng)PDF轉(zhuǎn)換器,word、PPT、excel、markdown、html一鍵轉(zhuǎn)換)
今天菜鳥哥要為大家分享的福利是批量提取word中的表格和圖片數(shù)據(jù)!將表格數(shù)據(jù)提取到excel表中,將圖片保存到本地文件夾中。
01.word內(nèi)容介紹
這里,我們先來介紹一下,我們需要批量處理的word文檔中,表格和圖片的格式。

在需要提取的word文檔中,包含了許多的相同格式的表格。表格包含了姓名、年齡、性別、城市和工作這五項(xiàng)內(nèi)容。針對(duì)于不同的表格結(jié)構(gòu)形式,程序編寫的內(nèi)容也需要針對(duì)性的調(diào)整。
02.程序編寫
從word文檔中提取表格和圖片,用到的是python-docx庫。其安裝方式為pip install python-docx

03.保存表格

程序通過Document函數(shù),打開word文檔后,利用了三個(gè)for循環(huán)來讀取表格數(shù)據(jù)。
第一個(gè)for循環(huán)是針對(duì)于word文檔中的每一個(gè)表格進(jìn)行操作。
第二個(gè)for循環(huán)是針對(duì)于每一個(gè)表格的每一行數(shù)據(jù)進(jìn)行讀取。
第三個(gè)for循環(huán)則是針對(duì)于每一行數(shù)據(jù)中的每一列進(jìn)行讀取。

列表keys中保存的是列表的特征名稱,也即keys = [姓名,年齡,性別, 城市, 工作]。列表values則存儲(chǔ)的是所有的列表數(shù)據(jù)。
獲取到表格的數(shù)據(jù)后,接下來是將keys和values中的數(shù)據(jù)寫入到excel表格中去。
從表格的結(jié)構(gòu)形式可以看出:列表values的長(zhǎng)度 = 列表keys的長(zhǎng)度 * 表格中存儲(chǔ)的人數(shù)。
所以通過等間隔采樣的方式,將keys和values的數(shù)據(jù)轉(zhuǎn)換成適合pandas的數(shù)據(jù)格式,通過pandas將數(shù)據(jù)保存到本地。
04.保存圖片
對(duì)于圖片的提取,程序不需要根據(jù)圖片進(jìn)行改動(dòng),大家可以直接復(fù)制程序,然后進(jìn)行應(yīng)用。程序如下圖所示:


由于word文檔存在doc格式的文件,因此,通過win32com庫,將doc文件轉(zhuǎn)換為docx文件進(jìn)行保存。
在完成轉(zhuǎn)換后,通過對(duì)于每一個(gè)docx文件,調(diào)用getPictures和getTables函數(shù)來提取圖片和表格數(shù)據(jù)。提取結(jié)果如下圖所示:

可以看到,在word文檔的根目錄下,對(duì)應(yīng)著提取除了圖片和excel的表格文件。

通過對(duì)于word文檔和excel的展示,可以看到,word文檔中的表格內(nèi)容,被準(zhǔn)確的提取到excel表格中進(jìn)行保存。
06.總結(jié)
以上就是菜鳥哥為大家奉上的自動(dòng)化辦公小福利,大家可以獲取源碼后,來進(jìn)行學(xué)習(xí),日積月累,跬步千里。相信大家一定會(huì)有所收獲。
大家如果有其他自動(dòng)化辦公的需求,歡迎在下方留言,菜鳥哥會(huì)進(jìn)行整理,并推出解決方案~
end
推薦閱讀:
入門: 最全的零基礎(chǔ)學(xué)Python的問題 | 零基礎(chǔ)學(xué)了8個(gè)月的Python | 實(shí)戰(zhàn)項(xiàng)目 |學(xué)Python就是這條捷徑
干貨:爬取豆瓣短評(píng),電影《后來的我們》 | 38年NBA最佳球員分析 | 從萬眾期待到口碑撲街!唐探3令人失望 | 笑看新倚天屠龍記 | 燈謎答題王 |用Python做個(gè)海量小姐姐素描圖 |碟中諜這么火,我用機(jī)器學(xué)習(xí)做個(gè)迷你推薦系統(tǒng)電影
趣味:彈球游戲 | 九宮格 | 漂亮的花 | 兩百行Python《天天酷跑》游戲!
AI: 會(huì)做詩的機(jī)器人 | 給圖片上色 | 預(yù)測(cè)收入 | 碟中諜這么火,我用機(jī)器學(xué)習(xí)做個(gè)迷你推薦系統(tǒng)電影
小工具: Pdf轉(zhuǎn)Word,輕松搞定表格和水印! | 一鍵把html網(wǎng)頁保存為pdf!| 再見PDF提取收費(fèi)! | 用90行代碼打造最強(qiáng)PDF轉(zhuǎn)換器,word、PPT、excel、markdown、html一鍵轉(zhuǎn)換 | 制作一款釘釘?shù)蛢r(jià)機(jī)票提示器! |60行代碼做了一個(gè)語音壁紙切換器天天看小姐姐!|
年度爆款文案
2).學(xué)Python真香!我用100行代碼做了個(gè)網(wǎng)站,幫人PS旅行圖片,賺個(gè)雞腿吃
9).發(fā)現(xiàn)一個(gè)舔狗福利!這個(gè)Python爬蟲神器太爽了,自動(dòng)下載妹子圖片
點(diǎn)閱讀原文,領(lǐng)廖雪峰全套資料!


