<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          辦公室小姐姐的福利!用Python批量提取word文檔中的表格和圖片內(nèi)容

          共 2615字,需瀏覽 6分鐘

           ·

          2021-06-25 20:27

          點(diǎn)上方“菜鳥學(xué)Python”,選擇“星標(biāo)

          第491篇原創(chuàng)干貨,第一時(shí)間送達(dá)

          最近有許多小伙伴想要一些自動(dòng)化辦公的福利小程序,今天就滿足大家的需求。日常的辦公過程中,總少不了批量提取word文檔中的內(nèi)容,例如表格和圖片。

          前面菜鳥哥也為大家分享過從PDF文件中提取文字和圖片的提取文案:

          再見PDF提取收費(fèi)!我用100行Python代碼搞定!

          肝了一夜,用90行代碼打造最強(qiáng)PDF轉(zhuǎn)換器,word、PPT、excel、markdown、html一鍵轉(zhuǎn)換)

          今天菜鳥哥要為大家分享的福利是批量提取word中的表格和圖片數(shù)據(jù)!將表格數(shù)據(jù)提取到excel表中,將圖片保存到本地文件夾中。


          01.word內(nèi)容介紹

          這里,我們先來介紹一下,我們需要批量處理的word文檔中,表格和圖片的格式。

          在需要提取的word文檔中,包含了許多的相同格式的表格。表格包含了姓名、年齡、性別、城市和工作這五項(xiàng)內(nèi)容。針對(duì)于不同的表格結(jié)構(gòu)形式,程序編寫的內(nèi)容也需要針對(duì)性的調(diào)整。


          02.程序編寫

          從word文檔中提取表格和圖片,用到的是python-docx庫。其安裝方式為pip install python-docx



          03.保存表格

          首先,我們來看一下,如何提取單個(gè)word文檔中的所有表格數(shù)據(jù),并合并到同一個(gè)excel表中。部分程序如下圖所示:

          程序通過Document函數(shù),打開word文檔后,利用了三個(gè)for循環(huán)來讀取表格數(shù)據(jù)。

          • 第一個(gè)for循環(huán)是針對(duì)于word文檔中的每一個(gè)表格進(jìn)行操作。

          • 第二個(gè)for循環(huán)是針對(duì)于每一個(gè)表格的每一行數(shù)據(jù)進(jìn)行讀取。

          • 第三個(gè)for循環(huán)則是針對(duì)于每一行數(shù)據(jù)中的每一列進(jìn)行讀取。

          列表keys中保存的是列表的特征名稱,也即keys = [姓名,年齡,性別, 城市, 工作]。列表values則存儲(chǔ)的是所有的列表數(shù)據(jù)。


          獲取到表格的數(shù)據(jù)后,接下來是將keys和values中的數(shù)據(jù)寫入到excel表格中去。


          從表格的結(jié)構(gòu)形式可以看出:列表values的長(zhǎng)度 = 列表keys的長(zhǎng)度 * 表格中存儲(chǔ)的人數(shù)。


          所以通過等間隔采樣的方式,將keys和values的數(shù)據(jù)轉(zhuǎn)換成適合pandas的數(shù)據(jù)格式,通過pandas將數(shù)據(jù)保存到本地。


          04.保存圖片

          對(duì)于圖片的提取,程序不需要根據(jù)圖片進(jìn)行改動(dòng),大家可以直接復(fù)制程序,然后進(jìn)行應(yīng)用。程序如下圖所示:

          程序讀取了word文檔中所有的Relationship對(duì)象,保存到dict_rel變量中,通過判斷每一個(gè)對(duì)象中是否包含“image”字符來確定對(duì)象是否是圖片。如果確定是圖片類型,將圖片保存到與word文檔相同的根目錄下。


          05.批量處理
          接下來,通過批量處理的方式來提取word文檔中的表格和圖片內(nèi)容。程序如下圖所示:


          由于word文檔存在doc格式的文件,因此,通過win32com庫,將doc文件轉(zhuǎn)換為docx文件進(jìn)行保存。

          在完成轉(zhuǎn)換后,通過對(duì)于每一個(gè)docx文件,調(diào)用getPictures和getTables函數(shù)來提取圖片和表格數(shù)據(jù)。提取結(jié)果如下圖所示:

          可以看到,在word文檔的根目錄下,對(duì)應(yīng)著提取除了圖片和excel的表格文件。

          通過對(duì)于word文檔和excel的展示,可以看到,word文檔中的表格內(nèi)容,被準(zhǔn)確的提取到excel表格中進(jìn)行保存。


          06.總結(jié)

          以上就是菜鳥哥為大家奉上的自動(dòng)化辦公小福利,大家可以獲取源碼后,來進(jìn)行學(xué)習(xí),日積月累,跬步千里。相信大家一定會(huì)有所收獲。

          大家如果有其他自動(dòng)化辦公的需求,歡迎在下方留言,菜鳥哥會(huì)進(jìn)行整理,并推出解決方案~

          end



          你好,我是菜鳥哥,Python程序員,資深碼農(nóng),努力做一個(gè)斜杠青年

          日常輸出一些投資的心得和感悟嗎,目前有近170位同學(xué):  菜鳥學(xué)投資,星球來了!,一起聊投資,賺錢!



          推薦閱讀:

          入門: 最全的零基礎(chǔ)學(xué)Python的問題  | 零基礎(chǔ)學(xué)了8個(gè)月的Python  | 實(shí)戰(zhàn)項(xiàng)目 |學(xué)Python就是這條捷徑


          干貨:爬取豆瓣短評(píng),電影《后來的我們》 | 38年NBA最佳球員分析 |   從萬眾期待到口碑撲街!唐探3令人失望  | 笑看新倚天屠龍記 | 燈謎答題王 |用Python做個(gè)海量小姐姐素描圖 |碟中諜這么火,我用機(jī)器學(xué)習(xí)做個(gè)迷你推薦系統(tǒng)電影


          趣味:彈球游戲  | 九宮格  | 漂亮的花 | 兩百行Python《天天酷跑》游戲!


          AI: 會(huì)做詩的機(jī)器人 | 給圖片上色 | 預(yù)測(cè)收入 | 碟中諜這么火,我用機(jī)器學(xué)習(xí)做個(gè)迷你推薦系統(tǒng)電影


          小工具: Pdf轉(zhuǎn)Word,輕松搞定表格和水印! | 一鍵把html網(wǎng)頁保存為pdf!|  再見PDF提取收費(fèi)! | 用90行代碼打造最強(qiáng)PDF轉(zhuǎn)換器,word、PPT、excel、markdown、html一鍵轉(zhuǎn)換 | 制作一款釘釘?shù)蛢r(jià)機(jī)票提示器! |60行代碼做了一個(gè)語音壁紙切換器天天看小姐姐!


          年度爆款文案


          點(diǎn)閱讀原文,領(lǐng)廖雪峰全套資料!

          瀏覽 31
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  免费亲子乱婬一级A片 | 日韩A片在线观看 | gogo大胆无码无码免费视频 | 黄色一级电影免费 | 青娱乐在线观看网址 |