<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Python GUI 案例:從word/pdf文檔中提取圖片

          共 15126字,需瀏覽 31分鐘

           ·

          2021-04-12 13:45



          大家好,歡迎來到 Crossin的編程教室 !

          以前我們在文章中介紹過 excel/word/pdf 等文檔的讀寫,也介紹過一些 python GUI 框架的開發(fā)案例。今天我們將兩者結(jié)合在一起,講解如何用Python提取PDF與Word中圖片,并結(jié)合GUI框架PysimpleGUI,做一個多文件圖片提取軟件,效果如下:

          本文主要將分為以下部分講解:

          • PDF、Word 文件圖片提取
          • 構(gòu)造圖片提取器GUI框架
          • 整合代碼并打包

          主要涉及的Python模塊有:

          • PIL
          • PySimpleGUI
          • re
          • win32
          • os
          • zipfile
          • fitz


            準備工作

          首先使用pip安裝相關(guān)依賴模塊

          pip install pillow   #這是對模塊PTL的安裝
          pip install pypiwin32    #這是對win32的安裝
          pip install os 
          pip install zipfile
          pip install PyMuPDF  #這是引用fitz對PDF操作的包
          pip install PySimpleGui



            一、提取各文件內(nèi)嵌圖片

          讀取Excel有兩種方法。一種是將后綴名改成.zip格式進行提取,一種是通過Pillow模塊對Excel進行圖片復制與保存。Word提取圖片方法和通過.zip提取方法類似,PDF提取圖片方法要用到專門的模塊。這篇文章里只對PDF和Word的提取方法展開講解,Excel 的讀取方法類似,可參見代碼。

          1.1 提取Word圖片思路

          和以前一樣,我們先看代碼再講解

          path = values["lujing"]  
          count = 1
          for file in os.listdir(path):
              new_file = file.replace(".docx",".zip")
              os.rename(os.path.join(path,file),os.path.join(path,new_file))
              count+=1      
              number = 0
              craterDir = values["lujing"] + '/'  # 存放zip文件的文件夾路徑
              saveDir = values["lujing"] + '/' # 存放圖片的路徑
              list_dir = os.listdir(craterDir) # 獲取所有的zip文件名
              for i in range(len(list_dir)):
                  if 'zip' not in list_dir[i]:
                      list_dir[i] = ''
                      while '' in list_dir:
                          list_dir.remove('')                            
                          for zip_name in list_dir:
                              # 默認模式r,讀
                              azip = zipfile.ZipFile(craterDir + zip_name)
                              # 返回所有文件夾和文件
                              namelist = (azip.namelist())
                              for idx in range(0,len(namelist)):
                                  if namelist[idx][:11] == 'word/media/':#圖片是在這個路徑下
                                      img_name = saveDir + str(number)+'.jpg'
                                      f = azip.open(namelist[idx])
                                      img = Image.open(f)
                                      img = img.convert("RGB")
                                      img.save(img_name,"JPEG")
                                      number += 1
                                      azip.close()  #關(guān)閉文件,必須有,釋放內(nèi)存

          這里的代碼和通過.zip方式提取Excel圖片的代碼思路是一樣的。

          path = values["lujing"]這里是讀取GUI中鍵為**“l(fā)ujing”**的值,也即文件存儲位置,用于os模塊讀取與操作。

          new_file = file.replace(".docx",".zip")是替換后綴名,如果是Excel的話,就把.docx改成.xlsxxls

          craterDir = values["lujing"] + '/'  這是存放zip文件的文件夾路徑,注意這里讀取到的鍵為“l(fā)ujing”的值后要在后面添加/

          saveDir = values["lujing"] + '/'  這是存放圖片的路徑,同理,和上面一樣加個/號。

          最后說一下與Excel提取相比,最大的不同是下面的代碼

          if namelist[idx][:11] == 'word/media/':

          中括號里面的值不一樣。很好理解,我們可以打印namelist[idx],可以發(fā)現(xiàn)在索引0到10是'word/media/'所在位置。而在Excel中是前9位。

          1.2 提取PDF圖片思路

          相關(guān)代碼如下:

          def pdf2pic(path, pic_path):
              doc = fitz.open(path)
              nums = doc._getXrefLength()
              imgcount = 0 
              for i in range(1, nums):
                  text = doc._getXrefString(i)
                  if ('Width 2550' in text) and ('Height 3300' in text) or ('thumbnail' in text):
                      continue
                      checkXO = r"/Type(?= */XObject)"
                      checkIM = r"/Subtype(?= */Image)"
                      isXObject = re.search(checkXO, text)
                      isImage = re.search(checkIM, text)
                      if not isXObject or not isImage:
                          continue
                          imgcount += 1
                          pix = fitz.Pixmap(doc, i)
                          img_name = "img{}.png".format(imgcount)
                          if pix.n < 5:
                              try:
                                  pix.writePNG(os.path.join(pic_path, img_name))
                                  pix = None
                                  except:
                                      pix0 = fitz.Pixmap(fitz.csRGB, pix)
                                      pix0.writePNG(os.path.join(pic_path, img_name))
                                      pix0 = None
          if __name__ == '__main__':
            path = values["lujing"]+ '/' + values["wenjian"]
              pic_path = values["lujing"]
              pdf2pic(path, pic_path)

          先說一下這段代碼的思路吧,由于PDF不能像Excel和Word一樣改后綴名進行提取,故這里運用python的一個模塊PyMuPDF,過程如下

          • 讀取PDF并遍歷每一頁
          • 篩選無用的元素并用正則表達式獲取圖片
          • 生成并保存圖片

          fitz.open(path)是打開PDF文件夾,這里的path是需要在GUI界面中獲取用戶的文件存放路徑與文件名的。

          for i in range(1, nums):
              text = doc._getXrefString(i)

          這是我們的第一步讀取并遍歷,將讀取到的字符串內(nèi)容放入到text中

          if ('Width 2550' in text) and ('Height 3300' in text) or ('thumbnail' in text):
           continue

          由于PDF每一頁的背景就是一張圖片,故我們可以通過寬高來尋找這些背景圖片并用continue把他們剔除。

          checkXO = r"/Type(?= */XObject)"
          checkIM = r"/Subtype(?= */Image)"
          isXObject = re.search(checkXO, text)
          isImage = re.search(checkIM, text)
          if not isXObject or not isImage:
              continue

          我們通過實驗發(fā)現(xiàn)圖片所對應的字符串在checkxocheckIM這兩個中。故用正則表達式在text中進行索引提取,用到了re模塊的search函數(shù)。如果不是這兩個字符串就用continue剔除。

          pix = fitz.Pixmap(doc, i)
          img_name = "img{}.png".format(imgcount)
          if pix.n < 5:
           try:
            pix.writePNG(os.path.join(pic_path, img_name))
            pix = None
           except:
            pix0 = fitz.Pixmap(fitz.csRGB, pix)
            pix0.writePNG(os.path.join(pic_path, img_name))
            pix0 = None

          這是最后一步生成與保存圖片

          pix = fitz.Pixmap(doc, i)是生成圖像語句,doc代表PDF文件,i代表遍歷每個圖片對象的索引值。

          img_name = "img{}.png".format(imgcount)是設置圖像名語句,用提取到的圖片的序列號作為命名格式。

          而后if嵌套try那幾行代碼是保存圖像語句。如果pix.n<5,可以直接存為PNG,否者將進行RGB變換在保存。

          最后,傳遞參數(shù),調(diào)用函數(shù)。

          完成了圖片的提取,接下來就是 GUI 的構(gòu)建了。

            二、GUI框架構(gòu)建

          先看完整代碼:

          import PySimpleGUI as sg
          sg.ChangeLookAndFeel('GreenTan')   #更換主題
          menu_def = [['&使用說明', ['&注意']]]
          layout = [
              [sg.Menu(menu_def, tearoff=True)],
              [sg.Frame(layout=[
              [sg.Radio('Excel1'"RADIO1",size=(10,1),key="Excel1"),  sg.Radio('Word'"RADIO1",default=True,key="Word")],
              [sg.Radio('Excel2'"RADIO1", enable_events=True, size=(10,1),key="Excel2"), sg.Radio('PDF'"RADIO1",key="PDF")]], title='選項',title_color='red', relief=sg.RELIEF_SUNKEN, tooltip='Use these to set flags')],
              [sg.Text('文件位置', size=(81), auto_size_text=False, justification='right'),
               sg.InputText(enable_events=True,key="lujing"), sg.FolderBrowse()],
              [sg.Text('文件名字', size=(81), justification='right'),
               sg.InputText(enable_events=True,key="wenjian")],
              [sg.Submit(tooltip='文件'), sg.Cancel()]]

          window = sg.Window('圖片提取器', layout, default_element_size=(401), grab_anywhere=False)
          while True:
              event, values = window.read()
              if event == "Submit":
                  if values["Excel2"] == True:
             '''
             事件綁定
             '''

                      sg.Popup("提取成功")

                  if values["Excel1"] == True:
             '''
             事件綁定
             '''

                      sg.Popup("提取成功")
                  if values["Word"] == True:
             '''
             事件綁定
             '''

                      sg.Popup("提取成功"
                  if values["PDF"] == True:
             '''
             事件綁定
             '''

                      sg.Popup("提取成功")
              if event == "Cancel" or event == sg.WIN_CLOSED:
                  break    
              if event == "注意":
                  sg.Popup("作用講解:",
                           "Excel1 :解析選定位置中所有的Excel文件,無需在文件名處填寫",
                           "Excel2 :解析選定位置中單個指定的Excel文件,需在文件名處填寫",
                           "Word :  解析選定位置中單個指定的docx結(jié)尾的文件,無需在文件名處填寫",
                           "PDF :   解析選定位置中單個指定的PDF文件,需在文件名處填寫")
          window.close()           
          效果呈現(xiàn):

          代碼解析:PySimpleGUI還是原來那個步驟:

          Import   Create some widgets Create the window Create the event loop

          當然,做GUI之前就是先想清楚自己的圖形交互頁面長什么樣,像我就是現(xiàn)在紙上畫一個大概,這樣更有益于制作頁面

          第一步先引用模塊

          第二步添加元素(小部件)到容器(layout)中,這里先介紹一下用到的部件:

          Menu:顧名思義,這是菜單欄,每個GUI都必帶一個菜單欄來提示使用者該如何做,我們這里用了menu_def這個布局來完成菜單的設置。

          Frame:這個跟layout布局完全相同,工作方式也一樣,他們都是容器元素。可以看到“選項”那里是一個凹槽的正方形,里面裝有四個選項,作用就是這個。注意,&這個符號的作用是創(chuàng)建相同類型的菜單,這里只有注意事項這一個菜單,故可以不用管,讀者如果想添加同樣的菜單的話必須添加一個&tearoff=True這個參數(shù)是菜單欄中每個子選項上面加虛線。

          Radio:單選按鈕。我們只可以在同樣的id上選擇一個選項。id就是指代碼中的“ra-dio1”。其中每個radio函數(shù)的第一個參數(shù)是文本內(nèi)容,這里就是我們要進行提取的4個文件格式。而“size”就是位置,每行的第一個設同樣的參數(shù)(10,1)。最后就是我們進行事件綁定的鍵,其中“enable_events”可以不寫因為我們只是調(diào)用它而不用去對它產(chǎn)生事件。

          Text之前有講是不能改的正文內(nèi)容。同樣這里設置的位置參數(shù)(8,1),justification='right'有點類似我們平常用word那個向右對

          InputText:需要用戶輸入的正文內(nèi)容。這里有兩個需要我們填寫的地方:文件位置和文件名。這里需要設置鍵,因為在后面事件綁定中我們需要調(diào)用文件存儲路徑和文件名,在文中上半部分有提到過。

          FolderBrowse:簡易的打開文件路徑操作,不用你去復制路徑。

          Submit:確定按鈕,這里綁定為執(zhí)行提取文檔圖片事件

          Cancel:退出主程序按鈕。

          第三步就是創(chuàng)建窗口來容納這些元素布置。

          第四步創(chuàng)建事件循環(huán),可以看到代碼,都是一樣的套路:當用戶按下submit按鈕時系統(tǒng)將進行判斷你按的是哪個單選按鈕,進而進行相對應的事件執(zhí)行。當你按下cancel或者×時,就是退出主程序。當你按菜單中的注意時,就會彈出一個對話框告訴你這個系統(tǒng)怎么用。

          在事件循環(huán)中,我們用values[]的布爾值來判斷我們選的是哪個單選按鈕,有讀者疑問為什么不用event=,因為我們在第一個if當中用了event所以第二個if當中需要換一個判斷方法。

          至此,GUI部分就搞定了!感興趣的讀者可以繼續(xù)在上面添加功能。


            三、打包

          我們將完整代碼整合在一起,后安裝pyinstaller模塊

          pip install pyinstaller

          如果你的上述項目代碼文件命名為:photo.py。那么你要用下面命令進行打包

          pyinstaller photo.py

          最后打包成功之后,你會在py文件所在文件夾看到一個dist的子文件夾。進去之后,找到pachong.exe文件并運行它即可。

          注意,文件夾里附帶了很多文件,你可以刪除它。當然,如果嫌麻煩就直接從photo.py文件用Python執(zhí)行。

          本文代碼:

          https://pan.baidu.com/s/1jjZr-CGa-aehdl53bj1-Rg  
          提取碼: mulq

          如果文章對你有幫助,歡迎轉(zhuǎn)發(fā)/點贊/收藏~

          作者:GUI工作組

          來源:早起Python


          _往期文章推薦_

          一個極簡易上手的Python GUI庫





          如需了解付費精品課程教學答疑服務
          請在Crossin的編程教室內(nèi)回復: 666

          瀏覽 64
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  狠狠操天天干 | 亚洲精品乱码 | WWW,色老板,C0m | 成人伊人综合 | 乱伦www |