用Python 從 PDF 抽取 Excel 2.0
前些天向大家介紹了我開發(fā)的從PDF抽取表格小工具的使用方法(??點擊直達),有同學(xué)反饋說有一些問題:
一頁PDF有多張表,只能抽取第一個 有些表格線條是透明的,無法抽取 一頁一頁處理太麻煩,不能一次性抽取
針對以上情況,我在原功能基礎(chǔ)上進行了優(yōu)化,本文依舊不涉及代碼,具體實現(xiàn)過程我考慮在B站直播講解。
這里就將優(yōu)化部分的使用方法介紹一下
https://huggingface.co/spaces/beihai/PDF-Table-Extractor
單頁PDF包含多個表格
這部分已經(jīng)做了代碼優(yōu)化,前端也有一點點變化
選擇具體頁碼后,自動彈出抽取完成,下載的Excel包含多個sheet頁,對應(yīng)多張表格。
表格線條是否透明
有些 PDF 中的表格線條是透明的,比如下圖這種情況

大家可以在線條是否透明下拉框選擇 True

一鍵全頁抽取
如果想要抽取一個PDF中所有的表格,在頁碼處填寫 all 即可。
當(dāng)然,如果頁碼較多,如此操作會很慢,需要耐心等待。
也可以填頁碼區(qū)間,比如1-3頁就填1-3,第十頁到最后一頁,可以填10-end
如果某些表格沒有被提取,可以重新選擇表格線條是否透明重跑一下。

以上。歡迎三連。
另。
直播暫定周日晚,歡迎來波關(guān)注,屆時會在動態(tài)發(fā)預(yù)告。
推薦閱讀
機器學(xué)習(xí)基礎(chǔ):用 Lasso 做特征選
評論
圖片
表情
