當前位置:首頁 » 編程軟體 » pdf提取腳本

pdf提取腳本

發布時間: 2023-06-02 00:24:20

1. 如何利用python抓取PDF中的某些內容

可以轉換成TXT再抓取


fromcStringIOimportStringIO
frompdfminer.pdfinterp
importPDFResourceManager,PDFPageInterpreter
frompdfminer.converterimportTextConverter
frompdfminer..pdfpage
importPDFPage
defconvert_pdf_2_text(path):

rsrcmgr=PDFResourceManager()
retstr=StringIO()

device=TextConverter(rsrcmgr,retstr,codec='utf-8',laparams=LAParams())
interpreter=PDFPageInterpreter(rsrcmgr,device)

withopen(path,'rb')asfp:
forpageinPDFPage.get_pages(fp,set()):
interpreter.process_page(page)
text=retstr.getvalue()

device.close()
retstr.close()

returntext
熱點內容
c與java編譯過程 發布:2025-02-12 21:47:47 瀏覽:373
python的面向對象 發布:2025-02-12 21:46:10 瀏覽:613
醫學影像存儲解決方案 發布:2025-02-12 21:45:58 瀏覽:976
股票走勢預測演算法 發布:2025-02-12 21:45:06 瀏覽:769
游戲lua腳本 發布:2025-02-12 21:45:01 瀏覽:918
怎麼下載安卓版的光子助手 發布:2025-02-12 21:43:45 瀏覽:454
oppor7s怎麼取消鎖屏密碼 發布:2025-02-12 21:43:31 瀏覽:595
我的世界伺服器甜蜜小鎮 發布:2025-02-12 21:41:08 瀏覽:75
ftp影響數據交換 發布:2025-02-12 21:27:18 瀏覽:387
編譯原理與實現pdf 發布:2025-02-12 21:27:14 瀏覽:42