当前位置:首页 » 编程软件 » pdf提取脚本

pdf提取脚本

发布时间: 2023-06-02 00:24:20

1. 如何利用python抓取PDF中的某些内容

可以转换成TXT再抓取


fromcStringIOimportStringIO
frompdfminer.pdfinterp
importPDFResourceManager,PDFPageInterpreter
frompdfminer.converterimportTextConverter
frompdfminer..pdfpage
importPDFPage
defconvert_pdf_2_text(path):

rsrcmgr=PDFResourceManager()
retstr=StringIO()

device=TextConverter(rsrcmgr,retstr,codec='utf-8',laparams=LAParams())
interpreter=PDFPageInterpreter(rsrcmgr,device)

withopen(path,'rb')asfp:
forpageinPDFPage.get_pages(fp,set()):
interpreter.process_page(page)
text=retstr.getvalue()

device.close()
retstr.close()

returntext
热点内容
电脑服务器号在哪里找 发布:2025-02-12 23:22:29 浏览:12
linux查看系统是32位 发布:2025-02-12 23:17:29 浏览:989
从数据库中随机取数据库数据 发布:2025-02-12 23:17:25 浏览:878
ftp下载软件安卓 发布:2025-02-12 23:07:24 浏览:567
c搜索算法 发布:2025-02-12 23:05:47 浏览:862
返回服务器地址 发布:2025-02-12 23:05:45 浏览:181
我的世界推荐在线服务器 发布:2025-02-12 23:00:18 浏览:462
什么是解压目录 发布:2025-02-12 22:49:24 浏览:981
惠普电脑选购要考虑哪些因素配置 发布:2025-02-12 22:43:50 浏览:223
算法导论和算法 发布:2025-02-12 22:43:13 浏览:932