文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Python--从PDF中提取文本的方法总结

2023-09-03 19:20

关注

目录

前言

一、pdfplumber

二、pdfminer

三、fitz / pymupdf

四、性能对比


前言

这段时间做了好几个关于年报的需求,其中无一例外需要从年报PDF中提取文本再进行下一步的操作。为了提高效率,对比分析了python中各种可以实现此功能的方法效率。

一、pdfplumber

简介:

安装:

pip install pdfplumber

示例:

import pdfplumberdef pdf2txt(pdf_path):    txt = ''    with pdfplumber.open(pdf_path) as pdf:        for page in pdf.pages:            txt = txt + page.extract_text()    return txt

二、pdfminer

简介:

安装:

pip install pdfminer

示例:

from pdfminer.converter import TextConverterfrom pdfminer.pdfdocument import PDFTextExtractionNotAllowedfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.pdfpage import PDFPagedef parsePDF(PDF_path):    resource_manager = PDFResourceManager()    fake_file_handle = io.StringIO()    converter = TextConverter(resource_manager,fake_file_handle)    page_interpreter = PDFPageInterpreter(resource_manager,converter)    with open(PDF_path,'rb') as fh:        for page in PDFPage.get_pages(fh,caching=True,check_extractable=True):            page_interpreter.process_page(page)        text = fake_file_handle.getvalue()    converter.close()    fake_file_handle.close()    if text:        return text

三、fitz / pymupdf

简介:

安装:

直接安装fitz会出现较多问题,建议安装pymupdf

pip install pymupdf

示例:

import fitzdef parsePDF(filePath):    with fitz.open(filePath) as doc:        text = ""        for page in doc.pages():            text += page.get_text()        if text:            return text

官方示例:

https://github.com/pymupdf/PyMuPDF/tree/master/tests

四、性能对比

使用以上三种方法对同一个PDF进行文本提取,分别记录提取文本结果的长度和运行时间,结果如下:

fitz提取出的文本长度不仅更长,耗时更是快了不止10倍!

可以说fitz在提取文本的性能方面完爆其他库,但是却很少有文章介绍这个库,有点奇怪。

下一篇文章将对比三种方法提取的文本精度,欢迎关注~

来源地址:https://blog.csdn.net/Achernar0208/article/details/129199937

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     807人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     351人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     314人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     433人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     221人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯