从 PDF 表格中获取数据是一项痛苦的工作。不久前,一位开发者提供了一个名为 Camelot 的工具,使用三行代码就能从 PDF 文件中提取表格数据。
PDF 文件是一种非常常用的文件格式,通常用于正式的电子版文件。它能够很好的将不同的排版格式固定下来,形成版面清晰且美观的展示效果。然而,对于想要从 PDF 中提取信息的人们来说,PDF 是个噩梦,尤其是表格。
大量的学术报告、论文、分析文章都使用 PDF 展示其中的表格数据,但是对于如果想要直接从表格中复制数据则会非常麻烦。不久前,有一位开发者提供了一个可从文字 PDF 中提取表格信息的工具——Camelot,能够直接将大部分表格转换为 Pandas 的 Dataframe。
- 项目地址:https://github.com/camelot-dev/camelot
Camelot 是什么
据项目介绍称,Camelot 是一个 Python 工具,用于将 PDF 文件中的表格数据提取出来。
具体而言,用户可以像使用 Pandas 那样打开 PDF 文件,然后利用这个工具提取表格数据,最后再指定输出的形式(如 csv 文件)。
代码示例
项目提供的 PDF 文件如图所示,假设用户需要提取这些文字之间的表格 2-1 中的信息。
PDF 文件。我们需要提取表格 2-1。
使用 Camelot 提取表格数据的代码如下:
- >>> import camelot
- >>> tables = camelot.read_pdf('foo.pdf') #类似于Pandas打开CSV文件的形式
- >>> tables[0].df # get a pandas DataFrame!
- >>> tables.export('foo.csv', f='csv', compress=True) # json, excel, html, sqlite,可指定输出格式
- >>> tables[0].to_csv('foo.csv') # to_json, to_excel, to_html, to_sqlite, 导出数据为文件
- >>> tables
1 > - >>> tables[0]
7, 7)> # 获得输出的格式 - >>> tables[0].parsing_report
- {
- 'accuracy': 99.02,
- 'whitespace': 12.24,
- 'order': 1,
- 'page': 1
- }
以下为输出的结果,对于合并的单元格,Camelot 在抽取后做了空行处理,这是一个稳妥的方法。
安装方法
项目作者提供了三种安装方法。首先,你可以使用 Conda 进行安装,这是最简单的。
- conda install -c conda-forge camelot-py
流行的安装方法是使用 pip 安装。
- pip install camelot-py[cv]
还可以从项目中克隆代码,并使用源码安装。
- git clone https://www.github.com/camelot-dev/camelot
- cd camelot
- pip install ".[cv]"
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
软考中级精品资料免费领
- 历年真题答案解析
- 备考技巧名师总结
- 高频考点精准押题
- 资料下载
- 历年真题
193.9 KB下载数265
191.63 KB下载数245
143.91 KB下载数1148
183.71 KB下载数642
644.84 KB下载数2756
相关文章
发现更多好内容- Java 多线程执行到一半停止不动该如何解决?(java多线程执行一半不动如何解决)
- Java 分布式锁的工作原理究竟是怎样的?(java分布式锁的工作原理是什么)
- VGG卷积神经网络模型解析
- C#中怎样利用 JavaScript 实现客户端重定向?(C#如何使用JavaScript进行客户端重定向)
- 评估托管Kubernetes服务的优缺点
- 千里之行丨HUAWEI Developer Day武汉站报名开启!
- 2018年度全球APT报告显示:79个国家和地区受影响
- 浪潮网络发布智能AP 联接全新无线生态里程
- Java中用于替换字符的常见方法都有哪些?(Java中常用的替换字符的方法有哪些)
- 三分钟了解到底虚拟化平台能做什么?
猜你喜欢
AI推送时光机 咦!没有更多了?去看看其它编程学习网 内容吧