您的位置：首页 >聚焦 >

Python 超强大的PDF表格提取器 — Camelot

2022-04-04 06:00:56 来源：程序员客栈

如果你有从PDF中批量提取表格的需求，那么这篇文章就是你的福音。

Python 第三方模块 Camelot 能够精准识别PDF中的表格信息，并提取为pandas数据结构，而且还能导出为多种格式：JSON，Excel，HTML和Sqlite。

下面给大家介绍这个模块的使用方法：

1.准备

开始之前，你要确保Python和pip已经成功安装在电脑上，如果没有，可以访问这篇文章：超详细Python安装指南进行安装。

如果你用Python的目的是数据分析，可以直接安装Anaconda：Python数据分析与挖掘好帮手—Anaconda，它内置了Python和pip.

此外，推荐大家用VSCode编辑器，它有许多的优点：Python 编程的最好搭档—VSCode 详细指南。

请选择以下任一种方式输入命令安装依赖：1. Windows 环境打开 Cmd (开始-运行-CMD)。2. MacOS 环境打开 Terminal (command+空格输入Terminal)。3. 如果你用的是 VSCode编辑器或 Pycharm，可以直接使用界面下方的Terminal.

pip install camelot-py[cv]

2.使用

最简单的使用方式如下：

import camelot# 1.读取pdftables = camelot.read_pdf("foo.pdf", flavor="stream")# 2.导出pdf所有的表格为csv文件tables.export("foo.csv", f="csv") # json, excel, html, sqlite

第一行，导入camelot这个模块。

第二行，以stream的模式读取当前目录的foo.pdf文件。

第三行，将所有表格数据导出为 foo.csv 文件，并保存在当前文件夹下。

相当简单，请注意，read_pdf 的 flavor 参数是可选的，如果你不带这个参数，请注意需要安装 ghostscript 这个驱动，因为它默认使用 ghostscript 去用 lattice 模式。

3.进阶

3.1 处理背景线：

可以看到，很多表格的线都隐藏在背景中。这种表格默认是不支持的，这时候我们需要让程序能够自动识别这样的表格：

tables = camelot.read_pdf("background_lines.pdf", process_background=True)

增加 process_background=True 参数即可。

3.2 指定表格区域

某些情况下无法正确识别到PDF中的表格，此时手动设定左上角和右下角的边界可能是有效果的：

tables = camelot.read_pdf("table_areas.pdf", flavor="stream", table_areas=["316,499,566,337"])

其中 table_areas接受格式为 x1，y1，x2，y2 的字符串，其中(x1，y1) -> 左上角, (x2，y2) -> 右下角。在PDF坐标空间中，页面的左下角是原点，坐标为（0，0）。

往期推荐1、美国国家安全局是如何入侵你的电脑的?2、美国四大科技巨头：苹果、微软、Facebook、谷歌的爱恨情仇3、几行Python代码实现动图倒放，太好玩4、乌克兰国防系统账号：admin，密码：1234565、这代码谁写的，太可怕了！点击关注公众号，阅读更多精彩内容

关键词：数据分析所有的表格需要安装

Python 超强大的PDF表格提取器 — Camelot

相关阅读

世界热推荐：今晚7:00直播丨下一个突破...

NFT周刊｜Magic Eden宣布支持Polygon网...

环球今亮点！头条观察 | DeFi的兴衰与...

重新审视合作，体育Crypto的可靠关系才能双赢

简讯：前端单元测试，更进一步

焦点热讯:刘强东这波操作秀

热点文章

Python 超强大的PDF表格提取器 — Camelot

相关阅读

热点文章

推荐文章