Python骚操作，提取pdf文件中的表格数据！

2024-05-03 04:35:14

在实际研究中，我们经常需要获取大量数据，而这些数据很大一部分以pdf表格的形式呈现，如公司年报、发行上市公告等。面对如此多的数据表格，采用手工复制黏贴的方式显然并不可取。那么如何才能高效提取出pdf文件中的表格数据呢？

这是小编准备的python爬虫学习资料，关注，转发，私信小编“01”即可免费获取！

Python提供了许多可用于pdf表格识别的库，如camelot、tabula、pdfplumber等。综合来看，pdfplumber库的性能较佳，能提取出完整、且相对规范的表格。因此，本推文也主要介绍pdfplumber库在pdf表格提取中的作用。

作为一个强大的pdf文件解析工具，pdfplumber库可迅速将pdf文档转换为易于处理的txt文档，并输出pdf文档的字符、页面、页码等信息，还可进行页面可视化操作。使用pdfplumber库前需先安装，即在cmd命令行中输入：

pip install pdfplumber

pdfplumber库提供了两种pdf表格提取函数，分别为.extract_tables( )及.extract_table( )，两种函数提取结果存在差异。为进行演示，我们网站上下载了一份短期融资券主体信用评级报告，为pdf格式。任意选取某一表格，其界面如下：

接下来，我们简要分析两种提取模式下的结果差异。

（1）.extract_tables( )

可输出页面中所有表格，并返回一个嵌套列表，其结构层次为table→row→cell。此时，页面上的整个表格被放入一个大列表中，原表格中的各行组成该大列表中的各个子列表。若需输出单个外层列表元素，得到的便是由原表格同一行元素构成的列表。例如，我们执行如下程序：

输出结果：

（2）.extract_table( )

返回多个独立列表，其结构层次为row→cell。若页面中存在多个行数相同的表格，则默认输出顶部表格；否则，仅输出行数最多的一个表格。此时，表格的每一行都作为一个单独的列表，列表中每个元素即为原表格的各个单元格内容。若需输出某个元素，得到的便是具体的数值或字符串。如下：

输出结果：

在此基础上，我们详细介绍如何从pdf文件中提取表格数据。其中一种思路便是将提取出的列表视为一个字符串，结合Python的正则表达式re模块进行字符串处理后，将其保存为以标准英文逗号分隔、可被Excel识别的csv格式文件，即进行如下操作：

输出结果：

尽管能获得完整的表格数据，但这种方法相对不易理解，且在处理结构不规则的表格时容易出错。由于通过pdfplumber库提取出的表格数据为整齐的列表结构，且含有数字、字符串等数据类型。因此，我们可调用pandas库下的DataFrame( )函数，将列表转换为可直接输出至Excel的DataFrame数据结构。DataFrame的基本构造函数如下：

DataFrame([data,index, columns])

三个参数data、index和columns分别代表创建对象、行索引和列索引。DataFrame类型可由二维ndarray对象、列表、字典、元组等创建。本推文中的data即指整个pdf表格，提取程序如下：

其中，table[1:]表示选定整个表格进行DataFrame对象创建，columns=table[0]表示将表格第一行元素作为列变量名，且不创建行索引。输出Excel表格如下：

通过以上简单程序，我们便提取出了完整的pdf表格。但需注意的是，面对不规则的表格数据提取，创建DataFrame对象的方法依然可能出错，在实际操作中还需进行核对。

pdf2docx库 | 转文件格式，支持抽取文件中的表格数据

今天在知乎看到近几年[pdf转word]在百度指数中呈上升趋势, 由于pdf文件本身特殊性,想要百分百地将其转回word格式基本上是不可能的.我尝试着在github上搜了下,找到一个pdf2docx ...
【Python 库】解析PDF文本及表格

pdf 是个异常坑爹的东西,有很多处理 pdf 的库,但是没有完美的. 一.pdfminer3k pdfminer3k 是 pdfminer 的 python3 版本,主要用于读取 pdf 中的文本. ...
如何批量采集网页表格数据？

Comming Soon! Python&Stata数据分析课寒假工作坊我们最想要的数据格式就是表数据,但这表格并不是excel文件,而是存在于网页上的表数据.比如本教程实验网站 http: ...
Pandas也能爬虫？还如此简单！

众所周知,一般的爬虫套路无非是构造请求.解析网页.提取要素.存储数据等步骤.构造请求主要用到requests库,提取要素用的比较多的有xpath.bs4.css和re.一个完整的爬虫,代码量少则几十行 ...
再见PDF提取收费！我用100行Python代码搞定！

第471篇原创干货,第一时间送达大家在日常的工作和学习过程中,都少不了与PDF文件打交道,很多的小伙伴都面临着将PDF文件中的文字.图片和表格数据提取出来的问题.能够对PDF文件中的文字.表格等数据 ...
使用Python的mplfinance绘制line_K_BOLL_CCI

import conn_sqlite # 连接本地sqlite数据库读取股票成交数据import pandas as pd # 生成dataframe格式数据import mplfinance as ...
如何使用python抽取pdf表格及文本，并保存到excel

pdf是一种便携式文档格式,由Adobe公司设计.因为不受平台限制,且方便保存和传输,所以pdf非常受欢迎. 目前市场上有很多pdf工具,大部分是阅读类,也有支持对pdf的修改.转换等功能,但这部分工 ...
利用 Milvus 构建人力资源管理系统

✏️ 作者介绍: 梁天新博士,Milvus 用户 1. 应用背景大中型企业通常会聘用上万名具备不同技能的员工,将他们分配在不同工作岗位上.人力资源部门在人员配置时需要先遍历公司内部职员的简历. ...
利用Python将PDF文档转为MP3音频

利用Python将PDF文档转为MP3音频
如何提取PDF文件中的表格？一个小技巧，2分钟就学会，有用

MID YEAR SUMMARY 老铁们,今天分享一个比较实用的小技巧,"如何提取PDF文件中的表格?" 方法很简单,大概2分钟就学会,请耐心往下看,相信对你以后工作有帮助. 01 ...
Python办公自动化——提取pdf文件中表格并到Excel

需求描述现有一 pdf 文件内容如下,文件中内容主要是表格形式的获奖名单,共158页.现要读取这些表格信息并保存到 excel 文件中. 代码示例: import pdfplumberimport ...
使用pdfminer提取PDF文件中的文字

和word文档一样,pdf文件也拥有强大的排版功能.对于pdf的编程操作而言,分为读和写两大类,其中读是相对简单的一种,比如读出pdf文件中的文字,写是比较难的,除了文字,图片等基本元素,最重要的是排 ...
怎样从PDF文件中提取表格到Excel？老司机Ctrl C，Ctrl V 5秒搞定

怎样从PDF文件中提取表格到Excel？老司机Ctrl C，Ctrl V 5秒搞定
10 个让你相见恨晚的 Python 骚操作

来源:Python 技术「ID: pythonall」众所周知,Python 以语法简洁著称,同样实现一个功能,Java 可能要十来行,Python 一行就可以搞定. Python 的代码之所以这么 ...
Acrobat Pro怎么将PDF文件中的文字全部转曲?

pdf文件如果文字没有转曲,打印的时候会出现问题,比如未安装PDF中的字体就会出现字体错乱.对于印刷的东西,坏了一个文件没问题,但是拿坏了的文件去印刷而没有被发现,那就会有大问题了,别和自己的钱过不去 ...
PDF Expert使用教程：如何在Mac中删除PDF文件中的指定页面？

在Mac中PDF文件的运用还是非常多的,不过想要对PDF文件进行一些处理那就一定要有一个非常专业的PDF编辑器了. 如果我们已经安装了像是PDF Expert for Mac这样的PDF编辑器,那么想 ...
怎么样提取GHOST文件中的万能驱动包?

利用ghostxp软件即可提取,操作步骤如下: 1.下载ghostxp软件,文后提供下载: 2.运行ghostxp,点击打开,选定gho文件: 3.展开目录树,找到sysprep文件夹并点击: 4.右 ...

Python骚操作，提取pdf文件中的表格数据！

相关推荐