第107天: Python 解析 PDF

上次给大家介绍了 Python 如何操作 Word 和 Excel ,而今天想为大家再介绍下,用 Python 如何解析 PDF ,PDF 格式不像前面两个那么规范,从它的表现来看,它更像是一张图片,在一张白纸上把内容摆放在固定的位置上,没有逻辑结构。不过还是那句话,可以先了解下都能实现什么功能,以备不时之需。

正是因为 PDF 没有统一的规范,也没有逻辑结构,比如句子或段落,并且不能自适应页面大小的调整。今天要介绍的 PDFMiner 尝试通过猜测它们的布局来重建它们的结构,但是并不能保证一定能识别成功,尤其是对图片和表格的识别处理会差一些。

安装 PDFMiner

解析 PDF 需要用到 pdfminer 库,目前最新版本只支持 Python3.6 及以上 ,执行如下安装命令:

$ pip3 install pdfminer
################# 运行结果 ################Collecting pdfminer Downloading https://files.pythonhosted.org/packages/71/a3/155c5cde5f9c0b1069043b2946a93f54a41fd72cc19c6c100f6f2f5bdc15/pdfminer-20191125.tar.gz (4.2MB) |████████████████████████████████| 4.2MB 2.8MB/s Collecting pycryptodome (from pdfminer) Downloading https://files.pythonhosted.org/packages/cc/a6/f7e09ad45296eff20bd1db5aa14b1c9ea06826dd68eb2a7a27572c71d581/pycryptodome-3.9.4-cp37-cp37m-macosx_10_6_intel.whl (10.1MB) |████████████████████████████████| 10.1MB 1.6MB/s Building wheels for collected packages: pdfminer Building wheel for pdfminer (setup.py) ... done Stored in directory: /Users/mjg/Library/Caches/pip/wheels/e1/00/af/720a55d74ba3615bb4709a3ded6dd71dc5370a586a0ff6f326Successfully built pdfminerInstalling collected packages: pycryptodome, pdfminerSuccessfully installed pdfminer-20191125 pycryptodome-3.9.4

OK,如果提示以上信息则安装成功。

解析概述

由于PDF文件有如此大和复杂的结构,完整解析 PDF 文件很费时费力的。因此 PDFMiner 采用了一个懒惰分析的策略,就是只分析你所需要的部分。换句话就是说,根据你自己的需要只解释出你要的那部分就可以了。这里有两个核心类是必须的 PDFParserPDFDocument,除了这两个模块还有以下几个模块来配合使用。

模块名 说明
PDFParser 从文件中获取数据
PDFDocument 存储文档数据结构到内存中
PDFPageInterpreter 解析page内容
PDFDevice 把解析到的内容转化为你需要的东西
PDFResourceManager 存储共享资源,例如字体或图片等

下面这个图表示了 PDFMiner 各模块之间的关系,让我们能有个基本的认识:

基本用法

首先我准备了一个 pdf 格式的文档,内容基本如下图这样:

下面这段代码给出了 PDFMiner 解析 PDF 文档的基本方法,首先打开 pdf 文件,创建解析对象,存储文档结构,创建资源管理对象以及共享资源,然后再创建 device 对象,最后再创建文档解析对象,并处理文档中的每一页。是不是看起来很复杂,不过确实也挺麻烦,还是让我们直接看代码吧。

# pdf_1.py
# 导入库from pdfminer.pdfparser import PDFParserfrom pdfminer.pdfdocument import PDFDocumentfrom pdfminer.pdfpage import PDFPagefrom pdfminer.pdfpage import PDFTextExtractionNotAllowedfrom pdfminer.pdfinterp import PDFResourceManagerfrom pdfminer.pdfinterp import PDFPageInterpreterfrom pdfminer.pdfdevice import PDFDevicefrom pdfminer.layout import LAParamsfrom pdfminer.converter import PDFPageAggregator
# 设置文档密码password = ''
#打开pdf文件fp = open('pdfminer.pdf','rb')
#从文件句柄创建一个pdf解析对象parser = PDFParser(fp)
#创建pdf文档对象,存储文档结构document = PDFDocument(parser,password)
#创建一个pdf资源管理对象,存储共享资源rsrcmgr = PDFResourceManager()
#创建一个device对象device = PDFDevice(rsrcmgr)
#创建一个解释对象interpreter = PDFPageInterpreter(rsrcmgr, device)
#处理包含在文档中的每一页for page in PDFPage.create_pages(document): interpreter.process_page(page)

这样就完成了将页面对象加载的操作,下面通过命令 python pdf_1.py 运行程序,没有报错就说明页面信息已经成功加载至内存,然后我们就得想办法分别解析各类型信息,那都有哪些类型的对象呢?

解析对象

布局分析器把 pdf 文档中每一页返回为一个 LTPage 对象. 该对象包含该页面中的所有子对象,它们之间的关系大概如下图所示:

接下来我再列出一个表格具体说明下各对象:

对象名 对象说明 备注
LTPage 代表一个完整的页面,可以包含子对象 例如:LTTextBox,LTFigure,LTImage,LTRect,LTCurve和LTLine
LTTextBox 它包含 LTTextLine 对象的列表,代表一组被包含在矩形区域中的文本 注意:该box是根据几何学分析得到的,并不一定准确地表现为该文本的逻辑范围,get_text()方法可以返回文本内容
LTTextLine 包含一个LTChar对象的列表,表现为单行文本 字符表现为一行或一列,取决于文本书写方式,get_text()方法返回文本内容
LTChar 表示一个在文本中的真实的字母,作为一个unicode字符串 LTChar 对象有真实的分隔符
LTAnno 表示一个在文本中的真实的字母,作为一个unicode字符串 LTAnno 对象没有,是虚拟分隔符,按照两个字符之间的关系,布局分析器插入虚拟分隔符
LTFigure 表示一个被 PDF Form 对象使用的区域 pdf form适用于目前的图表(present figures)或者页面中植入的另一个pdf文档图片,LTFigure对象可以递归
LTImage 表示一个图形对象,可以是JPEG或者其他格式 但 PDFMiner 目前没有花太多精力在图形对象上
LTLine 表示一根直线 用来分割文本或图表(figures)
LTRect 表示一个矩形 用来框住别的图片或者图表
LTCurve 代表一个贝塞尔曲线

好了,了解以上对象都表示什么以后,现在我们写一段代码解析一个 pdf 并打印出来所解析的内容。

# pdf_2.py
# 导入库from pdfminer.pdfparser import PDFParserfrom pdfminer.pdfdocument import PDFDocumentfrom pdfminer.pdfpage import PDFPagefrom pdfminer.pdfpage import PDFTextExtractionNotAllowedfrom pdfminer.pdfinterp import PDFResourceManagerfrom pdfminer.pdfinterp import PDFPageInterpreterfrom pdfminer.pdfdevice import PDFDevicefrom pdfminer.layout import *from pdfminer.converter import PDFPageAggregator
# 提供初始密码password = ''# 没有密码可以初始密码# document.initialize()
#打开pdf文件fp = open('pdfminer.pdf','rb')
#从文件句柄创建一个pdf解析对象parser = PDFParser(fp)
#创建pdf文档对象,存储文档结构document = PDFDocument(parser, password)
#创建一个pdf资源管理对象,存储共享资源rsrcmgr = PDFResourceManager()
laparams = LAParams()
#创建一个device对象device = PDFPageAggregator(rsrcmgr, laparams=laparams)
#创建一个解释对象interpreter = PDFPageInterpreter(rsrcmgr, device)
#处理包含在文档中的每一页for page in PDFPage.create_pages(document): interpreter.process_page(page) layout = device.get_result() for x in layout: # 获取文本对象 if isinstance(x, LTTextBox): print(x.get_text().strip()) # 获取图片对象 if isinstance(x,LTImage): print('这里获取到一张图片') # 获取 figure 对象 if isinstance(x,LTFigure): print('这里获取到一个 figure 对象')

OK,这次我们把 pdf 文件加载到内存后,循环加载到每个页面对象,并遍历各个对象,使用 isinstance 方法判断对象的类型,将文本对象时直接打印出来,当为其他对象时打印一个字符串,返回结果如下图:

可以看出 PDFMiner 对文本的解析还是不错的,不过对图片的解析,正如官方文档所说,识别并不是很准确,这里将图片识别为了 figure 对象。另外对于表格的支持也不够好,虽然能读取出来表格内容,但完全看不出表格的样式来,后期还需要进一步处理。

总结

本文为大家介绍了 Python 中如何解析 PDF 文档,由于 PDF 并没有规范的格式,解析起来会比较复杂。当然除了 PDFMiner ,还有很多处理 pdf 的工具,各有优缺点,今天算是带大家入个门,就以 PDFMiner 为例做了一个简单介绍,如果想了解更多请参考文末官网介绍。

参考

python-pdfminer 官网:https://euske.github.io/pdfminer/

Python PDF Parser:https://github.com/euske/pdfminer

示例代码:https://github.com/JustDoPython/python-100-day

(0)

相关推荐

  • Java 创建 PDF 文件包的两种方法

    Java 创建 PDF 文件包的两种方法

  • 高昂收费?你距离免费PDF编辑工具只差20行Python代码

    PDF(Portable Document Format,可携带文档格式)是一种以PostScript语言图像模型为基础,在不同电脑.打印机上都能够保持固定的格式.正是因为它这一特性,让PDF备受欢迎 ...

  • python读取pdf中的文本

    python处理pdf也是常用的技术了,对于python3来说,pdfminer3k是一个非常好的工具. pip install pdfminer3k 首先,为了满足大部分人的需求,我先给一个通用一点 ...

  • C# / VB.NET 获取PDF文档的数字签名信息

    文档中的数字签名具有不可否认性,可有效防伪防篡改.对文档中已有的数字签名信息,可通过一定方法获取,下面通过程序代码介绍如何来实现.程序中,使用了Spire.PDF.dll,版本:6.11.6,可自行在 ...

  • 两行代码读取pdf、docx文件

    最近运行课件代码,发现pdf文件读取部分的函数失效.这里找到读取pdf文件的可运行代码,为了方便后续学习使用,我已将pdf和docx读取方法封装成pdfdocx包. pdfdocx 只有简单的两个读取 ...

  • 【Python 库】解析PDF文本及表格

    pdf 是个异常坑爹的东西,有很多处理 pdf 的库,但是没有完美的. 一.pdfminer3k pdfminer3k 是 pdfminer 的 python3 版本,主要用于读取 pdf 中的文本. ...

  • 再见PDF提取收费!我用100行Python代码搞定!

    第471篇原创干货,第一时间送达 大家在日常的工作和学习过程中,都少不了与PDF文件打交道,很多的小伙伴都面临着将PDF文件中的文字.图片和表格数据提取出来的问题.能够对PDF文件中的文字.表格等数据 ...

  • Java 获取PDF中的数字签名信息

    一.概述及程序环境要求 本文以Java代码演示如何获取PDF文档中的数字签名信息,包括签名人.签名位置.日期.原因.联系方式.签名在文档中的坐标等等. 程序环境包括: Spire.Pdf.jar(ja ...

  • 读取pdf和docx文件,亲测有效

    做文本数据处理,我最怕遇到pdf和docx,一旦遇到了,都是双手开启无影指模式狂按快捷键.按的手抽,按的崩溃. 今天我大师兄查哥搞定了pdf文件的读取,知道此事后异常欣喜.在此基础上,我查找了docx ...

  • 如何用python把pdf转为word

    手把手 | 20行Python代码教你批量将PDF转为Word 作者|丁彦军 给各位带来了一个免费简单快速的方法,手把手教你用Python批量处理PDF格式文件,获取自己想要的内容,存为word形式. ...

  • 解放双手!Python提取PDF指定内容,并批量重命名文件!

    作者:陈熹 本文转自:早起Python 本文将分享一个常见办公场景下的Python自动化案例,主要将涉及以下两个内容 Python提取图片型PDF内容 Python批量重命名文件 一.需求描述 有一个 ...

  • python 实用程序 | PDF 转 Word

    阅读文本大概需要 6 分钟. 现在网上有很多文档是 pdf 格式,虽然这个格式阅读起来很方便,并且里面的内容不会乱掉,但相应的我们就无法修改里面的内容.虽然现在市面上有很多 pdf 转 word 软件 ...

  • 用python提取PDF表格内容保存到excel

    一 提取pdf方法介绍 任务是用python提取PDF里的表格文件到excel里面去.做为一个 学了一个周python的人来说当然像尝试一下看能不能做到,事实证明是可以的只是可能代码有点烂...... ...

  • 《appium自动化入门-python》PDF版-YOYO出品

    关于appium自动化的资料断断续续也写了差不多一年的时间,前段时间一直在写selenium和python接口相关的,好在前面2本已经完结,现在有时间更新appium的文档了,让appium的爱好者久 ...

  • 对于Python的视觉设计还没整明白?这本书带给你想要的一切-OpenCV官方教程中文版(For Python)【PDF电子书】

    对于Python的视觉设计还没整明白?这本书带给你想要的一切-OpenCV官方教程中文版(For Python)【PDF电子书】

  • 第104天: Python 解析 XML

    第104天: Python 解析 XML