Python爬取各种主要文档类型的方法简介

2024-08-07 05:02:52

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

以下文章来源于python教程，作者：小雨

刚接触Python的新手、小白，可以复制下面的链接去免费观看Python的基础入门教学视频

https://v.douyu.com/author/y6AZ4jn9jwKW

前言

HTML文档是互联网上的主要文档类型，但还存在如TXT、WORD、Excel、PDF、csv等多种类型的文档。网络爬虫不仅需要能够抓取HTML中的敏感信息，也需要有抓取其他类型文档的能力。下面简要记录一些个人已知的基于python3的抓取方法，以备查阅。

抓取TXT文档

在python3下，常用方法是使用urllib.request.urlopen方法直接获取。之后利用正则表达式等方式进行敏感词检索。

如果抓取的是某个HTML，最好先分析，例如：

抓取CSV文档

抓取PDF文档

抓取word

方法：

（1）利用urlopen抓取远程word docx文件；

（2）将其转换为内存字节流；

（3）解压缩（docx是压缩后文件）；

（4）将解压后的文件作为xml读取

（5）寻找xml中的标签（正文内容）并处理

赞 (0)

教你几个方法复制任何网站中无法复制的文字

无论是学习或工作,我们都需要从网上去寻找一些资料,当我们找了一上午终于找到自己想要的文字或文档,正欣喜的想要复制下来却发现文字根本无法复制,这时候我们是不是只能放弃了呢?如果你没有看这篇文章可能只有选 ...
Python爬取某网站文档数据完整教程（附源码）

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 基本开发环境 Python 3.6 Pycharm 相关模块的使用 import osimp ...
Python爬取CSDN文章，并制作成PDF文档

Python爬取CSDN文章，并制作成PDF文档
谁说同花顺很难爬？一文带你学会用Python爬取财经动态网页！

前文的爬虫都建立在静态网页基础之上,首先通过请求网站url获取到网页源代码.之后对源代码进行信息提取进而存储即可,本文则针对动态网页进行数据采集,首先介绍Ajax相关理论,之后实战爬取同花顺动态网页, ...
用Python爬取东方财富网上市公司财务报表

摘要: 现在很多网页都采取JavaScript进行动态渲染,其中包括Ajax技术.有的网页虽然也用Ajax技术,但接口参数可能是加密的无法直接获得,比如淘宝:有的动态网页也采用JavaScript,但 ...
Python爬取某平台短视频，把你喜欢的视频下收藏起来

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 基本开发环境 Python 3.6 Pycharm 相关模块的使用 import osimp ...
用 Python 爬取各类基金数据并动态展示

以下文章来源于Python爬虫数据分析挖掘 ,作者李运辰 Python爬虫数据分析挖掘四年的编程开发爱好者,分享日常编程学习和接私活过程,记录生活,共同进步.关注小白,编程快乐 01 前言去年接触 ...
Python爬取视频网站弹幕，并做成词云图

本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 作者:张同学来源:凹凸数据 Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 ht ...
word导出不同格式视频：当前页导出pdf文档及更改文档类型

word导出不同格式视频|word导出当前页视频|word导出pdf文档视频|word更改文档类型视频本视频教程由部落窝教育分享.
Python爬取网易云音乐辑的图片、专辑名和专辑出版时间

本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 作者:阿里波特来源:CSDN Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 h ...