拒绝我复制？那我就利用Python跟我一起写某度文库下载器

2024-04-19 13:35:52

前言

度娘啊，你以为你把百度网盘取消限速了，我们就满意了？当然不满意，还有某度文库呢！本来好好的文档，非得不让我们下载……今天，就教大家跟我一起写某度文库下载器Weeker，拒绝某库，从我做起。

私信小编01即可获取大量Python学习资源

我们的下载器是一个GUI程序，具体架构是，先写核心文件（get.py），再写命令行解析文件（weeker.py），接着使用Fire生成命令行，最后用Gooey把CLI转换为GUI。

准备

安装

安装Python 3.8；
安装依赖（依赖的作用下文会详解）：pip install requests docx beautifulsoup4 Gooey

爬虫核心

第一步，打开get.py，先引入类库：

 复制代码 隐藏代码from os import getcwd, systemfrom re import subimport requestsimport docxfrom bs4 import BeautifulSoup

每个模块的作用如下：

模块名称	作用
os	获取当前目录
re	替换文档中的特定字符
requests	用来做网络请求，不用多说。
docx	用来将txt转换为docx格式。
bs4	用来把文本从html中解析出来。

由于保存文件时我们需要判断路径，定义一个pwd常量，用来存储“当前路径：

复制代码隐藏代码pwd = getcwd()

再声明一个get
url:ua:path:output:convert方法，来实现我们的爬虫函数，其中：

参数名称	作用
url	文档地址，比如随便搜了一个： https://wenku.baidu.com/view/11ebd2af42323968011ca300a6c30c225901f0ea.html?fr=search
ua	User Agent。我试了一下，如果使用浏览器UA是不行的，会爬到一个广告界面，然后告诉你此操作需要登录，因此我们要使用Googlebot或Baiduspider来绕过UA检测（这就是为什么搜索引擎能搜到），以为我们是一个搜索引擎。跟推荐使用后者，毕竟百度和文库一家人嘛。
path	存储目录，不包括文件名。
output	带有后缀名的文件名。
convert	转换后的格式。因为作者比较懒，所以此字段只能填写docx。

编写get:::::函数

获取html&解析

把光标移到get:::::函数。首先照例我们要用requests，并且祭上bs4一条龙解析：

 复制代码 隐藏代码headers = { 'User-Agent': ua }result = requests.get(url, headers=headers)soup = BeautifulSoup(res.text, 'html.parser')# 为了方便管理文本，我们定义一个数组用来存储文档的每一行everyline = []

添加标题

我们给文档先添上标题，也就是网页的标题。

复制代码隐藏代码everyline.append(soup.title.string)

但是这样会有一个问题，添加出来的标题都是“xxxxxxx_百度文库”，很不雅观。所以抬上re.sub作替换，改成：

 复制代码 隐藏代码everyline.append(re.sub('_百度文库', '', soup.title.string, 1))

获取正文

通过观察网页，我们发现，bd doc-reader这个class有重大嫌疑，这个class里的东西都是正文内容：

我们通过bs4解析它，发现内容中有很多\n、\x0c和空格，\n是换行符，我们把它分割到数组中，而后两者分别删除即可：

复制代码 隐藏代码for doc in soup.find_all('div', attrs={'class': 'bd doc-reader'}): everyline.extend(doc.get_text().split('\n')) # 扩展数组 everyline = [i.replace(' ', '') for i in everyline] everyline = [i.replace('\x0c', '') for i in everyline]

保存文件

接下来就是保存文件。我的思路是，先按照txt格式保存，然后再判断convert参数，如果填写了docx，再将txt加后缀并修改为docx。

 复制代码 隐藏代码final_path = path# 如果是相对路径，连接pwd改成绝对路径，否则python不支持。if not path.startswith('/'):    final_path = pwd + '/' + final_pathtry:    file = open(final_path + '/' + output, 'w', encoding='utf-8')    for line in everyline:        file.write(line)        file.write('\n')    file.close()except FileNotFoundError as err:    print('wenku: error: Output directory does not exist. Quitting.')    exit(1)# 如果有convert请求if convert == 'docx':    with open(final_path + '/' + output) as f:        docu = docx.Document() # 创建对象        docu.add_paragraph(f.read()) # 添加段落        docu.save(final_path + '/' + output + '.' + convert) # 保存文档，文件名为xxx.xxx.docx        system('rm ' + final_path + '/' + output) # 删除try中保存的文件

创建GUI

打开weeker.py。
首先是两句 import，其中Gooey可以用类似argparse的语法将CLI转换为GUI。

复制代码隐藏代码from gooey import Gooey, GooeyParserimport get

接着添加if __name__ == '__main__'：

 复制代码 隐藏代码if __name__ == '__main__':    main()

我们来定义一下这个main()：

复制代码 隐藏代码@Gooey(encoding='utf-8', program_name='Weeker ', language='chinese')def main(): parser = GooeyParser(description='百度文库下载器，干杯！') parser.add_argument('url', metavar='文档地址', widget='TextField') parser.add_argument('ua', metavar='用户UA', widget='Dropdown', choices={'Googlebot': 1, 'Baiduspider': 2}) parser.add_argument('path', metavar='保存路径', widget='DirChooser') parser.add_argument('output', metavar='重命名', widget='TextField') parser.add_argument('convert', metavar='格式转换', widget='Dropdown', choices={'docx': 1}) args = parser.parse_args() get.get(args.url, ua=args.ua, path=args.path, output=args.output, convert=args.convert)

@Gooey是一个修饰器，可以把main()转换为一个Gooey函数。在main中，我们写下类似argparse的parser.add_argument函数，最终定义args = parser.parse_args()，从args的成员获取每个参数的输入，传到get.py里。我们运行一下，神奇的一幕发生了：

我们成功地把CLI转换成了GUI！！！

注I：如果你喜欢命令行，可以GitHub搜python-fire，直接将函数和参数暴漏给CLI，效果更佳。
注II：因为电脑原因，打包不了成品，因此有需要者请自行编译。
注III：附件里有两个py文件。
注IV：我刚看见源码里面有一句import写错了，如果你下载了源码，请先照文中代码核对一下。

Python 利用argparse模块实现脚本命令行参数解析

利用argparse模块实现脚本命令行参数解析 By:授客 QQ:1033553122 #代码实践1 study.py内容如下 #!/usr/bin/env python# -*- coding:ut ...
taylortaurus/Gooey: Turn (almost) any Python comma...

Gooey Turn (almost) any Python 2 or 3 Console Program into a GUI application with one line Support t ...
python3常用标准库

python3常用标准库趁着有时间,把一些我用过的常用标准库进行整理和复习. time 用法说明 time.time() 返回时间戳(从1970年1月1日00:00:00开始计算) time.lo ...
PyTorch Lightning工具学习

来源 | GiantPandaCV 编辑 | pprp [导读]Pytorch Lightning是在Pytorch基础上进行封装的库(可以理解为keras之于tensorflow),为了让用户能够脱 ...
用Python写几行代码，一分钟搞定一天工作量，同事直呼：好家伙！

前几天有一个读者说最近要整理几千份文件,头都要整秃了,不知道能不能用Python解决,我们来看一下,你也可以思考一下. 由于涉及文件私密所以具体内容已做脱敏处理. 大概是这样,一个文件夹下有多份会议通 ...
DL之MaskR-CNN：基于类MaskR-CNN算法(RetinaNet+mask head)训练自己的数据集(.h5文件)从而实现图像分割daiding

DL之MaskR-CNN:基于类MaskR-CNN算法(RetinaNet+mask head)训练自己的数据集(.h5文件)从而实现图像分割daiding 相关文章 DL之MaskR-CNN:基于类 ...
教你如何设置微信“拍一拍”用表情包自动回复

本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space.bil ...
CV之FE：基于TF进行FE——去除异常(被损坏)图像和单通道图像

CV之FE:基于TF进行FE--去除异常(被损坏)图像和单通道图像输出结果去除了异常(被损坏)图像 .单通道图像设计思路 1. 部分代码实现 import tensorflow as tf f ...
利用python tushare pandas进行财报分析

一.财报分析大家在购买股票的时候,已经不只是凭感觉去买了,基本上都会对一个股票进行深入的分析. 毕竟购买股票还是一项风险性较高的投资,需要在较为熟悉以后才能去开展,不能蛮干,钱也都不是天上掉下来的. ...
利用Python实现财务分析/经营分析自动化

之前写公司研究报告时,所有的数据都是通过翻看招股说明书/年报的PDF获取的,把数字从PDF里复制粘贴到EXCEL里再生成图表的过程非常繁琐,而且容易因为看错行/列摘错数据.使用Python可以实现提取 ...
利用Python绘制关系网络图

我们在做数据可视化时,要展现多个元素之间的相互关系时(比如人物关系图),常会用到网络图. 今天我们就分享一个在 Python 里绘制网络图的库:NetworkX,并显示它的基本操作. 一.Networ ...
(1条消息) 程序员：利用Python实现可控制肉鸡的反向Shell

一.初识 1.1 用 Python 实现一个可以管理多个肉鸡的反向 Shell,为什么叫反向 Shell 呢?反向就是肉鸡作为 Client 主动连接到我们的 Server 端,以实现对多个远程主机的 ...
Python爬虫威武！利用Python下载某度文库任意资源！

Python爬虫威武！利用Python下载某度文库任意资源！
利用Python采集股票信息，数据分析出最佳选择！

利用Python采集股票信息，数据分析出最佳选择！
利用Python自动生成Excel数据报表

所以今天就带大家来实战一波,使用Python自动化生成数据报表! 从一条条的数据中,创建出一张数据报表,得出你想要的东西,提高效率. 主要使用到pandas.xlwings以及matplotlib这几 ...
【利用python进行数据分析——基础篇】利用Python处理和分析Excel表中数据实战

作为一个学习用Python进行数据分析的新手来说,通过本文来记录分享一些我在用Python中的pandas.numpy来分析Excel表中数据的数据清洗和整理的工作,目的是熟悉numpy以及panda ...
利用python开发游戏

今天我们利用python的tkinter来制作几个简单小游戏首先我们了解下tkinter Tkinter: Tkinter模块(TK接口)是Python的标准Tk GUI工具包的接口.Tkinter ...