这 6 个爬虫开源项目 yyds

2024-07-28 14:07:28

作者丨老逛

来源丨经授权转自逛逛GitHub（ID：ggGithub）

今天盘点 6 个爬虫开源项目，它们可以帮你爬天爬地怕空气，爬微博、爬B站、爬知乎、爬*站。

提前声明，切勿使用这些项目从事非法商业活动，仅用于用于科研学习

微博爬虫

这个开源项目程序可以持续爬取一个或多个新浪微博用户（如李文di、无疫烦）的数据，并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据，包括用户信息和微博信息两大类。

地址：https://github.com/dataabc/weiboSpider

爬取结果可写入文件和数据库，具体的写入文件类型如下：

txt文件
csv文件
json文件
MySQL数据库
MongoDB数据库
SQLite数据库

同时支持下载微博中的图片和视频，具体的可下载文件如下：

原创微博中的原始图片
转发微博中的原始图片
原创微博中的视频
转发微博中的视频
原创微博Live Photo中的视频
转发微博Live Photo中的视频

首先需要修改 config.json 文件，然后爬取，程序会自动生成一个 weibo 文件夹，我们以后爬取的所有微博都被存储在这里。

然后程序在该文件夹下生成一个名为'微博名字'的文件夹，明星的所有微博爬取结果都在这里。文件夹里包含一个csv文件、一个txt文件、一个json文件、一个img文件夹和一个video文件夹，img文件夹用来存储下载到的图片，video文件夹用来存储下载到的视频。如果你设置了保存数据库功能，这些信息也会保存在数据库里，数据库设置见设置数据库部分。

Python爬虫教程

Python爬虫教程系列、从 0 到 1 学习 Python 爬虫，包括浏览器抓包，手机 APP 抓包，如 fiddler、mitmproxy，各种爬虫涉及的模块的使用，如：requests、beautifulSoup、selenium、appium、scrapy 等，以及验证码识别，MySQL，MongoDB 数据库的 Python 使用，多线程多进程爬虫的使用，css 爬虫加密逆向破解，JS爬虫逆向，分布式爬虫，爬虫项目实战实例等。

地址：https://github.com/wistbean/learn_python3_spider

装逼技能：把你的Python程序打包成exe可执行文件

还记得大明湖畔的夏雨荷么? 夏雨荷??? 哦,不对,还记得上次咱们公号爬取美女的项目么? 记得,简直刺激~对了,我想给我朋友玩玩,可是他没有安装Python,有什么办法么? 有!可以打包成一个 exe ...
Python 一个超快的公共情报搜集爬虫 — Photon

Photon是一个由s0md3v开源的情报搜集爬虫,其主要功能有: 1.爬取链接(内链.外链). 2.爬取带参数的链接,如(pythondict.com/test?id=2). 3.文件(pdf, p ...
cookiecutter-一个从cookiecutter（项目模板）创建项目的命令行工具python库

Cookiecutter是用于从cookiecutter(项目模板)创建项目的工具.. 这到底是什么做什么用的?请看下文. 案例研究 cookiecutter-pypackage是一个cookiecu ...
这个神器，把打包Python脚本为exe的流程都封装好了

Auto-py-to-exe 能够基于简单的GUI图形界面和Python中的 PyInstaller,将.py转换为.exe,非常容易使用,适合那些需要在windows上直接执行py文件但又没有Pyt ...
熬夜怒肝，保姆级Python学习路线，起飞！

想当初女朋友编程小白零基础,到如今在互联网大厂做算法工作,就是我带她漂进Python的海洋,从此一去不复返~ 我给她制订的学习路线十分适合萌新,总共分三步: 看视频作项目啃厚书看视频如果是零基 ...
跟着crossin学，能写出什么代码？来看看他们的答卷

上个月开启的编程擂台活动(参见码上行动的同学,你有一个机会等待签收),最终参赛作品出炉啦! 这次活动的参与者都是编程教室的学员,学习 python 的时间有短有长,学习方向也不尽相同.因此最终提交的 ...
菜鸟福利！Github 近1万 star，专门针对爬虫新手的开源项目，包含淘宝、微博等网站

重磅干货,第一时间送到在Python的学习中,很多的小伙伴喜欢做爬虫,爬虫程序可以快速的从网络上获取大量的我们感兴趣的数据,但是爬虫程序需要不断的及时的维护,而且要自己从零开始,尤其是对于爬虫新手来 ...
排名考前的基于SpringBoot搭建的开源项目

SpringBoot一直是开发者比较青睐的一款轻量级框架,他不仅继承了Spring框架原有的优秀特性,而且还通过简化配置来进一步简化了Spring应用的整个搭建和开发过程. Halo Halo [ˈh ...
卧槽！火爆github！超越YOLOv5，1.3M超轻量，高效易用，这个目标检测开源项目太香了！

这个目标检测神器简直香炸了!它不仅连续登录Github全球趋势榜,拥有的全球尖端算法论文也接连登录全球技术趋势榜PaperWithCode. 这个神器就是刚刚全面升级的PaddleDetection2 ...
解放双手！一键生成前后端代码的开源项目，收好了！

重磅资讯,干货,第一时间送达 ------- 来自:开源最前线(ID:OpenSourceTop) 项目地址:https://github.com/zhangdaiscott/jeecg-boot 今 ...
SRE和DevOps值得关注的十大开源项目

构建可扩展且高度可靠的软件系统是每个SRE的最终目标. 在SRE/DevOps领域中,有大量出色的开源项目,每个项目都有新颖而激动人心的解决方案.在本文中,我们将会介绍一些在监控,部署和运维领域最受欢 ...
分享GitHub上一些嵌入式相关的高星开源项目

Avem 项目链接: https://github.com/avem-labs/Avem 项目简介: 这是一个轻量级无人机飞控项目. Awesome-Embedded 项目链接: https://gi ...
用Go实现一个直播系统难吗？看看这个开源项目

今天以下文章来源于Go招聘 ,作者欧盆索思 Go招聘Golang 相关求职和招聘,以及面试题.经验分享,Go 语言其他知识和职场也是值得分享的. 这几年直播真的是不要太火,相关技术也很成熟.但没有接 ...
转 Go 的 PHPer 总是忘不了 PHP 的好？试试这个开源项目

今天以下文章来源于Go招聘 ,作者欧盆索思 Go招聘Golang 相关求职和招聘,以及面试题.经验分享,Go 语言其他知识和职场也是值得分享的. 作为"世界上最好的语言",有一些 ...
通过开源项目免费申请 IntelliJ IDEA license（激活码）

通过github开源项目免费申请 IntelliJ IDEA license(激活码) 我用来申请的github开源项目:https://github.com/Linliquan/springboot ...

这 6 个爬虫开源项目 yyds

相关推荐