这 6 个爬虫开源项目 yyds

作者丨老逛

来源丨经授权转自 逛逛GitHub(ID:ggGithub)

今天盘点 6 个爬虫开源项目,它们可以帮你爬天爬地怕空气,爬微博、爬B站、爬知乎、爬*站。

提前声明,切勿使用这些项目从事非法商业活动,仅用于用于科研学习


01
微博爬虫
这个开源项目程序可以持续爬取一个或多个新浪微博用户(如李文di、无疫烦)的数据,并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。

地址:https://github.com/dataabc/weiboSpider

爬取结果可写入文件和数据库,具体的写入文件类型如下:
  • txt文件
  • csv文件
  • json文件
  • MySQL数据库
  • MongoDB数据库
  • SQLite数据库
同时支持下载微博中的图片和视频,具体的可下载文件如下:
  • 原创微博中的原始图片
  • 转发微博中的原始图片
  • 原创微博中的视频
  • 转发微博中的视频
  • 原创微博Live Photo中的视频
  • 转发微博Live Photo中的视频
首先需要修改 config.json 文件,然后爬取,程序会自动生成一个 weibo 文件夹,我们以后爬取的所有微博都被存储在这里。
然后程序在该文件夹下生成一个名为'微博名字'的文件夹,明星的所有微博爬取结果都在这里。文件夹里包含一个csv文件、一个txt文件、一个json文件、一个img文件夹和一个video文件夹,img文件夹用来存储下载到的图片,video文件夹用来存储下载到的视频。如果你设置了保存数据库功能,这些信息也会保存在数据库里,数据库设置见设置数据库部分。

02
Python爬虫教程
Python爬虫教程系列、从 0 到 1 学习 Python 爬虫,包括浏览器抓包,手机 APP 抓包,如 fiddler、mitmproxy,各种爬虫涉及的模块的使用,如:requests、beautifulSoup、selenium、appium、scrapy 等,以及验证码识别,MySQL,MongoDB 数据库的 Python 使用,多线程多进程爬虫的使用,css 爬虫加密逆向破解,JS爬虫逆向,分布式爬虫,爬虫项目实战实例等。
地址:https://github.com/wistbean/learn_python3_spider
(0)

相关推荐