Python爬虫学习心得一
学习来源:https://www.bilibili.com/video/BV12E411A7ZQ?p=15
爬虫的基本流程:准备工作,获取数据,解析内容,保存数据。任务介绍需求分析爬取豆瓣电影Top250的基本信息,包括电影的名称、豆瓣评分、评价数、电影概况、电影链接等。https://movie.douban.com/top250
爬虫初识什么是爬虫?网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或者脚本。由于互联网数据的多样性和资源的有限性,根据用户需求定向抓取相关网页并分析已成为如今主流的爬取策略。
百度指数:可以对比百度搜索点击热度的数据。电影天堂爬取豆瓣的电影介绍。http://index.baidu.com/v2/index.html#/
天眼查就是数据采集、清洗、聚合、建设、平台。https://www.tianyancha.com/
爬虫可以做什么?你可以爬取妹子的图片,爬取自己想看的视频等等,只要你能通过浏览器访问的数据,都可以通过爬虫获取。
爬虫的本质是什么?模拟浏览器打开网页,获取网页中我们想要的那部分数据。
搜索引擎的原理
基本流程:准备工作-获取数据-解析内容-保存数据
准备工作
通过浏览器查看分析目标网页,学习编程基础规范。
获取数据
通过HTTP库向目标站点发起请求,请求可以包含额外的header等信息,如果服务器能正常响应,会得到一个response,便是索要获取的页面内容。
解析内容
得到的内容可能是HTML、json等格式,可以用页面解析库、正则表达式等进行解析。
保存数据
保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件。
赞 (0)