Python爬虫抓取动态加载数据

2024-06-24 16:15:31

本节讲解如何抓取豆瓣电影“分类排行榜”中的电影数据（https://movie.douban.com/chart），比如输入“犯罪”则会输出所有犯罪影片的电影名称、评分，效果如下所示：

剧情|喜剧|动作|爱情|科幻|动画|悬疑|惊悚|恐怖|纪录片|短片|情色|同性|音乐|歌舞|家庭|儿童|传记|历史|战争|犯罪|西部|奇幻|冒险|灾难|武侠|古装|运动|黑色电影|
你想了解什么类型电影:犯罪
{'name': '肖申克的救赎', 'score': 9.7}
{'name': '控方证人', 'score': 9.6}
...
电影总数量：302部123456复制代码类型：[python]

确定网站类型

首先要明确豆瓣电影网站的类型，即是动态还是静态。检查方法：右键查看网页源码—>搜索“辛德勒的名单”关键字，如下图所示：

最终发现源码页中没有出现想要抓取的数据，只有一大堆的JS代码，由此确定该网站为动态网站。

影片详情信息

接下来，使用快捷键F12打开控制台进行抓包，点击NetWork选项卡—>XHR选项—>Preview选项卡—>刷新当前页面抓取数据包，如下图所示：

从图2可知，我们想要抓取的数据取全部包含在当前的数据包中。当我们向下滚动鼠标滑轮时，左侧栏内的数据包会实现自动加载，这是使用Ajax异步加载技术实现的。

通过查看数据Headers选项可以明确url地址、查询参数等信息，如下所示：

从上图可以得知请求的基准URL（由于还未拼接查询参数，所以称之为基准URL），如下所示：

'https://movie.douban.com/j/chart/top_list?'1复制代码类型：[python]

继续滚动鼠标滑轮可知查询参数具有如下规律：

type: 4  # 电影类型
interval_id: 100:90  #代表网页上滑动条的百分比（好于100%-90%的历史片）
action: ''  # 空
start: 0  # 每次加载电影的起始索引值 0 20 40 60
limit: 20 # 每次加载的电影数量，1为初始值，后续加载时20固定不变12345复制代码类型：[python]

注意：寻找规律时，后加载出来的数据包会排在最前面，除去第一个数据包外，其余数据包如下所示：

影片总数量

注意：第一个数据包反映了每个类型中电影的总数量，其url与响应信息如下：

请求的URL地址 : https://movie.douban.com/j/chart/top_list_count?type=4&interval_id=100%3A90
Response信息：{"playable_count":41,"total":104,"unwatched_count":104}12复制代码类型：[java]

影片类型与类型码

影片的类型与类型码包含在电影排行榜的主界面中，如下所示：

分析上述页面结构，然后使用正则表达式来提取想要的数据，并定义选择菜单“menu”，代码如下所示：

import re
def get_all_type_films(self):
    # 获取影片类型和类型码
    url = 'https://movie.douban.com/chart'
    headers = self.get_headers()
    html = requests.get(url=url, headers=headers).text
    re_bds = r'<a href=.*?type_name=(.*?)&type=(.*?)&.*?</a>'
    pattern = re.compile(re_bds, re.S)
    r_list = pattern.findall(html)
    # 存放所有类型和对应类型码大字典
    type_dict = {}
    # 定义一个选择电影类型的菜单
    menu = ''
    # r_list[{'剧情 , 11'},{},..]
    for r in r_list:
        type_dict[r[0].strip()] = r[1].strip()
        # 获取input的菜单，显示所有电影类型
        menu += r[0].strip() + '|'
    #返回类型字典以供后续函数调用，并返回输入菜单menu
    # {'剧情': '11', '喜剧': '24',...}
    return type_dict, menu
12345678910111213141516171819202122复制代码类型：[python]

编写完整程序

完成上述分析后，下面开始编写Python爬虫程序，代码如下：

#coding:utf8
import requests
import time
import random
import re
import json
from ua_info import ua_list
class DoubanSpider(object):
    def __init__(self):
        self.url = 'https://movie.douban.com/j/chart/top_list?'
        self.i = 0
    # 获取随机headers
    def get_headers(self):
        headers = {'User-Agent':random.choice(ua_list)}
        return headers
    # 获取页面
    def get_page(self,params):
      # 将json转换为 python 数据类型，并返回
      html = requests.get(url=self.url,params=params,headers=self.get_headers()).text
      html=json.loads(html)
      self.parse_page(html)
    # 解析并保存数据
    def parse_page(self,html):
       item = {}
        # html列表类型： [{电影1},{电影2},{电影3}...]
       for one in html:
            # 名称 + 评分
           item['name'] = one['title'].strip()
           item['score'] = float(one['score'].strip())
           print(item)
           self.i += 1
    # 获取电影总数
    def total_number(self,type_number):
        # F12抓包抓到的地址，type表示电影类型
        url = 'https://movie.douban.com/j/chart/top_list_count?type={}&interval_id=100%3A90'.format(type_number)
        headers = self.get_headers()
        html = requests.get(url=url,headers=headers).json()
        total = int(html['total'])
        return total
    # 获取所有电影的类型和对应type值
    def get_all_type_films(self):
        # 获取类型与类型码
        url = 'https://movie.douban.com/chart'
        headers = self.get_headers()
        html = requests.get(url=url,headers=headers).text
        re_bds = r'<a href=.*?type_name=(.*?)&type=(.*?)&.*?</a>'
        pattern = re.compile(re_bds,re.S)
        r_list = pattern.findall(html)
        # 存放所有类型和对应类型码大字典
        type_dict = {}
        #定义一个选择电影类型的菜单
        menu = ''
        for r in r_list:
            type_dict[r[0].strip()] = r[1].strip()
            # 获取input的菜单，显示所有电影类型
            menu += r[0].strip() + '|'
        return type_dict,menu
    # 主程序入口函数
    def main(self):
        # 获取type的值
        type_dict,menu = self.get_all_type_films()
        menu = menu + '\n你想了解什么类型电影:'
        name = input(menu)
        type_number = type_dict[name]
        # 获取电影总数
        total = self.total_number(type_number)
        for start in range(0,(total+1),20):
           #构建查询参数
            params = {
                'type' : type_number,
                'interval_id' : '100:90',
                'action' : '',
                'start' : str(start),
                'limit' : '20'
            }
            # 调用函数,传递params参数
            self.get_page(params)
            # 随机休眠1-3秒
            time.sleep(random.randint(1,3))
        print('电影总数量:%d部'%self.i )
if __name__ == '__main__':
    spider = DoubanSpider()
    spider.main()1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283复制代码类型：[python]

输出示例：

剧情|喜剧|动作|爱情|科幻|动画|悬疑|惊悚|恐怖|纪录片|短片|情色|同性|音乐|歌舞|家庭|儿童|传记|历史|战争|犯罪|西部|奇幻|冒险|灾难|武侠|古装|运动|黑色电影|
你想了解什么类型电影:科幻
{'name': '盗梦空间', 'score': 9.3}
{'name': '星际穿越', 'score': 9.3}
{'name': '楚门的世界', 'score': 9.3}
{'name': '机器人总动员', 'score': 9.3}
{'name': '蝙蝠侠：黑暗骑士', 'score': 9.2}
{'name': '超感猎杀：完结特别篇', 'score': 9.2}
{'name': '新世纪福音战士 第0:0话 诞生之始', 'score': 9.2}
{'name': '少年骇客：变身之谜', 'score': 9.2}
...
...
电影总数量:147部12345678910111213复制代码类型：[python]

最后我们对抓取动态网站数据做简单地总结：

1.确定网站是否为动态网站，通过查看源码搜索相应的关键字即可确定。

2.动态网站主要通过异步方式加载数据。触发数据加载的JS事件主要有滚动鼠标滑轮、鼠标点击、拉动滚动条等有关动作，也有一些网站通过局部更新的方式加载数据，比如有道翻译案例。

Python做简单爬虫（urllib.request怎么抓取https以及伪装浏览器访问的方法）

一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...
python的常用内建模块与常用第三方模块

本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理一.常用内置模块 1.datetime Python 提供了一个 time 和 calendar 模 ...
接口自动化

一.自动化分类 (1)接口自动化 > python/java+requests+unittest框架来实现 > python/java+RF(RobotFramework)框架来实现--对 ...
后浪青年的聊天，需要 Python 助威

来源:Python 技术「ID: pythonall」微信已经成为了我们大多数国人的聊天工具,在微信聊天中,选择合适的时机发送适当的表情,不仅可以丰富我们的聊天内容,而且还有化解尴尬.增进感情等等效 ...
Python爬取某平台短视频的方法

这篇文章主要介绍了Python爬取某平台短视频的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下前言本文的文字及图片来源于网络,仅供学习.交流使用,不 ...
某校教务管理系统post分析，Python实现自动查询成绩并发送短信

前言本人是一名大三大学生,考完试不久,由于自己不知道期末考试什么时候出考试成绩,并且每次查询成绩特别麻烦(首先得登录VPN连接学校内网,然后再登录教务管理系统,再进入查询界面,点击查询成绩等,相信各 ...
(1条消息) python3爬虫系列07之动态网页Json 数据，爬虫要怎么搞？

(1条消息) python3爬虫系列07之动态网页Json 数据，爬虫要怎么搞？
『爬虫四步走』手把手教你使用Python抓取并存储网页数据！

爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据,本文将基于爬取B站视频热搜榜单数据并存储为例,详细介绍Python爬虫的基本流程.如果你还在入门爬虫 ...
「爬虫四步走」手把手教你使用Python抓取并存储网页数据

爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据,本文将基于爬取B站视频热搜榜单数据并存储为例,详细介绍Python爬虫的基本流程.如果你还在入门爬虫 ...
怎么用Python写爬虫抓取网页数据

机器学习首先面临的一个问题就是准备数据,数据的来源大概有这么几种:公司积累数据,购买,交换,政府机构及企业公开的数据,通过爬虫从网上抓取.本篇介绍怎么写一个爬虫从网上抓取公开的数据. 很多语言都可以写 ...
如何让Python爬虫一天抓取100万张网页，爬虫抓取网页数据

前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 王平源自:猿人学Python PS:如有需要Python学习资料的 ...
python爬虫爬取网页表格数据

https://download.csdn.net/download/weixin_38581447/12870156?utm_medium=distribute.pc_relevant_downlo ...
Python爬虫爬取数据的步骤

爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...
Python 逆向抓取 APP 数据

今天继续给大伙分享一下 Python 爬虫的教程,这次主要涉及到的是关于某 APP 的逆向分析并抓取数据,关于 APP 的反爬会麻烦一些,比如 Android 端的代码写完一般会进行打包并混淆加密加固 ...
想要找美女的清晰图片吗！教你使用python爬虫爬取网站中高质量的图片！

想要找美女的清晰图片吗！教你使用python爬虫爬取网站中高质量的图片！
实现动态加载VXWORKS .O/.OUT模块

整个过程为: 创建文件系统-->下载文件-->加载模块-->查找符号地址并执行以下为演示该过程的一个简易实现文件,有使用或者引用的话,也打个招呼,或者给评论一下: ======= ...