python大学专业

2024-06-16 05:02:48

本文仅练习爬虫程序的编写，并无保存任何数据，网址接口已经打码处理。

我们通过分析网络请求可以看到有这两个json文件：

https://xxx.cn/www/2.0/schoolprovinceindex/2018/318/12/1/1.json

https://xxx..cn/www/2.0/schoolspecialindex/2018/31/11/1/1.json

其中318是学校id，12是省份id，代表的是天津

分别对应着学校各省分数线以及和各专业分数线

因此我们当前页面的代码为：

import requests

HEADERS = {

"Accept": "text/html,application/xhtml+xml,application/xml;",

"Accept-Language": "zh-CN,zh;q=0.8",

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0",

'Referer': 'https://xxx.cn/school/search'

}

url = 'https://xxx.cn/www/2.0/schoolprovinceindex/2018/1217/12/1/1.json'

response = requests.get(url,headers=HEADERS)

print(response.json())

接下来我们就要想办法获取学校id了，同样我们分析到：

https://xxxl.cn/gkcx/api/?uri=apigkcx/api/school/hotlists

通过post如下数据：

data = {"access_token":"","admissions":"","central":"","department":"","dual_class":"","f211":"","f985":"","is_dual_class":"","keyword":"","page":2,"province_id":"","request_type":1,"school_type":"","size":20,"sort":"view_total","type":"","uri":"apigkcx/api/school/hotlists"}

我们可以看到一个参数是page，对应着页码：

所以我们这部分的代码为：

import requests

HEADERS = {

"Accept": "text/html,application/xhtml+xml,application/xml;",

"Accept-Language": "zh-CN,zh;q=0.8",

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0",

'Referer': 'https://xxx.cn/school/search'

}

url = 'https://xxx.cn/gkcx/api/?uri=apigkcx/api/school/hotlists'

response = requests.post(url,headers=HEADERS,data=data)

print(response.json())

我们处理一下就可以获得学校的id，为了美观和之后数据处理我们加到字典里，

import requests

HEADERS = {

"Accept": "text/html,application/xhtml+xml,application/xml;",

"Accept-Language": "zh-CN,zh;q=0.8",

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0",

'Referer': 'https://xxx.cn/school/search'

}

school_info = []

def get_schoolid(pagenum):

url = 'https://xxx.cn/gkcx/api/?uri=apigkcx/api/school/hotlists'

data = {"access_token":"","admissions":"","central":"","department":"","dual_class":"","f211":"","f985":"","is_dual_class":"","keyword":"","page":pagenum,"province_id":"","request_type":1,"school_type":"","size":20,"sort":"view_total","type":"","uri":"apigkcx/api/school/hotlists"}

response = requests.post(url,headers=HEADERS,data=data)

school_json = response.json()

schools = school_json['data']['item']

for school in schools:

school_id = school['school_id']

school_name = school['name']

school_dict = {

'id':school_id,

'name':school_name

}

school_info.append(school_dict)

def main():

get_schoolid(2)

print(school_info)

if __name__ == '__main__':

main()

结果如下：

因为之后我们想要遍历所有页面的学校id，所以保留了一个pagenum参数，用作循环。

接下来就是添加上获取相应简略信息以及详细专业分数：

import requests

HEADERS = {

"Accept": "text/html,application/xhtml+xml,application/xml;",

"Accept-Language": "zh-CN,zh;q=0.8",

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0",

'Referer': 'https://xxx.cn/school/search'

}

school_info = []

simple_list = []

pro_list = []

name_list = []

def get_schoolid(pagenum):

url = 'https://xxx.cn/gkcx/api/?uri=apigkcx/api/school/hotlists'

response = requests.post(url,headers=HEADERS,data=data)

school_json = response.json()

schools = school_json['data']['item']

for school in schools:

school_id = school['school_id']

school_name = school['name']

school_dict = {

'id':school_id,

'name':school_name

}

school_info.append(school_dict)

def get_info(id,name):

simple_url = 'https://xxx.cn/www/2.0/schoolprovinceindex/2018/%s/12/1/1.json'%id

simple_response = requests.get(simple_url,headers=HEADERS)

simple_info = simple_response.json()['data']['item'][0]

simple_infodict = {

'name':name,

'max':simple_info['max'],

'min':simple_info['min'],

'average':simple_info['average'],

'local_batch_name':simple_info['local_batch_name']

}

simple_list.append(simple_infodict)

def get_score(id,name):

professional_url = 'https://xxx.cn/www/2.0/schoolspecialindex/2018/%s/12/1/1.json'%id

professional_response = requests.get(professional_url,headers=HEADERS)

for pro_info in professional_response.json()['data']['item']:

pro_dict = {

'name':name,

'spname':pro_info['spname'],

'max':pro_info['max'],

'min':pro_info['min'],

'average':pro_info['average'],

'min_section':pro_info['min_section'],

'local_batch_name':pro_info['local_batch_name']

}

pro_list.append(pro_dict)

def main():

print('\033[0;36m='*15+'2018全国高校录取分数信息查询系统'+'='*15+'\033[0m'+'\n')

get_schoolid(1)

for school in school_info:

id = school['id']

name = school['name']

try:

get_info(id,name)

print('[*]正在抓取2018%s在天津市录取分数信息'%name)

except:

print('[*]%s暂时未查到录取分数信息'%name)

try:

get_score(id,name)

print('[*]正在抓取2018%s专业分数线信息'%name)

except:

print('[*]%s暂时未查专业分数线信息'%name)

print('\033[0;36m[*]信息抓取结束，即将开始整理信息\033[0m')

print('\033[0;36m[*]即将展示天津市各高校2018分数信息\033[0m')

for school in simple_list:

print('学校名称：{name}，最高分：{max}，最低分：{min}，平均分：{average}'.format(**school))

print('\033[0;36m[*]即将展示天津市各高校2018专业分数线信息\033[0m')

for school in pro_list:

print('学校名称：{name}，专业名称：{spname}，最高分：{max}，最低分：{min}，平均分：{average}，最低位次：{min_section}'.format(**school))

if __name__ == '__main__':

main()

因为一共有142页，io密集型可以使用多线程提高爬虫速度，但是要注意共同变量的问题，由于之前总结过python多线程的相关内容，接下来我们可以通过pandas保存到excel，我们可以先将字典转换成dataframe，然后保存为excel。

也可以通过pyecharts等进行数据分析。

Python3爬虫之模拟post登陆及get登陆

一.模拟登陆需要账号,密码的网址一些不需要登陆的网址操作已经试过了,这次来用Python尝试需要登陆的网址,来利用cookie模拟登陆由于我们教务系统有验证码偏困难一点,故挑了个软柿子捏,赛氪,h ...
python接口自动化2-发送post请求

前言发送post的请求参考例子很简单,实际遇到的情况却是很复杂的,首先第一个post请求肯定是登录了,但登录是最难处理的.登录问题解决了,后面都简单了. 一.查看官方文档 1.学习一个新的模块,其实 ...
C# aspnetcore 3.1 微信小程序发送订阅消息封装

一.appsettings.json定义小程序配置信息 "WX": { "AppId": "wx88822730803edd44", &qu ...
抓取单博主的所有微博及其评论

有段时间没写爬虫文章了,今天就给大家整合下之前发布的几期微博文章加上直播课写的爬某微博评论的小脚本,综合起来,写一个全面点的.全面在哪里呢,之前我写的微博脚本,都是需要哪个微博,爬哪个微博的评论. 我 ...
httprunner学习4-variables变量声明与引用

前言在 HttpRunner 中,支持变量声明(variables)和引用($var)的机制.在 config 和 test 中均可以通过 variables 关键字定义变量,然后在测试步骤中可以通 ...
jmeter压测学习37-请求头部自动签名带上X-sign参数

前言接口请求 body 带有 sign 签名参数,sign 签名是根据请求 body 除去 sign 本身参数后,拼接请求参数最后 md5 加密生成的. 前面一篇是把 sign 前面参数放到请求的 ...
httprunner学习5-参数化与数据驱动

前言参数化是自动化测试离不开的话题,httprunner里面只要把上一篇声明变量学会了,参数化也就自然会了. 不同的地方在于声明变量时对应值只有一个,参数化是多个值,存放在list里面. 登录参数化 ...
httprunner学习11-辅助函数debugtalk.py

前言在httprunner里面,每个 YAML / JSON 文件的脚本都是独立运行的,有时候我们希望能跨文件使用公用的参数. 比如登录生成一个token,后面的用例都可以去引用这个token值, ...
postman使用教程8-设置断言(Tests脚本编写)

前言当一个接口发送请求有返回结果后,如何知道返回的结果符合预期?可以在 postman 里面的 Tests 写脚本断言符合结果符合预期. Tests 是接口返回 response 之后的脚本操作,可 ...
大学专业分类，就业分析。精华版

大学专业分类，就业分析。精华版
这些大学专业对身体条件有限制，家长请注意！

孩子考了个好成绩却因选错专业被退档?快看看有哪些专业会对身体条件有限制! 根据<普通高等学校招生体检工作指导意见>和<教育部办公厅卫生部办公厅关于普通高等学校招生学生入学身体检查取消 ...
这7个很吃香的大学专业，就业前景好，毕业后前途光明

每年在高考选专业的时候,最关注的就是哪些专业就业形势看好,哪些行业最有发展前景,当然现在也不例外. 向学霸进军整理了一下专业的新动向,有些专业前景一片光明.没准里面就有你心仪的专业哦~ 一.数据科学与 ...
100 大学专业就业方向揭秘！你想报的专业以后能干啥？

新高考改革后,选科和专业直接联系.在高考面前,除了要选择好大学,更要选择好专业.许多学生和家长留言反映对专业不了解,不知道这个专业以后可以从事什么样的工作. 为此,小圈整理了9大类.100多个专业的就 ...
中国最孤独的大学专业，一年只录取一个学生，毕业后连国家抢着要

高考成绩出来后,家长和学生最担心如何填写志愿.填报志愿其实是一门大学问.如果一个人能填报志愿,对你将来的大学生涯会很有帮助.如果你不能填写志愿,可能会导致终身遗憾.所以网上有很多网民都尝试过各种帮助方 ...
大学专业分类，就业分析。

大学专业分类，就业分析。
九张图带你了解大学专业类别，专业，对口工...

九张图带你了解大学专业类别,专业,对口工作岗位,工作内容介绍. 长图长图长图长图长图长图长图
全国大学专业分类大全中国大学一共有多少专业

2018-06-09 16:17:52文/叶丹高考生在填报志愿时对专业比较陌生,很多人只听说过一些常见的专业,对大学里大多数专业不了解,这对报考很不利.我国高校现行的12个学科门类分别是 (1)哲学. ...
15所特色鲜明、实力雄厚的“国字号”大学专业大盘点！供报考参考！

福建高中生涯规划中心昨天在我国众多的高等院校中,有一些被冠以"中国XX大学"的字样,比如中国地质大学.中国计量大学,被人们称为"国字号"大学. 今天我们就来 ...

python大学专业

相关推荐