(3条消息) Python爬取全国高校信息并写入csv

2024-08-02 14:53:55

2021-03-23更新

原来的页面有一些小的改变, 原来的院校特效一列变成了现在的 一流大学建设高校 和一流学科建设高校 两列, 所以代码需要有一些改变,总的代码已经更新了,至于思路那部分就不改了.

现在:
原来

前言

学了Python爬虫 过了有一段时间了. 有些概念都开始模糊了, 所以打算写一些小的爬虫, 加深一下映象, 别到时候学了就忘了,然后用的时候又全程懵逼

外部库依赖

# Python3 # 使用 pip install 库名称 来安装 requestslxml

思路

原网址: https://gaokao.chsi.com.cn/sch/search.do?searchType=1&start=0
不难分析出, 每增加一页, 链接上的start参数值就增加20,通过xpath先匹配出所有的列
在循环匹配通过子xpath获取我们要获取的内容
最后通过python内置的csv模块将内容写入csv文件中

代码(已更新)

import requestsfrom lxml import etreeimport timeimport csvstart_time = time.time()url = 'https://gaokao.chsi.com.cn/sch/search.do?searchType=1&start='headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}with open('data.csv', 'a', encoding='utf-8') as f:    csv_writer = csv.writer(f)    csv_writer.writerow(['院校名称', '院校所在地', '教育行政主管部门',                         '院校类型', '学历层次', '一流大学建设高校',                         '一流学科建设高校', '研究生院', '满意度'])start = 0count = 0while start <= 2820:    response = requests.get(url + str(start), headers=headers)    start += 20    html = etree.HTML(response.text)    university_list = []    for university in html.xpath('//tr[td]'):        university_name = university.xpath('./td/a')[0].text.strip()        university_addr = university.xpath('./td')[1].text.strip()        university_agency = university.xpath('./td')[2].text.strip()        university_type = university.xpath('./td')[3].text.strip()        university_level = university.xpath('./td')[4].text.strip()        if len(university.xpath('./td')[5]) == 1:            university_is_ylxx = True        else:            university_is_ylxx = False        if len(university.xpath('./td')[6]) == 1:            university_is_ylxy = True        else:            university_is_ylxy = False        if len(university.xpath('./td')[7]) == 1:            university_is_grad = True        else:            university_is_grad = False        #        l = len(university.xpath('./td/a'))        university_satisfaction = university.xpath('./td/a')[1].text.strip() if l >= 2 else '--'        university_list = [university_name, university_addr, university_agency,                           university_type, university_level, university_is_ylxx,                           university_is_ylxy, university_is_grad, university_satisfaction]        print(university_list)        with open('data.csv', 'a', encoding='utf-8') as f:  # 写入文件            csv_writer = csv.writer(f)            csv_writer.writerow(university_list)        count += 1    time.sleep(1)end_time = time.time()print("共花费 {} S, 爬取 {} 座高校".format(end_time - start_time, count))

实战｜教你用Python PyQt5制作一款视频数据下载小工具！

前言大家好,我是早起. 目前,市场上有大量 Python图形用户界面(GUI)开发框架可供选择,如wxpython .pyqt5.Gtk.Tk等.本文将用Python结合PyQt5制作一款B站视频数 ...
Python爬虫练习：爬取800多所大学学校排名、星级等

前言国内大学最新排名,北大反超,浙大仅第四,中科大跌至第八时隔五年,"双一流"大学即将迎来首次大考,这也是继改变高校评断标准之后,第一次即将以官方对外发布,自然是引来了许多人的 ...
【视频讲解】Scrapy递归抓取简书用户信息

好久没有录制实战教程视频,大邓就在圣诞节后直接上干货. 之前写过一期[视频教程-用python批量抓取简书用户信息]的文章,是自己造的轮子,今天我趁着刚入门scrapy和xpath,操刀重写这个任务. ...
元旦假期，去哪里旅游好呢？Python爬取元旦旅游最全攻略！

2020还有最后几天就就结束了,您考虑好2021的第一天去哪里旅游了吗,不如来看看使用Python爬取最全攻略!受益的朋友给个三连. 转发请求声明. 一.实现思路首先我们爬取的网站是一个穷游网站: ...
超详细，手把手教你用20行Python代码制作飞花令小程序！

来源:早起Python 作者:刘早起飞花令是古时候人们经常玩一种"行酒令"的游戏,是中国古代酒令之一,属雅令."飞花"一词则出自唐代诗人韩翃<寒食> ...
(3条消息) Python爬取考研数据：所有985高校、六成211高校均可调剂

又到了一年一度的考研出分时间啦,近期有不少朋友让笔者帮他们分析如何提前做好调剂.复试与调剂总是密不可分.今天,给大家分享一些调剂的重要知识点,希望你在调剂的时候,能明白调剂的趋势与规则.也许,大家对于 ...
编程语言教你用python爬取唯品会商品信息，详细教程，仅供学习

代码展示运行结束来个照信息保存到表格中很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加 ...
(3条消息) 从网上爬取全国大学学校数据2020版（最新版，包含大部分常用字段）

AlgorithmFan2020-06-01 22:17:54 2948 收藏 15 文章标签:mysql大学学校大学数据库校代码学校数据库版权声明:本文为博主原创文章,遵循 CC 4.0 BY-S ...
(1条消息) python 爬虫 3 （实例：爬取网站照片、一句代码抓取图片）

爬取下厨房网站照片写在前面 1.爬取下厨房网站照片 2.把代码改成正则表达式 3.在linux里面用一句代码抓取下载所有的图片补充知识一句代码抓取下载所有的图片写在前面下厨房官网: http ...
(1条消息) python成功爬取拉勾网

python成功爬取拉勾网(一个小白的心里路程) 最开始想爬取拉钩是因为半年前上python实验课的时候,老师给了两个任务,一个时爬取糗百的笑话内容,另一个时爬取拉勾网的职位信息,当时因为课时紧张的缘 ...
python轻松爬取全国40城5000 地铁站点数据！附源码和数据集

有时候,爬虫爬到的数据是很珍贵.很稀缺,但是在实际项目最好还是多点谨慎,保证万无一失. 今天介绍一种新的获取城市地铁站点数据的方法,而且不再只是北上广深四个城市,而是全国开通地铁的城市. 对了,你 ...
Python 爬取高校历年分数线

最近一周一直在帮家里小弟看高考志愿,所以更新的没那么频繁了,请大家见谅. 在看各高校的往年分数时,忍不住手痒,想着能不能给它爬下来?哈哈,说干就干! 1 流程分析之前无意中在这个网站发现有各个高校的 ...
python爬取44130条用户观影数据，分析挖掘用户与电影之间的隐藏信息！

出处: Python爬虫数据分析挖掘 01 前言明天就是大年初一,很多电影也上映,看电影前很多人都喜欢去『豆瓣』看影评,所以我爬取44130条『豆瓣』的用户观影数据,分析用户之间的关系,电影之间的联 ...
(1条消息) python批量爬取图片并保存在本地文件夹下

python批量爬取图片并保存在本地文件夹下本人目前是山西农业大学软件学院大三的一名学生,由于疫情严重,积极响应党和国家的号召宅在家中,今日闲来无事,就对学院的官网下手啦,将官网上介绍学院的老师的照 ...

(3条消息) Python爬取全国高校信息并写入csv

2021-03-23更新

前言

外部库依赖

思路

代码(已更新)

相关推荐