下载图像重新命名并保存下来

首先导入我们需要的模块

import urllib.request

import os

import re

url = 'https://movie.douban.com/subject/26260853/celebrities'

r = urllib.request.urlopen(url)

html = r.read().decode('utf-8')

result = re.findall(r'https://img\d.doubanio.com/img/celebrity/medium/.*.jpg',html)
result2 = re.findall(r'(?<=title=").\S+', html)

result2.pop()

result3 = sorted(set(result2), key=result2.index)

result3.pop(-3)

第二行代码中pop()是去除最后一个元素,因为前面匹配后的列表中有一个非人物名字的元素所以我们就需要把它去掉
第三行代码中sorted(set(result2), key=result2.index)有两个功能,一个是使用set()集合函数来去除列表中重复元素,另一个是sorted()函数是给列表排序用的,key=result2.index的意思是以result2原来的索引顺序来给新的列表排序,因为每张图片很名字是对应的,如果单单使用set(),虽然重复的去除了但是顺序也变了,所以我们需要利用sort()结合key=result2.index来排序才行。
result3.pop(-3)意思是删除result3中倒数第三个元素,因为克里斯·摩根这个没照片所以我就把他删了。

if not os.path.exists('douban'):os.makedirs('douban')

i = 0 for link in result:

filename = 'douban\' + str(result3[i])+ '.jpg' i += 1 with open(filename, 'w') as file:

urllib.request.urlretrieve(link, filename)

第一行很明显是本次爬虫的网页, r = urllib.request.urlopen(url)用来打开网页, r.read()是读取网页内容,decode('utf-8')是用utf-8编码对字符串str进行解码,以获取unicode。

之后我们来获取一下图片的地址,用Chrome浏览器打开速度与激情8的全部影人页面,按下F12,分析一下,可知每个人的照片地址都是img1或者3.doubanio.com/img/celebrity/medium/几个数字.jpg

Paste_Image.png

我们使用正则表达式来匹配一下这些图片地址,1或者3部分用\d匹配,末尾数字部分用.*来匹配即可。

result = re.findall(r'https://img\d.doubanio.com/img/celebrity/medium/.*.jpg',html)

现在图片地址也有了,还需要把这些人物的名字给爬下来,之后才能配对文件,再次分析一下刚才的网址。看到这些人物的名字都是以title=开头,我们就用它来正则匹配一下,来获取全部的人物名字,放进一个列表中。

我们使用正则表达式来匹配一下这些图片地址,1或者3部分用\d匹配,末尾数字部分用.*来匹配即可。
result = e.findall(r'https://img\d.doubanio.com/img/celebrity/medium/.*.jpg',html)
现在图片地址也有了,还需要把这些人物的名字给爬下来,之后才能配对文件,再次分析一下刚才的网址。看到这些人物的名字都是以title=开头,我们就用它来正则匹配一下,来获取全部的人物名字,放进一个列表中。

result2 = re.findall(r'(?<=title=").\S+', html) result2.pop() result3 = sorted(set(result2), key=result2.index) result3.pop(-3)
第一行代码中re.findall(r'(?<=title=").\S+', html)用来匹配截图中title="后面的名字
第二行代码中pop()是去除最后一个元素,因为前面匹配后的列表中有一个非人物名字的元素所以我们就需要把它去掉
第三行代码中sorted(set(result2), key=result2.index)有两个功能,一个是使用set()集合函数来去除列表中重复元素,另一个是sorted()函数是给列表排序用的,key=result2.index的意思是以result2原来的索引顺序来给新的列表排序,因为每张图片很名字是对应的,如果单单使用set(),虽然重复的去除了但是顺序也变了,所以我们需要利用sort()结合key=result2.index来排序才行。
result3.pop(-3)意思是删除result3中倒数第三个元素,因为克里斯·摩根这个没照片所以我就把他删了。

之后我们来给本地创建一个文件夹用来保存图片,这里就用到了os模块
if not os.path.exists('douban'): os.makedirs('douban')

之后需要的是下载这些人物图片,利用之前爬取的人物名字给对应图片命名并保存。
i = 0 for link in result: filename = 'douban\' + str(result3[i])+ '.jpg' i += 1 with open(filename, 'w') as file: urllib.request.urlretrieve(link, filename)

完整代码贴出来,需要的同学可以试试。
import urllib.request import os import re url = 'https://movie.douban.com/subject/26260853/celebrities' r = urllib.request.urlopen(url) html = r.read().decode('utf-8') result = re.findall(r'https://img\d.doubanio.com/img/celebrity/medium/.*.jpg', html) result2 = re.findall(r'(?<=title=").\S+', html) result2.pop() result3 = sorted(set(result2), key=result2.index) result3.pop(-3) if not os.path.exists('douban'): os.makedirs('douban') i = 0 for link in result: filename = 'douban\\' + str(result3[i]) + '.jpg' i += 1 with open(filename, 'w') as file: urllib.request.urlretrieve(link, filename)

作者:梅花鹿数据rieuse 
链接:https://www.jianshu.com/p/fb4150aa096f
来源:简书
著作权归作者所有。非商业转载请注明出处。

(0)

相关推荐