Python爬取淘宝销量数据！这年头数据就是钱啊

2024-08-05 05:03:43

前言

一、基本环境配置

python版本:python 3.8.3 编辑器：anaconda3下的spyder 浏览器版本：Google Chrome 87.0.4280.88 浏览器驱动器：本文通过selenium中的webdriver驱动浏览器模拟人的点击行为爬取信息的，因为还需要下载浏览器对应版本的驱动器，谷歌驱动器下载地址： https://npm.taobao.org/mirrors/chromedriver 这个地址下有各类版本的驱动器，找到自己版本下的谷歌驱动器(我自己下载的版本是/87.0.4280.20)，下载放置到谷歌的目录下，并将该路径添加到环境变量即可

二、使用步骤

1.引入库

代码如下（示例）：

from bs4 import BeautifulSoupfrom selenium import webdriver#ActionChain是用来实现一些基础的自动化操作：比如鼠标移动、鼠标点击等，ActionChains可以实现一步操作多个步骤from selenium.webdriver import ActionChainsimport PILfrom PIL import Imageimport timeimport base64 #Base64编码是从二进制到字符的过程import threadingimport pandas as pd

主要库的作用： BeautifulSoup：可以从HTML或XML文件中提取数据的python库，能够通过喜欢的转换器实现惯用的文档导航，查找，修改文档的方式，本文主要用该库对webriver爬到的网页数据进行解析，获取想要的数据内容，具体介绍可以参照如下网址： https://beautifulsoup.readthedocs.io/zh_CN/latest/ selenium.webdriver:一般python爬取网页数据时使用的是urllib中的urlopen方法,返回网页对象，并使用read方法获取url的html内容，然后再使用beautifulsoup结合正则表达式抓取某个标签内容，urlopen还可以实现带着登陆后的cookies访问网站内容而免去每次都要登陆的烦恼；但是urllib的局限处在于只能获取网页的静态html内容，网页中的动态内容是不包含在静态html中的，所以有的时候抓取的网站html信息与我们实际在网站中看到的html信息不一致。selenium模块可以获取动态网页生成的内容。 Image：Image.open()可以打开文件夹中的图片，本文用来打开下载至本地的淘宝登陆二维码，通过扫描打开大的图片二维码可以实现淘宝扫码登陆。 time：本文中通过使用time.sleep()方法可实现暂时休眠功能，防止访问速度过快被识别出为爬虫。

2.实际案例

登陆淘宝：

def login_first(self):                 #淘宝首页链接 一开始使用https时request.get返回status_code为502        #pageview_url = 'http://www.taobao.com/?spm=a1z02.1.1581860521.1.CPoW0X' 类属性中已经定义        #PhantomJS与Chrome的差别在于Chrome可以启动浏览器，观察到代码操作的每一个步骤进行的页面操作PhantomJS模拟一个虚拟浏览器，即在不打开浏览器的前提下对浏览器进行操作        #driver = webdriver.PhantomJS()         #driver = webdriver.Chrome() 类属性中已经定义         #在get()步加载时间会很长 不知道是不是网络的问题，所以限制加载20秒以后停止加载        self.driver.set_page_load_timeout(40)        self.driver.set_script_timeout(40)        try:            self.driver.get(self.pagelogin_url)        except:            print('页面加载太慢，停止加载，继续下一步操作')            self.driver.execute_script('window.stop()')        #此处需要设置等待，不然再页面缓存完之前就执行以下语句会导致找不到元素        time.sleep(40)        #找到登陆按钮并点击        #原本在获取cookies后通过request库带着cookies访问需要登陆才可访问的页面，但是对于webdriver没有作用        #wedriver元素定位的各种方法https://www.cnblogs.com/yufeihlf/p/5717291.html        #网页自动化最基本的要求就是先定位到各个元素，然后才能对各元素进行操作(输入、点击、清除、提交等)        #XPath是一种XML文档中定位元素的语言。该定位方式也是比较常用的定位方式        #8.1通过属性定位元素 find_element_by_xpath('//标签名[@属性='属性值']')        #可能的属性：id、class、name、maxlength        #通过标签名定位属性：所有input标签元素find_element_by_xpath('//input')        #通过父子定位属性：所有input标签元素find_element_by_xpath('//span/input')         #通过元素内容定位：find_element_by_xpath('//p[contains(text(),'京公网')]')         #获取id='login'的标签下第一个div//’表示从任意节点搜索不必从根节点一节一节        #如何找到对应按钮或者页面的xpath内容：检查页面，点击左上角箭头标志，        #然后点击目标内容，会自动定位到Elements中该内容的标签属性，右键COPY Xpath即可            #self.driver.find_element_by_xpath('//*[@class='btn-login ml1 tb-bg weight']').click()          #time.sleep(40)        #下行代码的目的：查找二维码登陆的源代码点击使用二维码登陆         try:            #找到二维码登陆对应的属性并点击二维码登陆            driver_data=self.driver.find_element_by_xpath('//*[@id='login']/div[1]/i').click()                    except:            pass        #通常需要停顿几秒钟，不然会被检测到是爬虫        #等待网页缓冲        time.sleep(20)        # 执行JS获得canvas的二维码        #.通过tag_name定位元素        JS = 'return document.getElementsByTagName('canvas')[0].toDataURL('image/png');'        im_info = self.driver.execute_script(JS) # 执行JS获取图片信息        im_base64 = im_info.split(',')[1]  #拿到base64编码的图片信息        im_bytes = base64.b64decode(im_base64)  #转为bytes类型        time.sleep(2)        with open('E:/学习‘/login.png','wb') as f:            #生成二维码保存            f.write(im_bytes)            f.close()        #打开二维码图片，需要手动扫描二维码登陆        t = threading.Thread(target=self.opening,args=('E:/学习‘/login.png',))        t.start()        print('Logining...Please sweep the code!\n')        #获取登陆后的Cookie(只看到用户名，没有看到账号和密码)        while(True):            c = self.driver.get_cookies()            if len(c) > 20:   #登陆成功获取到cookies                cookies = {}                #下面隐藏是因为对cookies只保留了name和value以后只能用于request，不能用于webdriver的add_cookies作用不然会报错InvalidCookieDomainException                #for i in range(len(c)):                    #cookies[c[i]['name']] = c[i]['value']                self.driver.close()                print('Login in successfully!\n')                #return cookies            return c            time.sleep(10)

执行上述代码已经完成淘宝登陆并且跳转到了我的淘宝页面

从我的淘宝跳转到淘宝首页：

def my_split(self,s, seps): '''split移除多个字符''' res = [s] for sep in seps: t = [] list(map(lambda ss: t.extend(ss.split(sep)), res)) res = t return res def is_Chinese(self,word): '''判断是否中文''' for ch in word: if '\u4e00' <= ch <= '\u9fff': return True return False def get_Cates(self): '''登陆后默认跳转到我的页面，该段代码用户跳转到淘宝首页并且获取淘宝所有商品类别''' #以上步骤已经实现淘宝登陆，并且进入到我的页面，点击淘宝网首页，跳转到首页 time.sleep(10) #查看源代码确定'淘宝网首页'的按钮对应的属性，使用click进行点击 self.driver.find_element_by_xpath('//*[@class='site-nav-menu site-nav-home']').click() #跳转到首页后首先获取淘宝页面左边栏的所有品类 #检测到淘宝为动态JS，使用request库获取网页信息会与网页检查出来的数据不一致，所以需要用selenium包。 #辨别网页静态动态的方法：https://www.jianshu.com/p/236fc043db0b #查看源码定位目标内容(即品类栏目)所对应的属性class driver_data = self.driver.find_element_by_xpath('//*[@class='screen-outer clearfix']') html_doc = self.driver.page_source #driver.quit() #利用beautifulSoup解析网页源代码 soup = BeautifulSoup(html_doc, 'lxml') #找到淘宝主页中所有的主题，对应的class可通过查看class的范围确定 cate_list=[] soup_data_list = soup.find('div',attrs={'class':'service J_Service'}) #获取源代码中的文本信息，即淘宝所有的物品主题 #通过自定义的split函数获取移除非法字符后的中文字符 list_tuple = list(('\n','\\','\ue62e','/','\t',' ',' ',' ')) cate_list=self.my_split(soup_data_list.text,list_tuple) #使用自定义的is_Chinese函数仅保留中文文本 keep_select = [] #cate_list_final=[] for i in cate_list: keep_select = self.is_Chinese(i) if keep_select: self.cate_list_final.append(i) time.sleep(10) return self.cate_list_final

执行上述代码已经完成获取淘宝页面所有品类名称

在搜索框中输入要搜索的品类，点击搜索，点击销量排序按钮，获取页面内容进行解析：

def search_Taobao(self,cate):        print('正在搜索的品类是：%s'%cate)                #点击淘宝网首页跳转到首页页面，不管是在我的首页和各类别搜索下的首页，需要点击跳回淘宝网首页的class不变，所以把点击首页的代码放在这里'        time.sleep(10)                #在首页搜索栏输入需要搜索的内容，并点击搜索        #一个输入框两个input，两个input重叠的情况，先单点value提示字的input后，才会显示真正要输入框的input，这时再向这个input输值         #首先需要点击搜索框'//*[@class='search-combobox-input-wrap']'，使得其为可交互状态        self.driver.find_element_by_xpath('//*[@class='search-combobox-input-wrap']').click()        #再找到输入搜索框的class名，输入要搜索的内容，找到搜索对应的class点击搜索        driver_input_data = self.driver.find_element_by_xpath('//*[@class='search-combobox-input']')        #填写需要搜索的品类 不知道为什么 带着cookies这一步还是需要登陆        #driver_input_data.send_keys('女装')        driver_input_data.send_keys(cate)        #停顿3秒，否则速度过快会被识别出为爬虫        time.sleep(8)        #查找页面上”搜索“的按钮        try:            submit =  self.driver.find_element_by_xpath('//*[@class='search-button']')            submit.click()        except :            pass                    time.sleep(5)            def get_Catinfo(self,cate):        #self.login_first()        time.sleep(20)        self.search_Taobao(cate)        #登陆后进入了对应搜索品类的页面，获取按销量降序后的第一页的商品信息        time.sleep(50)                #查找到按销量排序的元素，并进行点击得到降序排列的商品信息        submit_order =  self.driver.find_element_by_xpath('//*[@class='J_Ajax link  ']')        submit_order.click()        time.sleep(5)        #获取整个页面源码        html_doc = self.driver.page_source                #通过页面源码获取各个商品的必要信息        soup= BeautifulSoup(html_doc,'lxml')        shop_data_list = soup.find('div',class_='grid g-clearfix').find_all_next('div',class_='items')        for shop_data in shop_data_list:            #不同的信息分布在以下两个不同的class下            shop_data_a = shop_data.find_all('div',class_='ctx-box J_MouseEneterLeave J_IconMoreNew')            shop_data_b = shop_data.find_all('div',class_='pic-box J_MouseEneterLeave J_PicBox')            for goods_contents_b in shop_data_b:                #另起一列为爬取的商品类别                self.shop_cate_list.append(cate)                #0.获取商品名称                goods_name = goods_contents_b.find('div',class_='pic').find_all('img',class_='J_ItemPic img')[0]['alt']                self.goods_name_list.append(goods_name)                #0.获取商品图片                goods_pic = goods_contents_b.find('div',class_='pic').find_all('img',class_='J_ItemPic img')[0]['src']                self.goods_pic_list.append(goods_pic)                                for goods_contents_a in shop_data_a:                #2.获取商品价格trace-price                goods_price = goods_contents_a.find_all('a',class_='J_ClickStat')[0]['trace-price']                self.goods_price_list.append(goods_price)                #goods_price = goods_contents_a.find('div',class_='price g_price g_price-highlight')                #goods_price_list.append(goods_price)                #1.获取商品销量                goods_salenum = goods_contents_a.find('div',class_='deal-cnt')                self.goods_salenum_list.append(goods_salenum)                #2.获取商品id                goods_id = goods_contents_a.find_all('a',class_='J_ClickStat')[0]['data-nid']                self.goods_id_list.append(goods_id)                #2.获取商品链接                goods_href = goods_contents_a.find_all('a',class_='J_ClickStat')[0]['href']                self.goods_href_list.append(goods_href)                #2.获取店铺名称                goods_store = goods_contents_a.find('a',class_='shopname J_MouseEneterLeave J_ShopInfo').contents[3]                #goods_store = goods_contents.find_all('span',class_='dsrs')                self.goods_store_list.append(goods_store)                #4.获取店铺地址                goods_address = goods_contents_a.find('div',class_='location').contents                self.goods_address_list.append(goods_address)                                #爬取结果整理成dataframe形式        for j in range(min(               len(self.goods_name_list),len(self.goods_id_list),len(self.goods_price_list)               ,len(self.goods_salenum_list),len(self.goods_pic_list),len(self.goods_href_list)               ,len(self.goods_store_list),len(self.goods_address_list)               )           ):            self.data.append([self.shop_cate_list[j],self.goods_name_list[j],self.goods_id_list[j],self.goods_price_list[j]                         ,self.goods_salenum_list[j],self.goods_pic_list[j],self.goods_href_list[j]                         ,self.goods_store_list[j],self.goods_address_list[j]                         ])        #out_df = pd.DataFrame(self.data,columns=['goods_name'        #                                  ,'goods_id'        #                                  ,'goods_price'        #                                 ,'goods_salenum'        #                                  ,'goods_pic'        #                                  ,'goods_href'        #                                  ,'goods_store'        #                                  ,'goods_address'])                #self.Back_Homepage()        #如果不休眠的话可能会碰到页面还没来得及加载就点击造成点击错误        time.sleep(20)        self.driver.find_element_by_xpath('//*[@class='site-nav-menu site-nav-home']').click()          return self.data

执行上述代码已完成搜索各品类按销量降序排序后第一页的商品信息

三、如何定位网页内容标签与属性？

上文为利用selenium爬虫淘宝品类TOP销量数据的源码，但爬取数据其实最终要的内容在于如何定位网页中需要获取的内容的标签和属性，我通过腾讯视频中爬虫视频介绍的方法介绍如下： 1.在网页中单击右键，点击审查元素(或者检查)，点击后右上角出现该页面对应的属性信息，单击检查信息中左上角的箭头(Elements左边，会显示select an element in the page to inspect it)，然后点击网页中任意一个地方即可定位到对应的属性；

后话

本文以获取淘宝各品类销量作为实际案例作为爬虫的练习，但是在爬虫过程中对于HTML的结构、webdriver定位元素的方法、beautifulsoup定位元素、正则表达式的使用的方法还没有一个完整的概念，后续会将这部分内容梳理以下。

自动化搭建环境及基础理论

在dos命令中输入python,在dos命令中输入pip Pip是Python官方推荐的包管理工具,提供了对Python包的查找.下载.安装.卸载的功能,属于python的一部分. Python3.0 ...
Selenium之表格的定位

前言浏览器网页常常会包含各类表格,自动化测试工程师可能会经常操作表格中的行,列以及某些特定的单元格,因此熟练掌握表格的定位方法是自动化测试实施过程中必要的技能. 被测试网页的HTML代码被测试网页 ...
selenium定位不到元素常见的问题

selenium定位不到元素常见的问题
Python 自动化，Helium 凭什么取代 Selenium？

Python 自动化，Helium 凭什么取代 Selenium？
appium+python自动化62-webview元素click失效问题解决

前言 Appium 在切换到 webview 后,正确定位到元素,但是click () 事件后界面无响应,脚本运行正常不会报错. 主要原因是:混合APP 时监听全用的是tap事件,不是click事件 ...
定位元素 | 白月黑羽教Python

代码规则点击这里,边看视频讲解,边学习以下内容从示例代码,大家就可以发现,和Selenium Web自动化一样,要操作界面元素,必须先定位(选择)元素. Appium是基于Selenium的,所 ...
自动抢票之 12306 抢票篇

来源:Python 技术「ID: pythonall」大家好,这一篇是 12306 的自动预订车票篇,前篇已经撸完了 12306 的自动登录.小编希望小伙伴们能多给几个赞,以示鼓励. 查询车票首先 ...
Appium+python自动化28-name定位

前言 appium1.5以下老的版本是可以通过name定位的,新版本从1.5以后都不支持name定位了一. name定位报错 1.最新版appium V1.7用name定位,报错: > sel ...
Python制作【大麦网】自动抢票程序

前言大麦网,是中国综合类现场娱乐票务营销平台,业务覆盖演唱会. 话剧.音乐剧.体育赛事等领域. 但是因为票数有限,还有黄牛们不能丢了饭碗,所以导致了,很多人都抢不到票那么,今天带大家用Python ...
Python爬取淘数据平台商品数据，发现假发的市场原来那么火

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 最近发现了一个不错的数据网站,叫"淘数据".里面的数据都是淘宝的商家数据 ...
用 Python 爬取各类基金数据并动态展示

以下文章来源于Python爬虫数据分析挖掘 ,作者李运辰 Python爬虫数据分析挖掘四年的编程开发爱好者,分享日常编程学习和接私活过程,记录生活,共同进步.关注小白,编程快乐 01 前言去年接触 ...
Python爬取某网站文档数据完整教程（附源码）

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 基本开发环境 Python 3.6 Pycharm 相关模块的使用 import osimp ...
python轻松爬取全国40城5000 地铁站点数据！附源码和数据集

有时候,爬虫爬到的数据是很珍贵.很稀缺,但是在实际项目最好还是多点谨慎,保证万无一失. 今天介绍一种新的获取城市地铁站点数据的方法,而且不再只是北上广深四个城市,而是全国开通地铁的城市. 对了,你 ...
新手快看！python爬取数据数据分析，有这一篇就够啦

推荐用Jupyter 爬取二手车之家的部分数据 # 爬取二手车网站的数据 #Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库 from bs4 import B ...
(3条消息) Python爬取考研数据：所有985高校、六成211高校均可调剂

又到了一年一度的考研出分时间啦,近期有不少朋友让笔者帮他们分析如何提前做好调剂.复试与调剂总是密不可分.今天,给大家分享一些调剂的重要知识点,希望你在调剂的时候,能明白调剂的趋势与规则.也许,大家对于 ...
以某乎为实战案例，教你用Python爬取手机App数据

以某乎为实战案例，教你用Python爬取手机App数据
Python爬虫进阶：爬取梨视频网站Top排行榜视频数据

本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于青灯编程 ,作者:清风 Python爬虫进阶:反反爬实战案例-爬取梨 ...
python爬取44130条用户观影数据，分析挖掘用户与电影之间的隐藏信息！

出处: Python爬虫数据分析挖掘 01 前言明天就是大年初一,很多电影也上映,看电影前很多人都喜欢去『豆瓣』看影评,所以我爬取44130条『豆瓣』的用户观影数据,分析用户之间的关系,电影之间的联 ...