python自学

前俩天学习了正则表达式以及爬虫基础应用,于是我再结合先前一些UI界面设计的知识做一个股票数据查询的小工具,不过还不具备数据分析的功能;
刚开始使用了一些博主提供的网址(“http://quote.eastmoney.com/stocklist.html”)去抓取股票列表

import re
import urllib
import urllib.request
def getpage(path):
    data=urllib.request.urlopen(path).read().decode('utf-8')
    return data
#find没有括号抓取全部,有括号抓取括号内,内容有括号转义字符\(  \)
def getcode(data):
    regex_str="<li><a href=\"list,([6|9]\d{5}).html\">"
    #regex_str="<li><a href=\"list,hk([0-9]\d{4}).html\">\D\d{5}\D(.*?)<"
    pat=re.compile(regex_str)  #预编译
    codelist=pat.findall(data)
    return codelist
path="http://quote.eastmoney.com/stocklist.html"
data=getpage(path)   #抓取网页源代码
print(data)     #打印网页全部信息
codelist=getcode(data)

但是抓不出来,改了半天正则表达式,没有效果,然后我打印了网页源代码,苦苦寻找,然后在网页源代码中并没有找到有关具体股票的编号与名称信息(WTF??),奇怪的是,我在网页用开发者工具是可以找到相关信息的,也就是说抓取网页源代码时没有把这部分信息抓取下来(害!)这个问题就超出我的能力了;
于是我另辟蹊径,在网页股票社区个股吧(http://guba.eastmoney.com/remenba.aspx?type=1&tab=1)找到了股票列表

接下来只需要在开发者工具中看好源代码的格式,写好正则表达式即可
我提取股票代码与名称用到的正则表达式:

regex_str = "<li><a href=\"list,([0-9]\d{5}).html\">\D\d{6}\D(.*?)<"

然后发现提取港股时发生错乱了,淦!命运多舛!然后又去查看港股的源代码,然后看到:哦,港股代码只有5位,前面还加了hk,好呗,那我就再写一个做好区分:

regex_str = "<li><a href=\"list,hk([0-9]\d{4}).html\">\D\d{5}\D(.*?)<"

于是大功告成,我写的搜索函数(SearchStock)如下

import urllib
import urllib.request
import re

class Search:
    def __init__(self,slect):
        self.choice=slect
    def SearchAll(self):
        path = "http://guba.eastmoney.com/remenba.aspx?type=1&tab=" + self.choice
        if self.choice == '3':   #港股规则不同需要重新判断
            regex_str = "<li><a href=\"list,hk([0-9]\d{4}).html\">\D\d{5}\D(.*?)<"
        else:
            regex_str = "<li><a href=\"list,([0-9]\d{5}).html\">\D\d{6}\D(.*?)<"
        data = self.getpage(path)
        codelist = self.getcode(data, regex_str)
        if self.choice != '3':      #港股
            codelist[0:] = codelist[30:]
        return codelist
    def getpage(self,path):
        data = urllib.request.urlopen(path).read().decode('utf-8')
        return data

    def getcode(self,data, regex_str):
        pat = re.compile(regex_str)  # 预编译
        codelist = pat.findall(data)
        return codelist

股票列表做完了,好像有点简单,那就再弄一个股票数据下载,将历年数据爬下来保存。在网上搜索,发现163一个神奇的网址,可以download东方财富历年数据(WOW!!!)

#http://quotes.money.163.com/service/chddata.html?code=1300133&end=20210201&fields=TCLOSE;HIGH;LOW;TOPEN;CHG;PCHG;TURNOVER;VOTURNOVER;VATURNOVER;TCAP;MCAP
#code=1300133&end=20210201   1代表深市(0代表沪市) 300133代表股票代码  20210201代表截至日期

说干就干,下载股票用到了urlretrieve(url,path),保存为.csv文件:

import urllib.request
import urllib
url="http://quotes.money.163.com/service/chddata.html?code=1300133&end=20210201&fields=TCLOSE;HIGH;LOW;TOPEN;CHG;PCHG;TURNOVER;VOTURNOVER;VATURNOVER;TCAP;MCAP"
path="D:\\Python代码\\class20\\down\\300133.csv"
urllib.request.urlretrieve(url,path)  #根据url下载到路径下

好,基础功能解决了,那么如果下载路径是自定义的呢,怎么判断自定义的路径下有么有相同的文件夹,以及若没有怎么创建一个呢,这时候就用到了面向百度编程,我找到了os的一个函数:

    if not os.path.exists(path):
        os.makedirs(path)  #指定路径创建文件夹

既然保存路径可以自定义,那么想要查找的股票也应该可以自定义,于是将上面神奇的下载地址改为:

url = "http://quotes.money.163.com/service/chddata.html?code="+"0"+code[0]+"&end="+data+"&fields=TCLOSE;HIGH;LOW;TOPEN;CHG;PCHG;TURNOVER;VOTURNOVER;VATURNOVER;TCAP;MCAP"

再完善一下我的下载函数就出来了(DownloadStock)

import urllib
import urllib.request
import os
class Down:
    def __init__(self,code,data,path):
        self.code=code
        self.data=data
        self.path=path
    def downloadstock(self):
        # 判断文件夹是否存在
        self.path = self.path + "\\" + self.data
        if not os.path.exists(self.path):
            os.makedirs(self.path)  # 指定路径创建文件夹
        url = "http://quotes.money.163.com/service/chddata.html?code=" + self.code + "&end=" + self.data + "&fields=TCLOSE;HIGH;LOW;TOPEN;CHG;PCHG;TURNOVER;VOTURNOVER;VATURNOVER;TCAP;MCAP"
        datapath = self.path + "//" + self.code + ".csv"
        urllib.request.urlretrieve(url, datapath)  # 根据url下载到路径下

看了看时间,嗯,今天学习时间还多着呢,还没到玩耍的时间,好,那我就再给他加上之前学习的UI界面,顺便稍微使用了继承的方法来初始化界面,简化代码,于是界面输入函数(inputview),继承基类函数(BaseWindowShow),列表显示函数(ListShow)相继出炉:
界面输入函数(inputview):

#coding=gbk
import tkinter
from tkinter import ttk
import 爬取东方财富股票数据.SearchStock
import 爬取东方财富股票数据.DownloadStock
import 爬取东方财富股票数据.BaseWindowShow
import 爬取东方财富股票数据.ListShow
class InputView(爬取东方财富股票数据.BaseWindowShow.BaseWindowShow):
    def __init__(self):
        爬取东方财富股票数据.BaseWindowShow.BaseWindowShow.__init__(self)
        self.entry1 = tkinter.Entry(self.win)  #导入文本框,输入股票代码
        self.entry1.place(x=250,y=0)
        self.entry2 = tkinter.Entry(self.win)  #导入文本框,输入截至时间
        self.entry2.place(x=400,y=0)
        self.entry3 = tkinter.Entry(self.win)  #导入文本框,输入保存路径
        self.entry3.place(x=550,y=0)
        self.comdvalue = tkinter.StringVar()  # 窗体自带文本,新建一个值
        self.comboxdc = ttk.Combobox(self.win, textvariable=self.comdvalue,width=30)  # 初始化
        self.comboxdc["values"] = ("单个股票数据下载","下载多个","全部下载")
        self.comboxdc.current(0)  # 选择第一个
        self.comboxdc.bind("<<ComboboxSelected>>", self.go)  # 绑定事件与函数
        self.comboxdc.place(x=0,y=0)
        self.button2 = tkinter.Button(self.win,text = "下载",command = self.download)  #导入搜索键,command表示绑定search的行为
        self.button2.place(x=750,y=0)
        self.button1 = tkinter.Button(self.win,text = "股票一览表",command = self.search)  #导入搜索键,command表示绑定search的行为
        self.button1.place(x=300,y=50)
        self.comvalue = tkinter.StringVar()  # 窗体自带文本,新建一个值
        self.comboxlist = ttk.Combobox(self.win, textvariable=self.comvalue,width=30)  # 初始化
        self.comboxlist["values"] = ("沪市", "深市", "港股")
        self.comboxlist.current(0)  # 选择第一个
        self.comboxlist.bind("<<ComboboxSelected>>", self.go)  # 绑定事件与函数
        self.comboxlist.place(x=0,y=50)
        self.select="1"

    def go(self,*args):
        if(self.comboxlist.get()=='沪市'): #保存选中的值
            self.select='1'
        elif(self.comboxlist.get()=='深市'):
            self.select='2'
        elif(self.comboxlist.get()=='港股'):
            self.select='3'

    def search(self):
        data=爬取东方财富股票数据.SearchStock.Search(self.select)
        stockdata=data.SearchAll()
        inserstr=爬取东方财富股票数据.ListShow.Listshowdata()
        if(self.comboxlist.get()=='沪市'): #在股票网址中 sh表示沪市,sz表示深市,hk表示港股
            inser="sh"
        elif(self.comboxlist.get()=='深市'):
            inser="sz"
        elif(self.comboxlist.get()=='港股'):
            inser="hk"
        for data in stockdata:
            #按照规则拼接出股票网址
            inserstr.addata(inser+data[0]+'-'+data[1]+"网址:"+"http://quote.eastmoney.com/"+inser+data[0]+".html?code="+data[0])
    def download(self):
        if (self.comboxdc.get()=="单个股票数据下载"):
            #code 股票代码 data截至时间  path保存路径
            #这三个的赋值必须每次都重新赋值,不能放到if语句前简化代码
            code=self.entry1.get()
            print(type(code))
            data = self.entry2.get()
            path = self.entry3.get()
            data = 爬取东方财富股票数据.DownloadStock.Down(code, data, path)
            data.downloadstock()
        elif(self.comboxdc.get()=="下载多个"):
            codelist=self.entry1.get().split(" ")
            print(codelist)
            for code in codelist:
                print(type(code))
                data = self.entry2.get()
                path = self.entry3.get()
                data = 爬取东方财富股票数据.DownloadStock.Down(code, data, path)
                data.downloadstock()
        elif(self.comboxdc.get()=="全部下载"):
            data = 爬取东方财富股票数据.SearchStock.Search(self.select)
            stockdata = data.SearchAll()
            for datas in stockdata:
                code=datas[0]
                data = self.entry2.get()
                path = self.entry3.get()
                data = 爬取东方财富股票数据.DownloadStock.Down(code, data, path)
                data.downloadstock()

继承基类函数(BaseWindowShow):

import tkinter
class BaseWindowShow:
    def __init__(self):
        self.win=tkinter.Tk() #构造窗体
        self.win.geometry("800x800+300+0")   #搜索数据显示窗口
    def show(self):
        self.win.mainloop()

列表显示函数(ListShow):

import 爬取东方财富股票数据.BaseWindowShow
import tkinter
class Listshowdata(爬取东方财富股票数据.BaseWindowShow.BaseWindowShow):
    def __init__(self):
        爬取东方财富股票数据.BaseWindowShow.BaseWindowShow.__init__(self)
        self.list=tkinter.Listbox(self.win,width=200)  #文本编辑器
        self.list.pack()
    def addata(self,inserstr):
        self.list.insert(tkinter.END,inserstr)

最后顺便写个主函数(Main)吧

import 爬取东方财富股票数据.inputview

start=爬取东方财富股票数据.inputview.InputView()
start.show()

Python Package:

然后看看效果:

因为懒得加判断,所以输入股票代码时深市要加0,沪市要加1,并且保存路径需要加转义字符(太菜了这都不能在代码里解决),下图可以看出成功创建文件夹并且保存,

让我看看同时下载多个看看:

小结:
搞定一看时间差不多到饭点,干饭人,干饭魂,干饭都是人上人!!!!
实际还有很多可以值得改善的地方,比如可以加入分析,制图(折线图,直方图),这些都很值得学习,下次有空一点要完善分析制图的功能;还有本来想抓取一个实时的数据显示,但是发现在交易时间内并不能简单抓取各个数据,交易时间内是显示"-"的不显示数据,只有收盘后才会显示数据,暂时还想不到解决方法,知识储备不足;
这个爬取数据做的还是很粗糙,还需要更加努力学习,越努力,越幸运;

(0)

相关推荐

  • 《自拍教程78》Python 百度网盘500个文件分割

    案例故事 百度网盘非会员大量上传文件,会弹出:"上传文件数量超出500个限制,开通超级会员后可继续上传", 其实是限制拖入500张相片,并非限制上传500张. 非会员如何将众多文件 ...

  • Python 插件式程序设计与开发实践总结

    开发环境 win 10 python 3.6.5 代码结构 需求描述 如上,以user.py为程序入口脚本,运行该脚本时,需要创建一个user类对象,执行一系列动作(包含一系列动作的列表).程序执行动 ...

  • 如何做中文文本的情感分析?

    这是本学期在大数据哲学与社会科学实验室做的第三次分享了.第一次分享的是:如何利用"wordcloud+jieba"制作中文词云?第二次分享的是:如何爬取知乎中问题的回答以及评论的数 ...

  • 使用python代码实现 PDF 阅读器

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本文章来自腾讯云 作者:Python进阶者 想要学习Python?有问题得不到第一 ...

  • 用Python创建你第一个GIS程序[3]:前后端搭建

    前言:为了区分说明,我们这里也用前端后端这个概念来阐述.本章节使用简单的案例,分别展示前后端的代码,包括一个简单前端 GUI 界面的搭建流程和代码. 后端 为了区分说明,我们这里也用前端后端这个概念来 ...

  • 用 Python 撸一个 Web 服务器-第3章:使用 MVC 构建程序 ​

    Todo List 程序介绍 我们将要编写的 Todo List 程序包含四个页面,分别是注册页面.登录页面.首页.编辑页面.以下分别为四个页面的截图. 注册页面: 登录页面: 首页: 编辑页面: 程 ...

  • 用 Python 撸一个 Web 服务器-第6章:完善 Todo List 应用

    这一章,我们来完成 todo 管理功能的剩余部分:新增.修改和删除功能. 新增 todo 首先实现 Todo List 程序的新增功能.新增 todo 的逻辑如下: 在首页顶部的输入框中输入 todo ...

  • 用 Python 撸一个 Web 服务器-第7章:重构——更好的组织代码

    通过前几章的学习,我们完成了 Todo List 程序的 todo 管理部分,实现了对 todo 的增.删.改.查基本操作,这也是几乎所有 Web 程序都具备的功能.我们当然可以按照目前的思路继续来实 ...

  • (2条消息) python自学多久可以找到工作

    python自学多久可以找到工作-自学Python的高效方法,学Python多久能找到工作? weixin_37988176 2020-11-01 12:34:53 24 收藏 原标题:自学Pytho ...

  • Python自学教程-Python基础实战100例

    第1期-九九乘法表 前言:Python是一门需要不断实践练习的编程语言,本文档将AI大学堂学员交流群的Python每周练习进行汇总,希望各位小伙伴能够多进行实践练习,逐渐爱上这门神奇的编程语言,掌握它 ...

  • python自学行吗?python学好了能做这些工作!

    作为一门简单易学的脚本语言,Python设计之初就是面向大众,个人感觉比c容易些,零基础小白也可以轻松入门. 尽管国内还是C语言为主,但好多国家都将Python作为编程的第一步. 人生苦短,我用pyt ...

  • Python自学教程第2期-求100以内奇数和

    前言:Python是一门需要不断实践练习的编程语言,本文档将AI大学堂学员交流群的Python每周练习进行汇总,希望各位小伙伴能够多进行实践练习,逐渐爱上这门神奇的编程语言,掌握它并在生活中能够使用它 ...

  • 字节跳动大佬的Python自学笔记.pdf

    字节跳动大佬的Python自学笔记.pdf

  • 如何自学Python(2020版)

    普通人如何在三个月之内从零学会Python? 2018 年 7 月 20 日的时候,我发布了第一版<如何自学Python>的完全攻略. 两年时间过去了,那篇文章收获了 9.6K 的阅读,1 ...

  • Python爬虫和数据分析需要哪些知识储备,自学顺序是怎样的?

    数据是决策的原材料,高质量的数据价值不菲,如何挖掘原材料成为互联网时代的先驱,掌握信息的源头,就能比别人更快一步. 大数据时代,互联网成为大量信息的载体,机械的复制粘贴不再实用,不仅耗时费力还极易出错 ...

  • 比收费还好用,6个自学python必看网站

    比收费还好用,6个自学python必看网站

  • 从来没有接触过编程的人怎样从头开始自学python?

    Python 入门攻略 既然选择学习 Python,那你就要明确 Python 和其它编程语言相比的优势,之后,我也会针对 Python 入门,推荐一些书籍和教程,主要是入门,由浅入深. 在这之前,我 ...