数据分析之python基础入门(上)
前言
上一篇文章我主要写的是关于数据分析师这个岗位的一些介绍,并且介绍了一些数据分析可能会用到的工具包括:sql、powerbi、python、R语言、Excel等等。
我们很多的初学者很容易把数据分析等同于学会许多的技术,其实并不是这样,像python、excel等都只是属于工具,而要让我们真正发挥这些工具的价值,为企业创造利益的则是需要我们对业务的理解并具备一定的分析思维。
所以我们只需要深入掌握几门必要的分析工具,即可。而不要只是为了学习工具而学习,那样最后我们就有可能会成为一个工具人,从而丧失我们的价值,因为技能是可以学习的,而方法、理论、思维是无法轻易的学习到的,会打架的人用一把扫把也能飞檐走壁,不会打架的人哪怕是拿着倚天剑屠龙刀也是菜鸟一只。
1 为什么选择python?
数据分析工具分为两大类:编程类、非编程类。
其中,非编程的包括:Stata、spss 编程类的包括:python、R,那么非编程的数据分析工具也可以做很多的数据分析方面的工作,但是有很多的局限性,不像编程类的那样扩展性好,也不如编程类的未来的发展途径那样广阔,如下图所示(白色为非编程可从事的岗位,白色+黄色为编程可从事的岗位):
编程类与非编程发展方向
所以,无论从以后的应用广度还是职业的发展来看,编程类的数据分析都会是未来的一个好的方向。
那么,pytho那是怎么来的呢?1989年圣诞节,python由一位叫做吉多的人所研发。
python的起由
吉多当时创建python这门语言主要是本着,书写优雅、结构简单、清晰明确,而创建这门语言,而这几个规则也被誉为:python的设计哲学。
python的哲学
2 python的编译环境
关于python的编译环境,我这里主要介绍以下几款:
Anaconda
Anaconda是一款包含了,spyder、jupyterNotebook多集成开发环境的工具,也是我在这作为主要的推荐。
Pycharm
Pycharm是一款普通的编译软件,python可以在pycharm上面进行编译,该软件有免费和付费版本,可根据自身情况进行下载安装。
3 Python的数值类型概述
int 整型:用于1 3 4 8 100等自然数。
float 浮点型:用于0.1 0.001等小数点数。
string 字符型:用于“a”,“Bcd”等文本数据。
bool 布尔型:判断数据是否为 True、False。
list 列表:支持字符、数字、字符串以包含列表(既嵌套),用[]标识,有序对象。
tuple 元组
dict 字典
4 认识变量
变量赋值:
counter = 100 #整型变量
miles = 10000.0 #浮点型变量
name = 'John' # 字符串变量
变量命名规则:
① 变量名第一个字符必须是字母(大小写均可)或者下划线,不能数字开头
② 变量名不能和常用功能性名字重合,例如 print,if,for
③ 不要有空格
5 运算符
python中主要包含运算符有,+ 加、- 减、* 乘、/ 除、% 取模、** 幂、// 取整除,以及一些比较运算符包含,>、<、=,还包含,逻辑运算符 and or not、成员运算符in、not in等
6 注释
注释是用来说明代码的主要包含3种形式:''、“”、''' '''。
7 什么是序列
序列是python的最基本数据结构:x=1,x是一个变量,值为1,而y=[1,2,3,4,5],y是一个序列(可变序列列表),每个元素被分配一个序列------既元素的位置,也称之为索引。
上图是python单个变量的存储形式。
上图是python种多个序列的存储形式。
索引的特点
索引有一个下标,下标是由0开始算数。
需要特别注意,list和tuple都是属于序列,但是list是可变序列,而tuple属于不可变序列。
判断是否属于序列
lst = [1,2,3,4,5,6,7,8,9,10]
a,b,c = 1,2.0,'hello'
print(a in lst) #True
print(b in lst) #True
print(c not in lst) #True
序列链接与重复
lst1 = [1,2,3]
lst2 = ['a','b']
print(lst2 + lst1)
print(lst1*3,lst2*3)
下标索引
print(lst)
print(lst[0],lstp[2])
print(lst[-1],lst[-3])
切片
print(lst[0:2])
步长
print(lst[2:6:2])
序列的基本内置全局函数
lst = [1,2,3,4,5,6,7,8,9,10]
print(len(lst))
print(max(lst),min(lst),sum(lst))
print(lst.index(7))
print(lst.count(6))
8 列表list常用操作
序列是python中最基本的数据结构,它支持字符、数字、字符串甚至可以包含列表,列表用[ ]标识,是python最通用的复合数据类型。
列表中值的切片也可以用到变量,就可以截取相应的列表,从左到右索引默认0开始,从右到左索引默认-1开始,下标可以为空表头取到头或加号 + 是列表连接运算符,星号 * 是重复操作。
列表的特征
可包含任意类型对象:数值、字符串、列表等,通过下标索引访问序列中的值 - 序列的顺序是不能改变的,通过索引来定位列表的元素,可以随意变换列表长度,相当于随意指定新的列表,可以添加和追加数据