好全啊!千字图文实例详解numpy、pandas
numpy
NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。
NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发,2005 年,Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色,并加入了其它扩展而开发了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开发。
NumPy 是一个运行速度非常快的数学库,主要用于数组计算,包含:
一个强大的N维数组对象 ndarray
广播功能函数
整合 C/C++/Fortran 代码的工具
线性代数、傅里叶变换、随机数生成等功能
广告
利用Python进行数据分析
作者:Wes McKinney
京东
Pandas
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
Pandas 是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。
pd.Series
Series 用于存储一行或者一列的数据,以及与之相关的索引集合(类似于列表,但是有索引)。
pd.DataFrame(...)
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由series组成的字典(共用同一个索引)。
DateFrame特点:
(1)DataFrame中面向行和面向列的操作基本是平衡的。
(2)DataFrame中的数据是以一个或多个两维块存放的(而不是列表、字典或别的一维数据结构)
03
索引
重新索引:reindex
索引、切片、过滤
使用loc 、iloc进行索引
删除(drop)
04
算术运算与数据对齐
DataFrame 与 Series间的运算
05
函数应用
排序、排名
带有重复值的轴索引
06
汇总与描述统计
07
唯一值、值计数、成员资格
08
数据清洗
处理缺失数据
09
导入导出数据
10
合并(concat、merge)
concat合并
merge合并