好全啊!千字图文实例详解numpy、pandas

numpy

NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。

NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发,2005 年,Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色,并加入了其它扩展而开发了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开发。

NumPy 是一个运行速度非常快的数学库,主要用于数组计算,包含:

  • 一个强大的N维数组对象 ndarray

  • 广播功能函数

  • 整合 C/C++/Fortran 代码的工具

  • 线性代数、傅里叶变换、随机数生成等功能

广告

利用Python进行数据分析

作者:Wes McKinney

京东

Pandas

pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

Pandas 是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。

pd.Series

Series 用于存储一行或者一列的数据,以及与之相关的索引集合(类似于列表,但是有索引)。

pd.DataFrame(...)

DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由series组成的字典(共用同一个索引)。

DateFrame特点:
(1)DataFrame中面向行和面向列的操作基本是平衡的。
(2)DataFrame中的数据是以一个或多个两维块存放的(而不是列表、字典或别的一维数据结构)

03

索引

  • 重新索引:reindex

  • 索引、切片、过滤

  • 使用loc 、iloc进行索引

  • 删除(drop)

04

算术运算与数据对齐

  • DataFrame 与 Series间的运算

05

函数应用

  • 排序、排名

  • 带有重复值的轴索引

06

汇总与描述统计

07

唯一值、值计数、成员资格

08

数据清洗

  • 处理缺失数据

09

导入导出数据

 

                     

10

合并(concat、merge)

  • concat合并 

  • merge合并 

11. 分组 groupby

11-1  对分组进行迭代

11-2  分组方法

11-3  分组运算和转换

11-4  groupby示例

12.  透视表 pivot_table

12-1  透视表示例

12-2  透视表示例

12. 数据聚合

13. 交叉表

(0)

相关推荐