一文带你看懂Python数据分析利器——Pandas的前世今生

来  源:Python大数据分析
作  者:朱卫军

本文将从Python生态、Pandas历史背景、Pandas核心语法、Pandas学习资源四个方面去聊一聊Pandas,期望能带给大家一点启发。

Python生态里的Pandas

五月份TIOBE编程语言排行榜,Python追上Java又回到第二的位置。Python如此受欢迎一方面得益于它崇尚简洁的编程哲学,另一方面是因为强大的第三方库生态。

要说杀手级的库,很难排出个先后顺序,因为python的明星库非常多,在各个领域都算得上出类拔萃。

比如web框架-Django、深度学习框架-TensorFlow、自然语言处理框架-NLTK、图像处理库-PIL、爬虫库-requests、图形界面框架-PyQt、可视化库-Matplotlib、科学计算库-Numpy、数据分析库-Pandas......

上面大部分库我都用过,用的最多也最顺手的是Pandas,可以说这是一个生态上最完整、功能上最强大、体验上最便捷的数据分析库,称为编程界的Excel也不为过。

Pandas在Python数据科学链条中起着关键作用,处理数据十分方便,且连接Python与其它核心库。

十项全能的Pandas

Pandas诞生于2008年,它的开发者是Wes McKinney,一个量化金融分析工程师。

因为疲于应付繁杂的财务数据,Wes McKinney便自学Python,并开发了Pandas。

大神就是这么任性,没有,就创造。

为什么叫作Pandas,其实这是“Python data analysis”的简写,同时也衍生自计量经济学术语“panel data”(面板数据)。

所以说Pandas的诞生是为了分析金融财务数据,当然现在它已经应用在各个领域了。

2008: Pandas正式开发并发布

2009:Pandas成为开源项目

2012: 《利用Python进行数据分析》出版

2015: Pandas 成为 NumFOCUS 赞助的项目

Pandas能做什么呢?

它可以帮助你任意探索数据,对数据进行读取、导入、导出、连接、合并、分组、插入、拆分、透视、索引、切分、转换等,以及可视化展示、复杂统计、数据库交互、web爬取等。

同时Pandas还可以使用复杂的自定义函数处理数据,并与numpy、matplotlib、sklearn、pyspark、sklearn等众多科学计算库交互。

Pandas有一个伟大的目标,即成为任何语言中可用的最强大、最灵活的开源数据分析工具。

让我们期待下。

Pandas核心语法

1.  数据类型

Pandas的基本数据类型是dataframe和series两种,也就是行和列的形式,dataframe是多行多列,series是单列多行。

如果在jupyter notebook里面使用pandas,那么数据展示的形式像excel表一样,有行字段和列字段,还有值。

2. 读取数据

pandas支持读取和输出多种数据类型,包括但不限于csv、txt、xlsx、json、html、sql、parquet、sas、spss、stata、hdf5

读取一般通过read_*函数实现,输出通过to_*函数实现。


3. 选择数据子集

导入数据后,一般要对数据进行清洗,我们会选择部分数据使用,也就是子集。

在pandas中选择数据子集非常简单,通过筛选行和列字段的值实现。

具体实现如下:

4. 数据可视化

不要以为pandas只是个数据处理工具,它还可以帮助你做可视化图表,而且能高度集成matplotlib。

你可以用pandas的plot方法绘制散点图、柱状图、折线图等各种主流图表。

5. 创建新列

有时需要通过函数转化旧列创建一个新的字段列,pandas也能轻而易举的实现


6. 分组计算

在sql中会用到group by这个方法,用来对某个或多个列进行分组,计算其他列的统计值。

pandas也有这样的功能,而且和sql的用法类似。

7. 数据合并

数据处理中经常会遇到将多个表合并成一个表的情况,很多人会打开多个excel表,然后手动复制粘贴,这样就很低效。

pandas提供了merge、join、concat等方法用来合并或连接多张表。

小结

pandas还有数以千计的强大函数,能实现各种骚操作。

python也还有数不胜数的宝藏库,等着大家去探索!

来吧,小伙伴们~

(0)

相关推荐

  • 适合小白的Python学习大纲

    IT行业相对于一般传统行业,发展更新速度更快,一旦停止了学习,很快就会被行业所淘汰,但是,我们要清楚:淘汰的永远只是那些初级水平的从业者,过硬技术的从业者永远都是稀缺的.因此对于学习,我们还是要踏踏实 ...

  • 十大最受数据科学欢迎的Python库

    很多读者,学习python的就是希望通过数据分析.AI进行求职.转行或者是科研.所以行哥这里罗列了数据科学最受欢迎的十大Python数据科学库,看看有几个是你没掌握的: NumPy NumPy是一个主 ...

  • Python数据分析Kaggle案例驱动-第一期

    ┃  ┃  ┃  ┣━第08课 ┃  ┃  ┃  ┃  ┣━lecture08_codes.zip0 i) A- m/ q# K# V+ \ ┃  ┃  ┃  ┃  ┣━lecture08_机器学习基 ...

  • 编程干货|这么多Python数据可视化库,你最喜欢哪个?

    而这个问题就正好涉及到了Python的数据可视化了. 很多同学学习Python的主要目的就是为了实现数据可视化. 而如何将我们的数据的特征更好的.更直观的展示出来,Python给出了很多解决方案. 今 ...

  • 53个Python库,你必须要试试

    Python库大全 大邓将Python库整理为8部分,对每个库稍加自己的理解和评价,对Python感兴趣的同学可以收藏起来 ·网络爬虫·数据库·数据分析·机器学习·可视化·文本分析·GUI窗体软件开发 ...

  • 一文带你看懂世界10大殖民帝国

    第一名大英帝国 没有哪个人会质疑"日不落帝国"的排名,自1796年痛歼西班牙无敌舰队之后,英国的海外领土便进入了疯狂的扩张阶段,至1897年达到了势力的巅峰.人口大约有4到5亿人口 ...

  • 一文带你看懂主力收盘的特殊手法,吃透此文,你的收益将大幅增加

    本杰明·格雷厄姆作为一代宗师,他的金融分析学说在投资领域产生了巨大震动,如今活跃在华尔街的数十位管理着上亿美金的基金经理都自称是格雷厄姆的信徒.而他目前在世的最有名的学生就是:巴菲特. 投资箴言: 1 ...

  • 一文带你看懂:3M的实验创新,GE的不断改良,三星的标杆学习

    文:隆定海 新媒体编辑:胸怀天下 吉瑞斯和熊恩在其著作中第一次提出了"组织学习"这一新概念.随后,被应用于管理实践,取得了很好的效果.如:通用电气.3M.壳牌石油等,都争相成为学习 ...

  • 一文带你看懂ETF基金和LOF基金!

    在了解ETF基金和LOF基金这二者的区别前,我们先需要明白几个名词那就是场内交易场外和场外交易,封闭式基金和开放式基金. 1.场外交易和场内交易 其实这个名叫"场"的东西就是二级市 ...

  • 4万字一文带你看懂车载摄像头技术、市场、发展前景

    本文来源:阿宝1990 小孔成像 在战国初期,我国学者墨子(公元前468年-公元前376年)和弟子们完成了世界上第一个小孔成像的实验,并记录在<墨经>中:"景到,在午有端,与景长 ...

  • 极米新品H3S投影仪发布,多项升级究竟如何?一文带你看懂

    极米这次上架了H系列的新产品H3S,我作为一个H3的首发购买用户,一直对极米H系列的新品有一定关注,应该是由于疫情的原因,去年H系列产品并没有更新,距离上一次H3的发布已经过去了一年多的时间.这次从名 ...

  • 562分能上“四大名校”?一文带你看懂指标生!

    问题一:什么是指标生? 指标生是教育行政部门通过指标到校.促进区域义务教育均衡发展.推进教育公平的重要举措. 通俗地讲,就是将优质高中部分招生计划,作为相应初中的招生指标,确保每一所初中学校的毕业生, ...

  • AR势头迅猛,上市公司入局,一文带你看懂MWC2021上海展

    2月23日,为期3天的2021世界移动通信大会(简称MWC)于上海新国际博览中心正式拉开帷幕.MWC是全球通信行业的盛会,2020年由于疫情原因被迫取消,今年率先在上海回归线下.众多VR/AR行业企业 ...

  • 如何合理利用税收洼地?一文带你看懂相关涉税风险

    今年3月份,我国颁布并印发了<关于进一步深化税收征管改革的意见>的相关文件通知.其中文件中提到了税收洼地的一些涉税风险点和今后税收洼地风向,给利用税收洼地进行节税的企业提出了新的要求和新的 ...