数据分析入门常用的 23 个牛逼 Pandas 代码,收好不谢

本文仅作学术交流,如有侵权,请联系后台删除。
这儿有给数据分析师的23个Pandas代码,可以帮你更好地理解数据!Pandas想必从事数据分析的各位都懂,这是一个开源的,BSD许可的库,为Python编程语言提供高性能,易于使用的数据结构和数据分析工具。还不熟悉的新手可以复制官网链接,10分钟快速了解下:http://pandas.pydata.org/pandas-docs/stable/10min.html
应用案例集合也可以看看:http://pandas.pydata.org/pandas-docs/stable/cookbook.html

(1)读入 CSV 数据集

pd.DataFrame.from_csv(“csv_file”)

或者:

pd.read_csv(“csv_file”)

(2)读入 Excel 数据集

pd.read_excel('excel_file')

(3)直接把数据写入 CSV

如数据以逗号分隔,且没有索引:

df.to_csv('data.csv', sep=',', index=False)

(4)基础数据集特征信息

df.info()

(5)基础数据集统计结果

print(df.describe())

6以表格形式打印数据

print(tabulate(print_table, headers=headers))

其中“print_table”是一列list,“headers”是一列字符串抬头

(7)列出列名称

df.columns

基本数据处理

(8)删除缺失的数据

df.dropna(axis=0, how='any')

返回给定轴上标签的对象,逐个丢掉相应数据。

(9)替换丢失的数据

df.replace(to_replace=None, value=None)

用“value”的值替换“to_replace”中给出的值。

(10)检查 NAN

pd.isnull(object)

检测缺失值(有数值数组中的NaN,对象数组中的None和NaN)

(11)删除特征

df.drop('feature_variable_name', axis=1)

轴为 0 代表行,1 代表列

(12)将对象类型转换为 float

pd.to_numeric(df['feature_name'], errors='coerce')

将对象类型转换为数字型以便计算(如果它们是字符串的话)

(13)将数据转换为 Numpy 数组

df.as_matrix()

(14)获取数据的头“n”行

df.head(n)

(15)按特征名称获取数据

df.loc[feature_name]

(16)将函数应用于数据

这个函数将数据里“height”一列中的所有值乘以2

df['height'].apply(*lambda* height: 2 * height)

或:

def multiply(x):

 return x * 2

df['height'].apply(multiply)

(17)重命名数据列

这里我们将数据的第3列重命名为“size”

df.rename(columns = {df.columns[2]:'size'}, inplace=True)

(18)单独提取某一列

df['name'].unique()

(19)访问子数据

我们从数据中选择“name”和“size”两列

new_df = df[['name', 'size']]

(20)总结数据信息

#数据之和df.sum()#数据中的最小值df.min()#数据中的最大值df.max()#最小值的索引df.idxmin()#最大值的索引df.idxmax()#数据统计信息,有四分位数,中位数等df.describe()#平均值df.mean()#中位数值df.median()

(21)对数据进行排序

df.sort_values(ascending = False)

(22)布尔索引

这里我们过滤“size”的数据列,以显示等于5的值:

df[df['size'] == 5]

(23)选择某值

选择“size”列的第一行:

df.loc([0], ['size'])
原文链接:https://towardsdatascience.com/23-great-pandas-codes-for-data-scientists-cca5ed9d8a38
(0)

相关推荐

  • 太香了!最强的 pandas 入门教程

    翻译:石头 来源:MachineLearningPlus 文末赠送5本书 <Python Web开发从入门到精通> pandas是基于NumPy的一种数据分析工具,在机器学习任务中,我们首 ...

  • 25000字玩转 Pandas, 这一篇给力了!

    作者:Ma Sizhou https://blog.csdn.net/weixin_45901519/article/details/112980822 1.Pandas数据结构 2008年WesMc ...

  • 一行pandas代码生成哑变量

    一. 数据 import pandas as pd df = pd.read_csv('data.csv', usecols=['Name', 'Info']) df.head() 二.任务 现在我想 ...

  • 14个pandas神操作,手把手教你写代码(文末送书)

    导读:Pandas是Python数据分析的利器,也是各种数据建模的标准工具.本文带大家入门Pandas,将介绍Python语言.Python数据生态和Pandas的一些基本功能. 在Python语言应 ...

  • 迄今为止最牛逼的代码补全工具,减少一半操作,实时补全

    机器之心报道 Kite 是一个著名的 Python 代码补全工具,支持在一些 IDE 上作为插件,帮助开发者提升代码效率.Kite 官方宣布将会增加「Intelligent Snippets」功能.据 ...

  • 推荐14个牛逼的代码编辑网站,记得收藏哦!

    程序员涨点薪吧 今天 今天我将跟大家分享一些可以展示你代码的网站,它们都提供在线预览功能,所以别人可以看到你的代码如何运行.它们有时候也被称作"代码广场". 它们不仅仅提供简单的代 ...

  • 手工刺绣的21种常用刺绣针法图解,收好不谢!

    本文转载自公众号:扩蝶网 | 手作 · 美 · 乐趣 ·  家 | ◆  ◆  ◆ 刺绣的针法变化万千,且各有特色,不同针法的应用是表现出刺绣图案不同特征的构成形式,针法巧妙的组合应用可完美的绣出漂亮 ...

  • 牛逼!这21个数据分析项目,火了!

    都说2020是"数据分析"的元年,疫情爆发推动线上业务发展,数据价值迅速显性化.招聘市场也证明了这一点:全行业岗位需求有所收缩的情况下,数据分析师岗位HC不减反增.但是数据分析师的 ...

  • 数据分析入门系列教程-常用图表

    作者:周萝卜 来源:萝卜大杂烩 今天我们来学习下数据可视化,其实在前面的章节中,我们也接触到了一些数据可视化的知识,在分析数据集的时候,有效的可视化图表,可以帮助我们更好的了解数据. 常用的可视化图表 ...

  • HR数据分析中常用的21个数据源

    我们通常听到的一个问题是"什么可以用于分析的数据源?" 在本文中,我们将列出HR和更广泛业务中的许多常见数据源,这些数据源将有助于您进行人员分析. HR数据源可以分为3类: 一.H ...

  • 曾国藩:哪有什么天生牛逼,不过是慢慢地磨、笨笨地熬

    洞见 不是每一种观点,都可以叫洞见 1295篇原创内容 公众号 作者:洞见·李思圆 耐得住寂寞,才能守得住繁华. ♬ 点上方绿标可收听洞见主播简宁朗读音频 你身边有没有这样一种人: 曾经他普普通通坐在 ...

  • 出轨玩出新高度,牛逼!

    关 注 电 影 派,和 片 荒 说 拜 拜 电影派 Vol.2848 新婚不久的夫妇. 偶尔间,还会偷偷摸摸搞一些小动作. 眉来眼去,情趣横生. 握握小手. 上一秒,两人还在坐在楼下陪父母聊天看电视. ...

  • 最牛逼的性能监控系统,SkyWalking 集强大于一身!

    作者:废物大师兄 来源:www.cnblogs.com/cjsblog/p/14075486.html SkyWalking 是一个应用性能监控系统,特别为微服务.云原生和基于容器(Docker, K ...