如何在两周内完成一场数据比赛的准备

缘起,月底想参加一个大数据的比赛,从现在开始月底想进行一些对于数据比赛的集中突击学习。

在我开始正式的“论述”之前,我想先说点题外话,我觉得数据类的比赛有套路可以遵循的,所以一定要使用套路来比赛。

比如,数据的清洗,降维,初期数据探索,特征工程等等。每一步都需要熟练的使用各种工具,当然我这里就说Python和Matalb。

当然主要的还是编程的实现了,我们看一张比较全面的能力图。

主要是分为三个部分:

  1. 编程语言(Python,SQL)

  2. 类库的使用(数据转换,数据操作,数据可视化)

  3. 常见数据算法(AARRR,时序,漏斗等)

所以我们的准备也就是三部分,语言,相关类库,常见算法。

我这里想说一个工具是Matlab,大家可能平时不用这个,只有搞数学和工程的人用的多。但是在数据分析也是强的一笔

先可以从matlab的工具箱

处理多元数据什么的,都是一把好手

平行坐标图

我其实想放一个关于MATLAB官方的数据处理资料,找了一下没有找到

https://ww2.mathworks.cn/help/pdf_doc/matlab/index.html

翻了一下以前的文章,找到了

在这里,2018也是可以使用的

这是我们PDF里面的目录,数据前处理,拟合,时序分析是这个里面重点写的,可以抽时间试着处理一下。

Matlab官方资料,这里有我总结的更多的资料。

接下来就是正经的编程语言了,这里选择Python,使用人数多,资料丰富,类库丰富,数据处理的不二之选。

https://docs.python.org/zh-cn/3/

如果是从来没有写过程序,那这个文章可能不适合你,出去掌握一些基础语法再回来。

我们对Python的使用应该是复习,而不是预习,和初次学习。跟着官网的文档使用一次,记住语法的格式。

https://pandas.pydata.org/

数据处理无论如何也绕不过去的库,官网的学习资料最好

https://www.runoob.com/pandas/pandas-tutorial.html

搭配菜鸟教程,快速熟悉常见的操作,认真操作一晚,做好笔记的记录

https://numpy.org/

Numpy的学习方法一样,掌握常见的操作就行

其实到这里,你的学习量就很大了。我这里停一下,配置一下分析的环境,

https://www.jetbrains.com/zh-cn/dataspell/

这里使用全新的数据分析工具DataSpell:

就是这个

https://download.jetbrains.com/python/jetbrains-data-spell-213.4250.391.exe

下载链接

安装

全选

首次打开,同意

开始页面

使用GitHub登录

浏览器端授权成功

登录成功

是使用自带的解释器

完成

这里问你要不要下个索引,下次速度快点

下载

使用正常

加个封面

(0)

相关推荐