如何在两周内完成一场数据比赛的准备
缘起,月底想参加一个大数据的比赛,从现在开始月底想进行一些对于数据比赛的集中突击学习。
在我开始正式的“论述”之前,我想先说点题外话,我觉得数据类的比赛有套路可以遵循的,所以一定要使用套路来比赛。
比如,数据的清洗,降维,初期数据探索,特征工程等等。每一步都需要熟练的使用各种工具,当然我这里就说Python和Matalb。
当然主要的还是编程的实现了,我们看一张比较全面的能力图。
主要是分为三个部分:
编程语言(Python,SQL)
类库的使用(数据转换,数据操作,数据可视化)
常见数据算法(AARRR,时序,漏斗等)
所以我们的准备也就是三部分,语言,相关类库,常见算法。
我这里想说一个工具是Matlab,大家可能平时不用这个,只有搞数学和工程的人用的多。但是在数据分析也是强的一笔
先可以从matlab的工具箱
处理多元数据什么的,都是一把好手
平行坐标图
我其实想放一个关于MATLAB官方的数据处理资料,找了一下没有找到
https://ww2.mathworks.cn/help/pdf_doc/matlab/index.html
翻了一下以前的文章,找到了
在这里,2018也是可以使用的
这是我们PDF里面的目录,数据前处理,拟合,时序分析是这个里面重点写的,可以抽时间试着处理一下。
Matlab官方资料,这里有我总结的更多的资料。
接下来就是正经的编程语言了,这里选择Python,使用人数多,资料丰富,类库丰富,数据处理的不二之选。
https://docs.python.org/zh-cn/3/
如果是从来没有写过程序,那这个文章可能不适合你,出去掌握一些基础语法再回来。
我们对Python的使用应该是复习,而不是预习,和初次学习。跟着官网的文档使用一次,记住语法的格式。
https://pandas.pydata.org/
数据处理无论如何也绕不过去的库,官网的学习资料最好
https://www.runoob.com/pandas/pandas-tutorial.html
搭配菜鸟教程,快速熟悉常见的操作,认真操作一晚,做好笔记的记录
https://numpy.org/
Numpy的学习方法一样,掌握常见的操作就行
其实到这里,你的学习量就很大了。我这里停一下,配置一下分析的环境,
https://www.jetbrains.com/zh-cn/dataspell/
这里使用全新的数据分析工具DataSpell:
就是这个
https://download.jetbrains.com/python/jetbrains-data-spell-213.4250.391.exe
下载链接
安装
全选
首次打开,同意
开始页面
使用GitHub登录
浏览器端授权成功
登录成功
是使用自带的解释器
完成
这里问你要不要下个索引,下次速度快点
下载
使用正常
加个封面