2021,什么数据分析技能最重要?

大数据文摘授权转载自数据派THU
作者:Emmett Boudreau
翻译:朱启轩
校对:和中华
业界最需要的是什么技能?新的一年里您应该从哪里开始学习?
导读
对于像数据科学这种飞速发展的领域,很容易理解为何在给定时间内难以掌握一些热门技能。成为一名数据科学家的关键是研究并且熟练掌握那些任意时刻出现的先进技术。您永远不知道什么时候可能需要一个以前从未使用过的工具、函数或模块,因而需要首先学习如何使用它们。这就是为什么我们大多数人喜欢阅读“走向数据科学”(Towards Data Science)可考虑加一句译者注,说明这是一个数据科学门户网站!
数据科学最大的障碍是过去几年来其突飞猛进般的演变。近年来,数据科学已经从一个相对鲜为人知的领域转变为后十年里最热门的工作方向。所以,其概念体系/生态体系也在快速发展。这也意味着:如果您停滞不前,则很容易在数据科学的大潮之中落后。
对于数据科学家而言,有一些关键属性是雇主所看重并且追寻的,但最重要的属性是您所熟悉的技术。就现在情况看来,熟悉从动画片摩登原始人(Flintstones)中模仿的脚车技术可能并不像熟悉TensorFlow这样有价值。
由于数据科学市场和其概念体系在不断发展,因此很难确定雇主实际想在自己的解决方案中使用的最新技术到底是什么。幸运的是,由于我们是数据科学家,因此我们可以通过浏览互联网以查找更多数据科学岗位所需的技能,例如编程语言,包,和软件。
要想找到一份完美的数据集,来回答该选择什么“数据科学技术”(体系)并不完全可行,因此以下概述来自于我的个人经验。虽然如此,这些概述也都来源于数据科学岗列出的工作要求,比较全面,并且与数据科学的内在联系很紧密。此外,数据科学领域也在迅速发展。这意味着尽管某些技术在第一季度可能很有用,但是在第三第四季度可能就不再被使用了。因此,我谨就此方面的技术提出自己的见解。
行业需求
任何有远大理想的数据科学家都一定会熟悉许多业界常用的技能。有这些技能的使用经验一直都是很多工作岗位要求的一部分,因为它们很可能是您入职以后所使用的那些技能。至少,熟悉这些技能的基本概念能够确保您在使用他们之时更容易上手。
Python
首先,如果您还不了解Python,建议您学习Python。尽管在数据分析中还会用到R,SAS甚至是Julia,大多数工作岗位寻求的还是精通Python的人。这并不是说其他语言是没用的,因为能够适用于不同目的的编程语言技能组合往往是最佳的。比如说,如果要建造花园,我想使用的不仅是铲子,尽管我可能要做更多的工作,我最终还是能够把花园建好的。
Python是当前科学计算领域的行业标准。这是有充分理由的,因为Python生态系统是其他任何语言都无法比拟的。另一个很棒的事情是,Python的设计使得它很容易使用。对于那些初学者,我会推荐Python,因为它会对您很有帮助!
分析
至于分析方面,通常都不直接列出技术。这仅是因为,取决于您想做什么,在进行具体的可视化时,任何软件包都可以胜任。因此,考虑到这一点,最好掌握多种库以进行数据可视化。此外,分析过程中的另一个重要的要素是统计学知识。
我要说的是,熟悉Python的SciPy会使您更容易被公司录用。在分析方面,雇主寻找的是真实的量化结果。统计测试是获得真实量化结果的最简单方法。此外,这些统计技能将逐步演化为您的机器学习技能。
数据
对于数据,重要的是无论使用什么编程语言,都能对数据有深刻的理解。就是说:虽然大多数语言都具有相似的数据类型,但是用您首选的语言可能最终会完全不同。拥有一定的处理数据能力将会使数据清洗和建立有效的处理管道更加容易。
对于Python来说,像NumPy和Pandas这样的软件包对于处理数据绝对是必不可少的。如果您想使用复杂的数据集并训练大型模型,那么先学好如何用自己喜欢的编程语言来操作/加工数据可能更为重要。尽管数据科学的重要组成部分是机器学习,但很多职位头衔一般不包含机器学习。原因是,首先,数据科学家会先预处理数据,然后用科学的方法进行实践。考虑到这一点,如果没有对数据操作的正确理解,甚至都很难建立模型并运行它。简单来说,处理数据是最重要的一步,也是精通机器学习前的第一步。
数据方面的另一重要事项是了解如何处理和存储数据。从数据湖,数据库和表的知识出发,您还应该知道如何查询数据并将其带入代码中以进行测试。能够对数据进行算术运算是非常棒的,但是当您没有数据时,它将变得毫无用处。
此外,数据聚合算法很重要,无论是来自日志数据,生成的数据还是最常用的数据。使用API服务并能够以许多非传统方式检索数据对于任何数据科学家来说无疑都是必不可少的。
机器学习
在机器学习方面,虽然一些更高级的概念(例如,构建神经网络)可能很酷,但在许多情况下,使用典型的黑盒模型可能是最佳选择。我认为这意味着数据科学家应该至少对两者都有一定的了解。尽管我认为这些技能没有什么价值,因为大多数时候这些知识框架都是由其他人(尤其是在行业中)预先构建好了的,(译者补充:大多数时候只要调包就行了)所以大多数工作要求Python开发人员至少具有类似使用Sklearn库的经验。
开发运维
开发运维是一个经常被忽视的数据科学技能。所有模型都有一个目的,通常该目的是为了部署各个模型。因此,虚拟环境管理通常会有一段时间成为数据科学团队的重要工作内容。这些至关重要的基础技能也可能有助于编程,但主要是在构建更复杂的数据解决方案时会有所帮助。
如果您不知道如何将开发运维组合在一起,那运用现行的开发运维技术是很困难的。至少,对于许多数据科学家而言,了解如何使用终端并熟悉命令行(CLI)绝对是必不可少的。一年多以前,我写了一篇关于为什么开发运维会如此重要的文章,实际上,您可以在这里查看:
The benefits of devlops skills in data science:

https://towardsdatascience.com/the-benefits-of-dev-ops-skills-in-data-science-fa0a30aade85

构建自己的生态系统
想吸引大批的数据科学家往往是很困难的,因为他们经常使用不同的语言。话虽这么说,对于您偏好的语言,可能还有一些软件包,可能在2021年还需要您去掌握。根据我在职位列表上看到的内容,我列出了几个热门语言中比较重要且值得学习的软件包。

Python

  • NumPy
  • Math
  • Scipy(Scipy.stats)
  • Pandas
  • TensorFlow
  • Sklearn
  • Matplotlib/Seaborn
  • Plot.ly
  • Keras
  • Pytorch
  • PySpark

Julia

  • Plots
  • Makie
  • DataFrames
  • GadFly
  • MLJ
  • Lathe
  • GLM
  • Flux
  • Knet

R

  • Shiny
  • ggplot2
  • data.table
  • dplyr
  • tidyr
  • knitr

C++

  • Xtensor
  • OpenCV
  • Shogun
  • Tensorflow
当然,不是说就一定要按照上面的列表来学习,而是给人们提供了不同生态圈的轮廓。例如,Seaborn和Matplotlib具有许多相同的功能,因此您可能不需要两者都知道,但是绝对需要了解如何绘制统计图表。
未来
数据科学领域发展迅速,预测其未来相当困难。但是,我们可以看到有关技术发展的趋势。对于TensorFlow,Python,Pandas等行业标准软件包,它们可能会存在很长时间。我怀疑对于整个生态系统而言,它的发展方向是不定的,但不会突变。
话虽如此,新的编程语言Julia拥有许多有趣的前景,可能暗示着数据科学的未来。需要明确的是,这对于Python的地位没有任何意义,但对于和Python一起的其他语言角色可能会有一些意义。
我认为,数据科学世界每天都有很多有趣的事情在发生。对于像我这样喜欢不断学习新事物的人来说,这是一件很棒的事情,但是这也会给人以警醒,因为很难知道在任何给定时间点您应该与什么样的技能打交道才能跟上行业发展。
原文链接:
https://towardsdatascience.com/which-data-science-skills-are-the-most-vital-in-2021-88ae9e76b560
(0)

相关推荐