2022年十大最实用的数据科学技术
神译局5小时前
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:数据科学技术现在非常火,但是要在数据科学领域找到好工作,也要有拿得出手的真本事,不是泛泛学了一些基础技术就可以的,尤其是像NLP和推荐这样的细分方向。看看本文的10大实用技术介绍,也许对你有帮助。本文来自编译。
Photo by
简介
许多关于“如何学习数据科学”的课程和文章(包括我自己写的那些),都倾向于强调统计学、数学和编程等这些基本技术。然而通过自己的亲身体验我发现,光掌握这些基本技术对就业不一定有多少帮助。
因此,我想创建一个独特的实用技术清单,帮助增强你的就业竞争力。
对任何数据科学家来说,不管你主修的专业是什么,这个清单里的前四项技术都是绝对关键必须掌握的,后面的6项技能(5-10)也很重要,但根据你的专业,侧重点会有所不同。
例如,如果你统计学基础最好,你可能会花更多的时间在学习推理统计上。如果你对文本分析更感兴趣,你可能会花更多时间学习NLP,或者如果你对决策科学感兴趣,你可能会专注于研究解释模型。术业有专攻,你明白了吧。
下面就来具体了解一下这10种数据科学技术吧,我认为它们对于就业是最实用的。
1. 编写SQL查询和构建数据管道
如果你学会了编写强大的SQL查询语句,并能够在像 Airflow 这样的工作流管理平台上合理调度它们,这将有助于你成为非常优秀的数据科学家,因此我把这项技术放在首要位置。
原因如下:
1.灵活性:公司喜欢的数据科学家不仅能做数据建模,它们最喜欢的是全栈数据科学家。如果你能够参与和帮助建立核心数据管道,你将能够通过收集数据和分析数据得到更深入的洞察,做出更出色的报告,由此可能会改善人们的生活状态。
2.独立性:在某些情况下,你需要为一个模型或数据科学项目提供表格或视图。如果你能够为你的项目编写强大的数据管道,而不需要依赖数据分析师或数据工程师,将大大节省时间,同时也更加体现出你的价值。
因此,要成为一个数据科学家,你首先必须是SQL专家,没有任何例外。
2. 数据整理/特征工程
无论是建立模型,探索新的功能构建,还是进行深度挖掘,你都需要知道如何处理数据。
数据整理意味着将你的数据从一种格式转换为另一种格式。
特征工程是数据整理的一种形式,具体指从原始数据中提取特征。
你是如何处理数据的并不重要,无论使用Python还是SQL都可以,但你应该能够以你喜欢的方式处理数据(当然是在可能的范围内)。
3. 版本控制
当我提到“版本控制”时,我具体指的是GitHub和Git。Git是世界上使用最多的版本控制系统,而GitHub本质上是一个基于云端的文件和文件夹仓库。
虽然Git对于数据科学来说并非最直观的技能,但对于几乎所有与编码有关的角色来说,它都是必不可少的。为什么呢?
使用它你可以很方便地与他人合作,在项目上并行工作
它可以追踪到你代码的所有版本(以防你需要恢复到旧版本)
所以花点时间学习 Git吧,它将使你走得更远。
4. 讲故事(也可以说是沟通能力)
构建一个视觉效果上令人惊叹的仪表盘或一个复杂的、准确率超过95%的数据模型当然是很棒的成就,但是如果你不能把你项目的价值准确地传达给别人,你就不会得到应得的认可,最终,你无法在职业生涯中取得本应有的成功。
讲故事是指“如何”跟别人表达你的见解和模型。从概念上讲,如果我们用一本图画书做比喻,见解/模型就好比是书里的一张张图片,而“讲故事”则是串联起所有这些图片的叙述。
在科技界,讲故事和沟通是被严重低估的技能。从我的职业生涯来看,这种技能水平的高低,也代表着初级员工与资深员工和管理者之间的差距。
5. 回归/分类
你要能够构建回归和分类模型,即预测模型,也许这些并不是你一直在做的事情,但如果你是一个数据科学家,雇主会希望你也能够承担起来。
即使这些事情你并不会经常做,你也必须精通,因为需要建立高效能的模型。在我迄今为止的职业生涯中,我只做过两个机器学习模型的产品化,但它们对业务的影响至关重要,是非常关键的任务模型。
因此你应该对数据预处理、增强算法、超参数调优和模型评估指标有充分的了解。
6. 解释模型
通常人们会建立两种类型的模型,一种是预测模型,即根据一些输入的变量来猜测出一个结果;另一种是解释模型,它不是用来预测的,而是用来更好地理解输入变量和输出变量之间的关系。
解释模型通常使用回归模型创建,因为它们可以为理解变量之间的关系提供很多有用的统计数据。
解释模型的价值目前是被严重低估了,但是它真的非常有用,如果你想探索决策科学领域,解释模型是必不可少的。
7. A/B测试(实验)
A/B测试是一种实验形式:将两个不同的群体进行比较,看哪一个基于给定的指标能够有更好的表现。
A/B测试可以说是企业界最实用的统计方法,应用范围也最广泛。A/B测试允许你将100个或1000个细微的改进不断进行复合测试,随着时间的推移,持续的积累会产生重大的变化和改进。
如果你对数据科学统计感兴趣,A/B测试则是必须要了解和学习的。
8. 聚类
在我个人的职业生涯中还没有使用过聚类,但它是数据科学的一个核心领域,即使不用,至少应该熟悉。
聚类在很多方面都很有用。通过它你可以找到不同的客户群,你可以用聚类来标记未标记的数据,你甚至可以用聚类来寻找模型的切入点。
9. 推荐
虽然我自己的职业生涯中还没有建立过推荐系统,但它确实是数据科学中最实用的应用之一。推荐系统之所以强大,是因为它们有能力带来营收和利润。例如,Amazon声称他们的推荐系统在2019年将公司销售额提高了29%。
因此,如果你的公司用户必须要面临选择,而且他们有很多选择,那么推荐系统可能对你们的业务非常有用,值得大力探索。
10. NLP
NLP(即自然语言处理)是人工智能的一个分支,专注于文本和语音分析。与机器学习不同,我认为NLP还远未成熟,这也是它的有趣之处。
NLP有很多用例。
它可以用于情感分析,以了解人们对一个企业或一个企业的产品的感受。
它可以用来监测一个公司的社交媒体,把正面和负面的评论区分开。
NLP还是构建聊天机器人和虚拟客服的核心技术。
NLP被用于文本提取(筛选文件)。
总的来说,NLP在数据科学领域是一个非常有趣和有用的细分领域。
我希望以上这10条有助于指导你的学习,能为你以后的工作提供一些方向。学海无涯,选择几个你听起来最感兴趣的技能,现在开始吧。
译者:张茉茉
本文来自翻译, 如若转载请注明出处。