神译局5小时前

2022年想找数据科学方面工作的看过来哦。

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

编者按：数据科学技术现在非常火，但是要在数据科学领域找到好工作，也要有拿得出手的真本事，不是泛泛学了一些基础技术就可以的，尤其是像NLP和推荐这样的细分方向。看看本文的10大实用技术介绍，也许对你有帮助。本文来自编译。

Photo by

简介

许多关于“如何学习数据科学”的课程和文章（包括我自己写的那些），都倾向于强调统计学、数学和编程等这些基本技术。然而通过自己的亲身体验我发现，光掌握这些基本技术对就业不一定有多少帮助。

因此，我想创建一个独特的实用技术清单，帮助增强你的就业竞争力。

对任何数据科学家来说，不管你主修的专业是什么，这个清单里的前四项技术都是绝对关键必须掌握的，后面的6项技能（5-10）也很重要，但根据你的专业，侧重点会有所不同。

例如，如果你统计学基础最好，你可能会花更多的时间在学习推理统计上。如果你对文本分析更感兴趣，你可能会花更多时间学习NLP，或者如果你对决策科学感兴趣，你可能会专注于研究解释模型。术业有专攻，你明白了吧。

下面就来具体了解一下这10种数据科学技术吧，我认为它们对于就业是最实用的。

1. 编写SQL查询和构建数据管道

如果你学会了编写强大的SQL查询语句，并能够在像 Airflow 这样的工作流管理平台上合理调度它们，这将有助于你成为非常优秀的数据科学家，因此我把这项技术放在首要位置。

原因如下：

1.灵活性：公司喜欢的数据科学家不仅能做数据建模，它们最喜欢的是全栈数据科学家。如果你能够参与和帮助建立核心数据管道，你将能够通过收集数据和分析数据得到更深入的洞察，做出更出色的报告，由此可能会改善人们的生活状态。

2.独立性：在某些情况下，你需要为一个模型或数据科学项目提供表格或视图。如果你能够为你的项目编写强大的数据管道，而不需要依赖数据分析师或数据工程师，将大大节省时间，同时也更加体现出你的价值。

因此，要成为一个数据科学家，你首先必须是SQL专家，没有任何例外。

2. 数据整理/特征工程

无论是建立模型，探索新的功能构建，还是进行深度挖掘，你都需要知道如何处理数据。

数据整理意味着将你的数据从一种格式转换为另一种格式。

特征工程是数据整理的一种形式，具体指从原始数据中提取特征。

你是如何处理数据的并不重要，无论使用Python还是SQL都可以，但你应该能够以你喜欢的方式处理数据（当然是在可能的范围内）。

3. 版本控制

当我提到“版本控制”时，我具体指的是GitHub和Git。Git是世界上使用最多的版本控制系统，而GitHub本质上是一个基于云端的文件和文件夹仓库。

虽然Git对于数据科学来说并非最直观的技能，但对于几乎所有与编码有关的角色来说，它都是必不可少的。为什么呢？

使用它你可以很方便地与他人合作，在项目上并行工作
它可以追踪到你代码的所有版本（以防你需要恢复到旧版本）

所以花点时间学习 Git吧，它将使你走得更远。

4. 讲故事（也可以说是沟通能力）

构建一个视觉效果上令人惊叹的仪表盘或一个复杂的、准确率超过95%的数据模型当然是很棒的成就，但是如果你不能把你项目的价值准确地传达给别人，你就不会得到应得的认可，最终，你无法在职业生涯中取得本应有的成功。

讲故事是指“如何”跟别人表达你的见解和模型。从概念上讲，如果我们用一本图画书做比喻，见解/模型就好比是书里的一张张图片，而“讲故事”则是串联起所有这些图片的叙述。

在科技界，讲故事和沟通是被严重低估的技能。从我的职业生涯来看，这种技能水平的高低，也代表着初级员工与资深员工和管理者之间的差距。

5. 回归/分类

你要能够构建回归和分类模型，即预测模型，也许这些并不是你一直在做的事情，但如果你是一个数据科学家，雇主会希望你也能够承担起来。

即使这些事情你并不会经常做，你也必须精通，因为需要建立高效能的模型。在我迄今为止的职业生涯中，我只做过两个机器学习模型的产品化，但它们对业务的影响至关重要，是非常关键的任务模型。

因此你应该对数据预处理、增强算法、超参数调优和模型评估指标有充分的了解。

6. 解释模型

通常人们会建立两种类型的模型，一种是预测模型，即根据一些输入的变量来猜测出一个结果；另一种是解释模型，它不是用来预测的，而是用来更好地理解输入变量和输出变量之间的关系。

解释模型通常使用回归模型创建，因为它们可以为理解变量之间的关系提供很多有用的统计数据。

解释模型的价值目前是被严重低估了，但是它真的非常有用，如果你想探索决策科学领域，解释模型是必不可少的。

7. A/B测试(实验)

A/B测试是一种实验形式：将两个不同的群体进行比较，看哪一个基于给定的指标能够有更好的表现。

A/B测试可以说是企业界最实用的统计方法，应用范围也最广泛。A/B测试允许你将100个或1000个细微的改进不断进行复合测试，随着时间的推移，持续的积累会产生重大的变化和改进。

如果你对数据科学统计感兴趣，A/B测试则是必须要了解和学习的。

8. 聚类

在我个人的职业生涯中还没有使用过聚类，但它是数据科学的一个核心领域，即使不用，至少应该熟悉。

聚类在很多方面都很有用。通过它你可以找到不同的客户群，你可以用聚类来标记未标记的数据，你甚至可以用聚类来寻找模型的切入点。

9. 推荐

虽然我自己的职业生涯中还没有建立过推荐系统，但它确实是数据科学中最实用的应用之一。推荐系统之所以强大，是因为它们有能力带来营收和利润。例如，Amazon声称他们的推荐系统在2019年将公司销售额提高了29%。

因此，如果你的公司用户必须要面临选择，而且他们有很多选择，那么推荐系统可能对你们的业务非常有用，值得大力探索。

10. NLP

NLP（即自然语言处理）是人工智能的一个分支，专注于文本和语音分析。与机器学习不同，我认为NLP还远未成熟，这也是它的有趣之处。

NLP有很多用例。

它可以用于情感分析，以了解人们对一个企业或一个企业的产品的感受。
它可以用来监测一个公司的社交媒体，把正面和负面的评论区分开。
NLP还是构建聊天机器人和虚拟客服的核心技术。
NLP被用于文本提取（筛选文件）。

总的来说，NLP在数据科学领域是一个非常有趣和有用的细分领域。

我希望以上这10条有助于指导你的学习，能为你以后的工作提供一些方向。学海无涯，选择几个你听起来最感兴趣的技能，现在开始吧。

译者：张茉茉

本文来自翻译, 如若转载请注明出处。

2022年十大最实用的数据科学技术