2022年十大最实用的数据科学技术

神译局5小时前

2022年想找数据科学方面工作的看过来哦。

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:数据科学技术现在非常火,但是要在数据科学领域找到好工作,也要有拿得出手的真本事,不是泛泛学了一些基础技术就可以的,尤其是像NLP和推荐这样的细分方向。看看本文的10大实用技术介绍,也许对你有帮助。本文来自编译。

Photo by

简介

许多关于“如何学习数据科学”的课程和文章(包括我自己写的那些),都倾向于强调统计学、数学和编程等这些基本技术。然而通过自己的亲身体验我发现,光掌握这些基本技术对就业不一定有多少帮助。

因此,我想创建一个独特的实用技术清单,帮助增强你的就业竞争力

对任何数据科学家来说,不管你主修的专业是什么,这个清单里的前四项技术都是绝对关键必须掌握的,后面的6项技能(5-10)也很重要,但根据你的专业,侧重点会有所不同。

例如,如果你统计学基础最好,你可能会花更多的时间在学习推理统计上。如果你对文本分析更感兴趣,你可能会花更多时间学习NLP,或者如果你对决策科学感兴趣,你可能会专注于研究解释模型。术业有专攻,你明白了吧。

下面就来具体了解一下这10种数据科学技术吧,我认为它们对于就业是最实用的。

1. 编写SQL查询和构建数据管道

如果你学会了编写强大的SQL查询语句,并能够在像 Airflow 这样的工作流管理平台上合理调度它们,这将有助于你成为非常优秀的数据科学家,因此我把这项技术放在首要位置。

原因如下:

1.灵活性:公司喜欢的数据科学家不仅能做数据建模,它们最喜欢的是全栈数据科学家。如果你能够参与和帮助建立核心数据管道,你将能够通过收集数据和分析数据得到更深入的洞察,做出更出色的报告,由此可能会改善人们的生活状态。

2.独立性:在某些情况下,你需要为一个模型或数据科学项目提供表格或视图。如果你能够为你的项目编写强大的数据管道,而不需要依赖数据分析师或数据工程师,将大大节省时间,同时也更加体现出你的价值。

因此,要成为一个数据科学家,你首先必须是SQL专家,没有任何例外。

2. 数据整理/特征工程

无论是建立模型,探索新的功能构建,还是进行深度挖掘,你都需要知道如何处理数据。

数据整理意味着将你的数据从一种格式转换为另一种格式。

特征工程是数据整理的一种形式,具体指从原始数据中提取特征。

你是如何处理数据的并不重要,无论使用Python还是SQL都可以,但你应该能够以你喜欢的方式处理数据(当然是在可能的范围内)。

3. 版本控制

当我提到“版本控制”时,我具体指的是GitHub和Git。Git是世界上使用最多的版本控制系统,而GitHub本质上是一个基于云端的文件和文件夹仓库。

虽然Git对于数据科学来说并非最直观的技能,但对于几乎所有与编码有关的角色来说,它都是必不可少的。为什么呢?

  • 使用它你可以很方便地与他人合作,在项目上并行工作

  • 它可以追踪到你代码的所有版本(以防你需要恢复到旧版本)

所以花点时间学习 Git吧,它将使你走得更远。

4. 讲故事(也可以说是沟通能力)

构建一个视觉效果上令人惊叹的仪表盘或一个复杂的、准确率超过95%的数据模型当然是很棒的成就,但是如果你不能把你项目的价值准确地传达给别人,你就不会得到应得的认可,最终,你无法在职业生涯中取得本应有的成功。

讲故事是指“如何”跟别人表达你的见解和模型。从概念上讲,如果我们用一本图画书做比喻,见解/模型就好比是书里的一张张图片,而“讲故事”则是串联起所有这些图片的叙述。

在科技界,讲故事和沟通是被严重低估的技能。从我的职业生涯来看,这种技能水平的高低,也代表着初级员工与资深员工和管理者之间的差距。

5. 回归/分类

你要能够构建回归和分类模型,即预测模型,也许这些并不是你一直在做的事情,但如果你是一个数据科学家,雇主会希望你也能够承担起来。

即使这些事情你并不会经常做,你也必须精通,因为需要建立高效能的模型。在我迄今为止的职业生涯中,我只做过两个机器学习模型的产品化,但它们对业务的影响至关重要,是非常关键的任务模型。

因此你应该对数据预处理、增强算法、超参数调优和模型评估指标有充分的了解。

6. 解释模型

通常人们会建立两种类型的模型,一种是预测模型,即根据一些输入的变量来猜测出一个结果;另一种是解释模型,它不是用来预测的,而是用来更好地理解输入变量和输出变量之间的关系。

解释模型通常使用回归模型创建,因为它们可以为理解变量之间的关系提供很多有用的统计数据。

解释模型的价值目前是被严重低估了,但是它真的非常有用,如果你想探索决策科学领域,解释模型是必不可少的。

7. A/B测试(实验)

A/B测试是一种实验形式:将两个不同的群体进行比较,看哪一个基于给定的指标能够有更好的表现。

A/B测试可以说是企业界最实用的统计方法,应用范围也最广泛。A/B测试允许你将100个或1000个细微的改进不断进行复合测试,随着时间的推移,持续的积累会产生重大的变化和改进。

如果你对数据科学统计感兴趣,A/B测试则是必须要了解和学习的。

8. 聚类

在我个人的职业生涯中还没有使用过聚类,但它是数据科学的一个核心领域,即使不用,至少应该熟悉。

聚类在很多方面都很有用。通过它你可以找到不同的客户群,你可以用聚类来标记未标记的数据,你甚至可以用聚类来寻找模型的切入点。

9. 推荐

虽然我自己的职业生涯中还没有建立过推荐系统,但它确实是数据科学中最实用的应用之一。推荐系统之所以强大,是因为它们有能力带来营收和利润。例如,Amazon声称他们的推荐系统在2019年将公司销售额提高了29%。

因此,如果你的公司用户必须要面临选择,而且他们有很多选择,那么推荐系统可能对你们的业务非常有用,值得大力探索。

10. NLP

NLP(即自然语言处理)是人工智能的一个分支,专注于文本和语音分析。与机器学习不同,我认为NLP还远未成熟,这也是它的有趣之处。

NLP有很多用例。

  • 它可以用于情感分析,以了解人们对一个企业或一个企业的产品的感受。

  • 它可以用来监测一个公司的社交媒体,把正面和负面的评论区分开。

  • NLP还是构建聊天机器人和虚拟客服的核心技术。

  • NLP被用于文本提取(筛选文件)。

总的来说,NLP在数据科学领域是一个非常有趣和有用的细分领域。

我希望以上这10条有助于指导你的学习,能为你以后的工作提供一些方向。学海无涯,选择几个你听起来最感兴趣的技能,现在开始吧。

译者:张茉茉

本文来自翻译, 如若转载请注明出处。

(0)

相关推荐

  • 数据挖掘主要方法有哪些?

    一般来说无论是数据分析还是数据挖掘,可用的方法有很多,而数据分析师常用的数据挖掘方法包括:预测模型方法.数据分割方法.关联分析法和偏离分析法.接下来小编带你深入了解下这些数据挖掘方法: 预测模型方法 ...

  • 数据仓库与数据挖掘应用教程/21世纪高等学校电子商务专业规划教材

    内容简介: 本书以SQL Server分析服务为环境介绍数据仓库和数据挖掘应用技术,包括数据仓库和数据挖掘概述.OLAP和多维数据模型.数据仓库设计和SQL Server数据仓库开发实例.关联分析算法 ...

  • 对比学习(Contrastive Learning)在CV与NLP领域中的研究进展

    来自:对白的算法屋 作者:对白 对比学习方法(CV) 对比学习要做什么? 有监督训练的典型问题,就是标注数据是有限的. 目前NLP领域的经验,自监督预训练使用的数据量越大,模型越复杂,那么模型能够吸收 ...

  • 2021年浅谈多任务学习

    浅谈多任务学习 全文约1w字,阅读时间约23分钟. 写此文的动机: 最近接触到的几个大厂推荐系统排序模型都无一例外的在使用多任务学习,比如腾讯PCG在推荐系统顶会RecSys 2020的最佳长文: P ...

  • 十大最实用的excel技巧,每一个都值得收藏

    t第一名提取姓名,手机号 第二名,同行数据是否相同 office2016视频教程2013/2010 word/excel/ppt365软件mac在线课程¥39.8天猫购买 第三名,隔列粘贴数据 exc ...

  • 2019年国内十大风电业主运营数据

    北极星风力发电网讯:近日,各大风电开发商相继公布了2019年上半年风电发电量等经营数据信息,已知公告的有10家企业,北极星风力发电网整理如下: 1龙源电力 2019年8月龙源电力及其附属公司完成发电量 ...

  • 2019全球乳癌盛会SABCS召开在即:十大靶向免疫最新数据绚烂绽放圣安东尼奥!

    2019年第42届圣安东尼奥乳腺癌研讨会(SABCS®)将于2019年12月10-14日在美国德克萨斯州圣安东尼奥举办,SABCS大会是基础.转化和临床癌症研究专业人士的首要会议,因发表世界各地的最新 ...

  • 看数据!2022年法国留学最具价值、最值得申请的十大硕士专业都在这!

    如今已经不同以往,我们越来越多地发现本科文凭已经不够用了,根据美国劳工统计局数据,到2022年,大约会有48%的工作至少需要求职者拥有硕士学位!在当今竞争日益激烈的就业市场中,拥有硕士文凭不仅可以更快 ...

  • 中医最实用的十大经典古方

    公众号 1 六味地黄丸   古方:山茱萸.地黄.山药.茯苓.泽泻.丹皮.附子.肉桂. 功效:滋阴补肾.用于肾阴亏损,头晕耳鸣,腰膝软,骨蒸潮热,盗汗遗精. 古方溯源: 涉及神经.内分泌.免疫.消化.循 ...

  • 通达信软件的十大实用小功能,赶快收藏起来

    通达信软件在一些细节处同样处理得非常恰当,现在就来发掘这些实用的"隐藏"功能吧 1.多条均线的设置以及指标后的升降小箭头: MA+回车键或者MA2+回车键,再或者使用快捷键Alt+ ...

  • 实用脚上十大穴位按摩保健法 正确的脚底按摩法

    针灸推拿学堂 2018-08-10 实用!脚上十大穴位按摩保健法,脚,位于我们身体的最低处,承载着全身的重量,人的身体出现状况脚是最先感觉的到的,脚的健康关乎着整个身体的健康,脚上穴位有很多,每个穴位 ...

  • 【古方】张仲景最实用的十大经典古方

    去学习岐黄名家经方大全 本篇文章整理了中医里非常出名的10大方剂,这些方剂不仅疗效神奇,而且使用广泛,一起来看一下吧! 一.六味地黄丸 古方:山茱萸.地黄.山药.茯苓.泽泻.丹皮.附子.肉桂.功效:滋 ...

  • 非常实用的十大类珠宝鉴定方法

    钻石的鉴定:钻石是天然物质中最坚硬的物质,钻石可刻划任何其他宝石,但其他任何宝石却都刻划不动钻石.也可以用"标准硬度计"刻划,凡硬度小于9度,均是假钻石.钻石还具有亲油性,如以钢笔 ...