机器学习中的数据级联:被低估的数据,被高估的模型

来自谷歌的研究员在一篇题为“Everyone wants to do the model work, not the data work”的论文中指出:数据质量在AI中起到的作用正在被低估,数据质量在高风险AI应用中十分重要,尤其是对癌症检测、野生生物偷猎等下游任务中巨大。

数据是机器学习 (ML) 的一个基本方面,可以影响 ML 系统的性能、公平性、稳健性和可扩展性。矛盾的是,虽然构建 ML 模型的优先级通常很高,但与数据本身相关的工作通常是优先级最低的方面。并且这项数据工作可能需要多个角色(例如数据收集者、标注人员和 ML 开发人员),并且通常涉及多个团队(例如数据库、法律或许可团队)来支持数据基础架构,这会增加任何与数据相关的项目的复杂性.因此,人机交互 (HCI) 领域专注于使技术对人们有用和可用,可以帮助识别潜在问题并评估与数据相关的工作不优先时对模型的影响。

在 2021 年 ACM CHI 会议上发表的“'Everyone wants to do the model work, not the data work’: Data Cascades in High-Stakes AI”中,我们研究并验证了随着时间的推移导致技术债务的数据问题对下游的影响(定义为“数据级联”)。具体来说,我们通过全球 ML 从业者在重要 ML 领域的数据工作来说明数据级联现象,例如癌症检测、滑坡检测、贷款分配等——ML 系统在这些领域取得了进展,但也在那里有机会通过解决数据级联来改进。这项工作是我们所知道的第一个将 ML 中的数据级联应用于实际项目的形式化、测量和讨论。

我们观察到数据级联的起源通常是在机器学习系统生命周期的早期,即数据定义和收集阶段。级联在诊断和表现方面也往往是复杂和不透明的,因此通常没有明确的迹象、工具或指标来检测和衡量其影响。因此,与数据相关的小问题可能会演变成更大、更复杂的挑战,从而影响模型的开发和部署方式。来自数据级联的挑战包括需要在开发过程的后期执行代价高昂的系统级更改,或者由于数据问题导致模型错误预测而导致用户信任度下降。尽管如此,令人鼓舞的是,我们还观察到可以通过对 ML 开发的早期干预来避免这种数据级联。

上图为高风险AI中的数据库级联。级联是不透明的,而且会产生长时间的负面影响。级联在上游触发(例如,数据收集),并且对下游产生影响(例如,模型部署)。红色粗箭头表示数据级联开始变得可见之后的复合效果;红色虚线箭头表示ML数据处理的放弃或重新开始。指标在模型评估、系统指标以及故障或用户反馈中最为明显。

数据级联示例

数据级联的最常见原因之一是在无噪声数据集上训练的模型部署在噪声嘈杂的现实世界中。例如,一种常见类型的数据级联源自模型漂移,当目标变量和自变量偏离时会发生这种情况,从而导致模型精度较低。当模型与新的数字环境(包括高风险领域,如空气质量传感、海洋传感和超声波扫描)密切交互时,漂移更为常见,因为这种情况下一般回包含训练时不存在的数据或者出现未处理的异常数据等。这种漂移会导致更多因素进一步降低模型的性能(例如,与硬件、环境和人类知识相关)。在训练时为了确保良好的模型性能,通常在受控的内部环境中收集数据。但在资源受限的真实环境的实时系统中,更常见的是收集带有指纹、阴影、灰尘、不同亮度和笔标记等的数据,这些都是影响模型性能的噪声。在其他情况下,雨和风等环境因素可能会意外移动部署中的图像传感器,这也会触发级联。正如我们采访的一位模型开发人员所报告的那样,即使是一小滴油或水也会影响可用于训练癌症预测模型的数据,从而影响模型的性能。由于漂移通常是由现实环境中的噪声引起的,因此它们也需要最长的时间(最多 2-3 年)才能显现出来,而且几乎总是在生产中。

另一种常见类型的数据级联可能发生在ML从业者管理专业知识有限的领域的数据时。例如,识别偷猎地点或在水下探索期间收集的数据,这种类型的信息依赖于生物科学、社会科学和相关领域方面的专业知识。但是我们研究中的一些开发人员描述了必须采取一系列超出他们领域专业知识的与数据相关的操作——例如,丢弃数据、更正值、合并数据或重新开始数据收集,这些都会导致数据级联,限制模型性能。依赖技术专业知识而不是领域专业知识的做法似乎引发了这些级联。

论文中提到的另外两个级联是由数据收集者、ML 开发人员和其他合作伙伴之间利益冲突造成的。例如,一个级联是由一份不规范的数据集文档引起的。虽然与数据相关的工作需要跨多个团队进行仔细协调,但当利益相关者在优先级或工作流程上不一致时,这尤其具有挑战性。

如何处理数据级联

解决数据级联需要在 ML 研究和实践中采用系统的方法,多步骤的进行:

  1. ML 系统开始时就要明确数据质量的概念,类似于我们对模型拟性能指标的看法。这包括开发标准化指标并经常使用这些指标来衡量数据,例如现象学中的保真度(数据表示现象的准确度和全面性)和有效性(数据对与数据捕获的现象相关的事物的解释程度),类似于我们如何开发良好的指标来衡量模型性能,例如 F1 分数。

  2. 建立创新激励机制以认可数据工作,例如奖励数据维护,或奖励组织中数据工作(收集、标签、清洁或维护)的员工。

  3. 数据工作通常需要跨多个角色和多个团队进行协调,但目前这非常有限(部分但并非全部,因为前面提到的因素)。我们的研究指出了在数据收集者、领域专家和 ML 开发人员之间促进更大的协作、透明度和更公平的利益分配的价值,尤其是对于依赖于收集或标记细分数据集的 ML 系统。

  4. 最后,我们在多个国家/地区的研究表明,数据稀缺性在低收入国家很明显,在这些国家,ML开发人员面临着定义和手工管理新数据集的额外问题,这使得他们很难开始开发ML系统。所以这里重要的是要开放数据库,制定数据政策,以解决全球当前的数据不平等问题。

总结

在这项工作中,我们既提供了经验证据,又将 ML 系统中数据级联的概念形式化。我们希望让人们意识到数据卓越可能带来的潜在价值。我们还希望为 HCI 引入一个尚未探索但意义重大的新研究议程。

最后这篇论文的地址如下:https://research.google/pubs/pub49953/

本文是与 Shivani Kapania、Hannah Highfill、Diana Akrong、Praveen Paritosh 和 Lora Aroyo 合作撰写的。

原文地址:https://ai.googleblog.com/2021/06/data-cascades-in-machine-learning.html

(0)

相关推荐

  • 谷歌团队警告:人人都想做模型而非数据工作,这很危险

    大数据文摘授权转载自数据实战派 AI 模型越来越多地应用于健康监测.雇员评价.信用评级等高风险领域. 与之相比的是,数据质量在 AI 中所发挥的作用却被低估,然而真实的情况是,它在高风险 AI 应用中 ...

  • 2021人工智能状况分析报告

    人工智能(AI)是一个多学科领域的科学和工程,其目标是创造智能机器. 近期,Nathan Benaich 和 Lan Hogarth博士发布了<2021人工智能状况报告> 该报告试图捕捉近 ...

  • 谷歌AI研究院:被低估的数据!被高估的模型...

    编译 | 戚路北    校对 | 维克多 本文转载自:AI科技评论 得益于算法.算力和数据这三驾马车,人工智能在2006年后获得了巨大的发展.近日,来自谷歌的研究员在一篇题为"Everyon ...

  • 【深读】如何用“驯服长尾”的方式改良AI经济?

    导读 AI是最近很火的技术.似乎各行各业都可以应用AI.这么看来,做AI不仅很有前途,而且很有钱途吧?错了,人工智能公司的毛利率往往较低,很难规模化,而且未必总能具备牢固的护城河.那么怎么才能改善AI ...

  • 干货!机器学习中,如何优化数据性能

    得益于覆盖各种需求的第三方库,Python在今天已经成为了研究机器学习的主流工具.不过由于其解释型语言的特性,在运行速度上往往和传统编译型语言有较大差距.特别是当训练数据集非常庞大时,很多时候处理数据 ...

  • 如何避免机器学习中的「7」种数据偏差

    机器学习中的数据偏差是一种错误,其中数据集的某些元素比其他元素具有更大的权重和或表示.有偏见的数据集不能准确地表示模型的用例,从而导致结果偏斜,准确性水平低和分析错误. 通常,用于机器学习项目的训练数 ...

  • 机器学习中,有哪些特征选择的工程方法?

    解析: 本题解析来源:@jasonfreak,链接:http://www.cnblogs.com/jasonfreak/p/5448385.html 目录 1 特征工程是什么? 2 数据预处理 2.1 ...

  • 谷歌AI研究院:被低估的数据,被高估的模型

    得益于算法.算力和数据这三驾马车,人工智能在2006年后获得了巨大的发展.近日,来自谷歌的研究员在一篇题为"Everyone wants to do the model work, not ...

  • 如何爬取知乎中问题的回答以及评论的数据?

    如何爬取知乎中问题的回答以及评论的数据? 我们以爬取"为什么中医没有得到外界认可?"为例来讨论一下如何爬取知乎中问题的回答以及评论的数据. 爬取网页数据通常情况下会经历以下三个步骤 ...

  • 在职场中,女性为什么容易“低估”自己?

    领英LinkedIn12小时前 关注 究竟是什么让女性在职场中更喜欢做支持者的角色? 编者按:本文来自微信公众号"LinkedIn"(ID:LinkedIn-China),作者:木 ...

  • 如何筛选出同一行中两列值不相同的数据?

    问:如下图所示,在Excel工作表中有两列,分别是使用人和付款人,要筛选出使用人和付款人不是同一人的数据,如何实现? 答:可以使用Excel的高级筛选功能来解快速解决这个问题. 首先,在列D中建立公式 ...

  • 获取单元格区域中最长内容的单元格数据

    本次的练习是:如下图1所示的工作表,在单元格区域A1:A7中有一组数据,如何使用公式获取该区域中最长内容的单元格数据?即单元格A2包含的文本"excelperfect". 图1 先 ...