如何避免机器学习中的「7」种数据偏差

机器学习中的数据偏差是一种错误,其中数据集的某些元素比其他元素具有更大的权重和或表示。有偏见的数据集不能准确地表示模型的用例,从而导致结果偏斜,准确性水平低和分析错误。

通常,用于机器学习项目的训练数据必须代表现实世界。这很重要,因为这些数据是机器学习如何完成其工作的方式。数据偏差可能会发生在从人类报告和选择偏差到算法和解释偏差的一系列区域中。下图是仅在数据收集和注释阶段可能出现的各种偏差的一个很好的示例。

解决机器学习项目中的数据偏差意味着首先确定它在哪里。只有在知道存在偏见的地方之后,你才可以采取必要的措施来纠正它,无论是解决数据不足还是改善注释过程的问题。考虑到这一点,请务必对数据的范围,质量和处理保持警惕,以免产生偏差。这不仅影响模型的准确性,而且还会涉及道德,公平和包容性问题。

下面,我列出了机器学习中最常见的7种数据偏见类型,以帮助你分析和了解其发生的位置以及你可以采取的措施。

(如果你需要有关机器学习项目的数据收集和数据标签的更多信息,请在阅读本文的其余部分之前,这里有一个链接,可详细了解有关机器学习的训练数据。)

数据偏差的类型

尽管并不详尽,但此列表包含了该领域中数据偏见的常见示例,以及其发生位置的示例。

样本偏差:当数据集不能反映模型将在其中运行的环境的实际情况时,就会发生样本偏差。这样的一个例子是某些主要在白人图像上训练的面部识别系统。这些模型对妇女和不同种族的人的准确度要低得多。此偏差的另一个名称是选择偏差。

排除偏差:排除偏差在数据预处理阶段最常见。通常,这是删除不重要的有价值数据的情况。但是,由于某些信息的系统排除,它也可能发生。例如,假设你有一个在美国和加拿大的客户销售数据集。98%的客户来自美国,因此你选择删除不相关的位置数据。但是,这意味着你的模型将不会因为加拿大客户的消费增加两倍多这一事实而受到影响。

测量偏差:当为训练而收集的数据与现实世界中收集的数据不同时,或者当错误的测量结果导致数据失真时,就会发生这种偏差。这种偏差的一个很好的例子出现在图像识别数据集中,其中训练数据是用一种类型的照相机收集的,而生产数据是用另一种照相机收集的。在项目的数据标记阶段,由于注释不一致也会导致测量偏差。

召回偏差:这是一种测量偏差,在项目的数据标记阶段很常见。当你不一致地标记相似类型的数据时,就会产生召回偏差。这导致较低的精度。例如,假设你有一个团队将电话的图像标记为损坏,部分损坏或未损坏。如果有人将一张图像标记为已损坏,但将相似的图像标记为部分已损坏,则你的数据将不一致。

观察者偏差:也称为确认偏差,观察者偏差是看到你期望在数据中看到或想要看到的结果的效果。当研究人员在有意识或无意识的情况下对自己的研究有主观想法进入项目时,可能会发生这种情况。当标签制作者让主观思想控制他们的标签制作习惯,从而导致数据不准确时,你也可以看到这一点。

种族偏见:尽管不是传统意义上的数据偏见,但由于其在AI技术中的盛行,因此仍然值得一提。当数据偏向特定人群时,就会发生种族偏见。在面部识别和自动语音识别技术中可以看到这一点,该技术无法像白种人那样准确地识别有色人种。Google的Inclusive Images竞赛提供了很好的例子说明了这种情况的发生。

关联偏差:当机器学习模型的数据加强和/或乘以文化偏差时,就会发生这种偏差。你的数据集可能包含一组工作,其中所有男性都是医生,所有女性都是护士。这并不意味着女人不能当医生,男人不能当护士。但是,就你的机器学习模型而言,不存在女医生和男护士。社交偏见最出名的是造成性别偏见,这在“挖掘人工智能”研究中可见。

如何避免机器学习项目中的数据偏差?

防止机器学习项目中的数据偏差是一个持续的过程。尽管有时很难知道数据或模型何时出现偏差,但是你可以采取许多步骤来帮助防止偏差或及早发现偏差。尽管远非详尽的清单,但以下要点为思考机器学习项目的数据偏差提供了入门级指南。

  • 尽你所能,事先研究用户。请注意你的一般用例和潜在异常值

  • 确保你的数据科学家和数据标签团队是多元化的。

  • 尽可能合并来自多个来源的输入以确保数据多样性。

  • 为数据标签创建黄金标准。黄金标准是一组数据,可以反映任务的理想标记数据。它使你能够测量团队的注释的准确性。

  • 为数据标签期望制定明确的准则,以便数据标签保持一致

  • 对于可能会出现数据准确性偏差的任何项目,请使用多次通过注释。例如,情感分析,内容审核和意图识别

  • 寻求具有领域专业知识的人员的帮助,以查看你收集和/或注释的数据。团队外部的人可能会看到团队忽略的偏见。

  • 定期分析你的数据。跟踪错误和问题区域,以便您快速响应并解决它们。在决定删除或保留它们之前,请仔细分析数据点。

  • 使偏差测试成为开发周期的一部分。Google,IBM和Microsoft都发布了工具和指南,以帮助分析许多不同数据类型的偏差。

如果你想更深入地了解偏见的产生方式,偏见对机器学习模型的影响以及过去在自动化技术中的偏见,我建议你参考玛格丽特·米切尔(Margaret Mitchell)的“人工智能的视野和语言偏见”演示(链接:

https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/slides/cs224n-2019-lecture19-bias.pdf?ref=hackernoon.com)。

总结

请务必注意任何数据项目在机器学习中的潜在偏见。通过尽早安装正确的系统并保持数据收集,标记和实施的最顶层,你可以在出现问题之前就注意到它,或者在出现问题时对其进行响应。

原文链接:https://hackernoon.com/7-types-of-data-bias-in-machine-learning-ubl3t3w

(0)

相关推荐

  • 2021 年计算机视觉的 5 大趋势

    计算机视觉(图像识别)作为人工智能产业链中间层的一个基础性领域,在现实世界中具有极大的应用价值,向来都是研究人员.企业通向人工智能领域的桥头堡,这也促成了一大批估值超十亿美元的计算机视觉独角兽,福布斯 ...

  • 机器学习入门02

    目录 1- 线性回归 2- 训练与损失 平方损失(L2 损失) 3- 理解 问题 解答 4- 关键词 原文链接:https://developers.google.com/machine-learni ...

  • AI系统中的偏差与偏见

    人工智能系统中存在着偏见,但是有偏见的算法系统并不是一个新现象.随着包括司法和健康等领域在内的各种组织都在采用人工智能技术,人们开始关注对基于人工智能的决策缺乏问责制和偏见.从人工智能研究人员和软件工 ...

  • 实践出真知,无偏差机器学习 |Mixlab人工智能 | MixLab人工智能

    在工业界 使用机器学习来提升商品总销量(GMV),在算法开发时,使用的是离线的数据集及评价指标,在算法上线后,通过实时数据进行评估. 这里有两个挑战: 挑战一:算法线上表现和公司商业表现的关系尚不清楚 ...

  • 如何为数据标记提速?使用训练数据平台就对了

    任何组织在开启自己的AI探索之旅前,首先需要明确一点:数据标记是监督机器学习系统中成本最高.最为耗时的部分之一.无论选择外包标记还是内部标记,组织都需要选择一套TDP进行工作管理. 来源丨Ventur ...

  • 陈根:纠偏AI歧视,从打破行业偏见开始

    文/陈根 科技是人类现有文化的延伸.科技在延展了人类智慧的同时,也继承了人们的偏见和歧视. 当前,人工智能作为第四次工业革命中的代表性技术,正在迅速改变我们所认知的世界.然而与此同时,现实世界中,由人 ...

  • 100个离婚故事:婚姻中的「优越感」有多致命!

    婚姻中的一方总是"优越感"满满却不自知,有多致命?我想很多人可能都不知道.我们就曾经接触过这样一对夫妻,男方是出生在皇城根儿下的北京土著,女方是来北京打拼多年的异乡人.婚后几年,女 ...

  • 玩转PowerBI中的「表格」

    在PowerBI的可视化对象中,还有两个「表格」对象,表格的作用不仅可以在报表提供明细数据,还经常用来测试度量值的返回结果, 因为它们使用起来十分简单,就是把字段拖进去就可以显示出来数据,看起来和Ex ...

  • 演技够「拽」才能脱颖而出,这里可放心中野「马」奔腾

    在竞争激烈的影视圈,初出茅庐的新人演员想要寻求一席之地从来都不是一件容易的事.年轻的.等待机会的演员很多,但真正"可担大梁"的依然少之又少.尤其是对于刚入行的新人演员来说,&quo ...

  • 《心经》、《金刚经》中的「一切」都不是「所有」的意思

    在<心经>中有「照见五蕴皆空,度一切苦厄」一句. 在<金刚经>中有「一切有为法,如梦幻泡影,如露亦如电,应作如是观」一句. 在这两句中都有「一切」二字. 在对这两句翻译时,一般 ...

  • 为什么苹果停止在新产品名称中使用「i」

    当你想到苹果时,会立刻和他们的标志性产品联系起来,比如 iPhone.iPad.iMac,当然还有 iOS. 可能大家已经发现,苹果热衷于在旗下产品名称中使用「i」,这几乎已经成为苹果产品的标志. 不 ...

  • ◆弹唱谱◆深林中的「布谷鸟」| 安子与九妹

    其实,对"安子与九妹"这个乐队我是比较陌生的,组合的名字是时不时都会看到的,他们的作品也有听过,只是一直没有太在意,直到求谱留言,开始对他们感兴趣,搜索关于他们的情况: 就在乐队越 ...

  • 太惊艳了!他专注40年,打造出开在玻璃中的「永生花」!

    本文授权转载自公众号:艺非凡(ID:efifan) 玻璃是种很常见的东西, 但你见过用玻璃做的"永生花"吗? 栩栩如生的绿叶.花儿.蜜蜂-- 倘若不说破, 你大概以为这些植物 或昆 ...

  • 如何理解项目公司中的「股东权益」

    在做尽调的时候,难免涉及到要对目标公司的财务报表进行分析和解读. 近期我会写几篇关于认识财务报表的系列文章,从一个非财务人员的角度来看看怎么理解财务报表间的相关逻辑关系.   先分享一个心得,建议学习 ...

  • 孟先生笔记丨阳宅风水中的「阴阳」平衡

    <周易>中说:"一阴一阳之谓道",<道德经>中说:"万物负阴而抱阳",世间万物皆遵循阴阳之道,如:天地,日月,男女,昼夜等.天地万物遵循 ...