Excel数据清洗之十三 异常值

什么是异常值

异常值是一个统计学上的名词,指的是样本中的一些数值明显偏离其余数值。比如,

上图中我们统计了人群中一个样本的身高数据。从图上看,很明显,大部分数据都是以厘米为单位,只有第6个数据是以米为单位。这样我们在分析数据时就会产生较大的偏差,比如算平均身高。

异常值是怎么产生的

异常值的产生有多种原因。最常见的是下面几个:

  1. 多个来源的数据单位不同
    例如,多人统计的身高数据,有的人单位用厘米,有的人单位用米。多个分公司提交的报表,有的销售额用人民币,有的销售额用美元。销量统计上,有的用“件”,有的用“箱”

  2. 不同时期和场景做的报表合并在一起,但是量级不同
    例如,饮料销量统计中,一份报表用的是毫升,另外一份用的是升。

  3. 手工录入造成的手误
    例如,小数点位置放错了,或者多写(少写)一个0

  4. 数据中正常产生的。
    例如,统计某个班的同学毕业2年的工资,大部分人是10000以下,只有一个同学因为进了自己家的工资做了高管,工资是50000。尽管是异常值,但是确实真实的数据。

上面这些不同的异常值来源中,最危险的是手误,因为不容易察觉。

第四个来源告诉我们,异常值不一定是错误,有些异常值是数据中真实存在的。

清洗异常值

首先我们需要发现异常值。

异常值有一个比较常用且在Excel中比较容易实现的方法。这个方法中异常值是这么定义的:

一组数值中与平均值的差超过3倍标准差的数值我们称为异常值。

这里有一个“标准差”的概念,很多人可能会比较陌生。不过没关系,你只要知道Excel中有一个函数:STDEV是用来计算一组数据的标准差就可以了。

这样,我们就可以在数据中添加一个辅助列,使用下面的公式:

=ABS(D3-AVERAGE($D$3:$D$14))/STDEV($D$3:$D$14)
这个公式中AVERAGE是计算身高列的平均值,然后计算D3和这个平均值的差,ABS是计算这个差的绝对值,然后除以身高列的标准差STDEV,这样我们就计算出每一个身高与平均值相差的标准差的倍数

填充到整个辅助列,

可以看到,第六个身高数据明显符合异常值的定义。

如果数据比较多,可以筛选辅助列中所有大于等于3的数据,

一旦找到了异常值,接下来需要做两个判断:

  1. 异常值是否是错误值
    有一些异常值可以看作错误值。比如我们这个身高数据中的异常值,明显是单位不一致造成的。而前面举的班级同学工资的调查数据中,异常值就是数据的本来面目

  2. 如何处理异常值
    对于单位或量级不一致造成的异常值,以及手误造成的异常值,当然需要修改过来。对于数据中本来就有的异常值,还是要看情况,如果要计算平均值或者趋势分析等,就要删掉这些异常值,而如果是汇总求和,那么可以保留这些数据,因为并不会对结果造成偏差,删掉它们反而不能客观反映数据的真实情况。

总结及其他

很多人不注意异常值的清洗。实际上,如果是多个来源的数据,或者是手工录入的数据,产生异常值还是很普遍的。如果数据量不是特别多,通过筛选就可以发现(比如量级的不同造成的异常值)。有时也可以通过简单的MAX和MIN函数来发现这些异常值。如果数据量较多,就可以使用本文介绍的方法。

如果你的数据比较复杂,这个任务可能很艰巨,你可以关注下面的公众号:ExcelEasy寻找更多方法和技巧,或者使用我们的数据清洗服务,让我们来帮助你完成这个工作。

(0)

相关推荐

  • Excel有哪些常用的数据描述与分析类函数?

    NO.660-数据描述与分析 作者:看见星光  微博:EXCELers / 知识星球:Excel HI,大家好,我是星光. 描述统计是数据分析中常用的方法,它是指通过数学方法,对数据资料进行整理.分析 ...

  • Excel求平均值、标准差、中位数,一文全搞定!

    自我提升也是一种修养数万Excel爱好者聚集地 2021年2月25日 周四 [Excel情报局|文案回收铺子] 最卑微的大概是 你很长时间不理我 我难过的不得了 可是你一和我说话 我又开心到好像什么事 ...

  • 用excel做正态分布图

    我用的数据为自己随机编的数据 先放最后的成果 用到的函数 求平均值函数:=AVERAGE($C$3:$C$41) 求标准差函数:=STDEV.S($C$3:$C$41) (这里有两个=STDEV.S为 ...

  • Excel表格中怎么制作正态分布图和正态曲线模板?

    excel怎么画正态分布和正态曲线的模板?下面我们就来看看详细的制作教程,以后只要将新的样本数据替换,就可以随时做出正态分布图来,很简单,请看下文详细介绍. 软件名称: Excel2007 绿色版精简 ...

  • Excel正态分布函数简介

    excelperfect 引言:Excel提供了几个工作表函数来处理正态分布或"钟形曲线",这里介绍Excel的正态分布函数为统计上的挑战所提供的帮助.本文学习整理自excelus ...

  • 蛋白质组学第8期 文章复现之数据处理

    蛋白质组学第1期-认识基础概念 蛋白质组学第2期-认识蛋白质组学原始数据 蛋白质组学第3期-蛋白质组学的三大元素 蛋白质组学第4期 文章搜库过程复现 蛋白质组学第5期搜库软件之 MaxQuant 再介 ...

  • Excel2010的LARGE函数应用详解

    如何最好地处理学生的成绩?很久以前,一位同事提出了这个问题.普通教师将平均多次考虑学生的平常成绩.更公平的方法是选择每个学生的最佳分数进行平均,而不是指定制服.有几次,在我们使用标尺行和行的时代,这非 ...

  • Excel数据清洗实例智能填充应用

    Excel数据清洗实例智能填充应用

  • Excel案例(十三)——学生计算机成绩表

    一起来学office,提高办公技能 案例讲解 知识点 1.在Sheet5中设定F列中不能输入重复的数值 2.在Sheet5中,使用条件格式将"性别"列中数据为"男&quo ...

  • 【UN】Excel数据清洗之一 基础

    什么是数据清洗 数据清洗是我们在进行任何数据汇总分析之前的必备工作. 很多人已经认识到了,在我们拿到的原始数据中有大量的错误数据和不规范数据.也有很多人没有意识到这个问题.如果我们直接拿这样的原始数据 ...

  • Excel数据清洗之二 纠正错误的表格格式

    不规范的源数据中有一类是格式错误,我们清洗数据的第一步是纠正这些错误的格式. 空行或空列 其中一种非常常见的类型就是数据之间有空行或者空列. 这份数据中,橙色的竖线表示空列,蓝色的横线表示空行. 这份 ...

  • Excel数据清洗之三 横表转竖表(逆透视)

    前面我们介绍了对格式错误进行数据清洗的步骤,得到了结果--一个横表: 实际上,有可能我们一开始拿到的就是这样的"横表" 横表的问题我们可以通过下面的数据透视来为大家展示一下: 在这 ...

  • Excel数据清洗之四 清除错误值

    错误值在Excel中非常常见.我们在以前的文章中给大家做过介绍(参见#Div/0! Excel中的那些错误值们!),这些错误值都是用公式计算时产生的,大家都司空见惯了. 正因为大家都习以为常了,所以错 ...

  • Excel数据清洗之五 去除多余的字符

    今天介绍数据清洗需要处理的第二类问题,分类要一致. 我们先看分类不一致的结果, 上图中,很明显我们看到一个编号为"CA1001101"的客户,但是分别被归类到不同的客户中. 造成这 ...

  • Excel数据清洗之六 去除不可见字符

    造成分类不统一的原因还有一种,叫做"不可见字符". 先看下面的例子.假设我们数据如下: 表中所有数据都是同一个ID,如果我们用数据透视表汇总它们的数量,我们期望会得到一个这样的结果 ...

  • Excel数据清洗之七 发现和修改错误的日期

    在数据分析时,我们经常需要将日期数据作为一个分类,例如,在下面的透视表中,我们就将日期作为一个分类,计算每个月的销售额, Excel的数据透视表提供了非常方便的日期分组的能力,可以根据需要随时统计年/ ...