数据分析前的数据清理--异常值检测

对数据的处理是进行数据分析的基础,为保证分析结果的可靠性和正确性,对数据的处理需要考虑三点:

首先,数据录入的准确性以及异常值的处理;

其次,缺失值的处理;

最后,数据是否符合所使用的的分析方法的使用条件。

一、异常值

1.异常值的定义

异常值(outlier)有单变量异常值(univariate outlier)与多变量异常值(multivariate outlier)两种。

2.异常值的来源

(1)过程型错误。如录入、编码或者缺失值定义错误。

(2)异常事件。此时视情况与研究目的进行保留或删除。

(3)异常观测。研究者无法解释的观测值。

(4)各变量都正常,组合起来很异常,即多变量异常值。此情况视分析方法决定是否保留。

3.异常值的检测

A.单变量异常值的检测

(1)标准分检测异常值

样本量<=80,标准分>=2.5 & <=2.5视为异常值;

样本量>80,可提高标准分的临界值,最高为4。

spss操作:

分析>描述统计>描述>将标准化值另存为变量

(2)盒式图

小于下四分位数减去1.5倍四分位距(Q1-1.5*IQR)或大于上四分位数加1.5倍四分位距(Q3+1.5*IQR)的即为异常值。

1.5-3倍四分位距之间的异常值为温和异常值(mild outliers);

3倍四分位距之外的异常值为极端异常值(extreme outliers)。

在非异常值区间内,最值处画横线,即为箱线图的触须。

spss操作:

图形>图标构建器>选择箱图>双击第一个箱图>将变量从左侧拖动到纵轴

B.双变量异常值的检测

(1)双变量异常值一般通过散点图进行检测。

通过散点图可以初步判断两变量之间是否存在相关关系、相关趋势、是线性相关还是非线性相关以及是否存在异常值。

从下图可初步判断两变量存在线性相关,并且存在异常值。要通过置信区间新型判断,还需要借助其他软件,后续会进行介绍。

C.多变量异常值的检测

(1)马氏距离

多变量异常值可通过计算观测点的马氏距离(Mahalanobis D2)进行检测。

根据经验,小样本时把D2/df的临界值设为2.5,大样本时设为3或4,超过临界值的观测点识别为潜在异常值。

spss操作:

分析>回归>线性>放入变量>保存>标准化>马氏距离

马氏距离的结果:

(2)标识异常个案

spss操作:

数据>标识异常个案>变量>放入变量>

结果:

(0)

相关推荐

  • 问卷调查常用的SPSS数据分析方法(上篇)

    在介绍了问卷设计应注意的问题.量表类问卷及非量表类问卷题项设计后,接下来面临的将是问卷数据分析问题,有很多非统计专业的同学也都在问这个问题,爱马君将结合实例详细讲解问卷数据常用的SPSS统计分析方法, ...

  • SPSS如何合并数据?

    我们在处理数据的时候,并不是所有的数据都在一个文件中,如果要将一份或者多份数据通过复制黏贴的方式显得过于麻烦,SPSS就有合并数据的功能,一起来看看吧! 首先打开一个数据表,我们想将另一个数据表添加到 ...

  • 如何用SPSS计算总分?

    SPSS是一款比较常用的数据统计软件,今天小编就来教大家如何用SPSS计算总分吧. 首先我们打开一份数据,因为之前是纵排的,先通过行列互换变为横排方便观察. 找到上方的转换. 选择计算度量. 我们在标 ...

  • SPSS如何设置数据的对齐方式?

    SPSS的数据也是可以进行对齐方式的编辑,不过和其他的办公软件不同,SPSS的对齐方式在变量视图中操作,下面就让小编来教大家吧! 1.首先将SPSS的视图切换为--变量视图,在上方的栏中找到--对齐. ...

  • 开始数据分析前,先收好这份 Excel 数据规范指南,可避过大部分坑

    今天不聊案例,给大家汇总一下制作数据表的一些基本原则. 不管是初学者还是 Excel 老鸟,不少同学对于数据表的规范化和标准化仍然懵懵懂懂,以至于在工作中一不小心就给自己挖了坑,日后需要付出数倍的精力 ...

  • 改装轮毂前这些数据都不懂,不怕被坑啊?

    ▼对于造型较为朴素的原厂轮毂,不少车主在购车后都会进行升级,但升级时的轮毂规格选择可是大有学问. 首先我们就先针对轮毂规格的部分进行说明 我们以第三代小改款福克斯所搭载的16吋轮毂为例,原厂规格为「1 ...

  • 在应用Stata在进行计量回归之前,你真的会进行数据清理么?

    来源:风哗啦啦啦少年 为什么要做数据清理呢?因为90%以上的原始数据因为各种原因都存在错误.如果在数据分析前,没有把这些问题清理好,很有可能导致后面数据分析不出真实的结果.数据清理就是把"脏 ...

  • 从零开始学SQL数据分析,SQL数据提取与筛选

    从零开始学SQL数据分析,SQL数据提取与筛选  https://www.toutiao.com/a6963611280204694046/?log_from=e0a3df061f331_162141 ...

  • 基于RGB和深度数据的目标检测和姿态估计,用于实时、自适应机器人抓取

    重磅干货,第一时间送达 小黑导读 论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...

  • 前后端数据交互之数据接口

    废话就不多说了,我们都知道,前端通常会通过后台提供的接口来获取数据来完成前端页面的渲染. 1.前端通过接口调用后台返回的数据 <!DOCTYPE html PUBLIC "-//W3C ...

  • 海尔金控前三季度数据曝光:海尔消金净利润1.7亿,最赚钱的还是海尔财务

    蓝鲸财经旗下,专注互联网金融领域独家报道,大大集团.中晋.快鹿.链家金融.海通布局互金等独家线索均已10万+并引起大量媒体跟进.蓝鲸是重要财经资讯门户+财经记者工作平台,拥有150家媒体传播资源,每天 ...

  • 从零开始学SQL数据分析,SQL数据分组与透视

    数据分组是对相同类别的数据进行汇总,而数据透视表是通过对行或列的不同组合对数据进行汇总,所使用的汇总方法有求和.计数.平均值.标准差等,本文使用SQL对数据进行数据分组和数据透视,下面一起来学习. 普 ...

  • 全球酒类品牌价值榜单出炉:中国白酒占领烈酒榜单前五 | 数据

    近日,全球权威品牌价值评估机构Brand Finance发布了"2021全球酒类品牌"排行榜(Alcoholic Drinks 2021),其中包含"2021年度全球最具 ...