数据分析前的数据清理--异常值检测 / 开普饭

对数据的处理是进行数据分析的基础，为保证分析结果的可靠性和正确性，对数据的处理需要考虑三点：

首先，数据录入的准确性以及异常值的处理；

其次，缺失值的处理；

最后，数据是否符合所使用的的分析方法的使用条件。

一、异常值

1.异常值的定义

异常值（outlier）有单变量异常值（univariate outlier）与多变量异常值（multivariate outlier）两种。

2.异常值的来源

（1）过程型错误。如录入、编码或者缺失值定义错误。

（2）异常事件。此时视情况与研究目的进行保留或删除。

（3）异常观测。研究者无法解释的观测值。

（4）各变量都正常，组合起来很异常，即多变量异常值。此情况视分析方法决定是否保留。

3.异常值的检测

A.单变量异常值的检测

（1）标准分检测异常值

样本量<=80，标准分>=2.5 & <=2.5视为异常值；

样本量>80，可提高标准分的临界值，最高为4。

spss操作：

分析>描述统计>描述>将标准化值另存为变量

（2）盒式图

小于下四分位数减去1.5倍四分位距（Q1-1.5*IQR）或大于上四分位数加1.5倍四分位距（Q3+1.5*IQR）的即为异常值。

1.5-3倍四分位距之间的异常值为温和异常值（mild outliers）；

3倍四分位距之外的异常值为极端异常值（extreme outliers）。

在非异常值区间内，最值处画横线，即为箱线图的触须。

spss操作：

图形>图标构建器>选择箱图>双击第一个箱图>将变量从左侧拖动到纵轴

B.双变量异常值的检测

（1）双变量异常值一般通过散点图进行检测。

通过散点图可以初步判断两变量之间是否存在相关关系、相关趋势、是线性相关还是非线性相关以及是否存在异常值。

从下图可初步判断两变量存在线性相关，并且存在异常值。要通过置信区间新型判断，还需要借助其他软件，后续会进行介绍。

C.多变量异常值的检测

（1）马氏距离

多变量异常值可通过计算观测点的马氏距离（Mahalanobis D2）进行检测。

根据经验，小样本时把D2/df的临界值设为2.5，大样本时设为3或4，超过临界值的观测点识别为潜在异常值。

spss操作：

分析>回归>线性>放入变量>保存>标准化>马氏距离

马氏距离的结果：

（2）标识异常个案

spss操作：

数据>标识异常个案>变量>放入变量>

结果：

数据分析前的数据清理--异常值检测