数据分析前的数据清理--异常值检测
对数据的处理是进行数据分析的基础,为保证分析结果的可靠性和正确性,对数据的处理需要考虑三点:
首先,数据录入的准确性以及异常值的处理;
其次,缺失值的处理;
最后,数据是否符合所使用的的分析方法的使用条件。
一、异常值
1.异常值的定义
异常值(outlier)有单变量异常值(univariate outlier)与多变量异常值(multivariate outlier)两种。
2.异常值的来源
(1)过程型错误。如录入、编码或者缺失值定义错误。
(2)异常事件。此时视情况与研究目的进行保留或删除。
(3)异常观测。研究者无法解释的观测值。
(4)各变量都正常,组合起来很异常,即多变量异常值。此情况视分析方法决定是否保留。
3.异常值的检测
A.单变量异常值的检测
(1)标准分检测异常值
样本量<=80,标准分>=2.5 & <=2.5视为异常值;
样本量>80,可提高标准分的临界值,最高为4。
spss操作:
分析>描述统计>描述>将标准化值另存为变量
(2)盒式图
小于下四分位数减去1.5倍四分位距(Q1-1.5*IQR)或大于上四分位数加1.5倍四分位距(Q3+1.5*IQR)的即为异常值。
1.5-3倍四分位距之间的异常值为温和异常值(mild outliers);
3倍四分位距之外的异常值为极端异常值(extreme outliers)。
在非异常值区间内,最值处画横线,即为箱线图的触须。
spss操作:
图形>图标构建器>选择箱图>双击第一个箱图>将变量从左侧拖动到纵轴
B.双变量异常值的检测
(1)双变量异常值一般通过散点图进行检测。
通过散点图可以初步判断两变量之间是否存在相关关系、相关趋势、是线性相关还是非线性相关以及是否存在异常值。
从下图可初步判断两变量存在线性相关,并且存在异常值。要通过置信区间新型判断,还需要借助其他软件,后续会进行介绍。
C.多变量异常值的检测
(1)马氏距离
多变量异常值可通过计算观测点的马氏距离(Mahalanobis D2)进行检测。
根据经验,小样本时把D2/df的临界值设为2.5,大样本时设为3或4,超过临界值的观测点识别为潜在异常值。
spss操作:
分析>回归>线性>放入变量>保存>标准化>马氏距离
马氏距离的结果:
(2)标识异常个案
spss操作:
数据>标识异常个案>变量>放入变量>
结果: