这时代,碰到缺失数据还不会填补?我来手把手教你!

本人读研究生的时代,仍然是小数据时代,数据缺失都是可控的。当时压根没有想过复杂的缺失数据填补方法,或者只简单用均数填补就完事了。
现在是大数据时代,观察个数以万计、观察变量以千计,缺失就不得不正视了。特别是回归分析中,若一条记录某一个变量存在缺失,则整条记录作废。在这种情况下,若只分析不缺失的变量,那么样本量删除得太多太多了!
现在的研究僧、打工人、土青椒们,建议数据分析还是填补下缺失值比较合适。这样的话,可能会显著提升论文的质量。
何况,缺失值的填补真的不是什么难事了。
我在这里撰写文章,刚是研究生们碰到了缺失数据数据的填补的问题,我也不是很放心,特定撰写系列文章,来讲讲利用R软件,采用多重填补的方法开展缺失数据的填补。
系列内容如下
  1. 数据缺失机制

  2. 多重填补方法

  3. 多重填补数据分析方法

  4. 敏感性分析方法

  5. ......

这一系列文章是初级版的,通俗易懂的版本,请走过路过的专家,不要见笑。
第一篇:数据缺失的机制和常见处理方法

数据缺失的机制,很容易理解,但很重要,所以特定要拿出来简单介绍介绍
著名的统计学者Little和Rubin(1987)把数据缺失的机制分为三类:
(1)完全随机缺失(missing completely at random, MCAR)

(2)随机缺失(missing at random, MAR)

(3)非随机缺失(not missing at random, NMAR)

举例1:

比如我们开展了一项横截面调查,调查1000个人的人群的吸烟发生情况。吸烟指标为二分类结局(回答是或者否),我们发现有120人的吸烟情况数据是缺失的。那么为什么缺失的呢?
举例2:
郑老师下发了一个关于期末考前的小测试,不影响考试成绩,自愿递交考卷。最终50名同学,有30名交卷。那为什么缺失呢?

1. 非随机缺失(NMAR)
如果一个变量的缺失情况,倾向性地与未观察到的数据有关,则称为非随机缺失。这里的未观察到的数据,可能是未观察到的群体特征、或者该变量本身缺失值(缺失了,所以未观察到)。
最典型的未观察到的数据就是变量的缺失值。这话说起来很拗口,通俗来讲,为什么缺失呢?缺失是因为研究对象本来要回答的那个答案影响了研究者的应答。
比如吸烟调查中,1000人调查,120名缺失,为什么120人是缺失呢?因为可能这120名对象都是吸烟者,因此他们拒绝回答造成了缺失。
事实上,理论上吸烟率30%(300人吸烟),但是由于调查对象有选择,而且非随机性地回答了该问题(吸烟的人倾向于缺失,而不吸烟者倾向于回答该问题)。造成计算得到的吸烟率为(300-120)/880=20.5%。
30% 变为20.5%,缺失带来了重大的影响。
对于案例2,为什么部分人没有递交考卷呢?可能的原因是,部分同学根据以往的考试水平,由于担心自己这次小测试成绩比较差,不愿意交考卷,造成了缺失。以往考试水平对于开展研究的郑老师而言,是未观察到的数据,引起的缺失是非随机缺失。
非随机缺失的应对方法

目前,没有太好的方法可以应对非随机缺失数据,主流方法是:第一,研究分析时假定没有非随机缺失,第二,运用pattern-mixture model进行敏感性分析,来探讨潜在的非随机缺失对结果的影响。
2.随机缺失(MAR)
数据的缺失不是完全随机的。缺失数据发生的概率与所观察到的变量是有关的,而与未观察到的数据的特征是无关的。
这里的未观察到的数据上文已经介绍了,随机缺失不会与本身的缺失值有关,但是与所观察到的其它变量值有关系。
所观察到的变量指的是所调查的其它已知的所有数据,尤其是同个对象其他变量值。
比如吸烟调查中,如果吸烟的对象人人不会因为自己吸烟而不愿意调查,但是女性调查对象,却不愿意回答!
原本女性吸烟率为5%,但是有500名女性中,只有10名女性回答了该问题,那么女性吸烟率则变为了2%,结果仍然有偏倚。
这仍然是一个比较严重的问题,在这种情况下,我们需要进一步检查数据收集过程,并尝试了解数据为什么丢失。例如,如果在一项问卷调查中,大多数人没有回答某个问题,他们为什么这么做,是问题不清楚吗?
对于案例2,为什么部分人没有递交考卷呢?有可能原因是不同学今天没有上课,造成了考卷未递交。是否来上课,这是一个可以观察到的变量。因此,所引发的缺失为随机缺失。

对于案例2,我还有话要说。如果这个人过去成绩差而没有做测试。这个过去成绩差如果未体现在最后的数据库,那么缺失是因为未观测变量造成,属于非随机缺失;如果过去成绩也作为一个变量,在我最终的数据库总,那么过去成绩则是已观测的变量,则根据定义,缺失是随机缺失。
随机缺失的诊断
方法不少,很多时候最简单的方式,就是做个关联性分析。比如,我们怀疑女性变量影响了吸烟的缺失,那么道理很简单,做个性别与吸烟变量是否缺失的关联性。
性别
缺失
未缺失
缺失率(%)
55
500
11.5
65
500
12.5
11.5%和12.5%。这种方法,可以探索性地比较其它变量是否影响了缺失的程度(并不是很可靠)。
随机缺失的处理
随机缺失的处理,一般的方法就是填补。填补手段很多,有末次观察转结法、平均值法、近邻法、热插补、冷插补等等一堆我都没有研究过的方法。在这些方法中,多重填补方法( multiple imputation)是万金油。它就可以填补暴露因素,也可以填补协变量,也可以填补观察结局,甚至通过该方法填补好了之后,面对非随机缺失(NMAR),结果也具有可靠性!
本系列要介绍的就是多重填补的方法。
3. 完全随机缺失(MCAR)
对于一个研究对象某个变量的变量值而言,所缺失的数据是完全随机的,缺失的发生既与已观察到的数据无关,也与未观察到的数据无关。这是一种比较理想的情况。
比如,1000个人调查问卷,得到的吸烟信息,完全随机缺失的。缺失原因没有倾向性,不同人群缺失情况差不多,也和吸烟缺失本身无关。那么即便是存在着缺失的情况下,对未缺失数据的分析仍然能够反映该人群的吸烟率。

完全随机缺失的处理方法

完全随机缺失这种情况理论上很少见,但很多时候我们在分析数据时,就当做完全随机缺失来处理,毕竟方便。这种处理方法,就叫做完整记录分析法(complete-case)。
但是,完全随机缺失的数据,最好仍然是采用多重填补的方法进行填补,因为完全随机缺失采用complete-case方法,损失了不少样本量,显然是填回去检验效能更高。
整体来说,如何应对缺失呢?这里有段英文的话说得挺好:
How can we distinguish MCAR, MAR, and NI missing data? In reality, we often have to rely on prior knowledge and assumptions. Showing that observed characteristics are similar among those with and without missing data can help to support a MCAR assumption. However, we cannot usually rule out NI missing data, since these are defined by a systematic difference across unmeasured quantities. Often, the best we can do is to investigate how sensitive our results are to different missing data assumptions.
总结来说,完全随机缺失,可采用完全记录分析法和填补法、随机缺失推荐数据填补,但非随机趋势,基本上没有什么办法,往往采用敏感性分析的手段来评价它影响了。
但是,所有缺失机制都有个共同前提,就是缺失不要太多太多了,比如一个变量的缺失比例超过超过20%以上。。。。
-本文结束,系列待续-
--学习资源免费送--
本公众号作为医学数据分析公众号,提供一些原创、免费医学统计学学习资源下载,欢迎点击下载。
1.免费下载!统计初学者的福音!《妙趣横生统计学》视频,生动有趣的统计学!
2.医学研究样本量如何计算?原创高清教程视频来了,完全免费下载!
3.绝对值得收藏!原创高清SPSS 操作视频免费下载
4.推荐!这个流行病大神制作的公共卫生研究小工具,可以计算标准化率及置信区间
--广而告之--
公众号主持者:郑老师,浙江中医药大学医学统计学教研室主任。这里不妨广而告之,如果您有一个临床项目,正处于设计或分析阶段,不妨联系郑老师统计团队,我们可以帮助您更好地推动临床项目的数据分析。微信号ZZ566665(务必请注明“统计服务”)。
如果您觉得文章不错,
为我们打“call”,
点击“分享”吧
(0)

相关推荐