对临床研究中的缺失数据进行填补是在'编'数据吗?

背景

随着临床试验的发展,对缺失数据进行处理已经成为临床研究数据分析阶段中无法避免的问题之一。当缺失数据的比例较少(<5%)或较大(>40%)时,可不予处理,仅分析非缺失数据,但需要讨论因缺失造成的局限性,同时建议报告敏感性分析的结果。通常在对临床试验所需的样本含量进行估计时,会考虑10%-20%样本的脱落情况出现,所以实际中的多数情况是临床研究最后的数据缺失往往占有一个尴尬的比例,即如果舍弃缺失部分的观测,则会丢失大量信息,使不完全观测数据与完全观测数据间产生系统差异。

例:一项以某药物治疗膝关节痛的临床研究中共100名受试者,其中50例治疗组和50例安慰剂组,治疗组中10%的人由于效果太好而中途退出,安慰剂组中10%的人由于无效而中途退出,那么原本治疗组 vs. 安慰剂组的差异可能由于这20%的脱落数据而造成假阴性的结果(治疗组效果被低估而安慰剂组效果被高估)。

在上述情况中,由于脱落的受试者(缺失数据)依赖于疗效(疼痛结局指标),是典型的非随机缺失(Missing not at random, MNAR),也被称为不可忽略缺失(nonignorable)。故而对这种缺失机制情况中的缺失数据进行剔除或单一填补会引起较大的偏倚。

在对缺失数据处理之前,有必要了解缺失数据的类型(Pattern)以及缺失数据的机制(Mechanism)。

缺失数据类型主要包括单值缺失单调缺失任意缺失

如果缺失值都是同一属性(如基线资料中的某变量缺失),则为单值缺失。单调缺失(脱落后再也不出现)和任意缺失(任性的受试者,想来就来,说走就走)常见于纵向数据中。如下图示,蓝框为任意缺失,红框为单调缺失,“X”代表有效数据,“.”代表缺失数据。

缺失机制包括完全随机缺失随机缺失非随机缺失

完全随机缺失(Missing completely at random, MCAR)指缺失数据的出现完全因系统误差造成,与其它变量无关。比如上述膝关节临床试验中,缺失数据是由于受试者的住址搬迁、突发意外、外出旅游等因素造成,与疗效或其他变量无关(年龄、性别、手术史、教育水平等)。

随机缺失(Missing at random, MAR)指缺失数据的出现不是完全随机的,可能依赖于其他的自变量。再以上述膝关节临床试验举例,缺失数据可能与某一自变量有关,比如年龄较大者(>80岁)容易脱落,因而造成数据的缺失。

非随机缺失之前已经提到过(MNAR),即缺失数据与疗效有关。这种情况下的缺失数据需要谨慎考虑,避免采用剔除或采用单一填补的方法处理(结转等方法)。

二、多重填补(Multiple imputation)

1987年Rubin提出了多重填补的方法来解决缺失数据的问题。多重填补的技术路线如图所示:

首先对含有缺失数据的不完整数据集进行多次填补并产生多个填补后的“完整”数据集;
第二步对每个填补后数据集进行分析;
最终整合对填补后数据单独分析的结果。

三、SAS实现

SAS有多种处理缺失数据的方法,对于多重填补技术,SAS主要通过proc miproc mianalyze两个过程步实现。其中mi为multiple imputation的缩写,而mianalyze则是对经过mi后的填补数据进行综合,产生最终的综合估计结果。通过proc mi可以实现对不同缺失类型(单调/任意缺失)和变量类型(连续/等级/名义变量)多种填补方法,包括回归模型、倾向评分、预测均值匹配、马尔科夫链蒙特卡洛(MCMC)等,详见下表。

以上述的膝关节痛临床试验为例(变量包括组别=group,疗前=y0,疗后=y1),处理步骤如下:

proc mi data=missing seed=20200925 nimpute=10 out=mi; /*seed指定种子数,nimpute指定填补次数,out产生填补后数据集*/
class group; /*class指定分组*/
monotone reg(y1); /*monontone指定缺失类型为单调缺失*/
var group y0 y1; /*y0,y1分别为治疗前后*/
run;

proc reg data=mi; /*回归模型根据上一代码块的10次填补输出回归结果*/
model y1=group y0;
by _imputation_; /*_imputation_为proc mi过程步产生的填补次数代号,如nimpute=10则产生的_imputation_范围为1-10*/
ods output parameterestimates=parm1;
run;

proc mianalyze params=parm1; /*proc mianalyze过程步对10次填补结果进行综合输出最终结果,包括组间均数差及其SE和95%CI,以及P-value*/
modeleffects group; /*modeleffects对分组变量进行分析*/
run;

四、扩展1-模式混合模型(Pattern-mixture model,PMM)

以上的SAS实现基于的缺失机制为“假设缺失数据机制条件为随机缺失(MAR)”,如果治疗后的缺失数据的出现原因如背景部分提到的情况,假设由于效果太好而导致治疗组患者不再接受治疗(即缺失数据与疗效相关),那么这种基于非随机缺失(MNAR)的缺失机制又应当如何处理? Ratitch和O’Kelly在2011年提出了模式混合模型(PMM),采用了一种基于对照组数据进行填补的方法。在SAS中可以通过proc mi过程步的mnar语句实现,详细资料可参考SAS/STAT官方文档。

五、扩展2-临界点敏感性分析(Sensitivity analysis with a tipping-point approach)

在不确定数据缺失机制数据是否满足MAR的情况下,可以对基于MAR假设的多重填补进行敏感性分析,临界点法(tipping-point approach)的主要流程为对预先设置好的填补范围(如下图所示对膝关节的疼痛疗效设置变化区间【shift=-11-2】,并以1分为间隔)产生的N个填补后数据集,再对N个填补后数据集以shift为单位输出综合后的结果。通过临界点法可以观察基于MAR假设填补后数据的结果是否稳健,如果在区间范围内p值保持一致则说明结果稳健,但如果在区间范围内发现p值随着变化参数而产生了较大的变化(<0.05 vs >0.05)则意味着基于MAR的填补结果需要谨慎对待,或以MNAR的结果解释。

六、扩展3-SNP数据

随着临床试验的发展,数据类型已不局限于人口学和临床数据,单核苷酸多态性数据(Single nucleotide polymorphism,SNP)数据的获取变得越来越容易。但是SNP数据作为一种高通量的生物信息数据其特点是信息量大但也由于技术的局限不可避免的产生随机缺失(不同芯片型号不同、厂商不同比如Illumina330不能识别rs23625,但Illumina1M则可以)。其缺失率的判断可分为样本水平缺失率(横向)和位点水平缺失率(纵向)。在缺失数据处理方面既可以采用计算最小等位基因频率MAF结合缺失率进行筛选和剔除,也可以采用填补的方法对信息最大化加以利用,这主要取决于研究者们下一步的分析目的。

基因类型缺失数据的填补方法与前述的临床类型资料有较大不同,感兴趣的同好可自行查阅相关资料了解。

作者简介

秦宗实,香港大学李嘉诚医学院中药学专业在读博士,研究方向为天然药物与神经疾病的转化医学研究。曾参与“十二五”国家科技支撑计划项目、国家重点研发计划“中医药现代化研究”重点专项等临床研究,参与研究方案及统计分析计划制定。在J Urol、Am J Med、Mayo Clinic Proc、Brain Behav Immun等期刊发表论文20多篇。

参考资料:

1.JC Jakobsen, et al. When and how should multiple imputation be used for handling missing data in randomised clinical trials-a practical guide with flowcharts (2017)
2.J Nissen et al. Missing data and bias in physics education research: A case for using multiple imputation(2019)
3.Y Yuan. Sensitivity analysis in multiple imputation for missing data (2014)
4.SAS/STAT® 15.2 User’s Guide
5.SAS/Genetics® User’s Guide

(0)

相关推荐