如何用统计学将数据装扮成一篇JAMA子刊文章?且看我国顶尖统计学家的杰作
现在是大数据时代,数据大且多不得了。但数据大,反而不好分析了。特别是大型前瞻性的队列研究。如果给你一个公开数据库,你有本事将数据分析结果发表在JAMA子刊吗?在2019年,首都医科大学统计学教授郭秀花教授团队,利用我国著名的公开数据库中国健康与养老追踪调查(CHARLS)在JAMA子刊发表一篇论文。
JAMA network Open虽然和传统子刊相比,略有水分,但是你想利用公开数据库,且利用已经发表过几百篇SCI的CHARLS数据库发表一篇JAMA 子刊文章,也是很不容易的。浏览全文,我找到了真相。作为国内顶尖医学统计学学者,他的团队充分利用了统计学方法,装扮了这篇文章。从统计学方法来说,这是一篇几乎完美的文章,它灵活运用了各种统计技巧来告诉审稿人,我的统计方法与顶级杂志接轨,结果可信。先看文章的大概情况吧。
论文的基本概况老年人中抑郁症状的流行已成为日益重要的公共卫生优先事项。在患有心血管疾病(CVD)的老年人中,抑郁症状的增加是有很好的记录的,但在中国成年人中进行的研究却很少。故本研究旨在探讨中国中老年人抑郁症状与心血管事件的关系。中国健康与养老纵向研究(CHARLS)是一项正在进行的具有全国代表性的前瞻性队列研究,始于2011年。这项队列研究包括12417名在基线水平没有心脏病和中风的中国中老年人。抑郁症状用流行病学研究中心抑郁量表的10个有效条目进行评估。从2011年6月1日至2015年6月31日对心血管疾病(即医生自报的心脏病和中风合计)进行随访。流行病学研究中心抑郁量表总分从0分到30分不等,12分或更高表示抑郁症状加重。研究结局是心血管病事件,包括心脏病和脑卒中。结果发现,在12417名参与者中(基线平均年龄为58.40[9.51]岁),6113名(49.2%)为男性。随访4年,共查出心血管事件1088例。在调整了年龄、性别、居住地、婚姻状况、教育程度、吸烟状况、饮酒状况、收缩压和体重指数;糖尿病、高血压、血脂异常和慢性肾病病史;以及高血压药物、糖尿病药物和降脂治疗的使用后,抑郁症状将增加39%的心血管疾病风险的(调整后的HR1.39;95%CI,1.22-1.58)独立相关。抑郁症状较重的人发生心脏病和中风风险分别增加36%和45%。
10种抑郁症状中,有2种症状与心血管事件显著相关,即不安眠(调整后的HR为1.21;95%可信区间为1.06-1.39)和孤独(调整后的HR为1.21;95%可信区间为1.02-1.44)。
因此研究表明:在中国中老年人中,抑郁症状总体上和两个个体症状(不安眠和孤独)与心血管疾病的发生率显著相关。
案例分析该研究作为队列研究,根据暴露与否或暴露程度不同主要分为两组:抑郁组和非抑郁组,结局指标是心血管疾病的发病率。该研究属于非随机对照研究,存在混杂变量,结局是生存时间资料。采用的统计方法主要是回归方法,是Cox回归,似乎也没有什么特别。不过,详细看起统计学方法,作者纳入了观察性研究,或者真实世界研究一些流行,又有点花里胡哨,又让人觉得挺高端的方法。这包括包括缺失数据的分析、趋势性检验、限制性立方条样图、亚组分析、敏感性分析、缺失数据填补、多模型构建策略、交互分析。这套组合拳实在高明,玩出花来了!
花式统计学首先。观察性研究必然有缺失值,所以必须对缺失值进行处理。
接着,作者主要分析方法采用的是Cox回归方法,但是同时计算了发病密度,这是个亮点。
接着,作者采用多模型的方法构建回归模型,探讨纳入不同基线协变量时,结果的变化
然后,由于抑郁症状评分是个定量数据,作者采用了一种非常值得大家学习的统计策略。作为自变量时,将抑郁症状评分进行分等级并设置 哑变量进行分析哦。将抑郁症状分按五分位数分为五组,然后以第一个五分位数1作为参照组,将其纳入COX比例风险模型,通过计算心血管事件的风险比(HRs)和95%置信区间(95%CI)。
还没完,对于定量自变量,考虑到自变量可能与结局变量非线性关系,作者果断考虑了限制性条样图对潜在的非线性关联进行了研究。
玩统计上瘾了是吧,还有还有。。。接着进行了亚组分析和交互效应分析。
显然不够完美,最后大招是敏感性分析。(1)在8696名接受代谢检查的参与者样本中,进一步调整模型3中的代谢生物标志物;(2)使用完整的数据集(10186名参与者)重复所有分析,而不进行多重填补。(3)应用竞争风险模型“捕捉”不同竞争事件的可能影响。使用Fine和Gray竞争风险模型来考虑因死亡而引起的竞争风险。
过瘾呐过瘾!!国内文章很少这么滴召唤各种神龙来点缀一篇论文!怎么,你也来一口? 我看行!都是些成熟的方法,只不过诸位平时没有留心罢了!-本文结束-