为什么是事后分析Post hoc analysis?是该了解这一统计学概念的时候了

医学研究学术圈,正从会统计到规范统计的时代跨进。
大概10多年前,很多研究生,青年研究人员,对数据分析无从下手。慢慢的、随着网络时代发展,各路统计先行者释放出大量的学习视频,带动青年人们慢慢地了解了统计分析。他们会做t检验、卡方、logistic回归分析,写的论文也看起来统计学方法都慢慢正确起来了!
规范统计又是怎么一回事呢?规范统计学要求不仅仅会使用SPSS进行统计分析,并且要合理地按照研究设计方案进行统计分析,写出规范的统计报告,下严谨的统计结论。国人作分析统计,由于缺少统计师参与,往往规范性不足。不过,近年来大有改观。
我今天来讲讲,规范统计学相关的词语:事后分析。
对于“事后分析”这个词很多人听说过,也迷惑过,是不是除了事后,还有事前分析?没错,统计分析策略有两类:事前分析和事后分析。
这个“事”指的是项目实施这一事。如果你的统计分析内容和方法在项目实施结束之前(包括数据采集),已经定好的事情,我们称之为事前分析。如果,你的统计分析方法和内容是在拿到数据揭盲后再定的,那就是事后分析。
其实区别就在于:你的统计分析是设计方案的时候就想好,还是数据分析时你自己再决定用什么方法?
我举个例,这个例子是之前介绍的一篇学术论文。
2021年8月17日,中国中医科学院广安门医院刘志顺教授联合东直门医院、华西医院等十家三甲医院,在《 内科学年鉴》 (Annals of Internal Medicine)(IF=21.317)发表了题为:Efficacy of Acupuncture for Chronic Prostatitis/Chronic Pelvic Pain Syndrome:A Randomized Trial 的研究论文。
这项多中心随机试验表明,与假治疗相比,8周内进行20次针灸治疗可更大程度地改善中重度慢性前列腺炎/慢性骨盆疼痛综合症(CP/CPPS)的症状,且治疗效果持续了24 周以上。
该研究比较的是针刺组和安慰剂组在疾病治疗有效率的差别。由于结局变量(是否有效)是二分类数据,所以作者采用了logistic回归计算了OR值,这一分析过程研究设计的时候就设定的。同时,它又是干预组和对照组两个有效率的比较,率的比较可以算率差。文章中,作者也计算了率差,但是文中用了一个词:post hoc analysis,事后分析。作者意思是,计算率差不是我在方案设计的时候就拟定的,是数据分析时候突然想增加的,所以是事后分析。
统计结果表明,与假治疗组相比,针灸治疗组有更大比例的参与者报告症状显著或中度改善。在第8周,针灸治疗组和假治疗的症状改善比例分别为60.6%和36.8%,差异有统计学意义(率差 21.6  [95%CI, 12.8 to 30.4 ]; aOR=2.6  P < 0.001).在第32周时,针灸治疗组和假治疗组的症状改善比例分别为61.5%和38.3%(率差 21.1  [95%CI, 12.2 to 30.1 ]; aOR=2.6  P < 0.001)。
大家可以看出,作者报告结果即报告了OR值,也报告了率差,而两种结果其实是一致的,只是表达干预效应的不同角度而已。
那么为什么明明是同个事情,还要区分事先和事后分析呢?
从医学证据的可靠性角度,分析过程是事先设定的,其结果可靠;凡是事先未设定,事后分析的,结果不可靠。
为啥?因为事先设定的,是从合理的假设出发进行分析,而事后分析,往往是“投机取巧”式分析--我们可能会挑选效果更显著的、P值更小的指标或者统计学方法开展分析,这往往带来主观性偏倚:把不好的结果故意不分析,这给人一种错误的印象。
因此,这被俗称“马后炮”分析。结论不可靠。其实,目前很多的学术论文,都是事后分析,结果怎么能可靠呢?
当然,马后炮分析不是说不能做,但是你要告诉读者,告诉他们这个结果不可靠。所以,上面这篇论文就如实地阐明了率差分析是马后炮分析。
坦诚相告,大家就觉得你的论文值得信赖!这是这篇文章的聪明之处!不仅没有坏影响,而且加强了审稿人的好感度。

所以,我这里想说几点:
(1)做项目,毕业论文,设计为先,统计分析应该在设计方案时候就定下来,允许在数据采集过程中进行修改。随机对照研究最好如此,观察性研究也努力尽量做成一个事前分析。
(2)事后分析,是探索性的结果,哪怕你觉得我分析得非常规范客观,单单你是事后分析,那就可以否定你所有努力。
(3)一项研究,可以允许事后分析,但不能成为主要内容。而一篇文章,应该主动报告哪些是马后炮分析。别怕,这个过程是好事情!

古人说的,凡事预则立不预则废!少一点事后,多一些实
(0)

相关推荐