顶级医学杂志JAMA的论文写作统计指南,中文版解读新鲜出炉,快来看!
解读
本文同时结合一篇JAMA杂志发表的学术论文进行解读。这篇论文是中国医学科学院刘忠团队于2020年6月3日发表在JAMA主刊上,探讨了恢复期血浆疗效治疗危重症COVID-19患者的临床效果。
该文的研究概况:
为了评估恢复期血浆治疗COVID-19患者的疗效和不良反应,2020年2月14日至4月1日,研究组在武汉的7个医疗中心进行了一项开放标签、多中心、随机临床试验,招募了103名实验室确诊的COVID-19重症或危重患者。根据疾病严重程度,研究对象分为两组:52例患者恢复期接受血浆+标准治疗,51例患者恢复期仅接受标准治疗。恢复期定义为患者出院或疾病严重程度评分减少2分,主要结局是在28 d内达到临床改善的时间。在统计策略上,由于主要结局指标是生存时间,因此该研究采用的统计方法是生存分析(Log-Rank和COX回归分析方法)。
第一部分 总体统计规范
第二部分 统计方法
解读
笔者认为,除了回顾性研究、大数据研究外,大部分医学研究均需要提供样本量的计算过程。而回顾性研究,则可提供检验效能的计算,以显示研究检验效能达到了一定的水平。一份好的研究,核心在于检验效能是否达到同行认可的水平。
刘忠团队的文章中描述性统计方法介绍:
The original sample size was determined to be 100 for each group, which would provide 80% power, with a 2-sided significance level of α = 0.05, to detect an 8-day change for the convalescent plasma group in time to clinical improvement, assuming that this would be 20 days in the control group and 60% of the patients would reach clinical improvement。
解读
目前,国内的期刊论文对于描述性统计的内容相对详细。但这是一种头重脚轻的现象,统计描述的过程可以略写。
刘忠团队的文章中描述性统计方法介绍:
Continuous variables were summarized by presenting the median and interquartile range (IQR) for the total number of patients who contributed values. Categorical variables were summarized by presenting the frequency and proportion of patients in each categor.
解读
统计程序部分是对论文所采用的核心统计学方法的详细描述。这部分是国内文章严重缺乏的。通常情况下 ,一篇临床研究论文主要结果的产生,是通过回归方法确定。而回归方法包括常规的与复杂的两类,常规方法包括协方差分析、线性回归、logistic回归、COX回归,而复杂的方法则用来处理重复测量资料或者非独立数据,比如多中心临床试验、群随机试验等。JAMA系列期刊一般要求撰写论文时要指出回归模型类型、模型的自变量、模型要考虑的重要设置、模型适用的条件等。
刘忠团队的文章采用的主要方法是生存分析:
Time to-event data were analyzed using the Kaplan-Meier method, and the median time to event and corresponding 95% CI were calculated. Hazard ratios (HRs) with 95% CIs were calculated using Cox proportional hazards models.
Three Cox proportional hazards models were fitted in this study. We referred to the model that included only the treatment group as the unadjusted model. The model that included disease severity (severe or life-threatening) and treatment group is referred to as model 1, and the model that further considered the interaction between disease severity and treatment group is referred to as model 2. Study sites were considered as a random effect in these models.
Proportionality hazard assumption was assessed for treatment group and disease severity by extending the Cox models to include the corresponding time-dependent covariates. If the coefficient of the time-dependent covariate was statistically significant, the proportionality hazard assumption would be considered to be violated.
解读
对于JAMA系列期刊对缺失数据的建议,笔者认为还可以再详细一些。一般来说,一篇学术论文的统计分析,可以基于完整病例分析,也可以基于全数据分析;全数据分析需要对数据进行填补,而在填补方法方面,“末次观察结转法”虽然存在着缺陷,但仍然是被认可的一种;若采用广义方程或者混合线性模型分析缺失数据,则无需进行填补。
刘忠团队的文章对于失访的处理:对于生存分析的失访数据,生存分析基本不受影响,因为方法本身可以应对缺失数据。于是,文中写道:
For the primary end point of time to clinical improvement, death, withdrawal, and crossover between groups before day 28 were considered to be right-censored at day 28, and otherwise would be considered to be right-censored at the last observation date.
解读
分析的数据集是什么?分析是否按照统计分析计划进行?这是任何一个临床随机对照试验中首先需要回答的两大问题。明确分析集,制定统计计划并遵从统计计划,是高质量论文的必须动作;但一些国内研究项目很难实现,特别是在研究者发起的临床研究中更为常见。
刘忠团队的文章用较多的笔墨提到了分析集。包括主要研究目的的分析集是全分析集(FAS),而符合方案集(PPS)用于敏感性分析。具体如下:
Unless otherwise stated, analyses were performed based on the full analysis set, which is defined as the set of all randomized patients who received at least one treatment specified in the trial. Statistical analysis was performed on randomly assigned treatment groups.
A per-protocol analysis was performed for the primary end point as a sensitivity analysis. The per-protocol set was defined as the set of all randomized patients who received at least one treatment specified in the trial and who had no significant protocol violations that affected the efficacy evaluation.
解读
多重比较控制检验水准a是高水平论文需要认真考虑的事宜。在多臂、多结局、期中分析、亚组分析都需要考虑。但并非所有场景都需要进行多重比较来控制a。JAMA系列期刊给出了基本原则,那就是主要结局指标,一般都需要控制a;而对于次要结局,可以总体控制a,也可以不控制a,但需要写明结果是探索性的。
刘忠团队的文章也提到了多重比较。该文主要结局指标只有一个,所以无须校正,而对于次要结局,文中未进行多重比较,因此他们说:
Because of the potential for type I error due to multiple comparisons, findings for analyses of secondary end points should be interpreted as exploratory.
解读
刘忠团队的文章中相关统计学内容:
Statistical analyses were performed with SAS software, version 9.4. Statistical significance was defined using a 2-sidedsignificance level of α = .05.
第三部分 统计结果的报告标准和数据呈现
解读
总的来说,JAMA系列杂志要求统计描述信息应详细且规范,统计比较的结果应该包括估计值、P值与置信区间。尤其是置信区间,国内学术期刊一直以来没有强调它的重要性,因此读者很少看到一篇中文论文中报道置信区间。这一点应该在未来得到改善。
(2)不必报告的内容
解读
JAMA统计指南不必报告的内容,与目前国内学者的一些观念不一致。我们开展随机对照研究分析时,往往可能会对干预组和对照组进行差异性比较,证明两组是均衡可比的,而JAMA系列杂志(其实其他杂志也是如此)认为没有必要开展差异性的假设检验。既然是随机化研究,那么它就应该均衡可比的,哪怕P<0.05,也是均衡可比的。
另外,与顶级医学期刊规定不同,国内学术期刊一般要求报告一个假设检验统计量。针对这一点,笔者认为值得支持,虽说该统计量没有什么实际意义,但可以将论文分析过程更透明化。
第四部分 统计结果——图表规范
解读
刘忠团队的论文中结果表达:
1. 研究对象基本情况:作者在结果第一部分,“Study Population”中给出了研究对象的基本情况及分组比较情况,具体结果可见下表。合适的指标采用合适的统计方法进行描述,并未进行组间的差异性比较。
2. 研究结果:作者提供了主要研究结局、次要研究结局、不良反应等多个结果。对于结果,作者提供了全面的信息。比如在描述主要结局生存时间的差异性上,作者写出:For all patients combined, there was no significant difference n the primary outcome of time to clinical improvement within 28 days: 51.9% (27/52) in the convalescent plasma group vs 3.1% (22/51) in the control group (difference, 8.8% [95% CI,-10.4% to 28.0%]; HR, 1.40 [95% CI, 0.79-2.49]; P = 0.26).
我们从下表可以看出,作者不仅提供了P值,还有HR值及95%CI置信区间,还提供了事后分析的结果Absolute difference。作者指出,这是Restricted mean survival time,即限制性平均生存时间的差值及95%CI。
对于生存时间结局,生存曲线是不可缺少的。因此,作者也提供了生存曲线,与上表结果一致。
解读总结
虽然JAMA系列杂志的统计指南,只是一家之言,但它作为顶级医学期刊,背后是顶级生物统计学家对当前数据统计分析与统计写作最为主流的建议。因此,它的一些建议值得我国国内论文写作者、学术期刊编辑学习与探讨。
而阅读刘忠团队的论文,我们可以发现,虽然该文章样本量未达到原计划,且结果为阴性,但是文章很好地执行了JAMA统计指南的大部分细节,统计学方法读起来简单易懂,规范性很强。在结果方面,该论文实际呈现的数据与图表与JAMA指南高度符合。因此,这是一篇值得学习的范文。
更多信息
培训通告