神奇的文章!一篇通篇没有P值的《新英格兰医学杂志》临床试验论文是如何出品的?

临床研究的统计学方法总体上较为复杂、细致。一篇优秀的论文,往往结合多种方法,特别是3期临床试验。我们估计更不敢想象,一篇临床3期论文,居然通篇没有一个P值。

2020年3月,医学期刊排名第一的《新英格兰医学杂志》(NEJM)发表了一篇非常有意思的论文:这篇临床3期试验论文,通篇真的没有一个P值。此外,它全文主要统计学方法就一种:CMH方法。
感觉神奇吧。实际上很多时候,小统计就能出大文章,统计方法并不需要高级货。
研究背景
这是一项关于HIV治疗新药的临床研究。艾滋病是由于HIV病毒感染引起的严重疾病,曾经被认为是无药可治的致命疾病。然而在上世纪末,随着何大一教授等人开创的“鸡尾酒疗法”的建立,艾滋病已经成为能够被药物控制的慢性疾病。但是通常“鸡尾酒疗法”要求日服药物,副作用不小,较为麻烦。现在有一种新的“鸡尾酒疗法”,Rilpivirine Cabotegravir双药组合。它的优点是,注射一次,长期发挥作用(Long-Acting)。于是,研究团队想知道,新的双药组合虽然服用频率降低,效果是否还凑合?
本文的研究方案
首先,我们不妨基于PICOS原则,了解下本文的研究方案
研究设计(Study)
这是临床3期,多中心、随机、同期、开放、非劣效性研究
研究对象(Patient)
2016年10月到2018年8月,纳入先前未经治疗、HIV-RNA 拷贝数>1000/ml的HIV-1 感染者参与,最终合格患者数为566例。采用分层区组随机法,分为Rilpivirine Cabotegravir双药组和“鸡尾酒疗法”疗法组。分层因素为性别和HIV-RNA 拷贝数。
干预和对照(Intervetion & Control)
所有患者首先接受16周的传统抗病毒诱导治疗,然后HIV-RNA拷贝数低于50/mL的患者随机分组,分为继续接受传统抗病毒口服药物治疗(对照组)、或接受Cabotegrator-Rilpivirine治疗(先口服1个月,随后接受每月1次注射治疗)。
结局指标(Outcome)
本试验的主要研究终点是研究的主要终点为48周后HIV-RNA拷贝数高于50/mL的患者比例。关键次要结局为48周后HIV-RNA拷贝数低于50/mL的患者比例。
小结:患者分为两组,结局指标是有效率(或者无效率),一个简单的两组率比较。此外,关键的特点是该研究是一项非劣效性研究。
研究结果
结果发现,第48周,双药联合治疗的干预组283名患者中,有6名(2.1%)HIV-RNA拷贝数高于50/mL,而传统“鸡尾酒口服治疗组中有有7名(2.5%)高(调整后的差异为-0.4%),与非劣效界值差异具有统计学意义。在第48周,93.6%接受长效注射治疗的患者和93.3%接受口服治疗的患者的HIV-1RNA拷贝数低于50mL(调整后的差异,0.4%) ,与非劣效结局差异具有统计学意义。在接受长效注射治疗的参与者中,86%报告注射部位反应(中位持续时间,3天;99%的为轻度或中度),4名参与者因注射相关原因退出试验。组间不良事件率相近,91%的患者对长效注射治疗感到满意。

该研究结果,通篇文字描述没有P值。不仅如此,论文的表格同样没有P

(1) 基线,两组数据统计描述,无P值(表2)
(2)主要结局表格,无P值(表2)
关键分析:为什么临床3期论文可不用P值呢?
中国的医学研究者一般会认为,一份文章能否发表,非常重要的评价指标就是P值。P<0.05结果阳性,表明临床研究是成功的,P>0.05,想死的心都有了。然而,目前国际上越来越多的杂志、统计领域的学者不再看重P值,甚至宣称要判定P值死刑。我这里就从以下几点论述本文P值为何缺失。
RCT研究表1(Table 1)结果无须报告P
通常情况下,临床试验论文首先要做的工作是进行基线的特征的描述,并进行组间的均衡性比较,看分组是否均衡(计算P值),这一结反映的在论文的第一张表格中(Table 1)。但是,现在越来越多的杂志和学者认为,随机对照试验(RCT)论文,表1只要进行统计描述就行了,无须进行均衡性比较,无须用P值来反映基线是否可比。

为什么?有以下2点理由:第一,规范的随机对照试验,它就应该被认为是均衡可比的,采用意向性分析前无须进一步去论证其均衡性;2)P值无法有效反映分组均衡性,因为小样本,即便是不均衡性的数据,P值也很可能>0.05,而大样本,即便是均衡性的数据,P值也很可能<0.05。
P值相比,置信区间更为重要
P值和置信区间统计分析结果基本相同,国人一般较认可P值。P值<0.05,说明结果阳性,皆大欢喜。现在越来越多的学者认为置信区间更重要,反而P值不太重要。
本文便选择置信区间来判断结果是否阳性。分析表明主要结局方面,48周后HIV-RNA拷贝数高于50/mL的两组患者比例之差(率差)95%置信区间为(-2.8-2.1)。次要结局方面,48周后HIV-RNA拷贝数低于50/mL的的两组患者比例之差(率差)95%置信区间为(-3.7-4.4)。一般来说率差的95%置信区间包括0值,则差异没有统计学意义。本文主要结局和次要结局95%置信区间都包括0,说明新药联合和传统鸡尾酒口服方法效果差不多。
“效果差不多”,能否说明长效双药联合的治疗方法达到了非劣效目标了吗?不能!
如何利用P值和置信区间判断非劣效性
非劣效性研究是探讨干预组是否效果不太差于对照组的研究。本文的阳性率的研究中,就是探讨率差是不是不太低。本文假定传统鸡尾酒疗法48周后HIV-RNA拷贝数高于50/mL的患者比例2%,非劣效界值为6%。这意味着,长效药物组中,HIV-RNA拷贝高于50/mL的患者比例不高于8%就可以实现非劣效(或者率差小于6%)的目标。
这一目标,可分别通过假设检验(P值)和置信区间来论证。
假设检验(单侧)的方式:
此时,采用单侧率的比较(正态近似法)可获得P值;P<0.05,则非劣效目标达成。
置信区间的计算更加直接明了。就是看率差的置信区间是否包括了6%。
上述“工字型”即为率差置信区间的上下限,(1)区间上下限包括差率0%(本文的数据),但没有包括6%,(2)区间上下限包括差率6%,(3)区间上下限不包括差率6%,都低于6%。相对6%的非劣效界值,其中(1)结论为非劣效,(2)为不能说明结论非劣效,阴性结果,(3)劣效结果。
由此我们便可以初步判断本文长效双药组合结论为非劣效。
本文为什么没有同时报告P值呢?
正常情况下,论文P值和置信区间需要同时汇报。但本文却只汇报了置信区间,原因恐怕与统计学方法有关。一般诸如t,z检验,均可开展非劣效的置信区间估计和P值的计算。但是也有诸多方法,往往只进行差异性比较和置信区间估计。比如本文采用的CMH方法(Cochran–Mantel–Haenszel analysis)。
文章采用CMH方法进行计算95%置信区间
CMH方法,又成为分层卡方分析。一般来说,两组率的比较,可以采用正态分步分布z分步法进行率的比较或者卡方检验,但是临床试验,虽然分组均衡,由于采用的是分层随机设计,往往会进一步借助CMH方法进行分层卡方检验,进一步控制潜在的混杂因素(本文是性别和HIV-RNA 拷贝数)。所以诸位可以看本文的表(2)有Difference 和Adjusted  Differene 两者结果,前者未分层,而后者采用了CMH调整了潜在的混杂因素。
CMH方法能够计算出P值,来探讨两组率是否有统计学差异。不足的地方在于,该P值是差异性的P值,而非非劣效检验的P值。本文CMH差异性检验的P值应该>0.05。这一结果不仅多余,而且会给读者带来误导,所以干脆不放入文中。
所以,这就造成了通篇论文没有一个P值的线性。总计其原因,便是基线数据分析无须P值,置信区间和P值地位同等重要,非劣效检验置信区间结果更直观,CMH方法P值会带来误导。
闲来郑语
这里我只说三句话:
第一,很多时候,置信区间就足够了,它比P值更重要
第二,临床试验,往往是小统计大文章
第三,规范分析比复杂统计更重要
-本文结束-
(0)

相关推荐