神奇的文章！一篇通篇没有P值的《新英格兰医学杂志》临床试验论文是如何出品的？ / 开普饭

临床研究的统计学方法总体上较为复杂、细致。一篇优秀的论文，往往结合多种方法，特别是3期临床试验。我们估计更不敢想象，一篇临床3期论文，居然通篇没有一个P值。

2020年3月，医学期刊排名第一的《新英格兰医学杂志》（NEJM）发表了一篇非常有意思的论文：这篇临床3期试验论文，通篇真的没有一个P值。此外，它全文主要统计学方法就一种：CMH方法。

感觉神奇吧。实际上很多时候，小统计就能出大文章，统计方法并不需要高级货。

研究背景

这是一项关于HIV治疗新药的临床研究。艾滋病是由于HIV病毒感染引起的严重疾病，曾经被认为是无药可治的致命疾病。然而在上世纪末，随着何大一教授等人开创的“鸡尾酒疗法”的建立，艾滋病已经成为能够被药物控制的慢性疾病。但是通常“鸡尾酒疗法”要求日服药物，副作用不小，较为麻烦。现在有一种新的“鸡尾酒疗法”，Rilpivirine Cabotegravir双药组合。它的优点是，注射一次，长期发挥作用（Long-Acting）。于是，研究团队想知道，新的双药组合虽然服用频率降低，效果是否还凑合？

本文的研究方案

首先，我们不妨基于PICOS原则，了解下本文的研究方案

研究设计（Study）

这是临床3期，多中心、随机、同期、开放、非劣效性研究

研究对象（Patient）

2016年10月到2018年8月，纳入先前未经治疗、HIV-RNA 拷贝数>1000/ml的HIV-1 感染者参与，最终合格患者数为566例。采用分层区组随机法，分为Rilpivirine Cabotegravir双药组和“鸡尾酒疗法”疗法组。分层因素为性别和HIV-RNA 拷贝数。

干预和对照（Intervetion & Control）

所有患者首先接受16周的传统抗病毒诱导治疗，然后HIV-RNA拷贝数低于50/mL的患者随机分组，分为继续接受传统抗病毒口服药物治疗（对照组）、或接受Cabotegrator-Rilpivirine治疗（先口服1个月，随后接受每月1次注射治疗）。

结局指标(Outcome）

本试验的主要研究终点是研究的主要终点为48周后HIV-RNA拷贝数高于50/mL的患者比例。关键次要结局为48周后HIV-RNA拷贝数低于50/mL的患者比例。

小结：患者分为两组，结局指标是有效率（或者无效率），一个简单的两组率比较。此外，关键的特点是该研究是一项非劣效性研究。

研究结果

结果发现，第48周，双药联合治疗的干预组283名患者中，有6名（2.1%）HIV-RNA拷贝数高于50/mL，而传统“鸡尾酒”口服治疗组中有有7名（2.5%）高（调整后的差异为-0.4%），与非劣效界值差异具有统计学意义。在第48周，93.6%接受长效注射治疗的患者和93.3%接受口服治疗的患者的HIV-1RNA拷贝数低于50mL(调整后的差异，0.4%) ，与非劣效结局差异具有统计学意义。在接受长效注射治疗的参与者中，86%报告注射部位反应（中位持续时间，3天；99%的为轻度或中度），4名参与者因注射相关原因退出试验。组间不良事件率相近，91%的患者对长效注射治疗感到满意。

该研究结果，通篇文字描述没有P值。不仅如此，论文的表格同样没有P值

（1）基线，两组数据统计描述，无P值（表2）

（2）主要结局表格，无P值（表2）

关键分析：为什么临床3期论文可不用P值呢？

中国的医学研究者一般会认为，一份文章能否发表，非常重要的评价指标就是P值。P<0.05结果阳性，表明临床研究是成功的，P>0.05，想死的心都有了。然而，目前国际上越来越多的杂志、统计领域的学者不再看重P值，甚至宣称要判定P值死刑。我这里就从以下几点论述本文P值为何缺失。

RCT研究表1（Table 1）结果无须报告P值

通常情况下，临床试验论文首先要做的工作是进行基线的特征的描述，并进行组间的均衡性比较，看分组是否均衡（计算P值），这一结反映的在论文的第一张表格中（Table 1）。但是，现在越来越多的杂志和学者认为，随机对照试验（RCT）论文，表1只要进行统计描述就行了，无须进行均衡性比较，无须用P值来反映基线是否可比。

为什么？有以下2点理由：第一，规范的随机对照试验，它就应该被认为是均衡可比的，采用意向性分析前无须进一步去论证其均衡性；2）P值无法有效反映分组均衡性，因为小样本，即便是不均衡性的数据，P值也很可能>0.05，而大样本，即便是均衡性的数据，P值也很可能<0.05。

与P值相比，置信区间更为重要

P值和置信区间统计分析结果基本相同，国人一般较认可P值。P值<0.05，说明结果阳性，皆大欢喜。现在越来越多的学者认为置信区间更重要，反而P值不太重要。

本文便选择置信区间来判断结果是否阳性。分析表明主要结局方面，48周后HIV-RNA拷贝数高于50/mL的两组患者比例之差（率差）95%置信区间为（-2.8-2.1）。次要结局方面，48周后HIV-RNA拷贝数低于50/mL的的两组患者比例之差（率差）95%置信区间为（-3.7-4.4）。一般来说率差的95%置信区间包括0值，则差异没有统计学意义。本文主要结局和次要结局95%置信区间都包括0，说明新药联合和传统鸡尾酒口服方法效果差不多。

“效果差不多”，能否说明长效双药联合的治疗方法达到了非劣效目标了吗？不能！

如何利用P值和置信区间判断非劣效性

非劣效性研究是探讨干预组是否效果不太差于对照组的研究。本文的阳性率的研究中，就是探讨率差是不是不太低。本文假定传统鸡尾酒疗法48周后HIV-RNA拷贝数高于50/mL的患者比例2%，非劣效界值为6%。这意味着，长效药物组中，HIV-RNA拷贝高于50/mL的患者比例不高于8%就可以实现非劣效（或者率差小于6%）的目标。

这一目标，可分别通过假设检验（P值）和置信区间来论证。

假设检验（单侧）的方式：

此时，采用单侧率的比较（正态近似法）可获得P值；P<0.05，则非劣效目标达成。

置信区间的计算更加直接明了。就是看率差的置信区间是否包括了6%。

上述“工字型”即为率差置信区间的上下限，（1）区间上下限包括差率0%（本文的数据），但没有包括6%，（2）区间上下限包括差率6%，（3）区间上下限不包括差率6%，都低于6%。相对6%的非劣效界值，其中（1）结论为非劣效，（2）为不能说明结论非劣效，阴性结果，（3）劣效结果。

由此我们便可以初步判断本文长效双药组合结论为非劣效。

本文为什么没有同时报告P值呢？

正常情况下，论文P值和置信区间需要同时汇报。但本文却只汇报了置信区间，原因恐怕与统计学方法有关。一般诸如t，z检验，均可开展非劣效的置信区间估计和P值的计算。但是也有诸多方法，往往只进行差异性比较和置信区间估计。比如本文采用的CMH方法（Cochran–Mantel–Haenszel analysis）。

文章采用CMH方法进行计算95%置信区间

CMH方法，又成为分层卡方分析。一般来说，两组率的比较，可以采用正态分步分布z分步法进行率的比较或者卡方检验，但是临床试验，虽然分组均衡，由于采用的是分层随机设计，往往会进一步借助CMH方法进行分层卡方检验，进一步控制潜在的混杂因素（本文是性别和HIV-RNA 拷贝数）。所以诸位可以看本文的表（2）有Difference 和Adjusted Differene 两者结果，前者未分层，而后者采用了CMH调整了潜在的混杂因素。

CMH方法能够计算出P值，来探讨两组率是否有统计学差异。不足的地方在于，该P值是差异性的P值，而非非劣效检验的P值。本文CMH差异性检验的P值应该>0.05。这一结果不仅多余，而且会给读者带来误导，所以干脆不放入文中。

所以，这就造成了通篇论文没有一个P值的线性。总计其原因，便是基线数据分析无须P值，置信区间和P值地位同等重要，非劣效检验置信区间结果更直观，CMH方法P值会带来误导。

闲来郑语

这里我只说三句话：

第一，很多时候，置信区间就足够了，它比P值更重要

第二，临床试验，往往是小统计大文章

第三，规范分析比复杂统计更重要

-本文结束-

神奇的文章！一篇通篇没有P值的《新英格兰医学杂志》临床试验论文是如何出品的？

相关推荐