重塑SCLC格局、改写NCCN指南！IMpower133试验设计背后的奥秘 / 开普饭

小细胞肺癌历来以复杂难懂的肿瘤发生发展机制、短暂的生存期和微乎其微的治疗进展著称。2018年世界肺癌大会（WCLC）上，IMpower133 研究作为广泛期 SCLC一线治疗里程碑式研究，改写了顺铂/卡铂联合依托泊苷30年稳居广泛期 SCLC一线标准治疗地位的历史。CASPIAN 研究中durvalumab联合化疗凭借史上系统治疗最长的 OS 数据，也获得广泛期SCLC一线治疗适应症。然而，KEYNOTE-604 研究中帕博利珠单抗联合化疗的OS没有达到预测的统计学差异，引发了关于SCLC一线免疫治疗如何进行的思考。

广泛期SCLC一线IO治疗研究最新数据

数据来源：IMpower133 ：2019 ESMO Abstract 2374. CASPAIN：Lancet Oncol. 2020 Dec4;S1470-2045(20)30539-8. KEYNOTE-604：J Clin Oncol. 2020 Jul 20;38(21):2369-2379.

那么，问题来了——

同样是随机双盲、基于安慰剂的加载对照、双终点设计，为何IMpower133得到阳性结果，KEYNOTE-604却遗憾错过OS的关键终点？
除基线特征、治疗中断比例、PD-1/PD-L1药物机制等差异之外，研究方案设计是否也有潜在的影响？
细究IMpower133研究方案设计，分配给OS和PFS的一类错误概率分别为0.045和0.005。最后PFS的P值明明是0.02，为何第一次期中分析却显示达到共同主要终点？
中途protocol修改，alpha回收的Bonferroni Method改为Group sequential weighted holm procedure，又是怎样提高试验成功概率的“神来之笔”？

医药魔方特别邀请来自杜克大学临床研究所（Duke Clinical ResearchInstitute）的资深临床试验设计专家罗晟教授，从统计学角度深度解析IMpower133背后的奥秘。

扫描二维码查看完整讲座回放

（编者注：讲座所述IMpower133研究数据源自2018年NEJM正式发表原文）

一、对照组为何采取add-on control？

在设计临床试验时，选择对照组一直是一个关键性的决定。随机化和盲法是常用的两种技术，用以减少偏倚的发生，并保证试验组和对照组在开始研究时彼此相似、在研究过程中得到的处置也相似。

选择对照组的基本逻辑，图源《E10：临床试验中对照组的选择和相关问题》

根据是否存在已证明有效的标准治疗方案，最常见的对照类型包括安慰剂对照（Placebo control）、基于安慰剂的加载对照（add-on study）和活性对照（Active control）。

医药魔方Med整理，素材来源于网络

在IMpower133这个案例中，研究者采取的对照类型是Placebo add-on control，即将新的治疗方法（阿替利珠单抗）和安慰剂加载在通常的标准治疗（EP）之上，从而观察联合免疫治疗带来的额外获益。

那么，IMpower133是否可以设置活性对照，即阿替利珠单抗对比EP标准治疗？一方面，实际角度来看，两者用药方式的差异将导致不能采取盲法设计；另一方面，也不能观察免疫治疗联合化疗带来的额外获益。最重要的是，由于没有充足的理由预期T药至少与标准对照药物一样好，在条件允许时，采用Placebo add-oncontrol更符合伦理审查要求，也更易于被临床医生和患者所接受。

二、多重性调整策略缘何变更？

对于确证性临床试验，将总体I类错误率（FWER）控制在合理水平是统计学的基本准则，这一过程也称为多重性（multiplicity）调整。IMpower133研究涉及多个主要终点的分析，需要在PFS和OS之间合理分配alpha值。

多重性问题的基本解决思路，图源：CDE《药物临床试验多重性问题指导原则（征求意见稿）》

现在，让我们来对比一下IMpower133修改前后的α回收设计：

修改前：Bonferroni法（基本思想是各个独立检验的名义水准之和等于FWER水平α），假设检验分配给OS和PFS的一类错误概率分别为0.045和0.005。

修改后：成组序贯加权Holm法（Group Sequential Weighted Holm Procedure）。如果OS显著，则相应的α值（0.045）可回收用于PFS检验。反之亦然，如果PFS显著，相应的α值（0.005）也可回收用于OS检验，从而有效利用alpha，最大化研究效能（power）。

三、第一次期中分析就达到共同主要终点，如何理解？

以有效性为目的的期中分析是将整体决策按照时间顺序分阶段进行的典型代表，每个阶段都进行一次整体决策，确定试验因有效或无效提前终止还是继续。多阶段决策需要多重性调整，即每个阶段都会消耗一定的α值。

在IMpower133这个案例中，预先设置的分析时间和中止边界如下表所示，计划在发生240个和306个死亡事件时分别对OS进行期中分析和最终分析，利用R软件包(Idbounds)可以算出α值依次为0.0193和0.0257。有意思的是，根据PFS是否显著，还可能涉及α回收的问题。

截至2018年4月，发生238个死亡事件时进行期中分析。阿替利珠单抗治疗组和安慰剂组的中位OS分别为12.3个月和10.3个月，风险比（HR）为0.70（95%CI, 0.54-0.91），P值为0.007，小于第一次期中分析的界值0.0193，根据方案可以提前中止试验。

接下来看看PFS，在阿替利珠单抗治疗组和安慰剂组分别为5.2个月和4.3个月，风险比（HR）为0.77（95%CI, 0.62-0.96），P值为0.02，到底是显著还是不显著呢？

根据预先分配的标准，PFS的P值应该＜0.005，而0.02大于0.005，貌似应该是不显著的。不过，方案变更后，将OS显著的α值回收给PFS（0.045+0.005=0.05），就达到了统计学显著。

IMpower133研究凭借第一次期中分析的共同主要终点双阳结果，提前12个月中止试验，节省了大量的时间和金钱，无疑“羡煞”一帮众人。尤其KEYNOTE-604，虽然帕博利珠单抗联合EP同样延长了OS，却未达到显著性阈值（HR，0.80；P=0.0164）。

重塑SCLC格局、改写NCCN指南！IMpower133试验设计背后的奥秘

一、对照组为何采取add-on control？

二、多重性调整策略缘何变更？

三、第一次期中分析就达到共同主要终点，如何理解？

相关推荐