提及SCLC一线治疗,IMpower133、CASPIAN和KEYNOTE-604无疑是三项不可回避的重磅研究。然而,相似的研究设计(随机双盲、安慰剂对照、标准化疗加载设计、PFS/OS双终点),却有截然不同的命运,阿替利珠单抗(T药)、度伐利尤单抗(I药)相继改写指南、获批适应症;KEYNOTE-604研究中帕博利珠单抗(K药)联合化疗的OS却遗憾没有达到预期的统计学差异。除基线特征、治疗中断比例、PD-1/PD-L1药物机制等差异之外,临床试验设计本身是否也有所影响?迄今仍留下诸多未解谜团。
广泛期SCLC一线IO治疗研究最新数据
数据来源(IMpower133 :2019 ESMO Abstract 2374. CASPAIN:LancetOncol. 2020 Dec 4;S1470-2045(20)30539-8. KEYNOTE-604:JClin Oncol. 2020 Jul 20;38(21):2369-2379. )日前,国际临床研究学院和中国医学科学院肿瘤医院联合发起的临床研究好声音第2期上,资深临床试验设计专家袁鹰教授和罗晟教授分别带领学员崔丹丹和孔丽,围绕“重新设计KEYNOTE-604,使OS由阴转阳”的话题,展开了一场别开生面、火药味十足的学术研讨。同时现场还邀请到包括何有文教授、李宁教授、陈峰教授、张晖教授、魏庆义教授、田攀文教授、赵宏教授在内的专业评审团现场打分,更有MSD资深统计师从产业一线角度答疑解惑。新颖的形式,创新的赛制,多学科专家的思维碰撞,让参与其中的医生同行们大呼过瘾!医药魔方Med特别精选部分回味无穷的金句集锦整理如下,文末还附有答疑彩蛋噢~KEYNOTE-604是一项随机、双盲、Ⅲ期临床研究,符合条件的453例ES-SCLC患者,按照1:1随机分配接受帕博利珠单抗 200mg或安慰剂治疗35个周期或至疾病进展,每3周一次,初始4周期加EP方案。主要终点为PFS和OS;次要终点为ORR、持续缓解时间(DOR)和安全性。预先设定效能界限是PFS单侧P=0.0048,OS为单侧P=0.0128。该方案规定了两个期中分析和一个最终分析。第二次期中分析(IA2)是预先指定的最终PFS分析。在第二次期中分析(IA2)时,帕博利珠单抗/安慰剂+EP组的中位PFS分别为4.5个月和4.3个月,帕博利珠单抗+EP显著延长PFS(HR=0.75;95%CI,0.61~0.91;P=0.0023)。最终分析显示,帕博利珠单抗/安慰剂+EP组中位OS分别为10.8个月和9.7个月,在意向治疗人群中未达到显著性边界(HR=0.80;95% CI,0.64~0.98;P=0.0164)。KEYNOTE-604研究的OS曲线(来源:JCO)预先设定的OS检验界限是单侧P=0.0128,最终分析时P=0.0164。虽然生存曲线最终呈现明显分开的趋势,0.0036的微弱差距却遗憾造就阴性结果。1、分析OS阴性的关键原因,期中分析对αlpha值的消耗不容忽视。由此是否可以大胆假设,如果没有期中分析,OS就可以得到阳性的结果。反过来说,如果临床研究需要设计期中分析,一定要找非常专业的统计师,因为它非常的复杂,也非常的微妙。KEYNOTE-604研究方案对OS统计效能的预期分析2、之所以强调临床医生对于统计方法学的理解,并不是要通过数字游戏把阴性结果“逆转”为阳,而是不希望一个临床上有显著差异的案例,由于统计设计/分析方法的失误而得到阴性结果,导致浪费大量的人力物力和时间。1、参照EP/EC联合或不联合帕博利珠单抗在ES-SCLC一线治疗的II期研究(REACTION,2020年发表),初步提示OS的风险比为0.73(0.54~1.0)。临床实践宁可保守不要冒进,根据HR为0.73和0.74,分别计算出III期研究的OS事件数在350~383之间。根据II期REACTION研究HR值计算事件数在350~383之间根据KEYNOTE-604事件数294倒推预估HR值对比一下KEYNOTE-604研究初始估计的OS事件数为294,由此倒推预估的HR值为0.709,与0.73存在一定的差距,研究者高估了K药联合化疗的有效性。也正是因为高估了药物的有效性,在第二次期中分析中,发生更多非预期的死亡事件数,导致93%的成熟度,消耗了很多的α,导致剩余的α过小,从而难以达到统计学意义。值得一提的是,K药联合化疗用于一线SCLC的II期研究发表是在2020年,而KEYNOTE-604研究早在2017年就已经启动,这也从侧面印证了早期研究的关键作用。2、从临床医生的角度,在考虑统计学差异(P值)的情况下,也需要考虑实际的临床效应(effect size);不仅要关注统计数据,更是要关注临床实际疗效。拿PFS来说,虽然风险比为0.75,P值低至0.0023,但换算成实际获益,帕博利珠单抗/安慰剂+EP组的中位PFS分别为4.5个月和4.3个月,从数值上来讲相差仅0.2个月,也就是短短6天时间。KEYNOTE-604研究的PFS曲线(来源:JCO)考虑到联合免疫治疗的经济负担和不良反应,绝大多数临床医生可能都不会接受35个周期的PD-1联合治疗,最后只有6天的受益。3、尽管KEYNOTE-604研究最终得到阴性结果,也能看到无论是PFS还是OS,两条线都分得很开。药物临床试验的信息量犹如冰川,目前所了解的只有冰山一角,可能临床试验的解读不仅仅限于某一个点,而在于信息披露的全面、公开、透明和综合分析。尤其随着免疫治疗及其他新兴治疗药物的发展,对试验数据结果的对比分析,可能更应该是多维度的;医药密不可分,临床医生有必要了解临床试验及其结果解读,从而更好的指导临床。李宁教授(中国医学科学院肿瘤医院药物临床试验研究中心办公室主任)1、KEYNOTE-604研究中,PFS的绝对值差异(4.5个月 vs. 4.3个月)小于OS(10.8个月 vs. 9.7个月),考虑到OS受到出组后续治疗的影响,这在临床试验中并不常见。我觉得这是一个有很有意思的问题。2、SCLC易复发、预后差,相对NSCLC、乳腺癌而言是非常容易看到生存结果的瘤种。从整体研究设计思路来看,为何不设计OS单终点,而要设计PFS和OS双终点,相应增加临床试验成功的难度?陈峰教授(中国卫生信息学会统计理论与方法专业委员会主任委员、中国临床试验统计学组组长)特别欣赏孔丽的一句话,统计学不是把没有价值的东西变成有价值,而是防止把有价值的东西变成没有价值。但需要指出的是,毕竟现在的探讨属于事后分析,我们可以回过头来总结经验,但是没有办法推翻原来的结果。前瞻性研究充满着挑战,充满着机遇,也同样存在有很多风险。所以不用过于强调KEYNOTE-604研究的阴性结果是统计学设计的失误所致,这是一个很难判断的问题。此外,从肿瘤免疫学角度而言,KEYNOTE-604研究使用的统计方法可能需要商榷。免疫治疗由于存在延迟效应,起效时间比较慢,所以尽管一开始的HR接近1,生存曲线到后期才呈现逐渐分开的趋势,这种情况下“比例风险”的假设不成立,基于比例风险假设的统计学方法存在很大的局限。张晖教授(美国西北大学Feinberg医学院预防医学生物统计学正教授)如崔医生所说,P值再小的PFS,也可能没有临床意义。无论是临床试验设计还是统计分析,永远要回到临床,我们是在帮临床解决问题,要永远考虑临床的意义在哪里,这是生物统计学家永远需要时刻绷紧的一根“弦”。田攀文教授(四川大学华西医院呼吸与危重症医学科副主任医师 )基于现在药物研发的趋势,很多研究都会进行期中分析,以便根据实际情况提前中止研究、扩大样本量、改变入组策略、乃至停止试验。然而期中分析好像又是一个潘多拉魔盒,消耗α势必导致后续达到统计学差异的难度增加。所以也想请教一个问题,期中分析是现行的惯例吗?为什么?赵宏教授(中国医学科学院肿瘤医院肝胆外科副主任,博士研究生导师)多次期中分析导致最终未达到统计学显著,在肝癌领域广为人知的一项阴性研究就是KEYNOTE-240,临床医生经常会开玩笑地称之为“被统计学家玩坏了的研究”。双终点设计越来越多成为免疫(联合)治疗研究的标准配置,然而PFS是否能够代表OS的获益,其实还是比较有争议的。个人认为免疫治疗的终点设计及解读,未来还有很多优化的空间。1、试验假设是临床研究的第一步,假设越准确,基于假设设计的实验的成功性可能就越高。从这一角度而言,KEYNOTE-604设计之初的预期HR值确实略为乐观。2、尽管后期看到生存曲线分离,但分开的不够,或者说随访时间还不够长。而免疫治疗的这种延迟效应也是近几年逐渐被发现、被研究。KEYNOTE-604设计之初未能考虑到这一现象对疗效的影响,也在情理之中。3、近年来新型靶向免疫治疗发展迅猛,大家其实都是在摸着石头一点点过河,很多东西无法提前预测,很多经验也就是从这些失败的案例中积累,然后促使不断的改良统计设计/分析的方法,并不断的去适应、去应对各种各样未遇到的状况,从而尽可能提高试验成功的概率。4、一项III期研究设计需要考虑的因素很多,统计分析仅是其中一方面,还有许多需要考虑的其他问题,例如:有没有其他药厂开展类似研究?竞争对手的时间进度如何?药监部门的意见,以及保险公司报销要求等等。因为肿瘤领域发展的太快了,竞争也非常激烈,大家都在抢占先机,大部分时候等不及II期结果出来就启动了III期研究。换句话说,一些情况下期中分析的次数和时间点也受竞争环境的很大影响。袁鹰教授(美国MD Anderson 癌症中心Bettyann Asche Murray 终身讲席教授,贝叶斯适应性临床试验设计的国际知名研究人员)事实上,判断一个实验是否成功,统计只是其中一部分。P值达到统计学差异,很可能是必要条件,但不是一个充分条件。我们还需要考虑测试药物的疗效大小。P值小于0.05,并不意味着这个药一定有临床价值;如果大于0.05的话,也不一定意味着失败。如果有足够医学证据来支持其疗效,虽然P值大于0.05,尤其是接近0.05,比如0.06,也有可能说此药是成功的,有益于患者。大家知道0.05是怎么来的吗?当年的统计学奠基人Fisher设置了这一界值,沿用至今成为大家公认的“约定俗成”的东西。其实,为什么不能用0.06为界值呢?0.049和0.051真有什么实际差异吗?希望大家结合实际情况灵活的理解这个问题。罗晟教授(杜克大学临床研究所资深临床试验设计专家和临床方法学专家)简单小结一下KEYNOTE-604这个案例,原本预估的HR是0.65,453例的样本量对应95%的power;但通过事后分析来看,0.8的HR远远大于预设,power降至46.5%;而如果要保障80%的power,样本量需要翻倍到977例。以α=0.019为标准,不同情况下OS的统计效能和所需样本量因此,从统计学角度来看KEYNOTE-604,初始设计对effect size(HR)的高估,导致研究效能不足和样本量被低估,第二次期中分析过多消耗αlpha值,最终达到统计学差异的难度增加,从而得到阴性结果。统计学显著与临床价值的微妙关系,还需要大家结合案例多多体会。
看完KEYNOTE-604案例解析之后,是不是大呼过瘾?但与此同时,是不是觉得意犹未尽,心头仍有很多问题没有解开?临床研究选单边设计还是双边设计?Keynote 604 OS 的P值0.0128 如何算出来的?期中分析为何成为现行的惯例?袁鹰教授和罗晟教授将继续在线上展开非常详尽的答疑互动,扫描下方二维码了解详情: