阿斯利康69亿美元收购的DS-8201,临床试验设计有何奥秘?

今年5月29日,美国临床肿瘤学年会(ASCO)和《新英格兰医学杂志》(NEJM)同步发表的随机对照II期DESTINY-Gastric01研究结果显示,阿斯利康/第一三共合作开发的ADC药物Enhertu(trastuzumab deruxtecan,DS-8201)相比化疗对经治胃癌患者的客观缓解率(ORR)和总生存期(OS)具有统计学意义和临床意义上的显著改善。正是基于这一研究,FDA于5月11日授予DS-8201第2个突破性疗法认定,用于至少接受过两种治疗方案的HER2阳性、不可切除/转移性胃或胃食管交界部腺癌患者。
进入正题之前,先回顾一下DESTINY-Gastric01研究的方案设计:
DESTINY-Gastric01是一项开放性、多中心关键II期临床试验,在来自日本和韩国的189例晚期胃或胃食管连接腺癌患者中评估DS-8201的安全性与有效性。主要终点为IRC根据RECIST 1.1评估的ORR,次要终点包括总生存期、缓解持续时间、无进展生存期、完全缓解(缓解持续≥4周)和安全性等。在双侧α=0.05水平下评估ORR的显著性差异。
那么,问题来了——
  • 为何在一项临床研究要设置众多不同的研究终点?

  • DESTINY-Gastric01研究的次要终点在2019 年进行了重大调整,对于FDA加速审批起到怎样的关键作用?

  • 为何研究结果最终披露时,PFS的P值不能报告?

  • 假设重新设计PFS和OS为主要终点,是否可能有截然不同的研究结果?

  • alpha分配和回收的基本原理,到底对研究决策有什么影响?

12月6日,国际医学临床研究发展论坛的热身营上,非医学专业背景、0基础入门的“科研小白”和杜克大学临床研究所(DRCI)的资深临床试验设计专家针对上述问题,进行了两个截然不同版本的讲述。
科研小白版
(长按识别二维码跳转视频链接)
研究终点好比军队的元帅,一个军队有很多元帅,到底一场战役派哪些元帅上阵,上阵的次序怎么安排,就是孙子兵法里面所说的:排兵布阵。
根据FDA guideline,有两个基本的指导原则,第一要看临床的重要性,第二要看展示有效性的可能性,即作战的潜力。
DSTINY-Gastric01研究有三大元帅 ORR、OS、PFS,2017年最初的作战计划是ORR在最前线,接着派PFS,最后派OS。2019年,作战目标没有变,主要终点也没有变,次要终点却发生重大变化,将PFS从α回收流程中删除之后,作战计划变更为ORR在最前线,接着派OS。
实际上,2017年最初在样本量计算时已经考虑到保证三个研究终点都达到至少80%的统计学效能。那么,为什么次要终点会影响样本量的计算?原来,FDA guideline指出,虽然通常样本量计算是依据主要终点,但如果次要终点的成功具有非常重要的临床意义,也可以一并考虑在内。
换句话说,当把次要终点作为证明药物有效性的重要考量的时候,这种情况要参考FDA原则中的multiplicity。凡需要证明药物有效性的终点设计,无论是主要终点还是次要终点,都需要进行I类错误的控制,要把所需样本量考虑进去。
那么,到底为什么要中途调整方案,把PFS从α回收流程中删除呢?是因为研究者担心PFS不成功,影响到后续OS终点的测定吗?还是因为2019年乳腺癌II期研究完成之后,研究者根据DS-8201在乳腺癌人群的OS获益,对DSTINY-Gastric01研究的设计进行了有机调整?
有意思的是,DESTINY-Breast01研究的样本量计算并没有考虑OS和PFS,这也提示我们,同一药物在不同疾病领域的研究,可能有非常不一样的设计思路。
另一个问题,在DSTINY-Gastric01研究中,如果OS作为共同主要终点,而非次要终点,会有什么不一样?
一旦变成共同主要终点,需要将alpha值进行分配,ORR和OS的alpha都会小于0.05。一方面,不用等ORR检验成功后再检验OS,可以同时进行;另一方面,会增加样本量,也会影响统计效能,影响P值的大小。万一分割有误差,还可能会类似KEYNOTE-240研究留下的遗憾,与阳性结果擦肩而过。
如果大家仔细看研究摘要对结果的描述,还会发现不少耐人寻味的细节:DS-8201组和对照组的ORR分别为51%和14%(P <0.001)。DS-8201组的中位OS显著优于化疗组(12.5个月 vs. 8.4个月;风险比 0.59;P = 0.01,超过预先规定的O’Brien–Fleming界值0.0202)。
最后判断OS是否达到统计效能的P值为什么不是0.05,而是0.0202?因为中期分析消耗了α值。PFS为什么没显示P值?因为2019年的protocol 把PFS从alpha 回收中删除了,即使生存曲线明显分开显示出临床有效性,根据统计学规则也不能报告PFS的P值。
统计专家版
罗晟教授敲黑板、划重点
结合DSTINY-Gastric01研究,今天主要讨论三个主题,终点选择、α值分配和样本量计算。
根据《Good Review Practice: Clinical Review of Investigational New Drug Applications》这份文件,II/III期临床研究样本量计算主要考虑以下因素:研究假设、主要终点、分析方法、效应量(effect size)、变异性(Variability)、Type I and II errors、随机分组比例、以及很多人容易忽略的失访率。
在PASS软件中,选择合适的计算模块,输入80%的统计效能和0.05的α值等数值,很容易计算出ORR、PFS和OS对应的样本量分别为131、167和181。DSTINY-Gastric01研究最终的样本量是180例,倒推下来ORR、PFS和OS的统计效能依次为92.7%、83.1%和80%。
那么,研究者随之而来的疑问就是,如何选择主要研究终点?或者哪一些终点应该选为主要终点?
复习一下FDA标准文件《Multiple Endpoints in Clinical Trials:Guidance for Industry 》中对研究终点选择的描述:第一,主要依据临床重要性的大小;第二,从实际的角度看成功的可能性大小。比如,在有限的资金和时间下,OS事件的发生率较低,统计效能可能不足,所以实际情况中II期研究往往会选择ORR作为替代的主要终点,提高试验成功的可能性。
另外再厘清一下两个容易混淆的概念。对于多个主要终点的研究,通常有两类统计假设策略,即均要求显著和至少有一个显著。所有主要终点均显著时才认为研究药物有效,此种情况常称为共同主要终点,即co-primary endpoints。多个主要终点中要求至少一个终点显著就认为研究药物有效,即multiple endpoints。
回到DSTINY-Gastric01研究,为了控制主要和次要疗效终点的family-wise I型错误率(FWER),采用 hierarchicallyordered Gatekeeping strategy。类似投篮,如果中间掉链子,后面球就进不去。
研究方案在2019年进行了调整,将PFS从α回收流程中删除,最终检验过程遵循以下步骤:1,首先检验主要终点ORR,双侧 alpha 0.05显著性水平,如果达到,继续第二步;否则,终止;2,双侧alpha 0.05显著性水平检验OS(期中分析和最终分析)。也正是因为protocol进行了调整,根据FDA的规定不能报告PFS的P值。
听到这里,很多临床医生可能会问了:既然PFS和OS都很重要,是否可以与ORR一起设置为共同主要终点?
答案当然是yes,但是需要重新分配α值,也因此会带来一系列的变化:可能需要更大的样本量;如果样本量不变,统计效能可能会随之下降;可能会需要更小的P值才能达到统计学显著差异。
在此可以对比一下IMbrave150研究将OS和PFS作为共同主要终点时,越容易达到的终点,分配越小的α值(限于篇幅,本文暂不展开阐述):
最后,总结一下:
快问快答

1、PFS和OS作为主要终点或次要终点,FDA审评考量上有何差异?

A:根据FDA指导原则《Multiple endpoints in clinical trials: Guidance for industry》,如果PFS和OS作为次要终点,只有在主要终点ORR阳性的情况下,才能作为证明药物有效性的证据。也就是说,在DESTINY-Gastric01这个案例中,假如主要终点ORR得出阴性的结果,即使OS最后呈现出显著差异,也不能作为这项II期研究成功的依据。

从实际角度考量,虽然OS是金标准,但通常需试验结束很久才能完成,但观测时间太长又不利于申报获批,所以在选择终点指标时,需要与监管部门沟通,推荐选用哪个终点指标。

2、DESTINY-Gastric01研究2019年修改protocol、将PFS从α回收流程中删除,是允许的吗?
A:在数据揭盲之前修改方案,在某些情况下是被允许的。具体而言,DSTINY-Gastric01研究方案的修改可能与同期进行乳腺癌研究数据披露带来的启示有关。有专家指出,2019年FDA发布指南,ORR能申报获批,DESTINY-Gastric01不需要再做替代终点PFS,所以删除PFS。也有观点认为,胃癌末线治疗观察PFS意义不大,方案调整对样本量和疾病终点没有影响,无伤大雅。
3、α分配是一个非常微妙的事情,很难有”事前诸葛亮“预知如何分配更大概率获得阳性结果。对于临床医生来说,有没有一些比较简单的把握尺度?
A:第一个原则,无论怎么分,只能花五块钱(α=0.05),不能多花。第二,通常来说比较容易达到的终点,选择的α值就越小。第三,不是特别确定的情况下,可能会选择α回收或者fixed-sequence,从而提高成功的可能性。第四,究竟分多少,需要数据足够充分的I/II期早期试验结果,不然就是盲人摸象。因此,无论对于申办方还是研究者,更多的精力建议放在前期研究,对于最优剂量探索和α值分配至关重要,否则很有可能会事倍功半。
(0)

相关推荐