亚组分析,失败临床研究的一线生机?

当前,越来越多的大型随机III期前瞻性研究正在重新定义医疗实践中的标准治疗。当研究未达到主要终点时,通常会在特定患者亚组中探索可能的获益;即使是在阳性试验的情况下,也可用以确定治疗特别有效或无效的患者子集。然而,不幸的是,它们经常被过度解读或误用,希望使一项失败的研究死灰复燃。区分这些被过度解读、误用或计划外的亚组分析与预先规定和精心设计的亚组分析至关重要。今天,跟大家翻译分享一篇2010年发表在J Thorac Oncol的经典文献《What a Clinician Ought to Know: Subgroup Analyses》,为临床医生提供如何适当解释亚组分析的简明指南。

一、什么是亚组分析?
在随机临床试验中,亚组分析指的是在根据基线特征(如年龄、性别、组织学和种族)定义的患者亚组中评估特定终点(如总生存期)的治疗效果(如风险比HR)。不建议根据随机化后测量结果确定亚组,因为可能会影响患者分配至亚组的随机化原则。
亚组分析有助于探索更可能从试验性治疗中获益的患者亚组,从而从临床试验中获得最大化信息。随后,可根据这些结果生成新的假设和试验。最终,这可能导致临床实践的变化。
此外,亚组分析还可用于评价总体治疗效果在患者亚组之间是否一致,这通常被称为“稳健性检查”(robustness checking)。基于上述原因,监管机构支持进行适当的亚组分析。
二、亚组分析存在哪些问题?
亚组分析有两个关键的统计学局限性。首先,它们经常统计效能不足(under-powered)。这是由于临床试验的样本量计算通常仅考虑在所有随机化患者(而非患者子集)中达到足够的统计效能。因此,某一亚组(如性别)的一个子集(男性)与另一个子集(女性)中观察到的治疗效应是否存在显著差异的交互效应检验通常效力不足。因此,亚组分析容易产生“假阴性”结果。
亚组分析的第二个主要局限性在于特别容易出现多重性(multiplicity)。多重性是指获得“假阳性”结果的概率增加,即错误地得出治疗组之间存在显著差异的结论。换句话说,通过对主要终点进行多次亚组分析,这些比较中的一个或多个偶然产生显著结果的可能性更大。例如,如果对主要终点进行10次比较,其中至少有一次得出假阳性结果的概率为40%。因此,当进行多个亚组分析时,单次比较中小于0.05的p值并不能提供充分的证据支持治疗组之间存在显著差异。
三、亚组分析可能导致哪些有害的后果?
亚组分析有时可用于“拯救”一项失败的研究,即虽然未达到试验的主要目的,但发现试验组在特定患者亚组中显著优于对照药物。然而,正因于此,申办方可能会对许多亚组进行计划外的分析,以尝试找到治疗组显著优于对照药物的一个(或几个)患者亚组,这通常被描述为“数据疏通(data dredging)”或“捕鱼旅行(fishing trip)”。对亚组分析的误读可能导致启动基于未经证实的假设的临床研究,并最终造成对受试者健康的直接损害。这些有害后果的成本极高,但通过了解亚组分析的基本原理可以很容易地进行预防。
四、如何正确实施和解释亚组分析?
为了适当进行和解释亚组分析,首先需要确定是否预先规定了亚组分析。预先规定的亚组分析旨在进行假设检验;与之相反,计划外(也称为探索性、回顾性或事后)的亚组分析则生成新的假设并进行“稳健性检查”。需要指出的是,两者都可以提供有价值的信息,但原理和目的存在很大的差异。而且,只能根据预先规定的亚组分析才能得出结论性推论,或导致临床实践中的任何后续变化。
为了克服效能不足(把握度降低)和多重性的两大统计学局限性,以下5个步骤概述了适当进行、解释和报告预先规定的亚组分析的最佳方法:
1、在方案和/或统计分析计划(SAP)中预先设定亚组分析
大多数情况下,应在方案中详细记录预先指定的亚组分析。但也可在数据揭盲前或开放性研究的首例患者访视前在SAP中详述。下表概述了预先规定亚组分析时应记录的信息。
预先规定的亚组分析被认为更可信,因为它们是在任何数据检查之前就计划的。但是,预先规定或计划外的亚组分析都倾向于多重性,即由于检测上述多个亚组导致假阳性结果的概率增加。因此,仅预先规定亚组分析并不能使其自动有效:仍必须按照以下步骤适当进行、解释和报告。
2、使用交互效应检验(Interaction Test)

交互效应检验是进行亚组分析最合适的统计方法,这一概念可用以下假设示例来说明:
图1:什么是交互效应检验?
假设临床试验中有两个治疗(Tx)组:Tx A组和Tx B。根据基线特征定义的患者亚组也有两个水平:男性和女性。连接圆圈和正方形的回归线分别代表Tx A和Tx B治疗延长总生存期的疗效。因此,回归线越高,死亡风险越高。
通过亚组每个水平的箭头意指治疗效应。如果回归线平行,则治疗效应和性别之间无交互效应(图A),即男性的治疗效果与女性相同。如果回归线不平行或交叉(图B和图C),则治疗效应和性别之间存在统计学显著的交互效应,即男性的治疗效果与女性存在显著差异。
3、估计亚组每个水平的治疗效应
交互效应检验通常作为回归模型的一部分进行,而回归模型的类型取决于分析的终点。Cox比例风险模型是分析临床试验中至事件时间终点的标准方法。因此,在该假设示例的情况下,使用Cox模型进行”治疗-性别”交互效应检验,提供了亚组每个水平的HR(Tx A vs Tx B)、95%置信区间和相关p值。
图2:通常使用森林图显示亚组分析结果。上图是与图1C中描述的交互效应示例相对应的结果。菱形代表HR的点估计值(Tx A vs Tx B),水平线代表95%置信区间。
应谨慎解释亚组每个水平HR的相关p值。一个常见的错误是声称存在治疗效应差异,因为与HR相关的p值在男性中具有统计学显著性,但在女性中不具有显著性。这是不正确的,因为仅有交互效应检验的p值才能确定在不同性别中观察到的HR是否存在显著差异。这是因为交互效应检验考虑了:(i)亚组不同水平患者的预后,例如,无论分配的治疗如何,女性的总生存期可能优于男性;(ii)除组内变异性外,男性和女性之间的组间变异性。
4、使用确证性证据验证亚组结果
为了证实单个临床试验的亚组结果,需要在独立研究或荟萃分析中进一步验证。需要强调的是,在得到确证性证据之前,亚组分析仅生成假设,在所有随机化患者中观察到的治疗效果仍被视为亚组每个水平患者的最合适估计值。
5、负责任地报告结果
需要负责任地报告亚组结果,以便其他人能够对其进行适当解释。应在摘要和结论中强调所有随机化患者的主要终点分析结果。此外,还应说明预先规定的亚组分析的名称,并应明确说明预先规定和计划外进行的亚组分析的数量。还应在当前确证性证据和科学文献的背景下讨论亚组分析结果的有效性。
上文所述概念适用于任何类型的终点,例如分类(应答者或非应答者)、连续(收缩压)或至事件时间数据(总生存期)。下表总结了帮助临床医生正确解释亚组分析的关键要点。
参考资料:
Barraclough H, Govindan R. Biostatistics primer: what a clinician ought to know: subgroup analyses. J Thorac Oncol. 2010 May;5(5):741-6.
(0)

相关推荐