精确医学:告别统计
吴家睿 中国科学院上海生命科学研究院生物化学与细胞生物学研究所 研究员
导读
现代医学建立在严格的临床试验和复杂的统计分析之上。随着关注个体的精确医学到来,在临床研究和流行病学研究领域出现了许多新的研究模式。他们的一个共同点就是,不再遵照临床试验统计学的规范,不再追求评判研究结果的统计学意义。
实验科学是现代科学的主要标志,即在人为控制的特定条件下开展研究以获取知识,要有精心设计的试验方案,要有评判结果的定量标准。作为现代医学主流的“循证医学”(Evidence-based Medicine, EBM)也正是建立在实验科学的框架之上,其用于指导临床实践的“证据”通常源自严格的临床试验和复杂的统计分析。随着精确医学时代的来临,出现了许多背离实验科学的“金科玉律”的研究新模式,当前在健康科学和临床医学领域就有以下这样一些新动向值得关注。
不设对照的临床试验
“随机对照试验”(Randomized controlled trial,RCT)是现代临床研究的主要模式,有两个特点,首先是精心的试验设计和严格的参试者招募标准,包括参试者的数量通常都要由临床统计学家根据试验假设或临床终点来确定。其次,要对受试人员进行试验组和对照组的随机分配,通过这种随机分组方式减少试验偏倚,排除个体差异对临床试验结果的影响。随机对照试验已经成为创新药物研发的主要工具,并成为循证医学的“金标准”。
但是,随机对照试验也存在着一定的局限性,如严格的招募标准可能会使得参试人群对目标人群的代表性变差,或试验结果所提出的标准治疗与临床实践用药不完全一致。当前,抗击肿瘤和糖尿病等慢性病是临床实践的主要任务。由于这些疾病都是复杂性疾病,其发生发展涉及到多种遗传因素与环境因素的相互作用,并具有明显的个体间和个体内的差异。因此,随机对照试验的局限性带来的问题就更为突出;尤其是在随机对照试验中排除了个体差异而得到的统计性结果,往往导致了循证医学在治疗具体患者时不够精准。
为了应对随机对照试验局限性给临床实践带来的挑战,国际上兴起了强调个体化诊疗的“精确医学”(Precision medicine),发展出了不同于经典临床研究规范的新型研究模式。不同于粗放型的依据病理性状或者解剖位置的疾病分类,精确医学特别重视患者分子层面的信息,力图通过分子生物标志物(Molecular biomarkers)来区分患者,从而实现精确的疾病分子分型。
在分子生物标志物和分子分型基础上,研究者开始尝试不同于随机对照试验的研究策略,可以采用“同病异治”,即针对单一疾病研究多种药物的疗效,称为“伞型试验”(Umbrella trial)[1];例如在一个称为“I-SPY 2” 乳腺癌临床试验中,研究者根据3个分子生物标志物确定了患者的8个亚型,然后去比较12种治疗方法对这些患者的不同效果。也可以采用“异病同治”,即把单一的治疗方法用于不一样的疾病,称为篮型试验(Basket trial)[1];例如在2017年美国临床肿瘤学会年会上公布了一项“篮型试验”——TRK基因抑制剂Larotrectinib的临床试验,按照一个共同的靶标——TRK基因融合突变,总共纳入13种不同类型实体瘤的55名患者;该抑制剂已经在2018年被FDA批准,成为首个通过“篮型试验”获批的创新药物。
这两类新型临床试验的一个重要特征是,没有按照随机对照试验的要求设立专门的试验对照组,其试验结果通常是依据不同患者的治疗效果之间的比较;例如在Larotrectinib的“篮型试验”中,55名具有不同类型肿瘤的患者中仅有5人对该药没有很好的响应,因此该药适用于所有含TRK基因融合突变的肿瘤病人。
当然,与随机对照试验差别最大的是“N=1”临床研究模式,即整个试验中只有一个研究对象。在这种“N=1”临床研究模式中,研究者对单一患者进行不同的干预,如重复地给予两种不同的药物,其中一种是试验用药,另一种则是对照药物[2]。“每个个体在遗传和环境方面都是独一无二的,在不同时间段需要用他们自己作为对照(N=1)来分析……”[3]。这种研究模式真正体现了精确医学的主旨:关注单个患者对治疗方法的实际响应,而不是统计化的结果。
来自真实场景的研究
经典临床试验具备实验科学的特征:严格控制的人为实验条件和与日常临床实践相差较大的试验环境;从而导致临床研究结论在实际临床场景应用时存在局限性。为了克服临床试验的人为试验结果带来的局限性,“真实世界证据”(Real World Evidence,RWE)应运而生,2016年12月被美国国会在《21世纪治疗法案》中确定为临床试验证据之外的补充证据,用于药品和医疗器械的审批决策。美国食品与药品管理局(Food and Drug Administration, FDA)在2018年12月公布了《真实世界证据方案框架》;并在2019年4月首次根据美国电子健康档案和辉瑞公司抗肿瘤药物Ibrance上市后男性患者的用药数据等有关的真实世界证据,批准了Ibrance的新适应症:可用于治疗转移性乳腺癌的男性患者。
中国的研究人员和管理部门同样在关注真实世界证据在临床研究中的应用。2018年8月,吴阶平医学基金会和中国胸部肿瘤研究协作组联合发布了《真实世界研究指南2018年版》。2019年5月,国家药品监督管理局发布了《真实世界证据支持药物研发的基本考虑》的征求意见稿,并在意见稿中明确指出:“在药物研发领域如何利用真实世界证据,或者将其作为RCT的辅助证据,用以评价药物的有效性和安全性,已成为全球相关监管机构、制药工业界和学术界共同关注且极具挑战性的问题。”
获取真实世界证据的主要途径是真实世界研究(Real World Study)。真实世界研究是一种在日常的临床实践场景下评价药物效益的实用性研究,真实世界研究与随机对照试验等经典临床研究的根本区别在于开展研究的场景不一样:前者源于实际医疗场地或家庭社区等真实场景,而后者则来自严格受控的科研场景。从真实世界研究引出了精确医学的重要特征:个体的真实状态,即在研究一个患者的临床干预情况时,要让该患者处于非人为干预的真实环境中,从而保证通过研究得到的数据能够反映出个体的真实状态。
在循证医学的证据中,随机对照试验的证据被认为是最高级——I级,而循证医学的II级证据则是来自队列研究(Cohort study)。队列研究模式同样遵行实验科学的基本要求,要进行严格的试验设计,并要明确规定人群入组的标准和采样方式等;通常的研究方式是,选取一组暴露于某种因素的人群和另一组不暴露于该因素的人群,再经过一段时间后以通过统计学方法比较两组人的某种生理或病理情况,以确定二者间的相关性。
队列研究不仅是经典的临床研究模式之一,而且也是流行病学研究的主要基础。自上世纪中叶起,随着糖尿病等慢性病的流行,队列研究的研究重心已经从传染病问题转移到了与人群健康有关的各种现象。2015年美国政府提出的精确医学计划,其主要内容是,采集100万美国志愿者在10年内的生理和病理数据,以便为健康管理和抗击慢性病提供指导[4]。美国国立卫生研究院在2016年把该项目的名称改为“全民健康研究项目(All of Us Research Program)”,以突出这个项目是关注健康管理和预防疾病。该项目于2018年5月6日正式开放,美国本土18岁以上的居民,不论健康状态,都可以自愿参加这项研究。也就是说,该项目不是流行病学领域一个经过严格设计的队列研究,而是一个没有传统试验设计的真实世界研究。
最近发表的一项研究可以很好地帮助我们理解如何按照真实世界研究模式来开展流行病学研究。该项研究招募了109名具有糖尿病风险的个体,对他们的健康状况进行了长期监测,并在每个季度采集一次这些参与者的转录组、蛋白质组和代谢组等多组学数据,以及生理和生化指标[5]。但是,如果仔细看文章中的数据,这109个参与者的检测情况却都不一样,例如,有的参与者监测时间长达8年,而有的监测时间却很短;为此作者在文中强调“平均监测时间为2.8年”[5]。此外,从文中所标出的各项检查内容可以看到,不同参与者的检查项目往往是不一样的,例如“口服葡萄糖耐量试验”(OGTT)的标注是每年一次,总共检查了94人;71人佩带了监测运动和生理状态的可穿戴传感器,30人佩带了动态血糖监测仪[5]。从该项研究的总结也可以看到,作者把所有参与者的67个有临床意义的结果全都罗列在一张图上,例如,通过可穿戴设备发现有一个人患莱姆病(Lyme disease),通过基因检测发现1人具有“MODY”突变,1人具有“ABCCB”突变等;此外,还发现有18人患有高血压;2人检查到癌前病变;6人患有动脉斑块[5]。显然,这不是一个事先设计好的、具有归一化标准的队列研究,而是典型的“N=1”的个体化真实世界研究,不过是把109个不同的“N=1”集合在一起进行研究和总结。
告别统计学意义
临床试验与一般科学实验的一个重要区别在于,统计学贯穿于整个试验过程,从最初试验方案的设计到最后试验结果的分析。由此形成了一门专门的学科:临床试验统计学。自上世纪80年代起,西方各国陆续颁布了临床试验统计学规范或指导原则。1998年国际人用药品注册技术协调会(International Council for Harmonization,ICH)颁布了一个报告“ICU Harmonized Tripartite Guide Lines: E9 Statistical Principles for Clinical Trials”,成为当今国际上广泛公认的临床试验统计学指导原则。
从这份被业内称为“ICH E9”报告的一些标题中,我们很容易看到统计学在临床试验中所起的作用:“临床试验规范:联合指导”、“临床试验的总体考虑”、“临床试验中对照组的选择”。该报告明确指出:“本指导旨在为申办者就所研究药物的整个临床试验中如何进行设计、实施、分析和评价提供指导”[6]。
为什么统计学在临床试验中特别重要,因为这类试验获得的结果是基于众多个体的试验数据的统计性分析,需要根据科学假设或终点事件等试验预定目标,在试验开始前按照特定的统计学方法来计算试验的样本量和对照类型等,其根本目的是要让试验结果能够进行统计学意义的判定,以此检验结果是否支持一项科学假设,或者判断一个新药是否有效。统计学中一般用P值作为判断标准,P≤0.05或者P≤0.01就有统计上的显著性差异,研究就有统计学意义。因此,随机对照试验等经典的临床试验就是一个“yes-or-no”的二分法世界,按照P值把试验结果分成“统计显著的”——Yes,“统计不显著的”——No。
如此重要的统计学意义最近受到了质疑,尤其是来自统计学家的质疑。美国统计协会曾于2016年在《美国统计学家》上发表声明,强调要避免对统计学意义和P值的误用[8]。2019年3月,《美国统计学家》杂志以“21世纪的统计推断:一个超越了P<0.05的世界”为主题发表了一个有40多篇相关论文的专刊[7]。该刊编辑在介绍这期专刊时候谨慎地提示读者:“不要说统计学意义重大”。与此同时,3名科学家在英国《自然》杂志上联名发表了题为“让统计学显著性退休”的公开信,号召研究者放弃追求“统计学意义”,并且停止用统计学中常见的P值作为终极判断标准[8]。这封公开信征求到了50多个国家超过800名研究者的签名。在他们看来,任何基于统计学意义的结论都是有偏见的。在信中他们提供了对5种学术杂志的791篇论文的分析,发现有一半被判定为“没有统计学意义”的结论是错的[8]。他们指出,这并非要禁止使用统计学意义,而是要“停止采用基于P值的传统二分法来决定一项结果是否定还是肯定科学假设”[8]。
《自然》杂志编辑部针对这封公开信专门发表了一个社论,并特别强调:“在统计学意义之外进行判断可能会让科学变得困难,但是,这也许能够帮助避免假阳性,避免过分夸大的断言,避免对试验效果的忽视”[9]。笔者认为,美国《科学》杂志在2019年6月发表的一篇文章是对这句话一个很好的注释[10]。当前的肿瘤基因组学有这样一个重要观点:促进肿瘤发生发展的“驱动突变”(driver mutations)出现的频率要远高于在肿瘤中没有作用的“过客突变”(passenger mutations)。因此,判别这两类突变的一个基本标准是统计学意义。该文章却指出,许多高频出现的肿瘤突变过去被认定为“驱动突变”,但它们实际上很可能是“过客突变”。该文作者发现,“胞嘧啶核苷脱氨酶”(APOBEC3A)可以专门结合到DNA复制过程中产生的DNA单链茎环(stem-loop)结构,进而产生大量的胞嘧啶突变,其突变概率可比非茎环结构的高200倍;但是,这类胞嘧啶突变与癌症发生并无关联,属于高频的“过客突变”[10]。
对于精确医学而言,告别统计学意义的意义还不仅仅是放弃了简单的二分法标准,而是个体化研究的必然“归宿”。对于那些不设随机对照的临床研究,例如伞型试验和篮型试验,自然不能采用临床统计学规定的P值进行判断。而众多的真实世界研究很多时候也难以采用基于统计学意义的二分法来下结论,例如上文所介绍的那项109个个体的前瞻性研究[5]。显然,对于“N=1”的个体化研究,那就更是远离统计学意义。可以这样说,个体化研究的“初心”就是要告别统计学。
[1] Woodcock J, LaVange, L M. Master protocols to study multiple therapies, multiple diseases, or both. N Engl J Med, 2017, 377:62-70.
[2] Collette L, Tombal B. N-of-1 trials in oncology. Lancet Oncology, 2015, 16:885–886.
[3] Hood L, Price N D. Demystifying disease, democratizing health care. Science Transl Med, 2014, 6:1–3.
[4] Precision Medicine Initiative (PMI) Working Group. The Precision medicine initiative cohort program – building a research foundation for 21st century medicine. 2015, https://www.nih.gov/sites/default/files/research-training/initiatives/pmi/pmi-working-group-report-20150917-2.pdf
[5] Rose SMS, Contrepois K, Moneghetti KJ, et al. A longitudinal big data approach for precision health. Nat Med, 2019, 25:792-804.
[6] 高晨燕,冯毅,陈峰,等. 临床试验的统计学指导原则(I). 中国临床药理学杂志,1999, 15:228-235.
[7] Wasserstein RL, Schirm A, Lazar NA. Am Stat, 2019, https://doi.org/10.1080/00031305.2019.1583913
[8] Amrhein V, Greenland S, McShane B. Retire statistical significance. Nature, 2019, 567:305-307.
[9] Editorials. Significant debate. Nature, 2019, 567:283.
[10] Buisson R, Langenbucher A, Bowen D, et al. Passenger hotspot mutations in cancer driven by APOBEC3A and mesoscale genomic features. Science, 2019, 364, eaaw2872.