在英国流行病学家Austin Hill于20世纪40年代正式提出随机对照试验(RCT)方法的70多年间,RCT重塑了医学知识和实践。从20世纪中期开始,临床研究人员和统计学家努力推广RCT,以减小临床试验偏倚和提高准确性。RCT往往很好地达到了上述目的,但这一“金标准”也显现出许多局限性。
《新英格兰医学杂志》(NEJM)在2016年发表的文章回顾了关于RCT的科学史和政治史所展示的医学和疾病复杂性,以及经济和政治力量对医学知识的生产和传播造成的影响。我们在此分两期介绍这篇论文的主要内容,今天发表上部,10月23日刊登下部。
数千年来,医师和医学研究人员一直试图运用病例报告、病例系列、公开演示、推荐信、临床推理以及偶尔的临床试验来评估治疗干预措施。到了19世纪末,科学在医学中的作用越来越大,医师也以越来越严格的标准开展临床研究。20世纪初,创新者引入了许多旨在消除偏倚的临床试验技术,包括盲法、试验组交替入组和统计学分析。英国流行病学家Austin Bradford Hill于20世纪40年代正式提出RCT方法。幸运的是,英国也在同一时期投资于合作研究,例如提供支持RCT的基础设施。人们最初对RCT褒贬不一。反对者担心拒绝向对照组提供有前景的新干预措施会带来伦理问题。临床试验人员反驳说,RCT可以确定新干预措施是否优于对照组接受的标准治疗。支持者则提出面对20世纪50年代大量涌现的新药(包括抗生素、抗高血压药和抗精神病药),我们亟需通过RCT评估制药商所宣称的药效。RCT支持者逐渐说服了反对者。很快,美国国立卫生研究院(NIH)和其他政府机构像英国一样开始资助RCT(图1)。
图1. RCT的资金来源。
许多早期RCT是由英国和美国政府机构资助。监管机构将临床试验纳入审批标准之后,工业界资助的RCT逐渐增多。与此同时,未披露资金来源的试验数量也在增多。这些趋势只反映了发表的文献,数据来自包含600多项已发表RCT的系统抽样。DHHS表示美国卫生和人类服务部(Department of Health and Human Services)。
然而,RCT在学术和政府圈子之外得到的支持最初很弱。制药商不愿意将资源和时间投入到RCT中,因为他们可以依靠专家推荐信和病例报告宣传药品,宣传的内容还更为广泛。在这一无监管状态下,1961年发生了一场悲剧,当时已被数千孕妇服用的反应停在全球引起了大量死产和短肢畸形。因为这一事件,美国国会于1962年颁布法律(联邦食品、药品和化妆品法案Kefauver–Harris修正案[Kefauver–Harris Amendments to the Food, Drug, and Cosmetic Act]),规定新药必须在“充分且严格对照的研究”中证明有效。到1970年,美国食品药品管理局(FDA)将这一规定解释为新药审批必须有RCT 。这些规定以及二战后美国制药业的发展使美国成为开展RCT最多的国家(图2)。欧洲经济共同体理事会、日本政府和许多国家的监管机构很快也实施了类似法规。随着时间推移,各国监管机构合作建立了临床研究的国际标准,进一步系统化了RCT。而为了遵守法规并在竞争激烈的市场中使新药适应证获得监管机构批准,工业界成为了RCT的主要资助方。到20世纪90年代,工业界已取代政府和医学界成为开展RCT的主要力量(图1)。
图2. 从1946—2015年,RCT研究中心的地点。RCT起源于英国,后来受到美国青睐。第二次世界大战后,美国NIH的资助、制药业的发展和相关法律的通过使美国开展的RCT大幅增多。美国和英国以外的许多试验都是由美国或英国研究人员和资助方牵头,尤其是早年间。随着越来越多的国际监管机构开始在药物审批中要求RCT,RCT逐渐成为全球金标准,试验资助方也变得多样化。与此同时,临床流行病学家提出RCT是使医学更加理性的最佳途径。到20世纪80年代初,他们已将RCT视为医学知识的金标准。随着接下来几十年间循证医学地位的不断提高,方法学金字塔出现了,其中病例报告位于底部,而RCT位于顶部。但RCT从来不是生产医学知识的唯一途径。包括病例系列甚至病例报告在内的旧方法仍然很有价值。观察性研究的新方法不断涌现,例如运用大型患者数据库,在常规医疗中高效比较各种治疗结局。医师除依赖经验数据之外,还依赖生理学原理。冠状动脉成形术和之后崛起的支架并不是因为RCT的成功,而是因为关于这些技术的直觉逻辑和血管造影提供了令人信服的直观证据。即使在RCT成为药物研究的标准方法之后,临床研究人员也很难将其应用于医学其他领域。虽然精神科医师对心理疗法开展了许多RCT,但反对者指出,通过这一方式评估此类高度个体化的长期干预措施并不合适,有时甚至并不可能。一些大规模的心理疗法试验因为方法学问题而受到削弱。此外,因为对精神药物开展RCT比对心理疗法开展RCT更为可行,因此精神药物的证据基础变得更加可靠。尽管上述差异使制药商受益,但却可能导致医师在精神病治疗中采用的方法并不全面。外科手术RCT也面临类似困难。外科医师从20世纪50年代开始进行RCT,例如设立假手术对照,评估胸廓内动脉结扎术对心绞痛的疗效。然而,随着20世纪60年代和70年代外科手术RCT的增多,外科医师越来越认识到它们的局限性:每位患者有独特的病理检查结果,每位外科医师有不同的手术技能,而每台手术在麻醉、术前用药、手术方法、器械和术后护理方面涉及无数选择,这些因素使临床试验要求的标准化难以实现。此外假手术对照不能用于大手术,因此我们没有机会开展盲法试验。关于冠状动脉旁路移植术(CABG)RCT的争论体现了上述问题。在对CABG开展的第一项大规模RCT中,接受CABG的大多数慢性稳定型心绞痛患者并无生存获益。本试验的批评者对其做出猛烈抨击:参与者太健康,外科医师太缺乏经验,手术死亡率太高,统计学分析令人怀疑。著名外科医师提出RCT不适用于外科手术。在CABG开发中发挥了关键作用的René Favaloro认为:“随机试验已达到如此高的科学地位和接受度,以至于它们被赋予了近乎宗教的神圣性...。完全依赖它们可能会很危险。”一个长期存在且可能难以解决的问题是RCT时间跨度和快速创新之间的矛盾。1976年,在人们争论评估CABG的最佳方法时,外科医师抱怨说,“正当我们经过足够长时间,积累了足够数据时,我们发现手术技术已有所改进或药物治疗已发生改变或上述两种情况均有,而我们刚刚得到的结论已不再适用。”大规模RCT的患者招募、随访和分析通常需要多年才能完成。对于快速发展的疗法,RCT结果在发表之前似乎已经过时。当COURAGE试验(采用血运重建和积极药物治疗的临床结局评价,Clinical Outcomes Utilizing Revascularization and Aggressive Drug Evaluation)于2007年表明冠状动脉成形术的疗效令人失望时,该手术的支持者提出,这些结果已不再有意义,因为试验中评估的裸金属支架已被新的药物洗脱支架所取代。这种认为任何创新均具有优越性的逻辑使得临床试验人员必须努力跟上不断出现的创新,类似于进化生物学中的“红皇后”效应。即使是实施情况良好的RCT有时也未能影响医疗实践。20世纪60年代末,精心设计的UGDP试验(大学研究团队糖尿病项目,University Group Diabetes Program)发现抗糖尿病药物甲苯磺丁脲与心血管死亡率增加相关。然而,在人们持续争论试验实施和解读方法的10多年间,甲苯磺丁脲处方却奇迹般地增加了。2002年出现了类似情况,当时公共机构资助的ALLHAT试验(通过抗高血压和降脂治疗预防心肌梗死的试验,Antihypertensive and Lipid-Lowering Treatment to Prevent Heart Attack Trial)表明,在治疗高血压方面,仿制药噻嗪类利尿剂与更新、更贵的钙通道阻滞剂和血管紧张素转换酶抑制剂同样有效。由于这些结果受到制药商和持怀疑态度的医师的质疑,因此新型抗高血压药物的销售量增长速度超过了利尿剂。2002年的另外一项RCT试验(一项假手术对照试验)也挑战了传统观点,该试验表明对膝关节慢性骨关节炎实施关节镜下清创术无益。许多骨外科对这一结果不屑一顾,并继续实施这一手术,尽管结果已得到反复证实。另一方面,一些RCT结果曾被我们当做事实,而之后又被证明缺乏外部效度。开展RCT需解决各种难题,包括设立合适的纳入标准,将干预措施标准化,以及确定最相关的结局。这些局限性促使研究人员寻求其他方法,而其他方法又有其自身局限性。社会和伦理问题也挑战一些RCT的合理性。20世纪80年代末期的艾滋病危机使各种矛盾显现无疑。患者对RCT推迟抗逆转录病毒药获批时间感到沮丧,因此要求在试验完成前获得药物。临床医师感到自己作为医师和科学家的角色存在冲突。激进派赢得了支持,临床研究可以采用更灵活的方法(包括使用替代终点),并且出现了FDA附条件批准以及在试验之外提供药物的平行途径。反对者担心放宽标准会破坏科学的严谨性,而且会鼓励当时在工业界支持下出现的十分危险的放松管制的企图。20世纪90年代爆发了关于在发展中国家开展HIV疗法RCT的伦理争议,尤其是在欧洲或北美使用安慰剂对照不合伦理的情况下,如果一些国家的治疗标准比较低,是否意味着使用安慰剂对照就是合理的。这些争议引起了社会科学家和政策学者的关注。正如社会学家Steven Epstein所指出的,RCT已经成为“谈判可信度、风险和信任的重要场所。”在令人担忧的医疗、社会和政治环境中开展RCT时,它们“非但不能解决争议,反而可能是反映和推动了争议。”历史学家Harry Marks认为,RCT绝不能单纯地理解为科学技术,还须理解为社会事件:“即使最简单的RCT也是经过谈判的社会秩序的产物,充满了决策(有些有争议,有些没有)和未经检验的假设。”尽管设计RCT是为了获得可推广且普遍的生物医学知识,但它们仍与当地社会状况、经济和政治深深纠缠在一起。