抗结核药品临床试验疗效评价指标的研究进展
文章来源:中国防痨杂志, 2021, 43(1): 96-99.
doi:10.3969/j.issn.1000-6621.2021.01.018
基金项目:“十三五”重大新药创制国家科技重大专项(2017ZX09304009);“十三五”重大传染病防治国家科技重大专项 (2018ZXl0302302-004)
作者单位:101149 首都医科大学附属北京胸科医院结核科
通信作者:初乃惠,Email: dongchu1994@sina.com
【摘 要】 评价抗结核药品疗效的方法,需要其指标能准确预测灭菌效果和杀菌效果。传统抗结核药品临床试验Ⅱ期临床试验采用早期杀菌活性和痰分枝杆菌培养阴转预测杀菌效果和灭菌效果,Ⅲ期临床试验用已治愈且无复发来评价疗效。新的研究显示,痰培养阴转速度、CT和正电子发射体层摄影(positron emission tomography,PET)-CT病灶定量分析和GeneXpert MTB/RIF的循环阈值在预测抗结核药品疗效方面有一定价值。
【关键词】 抗结核药;临床试验, Ⅱ期;临床试验, Ⅲ期;药物评价, 临床前
目前,结核病仍是人类健康的重大威胁,有效地遏制疫情迫切需要能缩短疗程和有效解决耐药结核病问题的新药和新方案。由于结核分枝杆菌在体内存在着多种不同的生长状态,抗结核药品治疗既需要具备快速杀死快生长细菌的杀菌能力,也需要消灭缓慢繁殖细菌的灭菌能力。目前的抗结核药品疗效评价方法还缺乏能准确预测杀菌效果和灭菌效果的方法,迫切需要优化抗结核药品疗效评价指标。
一、 疗效评价指标概述
自20世纪英国医学研究会发起的东非结核病短程化疗研究后,包括随访期的“治愈且无复发”成为公认的抗结核药品疗效评价终点指标,这意味着除标准抗结核药品疗程外,新药研究还要经历≥1年的随访期评价复发率,进一步增加了新药研究的成本。因此,研究者探索能在早期反映抗结核药品疗效的替代指标,以期能尽早反映疗效。一个好的替代指标应该与公认的疗效评价指标有很好的相关性,而且具有可重复性和可行性。如果一个替代指标敏感度低,则可能得出治疗无效的结论,导致一个原本有效的药品或方案被弃用,而替代指标特异度低则会高估治疗效果,使一个原本无效的药品进入后期的临床试验,造成资源浪费。
二、目前的疗效评价指标
目前在抗结核药品的临床研究中,以早期杀菌活性 (early bactericidal activity,EBA)作为Ⅱa期疗效标准,以治疗后痰培养阴转作为Ⅱb期疗效评价标准,而以治愈后无复发作为Ⅲ期疗效标准,这些标准的制定对抗结核药品的研发起到巨大推动作用,但是,也存在不足之处。
(一)Ⅱa期的疗效评价指标
EBA是美国食品药品监督管理局(FDA)批准的抗结核药品Ⅱa期临床试验疗效评价标准。最早由Jindani等在20世纪70年代提出,他们研究了26组不同的药品组合,每种药品组合纳入4例患者。搜集患者治疗前和治疗过程中12 h过夜痰,用每天每毫升log菌落形成单位(CFU)log值的下降来代表EBA,其单位为 log 10 CFU·ml^-1·d^-1,反映抗结核药品对细菌的杀菌作用,一般观察0~14 d细菌量的下降程度。EBA0~2表示使用药品前2 d的细菌量下降程度,异烟肼的EBA0~2最大,EBA0~2为1意味着在用药2 d痰细菌量下降90%。
但是,EBA也存在缺陷。如吡嗪酰胺EBA很弱,如果使用EBA为疗效替代指标评价吡嗪酰胺的抗结核活性,可能吡嗪酰胺会被弃用,而且,EBA只能反映早期杀菌活性,而不能反映灭菌活性。在TMC207(即Bedaquiline,贝达喹啉)Ⅱa期临床试验,使用TMC207的患者细菌量开始下降的时间晚于使用异烟肼和利福平,7 d内细菌量下降的程度也小于使用异烟肼和利福平的患者,导致TMC207在Ⅱa期临床试验结果欠佳,几乎被放弃。由于痰标本采集方法和痰标本中唾液的比例不同,同一药品在不同患者中EBA也可能有差别,解释EBA结果时也需要注意这种方法上的缺陷。
(二)Ⅱb期的疗效评价指标
分枝杆菌培养长期被用于抗结核药品的Ⅱb疗效评价。美国FDA也认可痰培养阴转作为抗结核药品疗效评价的可靠性,尽管这个疗效评价指标并不完美。美国FDA指出“痰培养阴转在较大程度上可以预测治愈”,据此,在完成Ⅱb期临床试验后,贝达喹啉2012年被美国FDA批准上市,德拉马尼在2013年被欧洲药品管理局批准上市。
1. 第2个月的痰分枝杆菌培养阴转预测治疗敏感肺结核的预后。20世纪90年代,Mitchison最早提出在抗结核药品临床试验中以第2个月痰分枝杆菌培养阴转作为疗效评价的指标;以后在相当长一段时期,治疗第2个月痰分枝杆菌培养阴转成为评价抗结核药品疗效的重要标准。但是,患者痰培养阴转也受患者肺结核的病变范围、是否并发HIV感染等因素影响,存在痰培养阴转慢但最终又临床治愈的患者。另一方面,第2个月痰培养阴转并不能预测复发。以REMoxTB(rapid evaluation of moxifloxacin in the treatment of sputum smear positive tuberculosis)为代表的缩短治疗敏感肺结核疗程的临床研究显示,第2个月末痰分枝杆菌培养阴转并不能很好地预测复发。尽管含莫西沙星的短疗程治疗方案在治疗第2个月后有更高的痰分枝杆菌培养阴转率,但由于复发率较高,非劣性分析并不支持其替代标准的6个月治疗方案。一项汇集28项初治肺结核治疗的Meta分析显示:以第2个月分枝杆菌培养阴转预测复发的敏感度和特异度分别为40%(95%CI:25%~56%)和85%(95%CI:77%~91%),作者指出,该研究所纳入的研究结果高度相似,提示以第2个月分枝杆菌培养阴转预测复发的准确性欠佳,还需要有更好的替代指标来预测抗结核药品治疗的预后。
2. 第6个月的痰分枝杆菌培养阴转预测治疗耐多药结核病(MDR-TB)的预后。由于MDR-TB缺乏有效的抗结核药品,痰分枝杆菌培养阴转速度更慢,显然以第2个月的痰培养阴转作为疗效评价指标其敏感度偏低。研究者对不同时间点痰培养阴转作为预测疗效的准确性进行了研究。Kurbatova等对1712例MDR-TB的疗效研究显示,以第2个月痰培养阴转预测MDR-TB治愈率的敏感度仅27.3%(95%CI:16.6%~41.4%),特异度为89.8%(95%CI:82.3%~94.4%),但以第6个月痰培养阴转预测MDR-TB治愈率的敏感度可达91.8%(95%CI:85.9%~95.4%),特异度为57.8%(95%CI:42.5%~71.6%)。因此,对MDR-TB患者,选择相对较晚期的分枝杆菌培养结果作为疗效评价标准准确性更高。但是,应该注意到以6个月痰培养阴转作为疗效评价指标不利于在较早期预测预后。目前已完成的贝达喹啉、德拉马尼、利奈唑胺的Ⅱb临床试验研究终点为治疗后2~6个月不等。
以固体培养基培养阴转还是液体培养基培养阴转作为研究终点,是预测疗效的另一个重要问题。液体培养基自动化程度高,能检测出少量的细菌。在德拉马尼的Ⅱb期临床试验,治疗8周后痰固体培养基培养阴转率为53.8%(德拉马尼 200 mg/d)和65.2%(德拉马尼 400 mg/d),明显高于自动化液体培养基培养阴转率(德拉马尼 200 mg/d组为45.4%,德拉马尼 400 mg/d组为 41.9%)。在目前已发表的Ⅱb期临床试验,利奈唑胺的研究以固体培养基培养阴转作为主要研究终点,德拉马尼和贝达喹啉均以液体培养基培养阴转作为主要研究终点。
(三)Ⅲ期临床试验疗效评价指标
世界上第一个随机对照临床试验研究链霉素治疗结核病的效果,研究终点为特定时间点患者的死亡率,在对氨基水杨酸(PAS)问世后研究终点调整为患者症状减轻;随着利福平应用于临床,患者的治愈率大大提高,从东非临床试验结束后,临床试验的研究终点转变为随访期无复发的治愈率,即排除治疗失败和随访期复发后的患者治愈率。新发表的Nix-TB(new investigational drugs for XDR-TB)研究,则以治疗结束6个月后不利结局为主要终点,即治疗失败和复发等情况,可以认为是另一种方式研究无复发的治愈率。
疗效评价指标不利结局包括治疗失败和复发。对于治疗失败WHO有明确的定义,即在疗程结束时患者痰菌仍未阴转,往往与治疗方案不合理、患者依从性不佳及患者的个体差异相关;复发患者应区分内源性复发和外源性再感染,临床试验如果不加区分内源性复发和外源性再感染会低估抗结核药品治疗的效果。一般认为,内源性复发是由于未能彻底清除持留菌;持留菌可能位于坏死区,其代谢不活跃或对抗结核药品不敏感。在结核病高负担国家,结核病再感染相对常见。南非一项研究回顾性分析了1996—2008年间开普敦市复发的结核病患者,对130例获得匹配DNA的患者进行分析,发现其中64例(49%)属于内源性复发,66例(51%)属于再感染,而且在第一年中有20.5%(9/44))再次感染。中国高谦团队报道,在复发肺结核患者中,再感染者占59.3%~80%。因此,尤其是在结核病高负担国家,抗结核药品Ⅲ期临床试验疗效评价应排除疗程结束随访过程中外源性再感染的患者。在STREAM(standard treatment regimen of anti-tuberculosis drugs for patients with MDR-TB)的研究中,以随机化分组132周后的无复发治愈率作为疗效评价标准,而且主要分析[即修改后的意向性分析(modified intention-to-treat)]排除了疗程结束后随访过程中再感染的患者。
三、抗结核药品的疗效替代终点
研究者也一直致力于优化抗结核药品的疗效评价标准,尤其是近年来,随着影像学技术和分子生物学技术的进步,对新技术用于预测抗结核药品疗效进行了大量有价值的探索。
1. 培养阴转速度:痰培养阴转速度可以反映杀菌能力,也曾作为抗结核药品临床试验的疗效评价标准。在REMoxTB的研究中发现,与对照组相比,含莫西沙星方案组痰培养阴转速度更快,但是各组患者在治疗2个月痰培养阴转率差异无统计学意义。如果仅从2个月痰培养阴转率分析,含莫西沙星组的结果无疑是令人失望的,似乎使用莫西沙星并不像动物试验和早期杀菌活性研究显示的那么有效,然而,莫西沙星可早期更快地杀灭细菌,有可能成为缩短疗程方案的一个重要组成药品。但是,部分需要更长时间才能痰培养阴转的患者可能并不能从使用莫西沙星中获益。在贝达喹啉的临床试验中,由于贝达喹啉的Ⅱa期临床试验未能发现其良好的EBA,所以Ⅱb期的临床试验分为2个时期;在第1期的临床试验,以痰培养阴转时间作为主要疗效观察指标,发现含贝达喹啉的试验组较不含贝达喹啉的对照组具有更快的痰菌阴转速度,在此基础上才开展了第2期的临床试验。在德拉马尼获批上市后的临床试验,比较了试验组和对照组痰分枝杆菌阴转速度的差别,发现两组之间差异无统计学意义。可能由于该研究背景方案中抗结核药品的作用较强,增加德拉马尼并不能明显缩短培养阴转的时间。
2. CT 和正电子发射体层摄影(positron emission tomography,PET)-CT病灶定量分析:在过去的几十年里,研究者一直认为早期影像学改变可以预测肺结核治疗效果。研究发现,并发肺部空洞和病变广泛往往与预后不良相关。有报道在抗结核药品治疗过程中治疗有效往往伴随树芽征和胸腔积液的消失,以及纤维病灶出现等变化。但是,基于肺癌等疾病的研究显示,对于患者影像学特点的描述,相同研究者不同时间和不同研究者相同时间的描述存在差异。Chen等使用软件对病灶硬病变(即HU<-100的病灶)容积进行定量分析,以硬病变容积变化作为疗效评价标准,发现2个月的CT改变(敏感度为79%,特异度为75%)和6个月的CT改变(敏感度为96%,特异度为75%)较2个月时培养阴转(固体培养基敏感度为79%,特异度为50%;液体培养基敏感度为58%,特异度为50%)更能准确预测最终治疗效果,但是由于该研究治愈的患者为24例,治疗失败的患者仅4例,还需要更大的样本来评价其效果。
胸部CT扫描可以提供基于不同CT值(HU值)的病变结构性数据,PET-CT除了结构性数据外,还可以提供哺乳动物炎症细胞(结核病主要是巨噬细胞和中性粒细胞)摄取2-脱氧-2-氟-D-葡萄糖(FDG)的功能性数据,作为治疗缓解的早期指标和治疗结束后的复发指标。在对猕猴的相关研究中,PET-CT改变与结核活动和治疗好转相关。多数耐药结核病患者病程较长,肺部出现相对陈旧的病灶,基于CT值的分析病灶在抗结核药品治疗后变化不大,但经过有效的治疗后PET检测会较早出现变化。Chen等分析了甲硝唑治疗耐多药肺结核随机临床试验的PET-CT检测数据,包括治疗前和治疗第2个月PET-CT检测数据,治疗前、治疗第2和6个月的高分辨率CT检测数据,将病灶变化定量分析后与治疗30个月(即治疗结束后6个月)时的最终疗效对比。发现2个月的PET改变(敏感度为58%,特异度为75%)和6个月时CT改变(敏感度为96%,特异度为75%)较2个月痰培养阴转(固体培养基敏感度为79%,特异度为50%;液体培养基敏感度为79%,特异度为50%)更能预测最终疗效,但是差异没有统计学意义。作者也指出,考虑到在治疗2个月PET-CT和固体培养基痰培养阴转敏感度的差异,以他们研究的样本量,检验效能只有32%,而如果治愈的患者例数增加到60例,则相同结果的检验效能可以达到90%。PET-CT作为临床试验中的疗效替代终点还需要大样本队列研究予以验证。
3. GeneXpert MTB/RIF(简称“GeneXpert”)的循环阈值:培养进行疗效评价需要时间长达6周,GeneXpert作为一种可以快速进行疗效评价的方法也进入研究者视线。该检测基于聚合酶链反应,同时诊断标本是否存在结核分枝杆菌DNA和利福平耐药基因,可以在2 h内直接获得检测结果,并记录获得阳性所需的循环阈值。早在GeneXpert用于结核病诊断时,有研究者就报道GeneXpert的循环阈值与细菌量相关。Friedrich等研究显示,GeneXpert检测结果与痰涂片和培养结果相关,在治疗期间痰GeneXpert检测阴转较痰涂片和培养结果下降更缓慢。以涂片结合培养的检测结果为金标准,GeneXpert检测预测疗效的敏感度高达 97.0%(95%CI:95.8%~97.9%),但特异度只有48.6%(95%CI:45.0%~52.2%),主要由于无法区分活菌和死菌。
在南非开普敦,有108例敏感肺结核患者参加的研究中,在6个月治疗期间采集痰标本后,使用液体培养基培养,并采用GeneXpert检测,记录GeneXpert检测循环阈值。与Friedrich等研究类似,GeneXpert检测多次阴性(GeneXpert 循环阈值≥30)与相同时间点的分枝杆菌生长指示管(Mycobacteria Growth Indicator Tube,MGIT)培养阴性相关。以培养为金标准,第24周GeneXpert检测循环阈值为30时预测治愈的敏感度和特异度分别为89%和88%,优于第8周MGIT培养阴性(敏感度为61%,特异度为50%)。这些结果提示,稍后期的GeneXpert检测循环阈值可能比较早期的分枝杆菌培养,能够更有效地预测疗效。与培养相比, GeneXpert的主要优势在于只需2 h即可获得结果,而培养则需要6周。因此,GeneXpert检测的循环阈值可能有一定应用价值。
但是,使用GeneXpert不能区分死菌和活菌,对疗效判定造成一定不利影响。Malherbe等在南非进行的研究对一组敏感肺结核疗程结束后进行了1年的随访,发现在治疗6个月后,8例治疗失败的患者7例GeneXpert检测阳性,12例复发的患者6例阳性,即便治愈的76例患者仍有16例GeneXpert检测阳性,意味着GeneXpert预测治疗失败或复发存在一定局限性。
目前的抗结核药品疗效评价方法有待优化,尤其是目前的Ⅱ期临床试验不能很好地预测治疗失败和复发。主要原因可能是EBA和痰培养阴转等方法只能检测易于咳出体外病变处的细菌,而不能检测肉芽肿、结节和空洞壁的细菌,而清除这样的细菌有赖于治疗方案有良好的药代动力学特性。未来的临床试验可能通过病灶定量分析和细胞因子的变化,结合传统的疗效评价指标,提供新的抗结核药品疗效评价方法。
参 考 文 献 略
注:除非特别声明,本公众号刊登的所有文章不代表中国防痨协会及《中国防痨杂志》期刊社的观点。
编辑:郭 萌
审校:范永德
往 期 回 顾