编者按:临床预测模型作为临床研究的“高阶玩法”,不仅仅是发表高分SCI文章的热门选择,更是改变临床实践的重要途径。随着临床预测模型热度日渐上升,很多团队都在尝试建立各类疾病诊断/治疗的预测模型,但经常遭遇准确性低或应用不便等“拦路虎”。在此背景下,《临床预测模型构建方法学》应运而生。本书由30余位临床统计高手合力编著而成,是一本拿来即用的“实战指南”。在新书即将正式发售之际,AME科研时间将节选部分精彩篇章以飨读者。今天带来临床预测模型构建系列方法学文章的第一章——临床预测模型构建理论与实践。本章主要介绍临床预测模型概念、应用现状、构建方法与流程、临床预测模型分类、开展此类研究必要条件以及目前面临的问题。第一章 临床预测模型构建理论与实践周支瑞,金恺睿,王绍佳,李博,张天嵩一、背景知识对一个医生来说,如果可以具备某种“特异功能”预测患者是否会发生某种未知结局,那么很多医疗实践模式或临床决策会因此改变,而这样的需求实在是太旺盛,几乎每天我们都会听到这样的感叹“如果我能事先知道,我一定不会这么做!”。比如,如果我们能够预测某恶性肿瘤患者对某种化疗药物耐药,那么我们不会选择让患者继续使用这种药物;如果我们能够预测某个患者术中可能发生大出血,那么我们一定会在手术过程中小心翼翼并备有充足的血液制品供患者使用;如果我们能预测一个高脂血症患者不会从这种降脂药物中获益,那么我们就可以避免很多毫无意义的医疗干预……临床预测模型作为风险与获益评估的量化工具,可为医生、患者以及卫生行政人员的决策提供更为客观、准确的信息,因此其应用也越来越普遍。在这种刚需下,临床预测模型类研究方兴未艾。当下医学模式从经验医学发展到循证医学,再发展到精准医学,数据的价值得到前所未有的重视,大数据时代数据的获取、存储以及分析与预测技术的迅速发展使得个性化医疗的构想越来越成为可能[1]。从医疗实践的模式更迭发展的角度讲,准确预测某个临床结局发生的可能性也是当下精准医学模式的内在要求。本文将从临床预测模型的概念、应用现状、构建方法与流程、临床预测模型分类、开展的必要条件与目前面临的问题等进行总结。二、临床预测模型基本概念临床预测模型(clinical prediction model),是指利用参数/半参数/非参数的数学模型估计研究对象当前患有某病的概率或者将来发生某种结局的可能性[2-5]。由此可以看出,临床预测模型是通过已知特征来预测未知,而模型就是一个数学公式,也就是把已知的特征通过这个模型计算出未知结局发生的概率。临床预测模型一般就是通过各种回归分析方法建模,而回归分析的统计学本质就是发现“量化的因果关系”。简单讲,回归分析是一种X多大程度上影响Y的量化刻画。常用方法包括线性回归模型、Logistic回归模型、Cox回归模型等。其中预测模型效能评价与验证是统计分析、数据建模、课题设计的关键所在,也是数据分析技术含量最高的部分。依据研究的临床问题,临床预测模型包括:诊断模型(diagnostic model)、预后模型(prognostic model)和用于预测疾病是否发生的模型(disease occurrence model)[3]。而从统计学角度讲,临床问题的结局Y只要可以用特征X进行量化刻度,均可构建预测模型。诊断模型关注的是基于研究对象的临床症状和特征,诊断当前患有某种疾病的概率,多见于横断面研究;预后模型关注的是在当下的疾病状态下,未来某段时间内疾病复发、死亡,伤残以及出现并发症等结局的概率,多见于队列研究;还有一类研究根据研究对象的一般特点预测未来是否会发生某种特定的疾病,也常见于队列研究。诊断模型、预后模型与疾病发生模型有很多相似之处:他们的结局多为二分类资料;研究的效应指标均为结局出现的绝对风险,即发生的概率,而非相对危险度(relative risk,RR)、比值比(odds ratio,OR)或者风险比(hazard ratio,HR)等相对风险效应指标;在模型的技术层面,也都面临预测因子的选择、建模策略的制订、模型性能的评价与验证等环节。三、临床预测模型的应用场景正如前文背景知识中描述的那样,临床预测模型在医学研究与医疗实践中应用非常广泛。借助临床预测模型,临床研究者可以更精准地筛选合适的研究对象,患者可以做出更有利于自己的价值选择,医生可以更好地作出医疗决策,卫生管理部门也可以更好地监督和管理医疗服务质量、更合理地配置医疗资源。临床预测模型的作用几乎体现在疾病的三级预防体系中任何一个环节:(1)疾病的一级预防。临床预测模型可以给患者和医生提供基于当前的健康状态、未来患有某病的量化风险值(概率),为健康教育和行为干预提供更直观、有力的科学工具。例如,基于弗明汉心脏病研究(Framingham Heart Study)的Framingham心血管病危险评分就明确了降低血脂、血压可以预防心肌梗死[6]。(2)疾病的二级预防。诊断模型常借助无创、低成本、易采集的指标,构建高灵敏度和特异度的诊断方案,践行“早发现,早诊断,早治疗”的疾病预防理念,具有重要的卫生经济学意义。(3)疾病的三级预防。预后模型可对疾病的复发、死亡,伤残以及发生并发症的概率给出量化的估算,从而指导对症治疗和康复方案的制订,防止疾病的复发,降低病死率,减少伤残,促进功能恢复,提高生存质量。临床上已有多个成熟的预测模型,如大家比较熟悉的Framingham、QRISK、PROCAM、ASSIGN评分等。恶性肿瘤TNM分期系统也是一种最具代表性的预测模型,TNM最大的优势在于简便而更新速度快,最大的问题在于预测还不够准确,与临床医生的期望值相去甚远。临床实践中需要运用预测工具的远不止预测疾病发生或预测患者的预后,如果我们可以提前预知患者的某种疾病状态,比如对于肝癌患者,如果可以提前预测其是否有微血管浸润,那对于外科医生来讲,可能会采取完全不同的处理方式,或标准切除或扩大切除。局部晚期伴有淋巴结转移的中低位直肠癌术前新辅助放化疗是标准治疗手段,但在临床实践过程中发现术前根据影像检查结果判断的淋巴结状态不够准确,假阳性或假阴性比例偏高,是否可以根据放化疗前的已知特征准确预测患者的淋巴结状态?这些临床问题或可通过构建一个合适的预测模型解决。四、临床预测模型的研究思路临床预测模型并非单纯拟合一个统计模型那样简单。从模型的建立、验证、评价到应用,临床预测模型有一套完整的研究流程。多个学者都曾讨论过临床预测模型的研究思路[2,7-10]。Heart杂志最近发表了一篇综述,作者以心血管风险评分(cardiovascular disease risk factor)为例探讨了如何借助可视化图形优势构建疾病的预测模型,并提出了6个重要步骤[11]:(1)选择一组预测变量作为潜在心血管疾病影响因素纳入风险评分中;(2)选择一个合适的统计模型来分析预测变量和心血管疾病之间的关系;(3)从已有的预测变量中,选择足够重要的变量纳入风险评分中;(4)构造风险评分模型;(5)评价风险评分模型;
(6)在临床实践中解释风险评分的使用。笔者综合文献报道及个人研究经验,总结了临床预测模型构建与评价流程如图1-1所示。图1-1 临床预测模型构建与评价流程图(一)临床问题确立与研究类型选择临床预测模型可回答疾病的病因、诊断、患者对治疗反应或预后相关问题,不同问题需采用不同的研究设计类型。例如,对于病因研究类问题,可以采用队列研究设计,根据潜在病因预测是否发生疾病;对于诊断准确性类问题,其预测因子与结局均在同一时点或很短的时间内,适合采用横断面研究设计;预测患者对治疗的反应可采用队列研究设计或者随机对照试验(randomized control trial,RCT);对于预后类问题,其预测因子与结局有纵向的时间逻辑,适合采用队列研究设计。评估病因的队列研究需要合理选择研究对象并控制混杂;诊断模型研究中,需要有“金标准”即参考标准来独立诊断疾病,且参考标准的诊断最好在盲法状态下进行,即参考标准的诊断不能借助预测模型中的预测因子信息,以避免诊断评估偏倚(diagnostic review bias)。评估患者对治疗反应属于干预性研究范畴,同样需要合理选择研究对象,控制非试验因素的干扰;预后模型研究中,预测因子与结局是纵向关系,且研究者通常希望获得自然状态下疾病的转归,因此前瞻性队列研究是预后模型最佳的研究设计类型,而回顾性队列研究更常见,主要原因是回顾性数据集获取更便利。(二)设计与实施方案制订,数据收集与质控良好的研究设计与实施方案是必需的,首先需要通过文献调查以确定拟构建预测模型数量:(1)目前有关某一特定临床问题没有预测模型,构建一个新的模型,一般需要训练集建模,验证集验证模型的预测能力。(2)目前已有某一特定临床问题预测模型,再构建全新的模型,训练集构建新预测模型,同一验证集分别验证已有模型与新模型的预测能力。(3)对已有模型进行更新,在同一验证数据集中对两个模型的预测能力进行验证。关于训练数据集与验证数据集的产生,可以前瞻性收集数据也可回顾性收集数据,前瞻性收集的数据集质量更高。对于建模人群,我们希望样本量尽量大。若为前瞻性临床研究,则应从研究方案、研究者操作手册、病例报告表、伦理批件等相关文件的准备开始,并进行数据收集的质控与管理;若为回顾性收集数据,也应对数据质量进行评估,对异常值进行识别,对缺失值进行适当的处理,比如填补或者删除等。最后根据实际情况确定用于建模的训练数据集,用于验证模型的验证数据集。有时,囿于各种现实情况,我们仅能在同一个数据集中进行建模、验证,这也是允许的,但模型的外部适用性会受到一定程度影响。(三)临床预测模型建立与评价建立预测模型前,应明确已知的、既往文献报道的预测变量,确定筛选预测变量的原则及方法,确定选用数学模型的类型。通常为Logistic回归模型或Cox回归模型等参数或半参数模型。有时也会用到机器学习的一些算法用于建立模型,这类机器学习模型算法构建的模型多半是非参数的,因为没有类似回归系数一样的参数(注:有专家提出,机器学习算法可以有参数模型),所以这类非参数模型的临床解释较困难。然后拟合模型、估算模型参数。需事先确定预测模型的呈现形式,目前比较常用的预测模型的形式有4种。(1)公式:直接使用数学公式作为预测模型工具。(2)列线图Nomogram:把回归模型的回归系数经过合适的数学运算转化变为分值,并绘制为列线图作为预测模型工具。(3)网页计算器:本质也是把回归模型的回归系数经过合适的数学运算转变为分值,并制作成网页形式,在线使用。(4)评分系统:把回归模型的回归系数经过合适的数学运算转化为可量化的评分系统。第一种形式主要是针对线性回归这种确定型回归的,后几种形式均是基于参数或者半参数模型的,其统计学本质都是模型参数的直观呈现,研究者可根据实际情况作出选择。模型构建完成后,如何评估模型的优劣?模型的评价与验证体现更高的统计分析技术含量。比如,对预测模型的区分度(discrimination)、校准度(calibration)、临床效用等指标进行评估,判断预测模型的性能。(四)临床预测模型验证预测模型的效果很有可能因场景、人群的改变而变化。因此,完整的预测模型研究应包括模型的验证。验证的内容包括模型的内部效度和外部效度。内部效度体现模型的可重复性(reproducibility),利用研究项目本身的数据通过交叉验证(cross-validation)、bootstrap等验证方法来回答;外部效度体现模型的普遍性(generalizability),需利用研究项目本身以外的数据,从时间上、地理上独立或者完全独立的数据集来回答。模型内验证与外验证是判断模型的稳定性与适用性的必需步骤。内验证数据集与外验证数据集既要有异质性,又不能达到一定程度。一般用本单位数据作为训练集建模或者随机选择一部分内部数据集作为内验证,选择外单位的数据集作为外部验证数据集。当然最好是做外部数据集验证。下面给大家介绍几个内部效度验证的方法。(1)半分法:把现有的数据随机分成两部分,一部分用于建立模型,另外一部分用来验证模型。通过半分法把数据分成两部分,进行“内验证”,但由于只有一半的数据用来建立模型,模型相对不稳定。对于样本量较小的研究不适合使用。(2)交叉验证法:这种方法是半分法的进一步演化,常见的有半折交叉验证法和十折交叉验证法。半折交叉验证法即将原数据分为两部分,两部分数据相互依次作为建立模型和验证模型的数据,互相验证。十折交叉验证法即把数据分成10部分,用其中9部分数据构建模型,另外1部分做验证,这样依次做10次模型构建和验证,可得到相对稳定的模型参数。(3)Bootstrap法:常规的Bootstrap内部效度分析的做法是在原数据集中随机可放回抽样一定的病例用于建立模型,再使用原数据集进行模型的验证;如此做500~1000次随机抽样、建立模型、验证模型的工作,可以得到500~1000个模型,总结模型的参数分布情况,确定最终的模型参数值。Bootstrap法是近年来发展较快的一种方法,该方法在计算机计算量提升的背景下出现。有研究证明,该方法得到模型稳定性高于前面两种方法,可以推广应用到预测模型的内部效度分析中。当然如果条件具备,我们还是尽可能对所有的预测模型做外部验证,以提高模型应用的外部适用性。(五)评估临床预测模型的临床效用临床预测模型的最终目的在于应用临床预测模型是否改变了患者的行为、改善了患者的结局或者成本效应,这也是临床预测模型的临床效应研究。从方法学角度,一般会根据预测模型对训练集与验证集按照新的模型进行划分。比如,对于预测二分类结局,要看预测模型是否具有较好的敏感度与特异度;对于预测生存结局,一般会看是否可以根据预测模型把患者划分为预后良好和预后不良,比如通过Nomogram计算每一个研究对象的得分,按照某个截断值把患者划分为预后良好和预后不良,然后绘制Kaplan-Meier生存曲线。决策曲线分析法(decision curve analysis,DCA)也是目前用于预测模型临床效用评估的一种常用方法。从预测模型构建的最终目的与试验设计角度讲,最好的临床效用评估需要设计随机对照试验,且通常为整群随机对照试验来评估使用或者不使用预测模型是否可以改善患者预后,降低医疗成本等终极评价指标。(六)临床预测模型的更新即便是经过良好验证的临床预测模型,由于疾病危险因素、未测量的危险因素、治疗措施以及治疗背景等随时间变化,模型性能也会因此下降,即校准度漂移(calibration drift)。因此,临床预测模型需要不断进化、动态更新。比如最常使用的恶性肿瘤TNM分期系统需要经常更新,就是这个缘故。五、从临床医生的角度看目前的临床预测模型类研究分类(1)运用传统的临床特征、病理学特征、物理检查结果、实验室检查结果等构建预测模型,这一类模型中的预测变量均是临床获得较为方便的特征,可行度大。(2)随着影像组学相关研究方法的成熟,越来越多的研究者意识到,影像学的某些表现或者参数代表着某种特定的生物学特点。利用这些海量的影像学参数,不管是彩超或是CT或是MR或是PET的参数联合临床特征构建预测模型往往能进一步提高预测模型的准确度。这一类的方法的特点是需要在筛选影像组学特征的基础上建模,前期工作量较第一种方法大很多,需要影像科与临床科室密切配合。(3)随着基因组学,蛋白组学等高通量生物技术的广泛应用,临床研究者试图从这些海量的生物信息里挖掘用于构建预测模型的特征生物标志物。这类预测模型,是基础医学向临床医学转化的一个很好的切入点,但这类研究需要较好的财力物力支撑,但科研的投入与产出是成正比的。舍得投入财力做组学分析的研究如果很好地转化于临床,一般发表的文章影响因子都很高。此外,必须获得生物样本,否则这类研究就是“无本之木,无源之水”。六、从临床医生角度看临床预测模型类研究开展的必要条件(1)数据库构建是核心竞争力。构建单病种的随访数据库,尽可能完备收集患者信息,包括但不局限于人口学特征、既往史、家族史、个人史等;疾病相关的信息,如治疗前重要的物理与实验室检查结果,疾病严重程度,临床分期,病理分期,组织学分级等;疾病治疗相关信息,比如手术方式,放化疗方案,剂量与强度等;患者治疗的转归,对于肿瘤患者来讲,临床转归是需要随访获得的,而且需要持之以恒的随访,这是一项极其艰巨和复杂的工作;其他信息,如果有也应该纳入数据库,比如基因检测信息等。(2)获得必要的数据集。从既往发表的预测模型文章看,大部分基于回顾性数据集,少部分基于前瞻性数据集。这类研究相较于RCT容易开展,属于现在谈论得比较多的真实世界研究范畴。真实世界研究与RCT研究,二者应该是临床研究王冠上的两颗明珠,交相辉映。以前过分强调RCT的重要性,忽视了真实世界数据的巨大价值。RCT数据质量无疑是最高的,但这是经过严格筛选的数据,证据外推受到限制;而真实世界数据来自日常的临床实践,更能全面反映临床干预的疗效,证据具有更好的外部适用性。但真实世界研究最大的问题是数据质量参差不齐,混杂因素多,而且不易识别,因此需要使用较为复杂的统计方法从纷繁复杂的混杂因素中寻找真相。披沙拣金不易,深厚的统计学功底犹如披沙拣金的筛子。我们需要明白,混杂因素是客观存在的,因为任何临床结局的发生不可能是单因素作用的结果。校正混杂因素有两个层面:一是在试验设计阶段校正,这是顶层的校正方法,比如通过对足够的样本量随机分组就能实现组间混杂因素的均衡,这也是为什么RCT大行其道的原因,只要样本量足够,随机化正确,后面一劳永逸;二是通过统计方法后效校正,这是后效的方法,显然不如RCT校正得彻底,但第二种情况更接近临床实践的真实情况。(3)样本量。正是由于这种真实研究的混杂因素较多,需要有一定的样本量才能达到足够的统计学效能去甄别混杂因素对结局的影响。通过多因素分析筛选变量,一个简便而可行的原则是,如果在多因素分析中考量一个变量,那应该有20个发生终点事件的样本,所谓1:20原则。(4)临床科研洞察力。临床预测模型构建是用来解决临床问题的,所以能够发现有价值的临床问题,这是一种广泛阅读文献并在临床实践过程中慢慢积累的洞察力。七、临床预测模型开发目前面临的问题(1)临床应用转化率低。预测模型的临床应用需要在两个方面做出平衡:模型的准确度与模型的简便性。大家试想一下,如果现在有一个模型和TNM分期一样运用简便,但比TNM分期预测更准确,大家会做出怎样的选择?(2)大部分临床预测模型基于回顾性数据集构建与验证,未在前瞻性数据中开展验证工作,模型预测结果的稳定性较差。(3)大部分临床预测模型的验证基于内部数据验证,多数文章只有一个数据集,或者即便两个数据集,一个建模一个验证,但这两个数据集往往来自研究中心内部。如果能把预测模型的验证工作进一步延伸到外单位的数据集,那模型的应用价值将得到大大拓展。这项工作的难度很大,需要多中心合作。而且国内绝大部分中心没有完善的数据库可供验证,这又回到前面讨论的有关“数据库重要性”的话题。八、讨论与总结临床预测模型的初衷是借助少量的、易收集的、检测成本低廉的预测因子来预测疾病的状态和预后。因此,大多数预测模型都是短小精炼型的。这在信息技术不发达,数据收集、存储、分析成本高的时代是科学而理性的。但随着经济的发展,技术的进步,数据的收集、存储成本大大降低,数据分析技术日益提高,临床预测模型也应突破固有的观念,采用更大量丰富的数据(大数据),复杂的模型和算法(机器学习、人工智能),以更精准的结果服务于医生、患者以及医疗决策者。此外,从一个临床医生开展临床科研的角度讲,开展临床预测模型类研究应该把握以下4点原则:(1)构建更好用的临床预测模型也是精准医学的内在要求。(2)如何获得高质量数据,数据库构建才是核心竞争力,预测模型只是技术手段。(3)RCT与真实世界研究同等重要,都是提供可靠临床证据的方式。(4)模型的验证需要临床研究中心内部、外部加强合作。因此,要强化中心内部科研合作,提高多中心科研合作意识。参考文献[1] Chow N,Gallo L,Busse JW. Evidence-based medicine and precision medicine: Complementary approaches to clinical decision-making[J]. Precision Clinical Medicine, 2018,1(2):60-64.[2] Ranstam J,Cook JA,Collins GS. Clinical prediction models[J]. Br J Surg,2016, 103(13):1886.[3] Collins GS,Reitsma JB,Altman DG,et al. Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD):the TRIPOD statement. The TRIPOD Group[J]. Circulation,2015,131(2):211-219.[4] Adams ST,Leveson SH. Clinical prediction rules [J]. BMJ,2012,344:d8312.[5] Moons KG,Royston P,Vergouwe Y,et al. Prognosis and prognostic research:what,why, and how?[J]. BMJ,2009,338:b375.[6] Kannel WB,McGee D,Gordon T. A general cardiovascular risk profile:the Framingham Study[J]. 1976,38(1):46-51.[7] Steyerberg EW,Vergouwe Y. Towards better clinical prediction models:seven steps for development and an ABCD for validation[J]. Eur Heart J,2014,35(29):1925-1931.[8] Lee YH,Bang H,Kim DJ. How to Establish Clinical Prediction Models[J]. Endocrinol Metab (Seoul),2016,31(1):38-44.[9] Han K,Song K,Choi B W. How to Develop,Validate,and Compare Clinical Prediction Models Involving Radiological Parameters:Study Design and Statistical Methods[J]. Korean J Radiol,2016,17(3):339-350.[10] Su TL,Jaki T,Hickey GL,et al. A review of statistical updating methods for clinical prediction models[ J]. Stat Methods Med Res,2018,27(1):185-197.[11] Woodward M,Tunstall-Pedoe H,Peters SA. Graphics and statistics for cardiology:clinical prediction rules[J]. Heart,2017,103(7):538-545.