临床预测模型建立、验证的报告规范:TRIPOD声明

预测模型研究可大致归类为模型开发, 模型验证(有或没有更新)或 预测模型开发和验证。模型开发研究旨在通过选择相关的预测变量并将其统计组合为多变量模型来推导预测模型。 Logistic和Cox回归最常分别用于短期(例如,疾病相对于现在,30天死亡率)和长期(例如,十年风险)结果。研究还可能量化特定预测变量(例如,新发现的)对预测模型的增量或增加的预测值。
诊断和预后方面,概率估计很少基于单个预测变量。医生自然会结合几种患者特征和症状(预测因素,测试结果)做出预测(诊断和预后研究之间通用术语的差异)。因此,预测本质上是多变量的。预测模型(通常也称为“预测模型”,“风险评分”或“预测规则” )是通过将多个权重分配给每个预测变量以获得风险或概率来组合多个预测变量的工具。著名的预测模型包括Framingham风险评分;Ottawa Ankle Rules; Nottingham Prognostic Index ;和Simplified Acute Physiology Score。更多的评分可以见:医学计算公式

近年来,各类疾病预测模型的建立研究越发红火,不同的研究团队和机构都在尝试采用不同的方法去构建疾病的预测模型。但是针对预测模型一直没有统一的报告规范。2015年BMJ杂志发表了题为《Transparent reporting of a multivariable prediction model forindividual prognosis or diagnosis (TRIPOD): the TRIPOD statement》的论文,指出对于疾病诊断和预后的预测模型,应该有统一的报告规范,即TRIPOD声明。

一、TRIPOD声明清单

TRIPOD声明包括TRIPOD清单和TRIPOD阐述文档,TRIPOD清单是简洁的核对清单,而TRIPOD阐述文档则是对上述清单中条目的详细说明。TRIPOD清单跟论文的格式类似,分标题和摘要、前言、方法、结果、讨论和其他信息6个部分,共包含22个条目。其详细内容如下:

D = Development Prediction Model(建立/开发预测模型)

V = Validation Prediction Model(验证预测模型)

二、TRIPOD报告规范条目解读

下面以此文为案例进行条目解读

1 题目和摘要

1.1 题目

条目1:应明确研究为预测模型建立研究还是验证研究,研究目标人群和预测的结局指标。[D;V]

根据TRIPOD报告规范依从性标准[5],文章标题中应明确描述以下4方面信息:①根据研究类型,标注开发、验证、增量值等字样;②明确文章为预测模型类研究,需包含预测、预后、风险评分等字样;③明确研究目标人群;④注明主要预测结局。

例文的标题为《开发和验证未来心血管疾病风险的QRISK3风险预测算法:前瞻性队列研究》,“开发和验证”点明了本研究同时包括模型开发及验证,“风险预测算法”帮助读者快速确认这是一篇临床预测模型类文章,“心血管疾病风险”显示预测结局为发生心血管疾病。作者并未在标题中表明研究的目标人群,根据正文内容可知其目标人群为初级保健患者,无其他特殊限定,因此在标题中未单独列出该信息。整体而言,该例文标题基本涵盖了关键要素,可以借鉴参照。但若研究人群为罹患某一疾病或具备某一特征的人群,则应在标题中体现,能进一步反映出模型的适用范围和研究的临床价值。

1.2 摘要

条目2:概述研究目标、研究设计、研究设定、研究对象、样本量、预测因子,结局指标,统计分析方法,结果和结论。[D;V]

摘要是读者快速掌握文章主题及判断是否值得阅读全文的关键所在。为此TRIPOD协作组特别开发了《TRIPOD摘要》(TRIPOD for Abstracts)作为论文及会议摘要的报告规范,将于2020年正式发布。TRIPOD报告规范依从性标准对摘要报告要求比较严格[5]:摘要应为结构式,利用有限的字数传达足量信息,需简明清晰地描述条目中提到的每个要素,应注意的一是预测因子的描述,若预测因子数量较多难以全部列出,宽泛描述即可,如“患者疾病史及体检指标”;二是模型性能指标的描述,若研究同时包括模型建立及验证,应分别报告模型的性能指标。

例文在“目标”中写明本研究目的是开发和验证预测十年心血管疾病发病风险的模型;在“设计”中指出研究为前瞻性队列研究;“设定”指代的是研究场所或数据来源,写明利用的是英国QResarch数据库中的初级保健数据;“研究对象”中描述了研究对象的特点及建模、验模样本量;在“方法”中逐一列出预测因子,写明主要统计方法为Cox比例风险模型;预测结局指标、结果和结论也在摘要部分“主要结局指标”、“结果”及“结论”中得到详细阐述。条目2中的关键要素均能在例文中找到对应内容,例文的摘要结构化程度高,符合报告规范。

2 前言

条目3a:阐述研究的医学背景(包括是诊断还是预后)以及建立或验证多因素预测模型的理由,包括对现有模型的引用与参考。[D;V]

在预测模型类论文的前言中,除各类研究均需充分描述的研究现状、必要性等内容外,还需列出现有模型并给出验证、更新或开发新模型的原因。

在例文中,作者介绍了已经迭代形成了两个版本(QRISK1、QRISK2)的十年心血管疾病发病风险预测模型,QRISK2在指南中得到广泛推荐,然而QRISK2可能无法完全覆盖增加心血管疾病风险的诸多疾病,导致相关患者组的发病风险被低估。同时强调了最新研究中发现的与预测结局相关联的新指标尚未在模型中体现,进而引出本研究的科学问题,即需要开发新的模型。例文研究问题的引出逐步推进,逻辑分明,并且对模型的原理和潜在用途进行了清晰描述,符合报告标准。但对于纳入本次研究中的新指标描述过于简略,可对现有模型中拟增加的新指标进行进一步详细描述,以反映增加新指标的重要意义。

**条目3b:详细说明研究目标,包括研究是建立模型还是验证模型,还是两者都有。[D;V] ** 研究目标是研究中要解决的特定目标或研究问题[10],本条目要求描述研究预测的目的,预测的结局及模型适用的人群,还应说明本研究是模型开发还是模型验证,或两者都有。

例文在前言背景描述中已充分说明需要构建新预测模型的必要性及重要性,随后在前言最后一句提出本研究的目的,即“开发并验证新版预测模型QRISK3,……,以改进某些患者组的心血管疾病风险预测。”

3 研究方法

3.1 数据来源

条目4a:描述研究设计或数据来源(如随机试验、队列研究或注册研究数据等),并分别描述建立或验证模型的数据集。[D;V]

预测模型类论文中要求应明确报告研究设计类型或数据来源。预测模型包括诊断模型和预后模型,对研究设计要求不同。诊断模型的预测因子与结局变量是在同一时点或很短时间窗内测量,可利用横断面研究数据;预后模型的预测因子与结局存在因果关系,可利用队列研究、随机试验、巢式病例对照等研究数据[1]。

在例文的研究方法中标明数据来自第41版的QResearch数据库,为初级保健日常诊疗数据。在建模过程中随机抽取3/4样本量作为建模数据,其余1/4作为验模数据,所以建模数据与验模数据来源一致。例文在该条目上的报告较为完整,对于验模数据来源不同于建模数据的研究,应注意还需报告验模数据的来源。

条目4b:详细描述关键研究日期,包括数据收集的开始时间、结束时间,如果适用还应有随访结束时间。[D;V]

预测模型类论文需详实描述数据收集(患者招募)的起始和结束时间,以及随访结束时间三个重要时间节点。诊断模型不涉及随访时间,预后模型需给出随访时长的计算方法和预测的时间范围。

例文中的三个时间节点非常明确,数据起止是从1998年1月1日至2015年12月31日,随访截止日期为2015年12月31日。随访时间定义为“直到确诊心血管疾病,死亡,在家庭医生处注销,最后一次上传数据或研究结束日期,即2015年12月31日”。文中指出,随访长度为15年,则预测时长不超过15年,QRISK3关注的是十年内心血管疾病发生风险。例文对于研究时间相关信息的报告很是全面,这些描述对于了解研究所处的时代背景、评价模型的可推广性是关键且必须的。

3.2 研究对象

条目5a:详细说明研究设定的关键信息(如初级医疗机构、二级医疗机构或普通人群),包括研究中心的数量和位置。[D;V]

预测模型很难直接在不同类型的临床场所中互通应用,研究设定的详细描述能便于判断模型的应用范围。在报告研究对象时,应报告研究中心信息,以及研究中心的数目和地理位置,这些特征决定了预测模型应用的目标人群[5]。

例文中写明利用的是QResearch数据库(http://www.qresearch.org),这是一个包括英国1500余所初级保健机构中2500万余人数据的大型医学研究数据库。由此可知该研究开发的QRISK3模型主要适用于初级保健机构中的人群,不能直接在二级医疗机构或急诊等场景中推广应用。例文虽未直接写明研究设定的详实内容,但能从提供的信息中推断出研究设定的关键信息也是可行的。

条目5b:描述研究对象的纳入标准。[D;V]

研究对象的描述除了报告其来源外,还需详实描述研究对象的纳入和排除标准。纳入标准是否合理会影响研究对象的纳入过程及模型的预测准确度,对模型的验证及应用也会造成困难。TRIPOD报告规范依从性标准指出,研究对象的纳入标准不应只在流程图中简略说明,而需作为单独的内容呈现[5]。

例文在研究方法中写明研究对象为25~84岁的人群,同时描述了将已存在心血管疾病或服用他汀类药物作为排除标准。例文关于该条目的描述是全面的,但如果研究中存在由于缺少数据而排除一些符合条件的参与者时,也应在文章中明确报告[7]。

条目5c:如相关,详述研究对象接收干预治疗的具体细节。[D;V]

对于预后模型,还应详细描述基线或随访期间所接受的治疗干预措施,因为这些干预措施可能会改变结局的发生,从而影响预测模型的准确性[7]。

例文中纳入的是初级保健人群,这类人群以疾病预防为主,可认为干预治疗与本研究相关性不大,故未描述研究对象接受干预治疗的具体内容。但若为二级医疗机构就诊的患者或源于随机对照试验的数据,则应详实描述其在研究期间所接受的干预措施。

3.3 结局指标

条目6a:清晰定义预测模型所要预测的结局指标,包括如何以及何时进行评估。[D;V]

结局指标报告重点在于三方面:①结局应明确定义,且需声明和引用该定义的权威出处;②结局的组成部分及其测量方法需清晰描述;③各指标测量时间及频率应有注明[5]。

在例文“结局”部分表明结局是发生心血管疾病,指出是“利用Read代码在就诊记录中确定心血管疾病病例”,病例诊断中出现有关心血管疾病的国际疾病分类编码则认定发生结局事件,死亡信息来源于Qresearch数据库链接的国家统计局数据。对于结局指标的评估时点,例文中写道“使用三个数据来源中任何一个的最早的心血管疾病记录日期作为结局日期。”QRISK3的开发是对Qresearch数据的二次分析,数据来源是日常诊疗数据,没有针对特定结局对患者进行有计划的随访。如果模型开发数据来自队列研究,最好能详细列出随访的时间和频率,使读者了解该结局指标是否在临床实践领域是准确且可重现的[11]。

条目6b:报告对预测结局指标盲法评价的所有细节。[D;V]

施行盲法的目的是防止结局判定过程中的偏倚,文章中应报告结局测评的盲法控制,虽然不是每项研究都适用盲法,但如果实施了盲法则需说明具体的实施策略[5]。

例文中没有对结局判定是否使用盲法进行描述。对于定义明确且不会受到主观影响的结局指标,例如结局指标为全因死亡,可以不用特意需描述盲法的策略,但如果结局指标判断容易受到预测因子或主观倾向影响,尤其是诊断模型的结局指标,则需报告盲法实施的策略。

3.4 预测因素

条目7a:清晰定义建立或验证多因素预测模型所使用的所有预测因素,包括如何以及何时测量。[D;V]

研究者需对所有预测变量进行充分定义,根据变量类型提供度量单位或分类类别,同时清晰描述各变量测量的方法及时间。需注意的是,对于模型开发研究,所有预测因素是指所有可能进入最终预测模型中的变量,即所有备选变量,而不仅仅是最终模型中包含的变量;而对于模型验证研究,所有预测因子则是指被评估模型中所包含的变量[5]。

例文“预测变量”中标明本次预测模型中拟纳入的变量包括QRISK2中已有的风险因素及文献中证实的新的潜在预测因素,也分别描述了各变量的提取过程及操作性定义,这些信息均可以在“文本框1:QRISK算法中用到变量”中找到。对预测因素的详实表述有助于读者复现研究过程,进一步应用或验证该预测模型。

条目7b:报告对预测因素指标盲法评价的任何细节。[D;V]

与条目6b相对应,如果预测因素的测量涉及研究对象或研究者的主观判断或评估,应采用盲法进行测量或评价,有效避免信息偏倚。预测因素的盲法报告需考虑两方面,一是预测因素与结局指标之间互盲,否则会人为增加预测因素与结局间的关联,二是预测因素之间也应避免可能出现主观判定的情况[5]。

例文中直接描述了预测因素的提取过程,由于列出的预测因素均是客观测评指标,且结局的判定发生在预测因素的测量之后,能保证预测因素的测量是盲于结局变量的。但例文未描述预测因素之间在收集过程中是否做到了盲法,如果能补充这部分信息则更完善。

3.5 样本量

条目8:解释研究样本量是如何确定的。[D;V]

在预测模型的研究中必须说明样本量是如何确定的,样本数量能体现出预测变量与结局之间的关联是否稳固、预测模型拟合是否合适、模型是否存在潜在过度拟合[12]。根据报告规范要求,文章中应说明样本量是如何确定的,是基于统计方法,还是基于现实考虑(比如使用现有数据)。

例文中写明采用的是现有的Qresearch数据库,模型开发样本量为789万例、验证样本量为267万例。这是基于现有数据确定的样本量,在数据集较大的情况下是可行的。对于样本量较小的回顾性研究,或者前瞻性数据的研究,则需提供规范的样本量计算的考量。

3.6 缺失数据

条目9:描述缺失数据的处理方法(如仅分析完整数据、单一插补和多重插补等),并详细说明插补方法。[D;V]

在研究者尽可能完善数据质量的前提下,临床研究仍易出现变量信息缺失。缺失数据对于研究结果的影响不容忽略,然而对缺失数据不恰当的处理方法将会引入更多偏倚[13]。研究者需明确报告本研究分析的数据是否存在缺失,若存在缺失应详细描述缺失数据的处理方法,包括具体插补的变量及插补次数[5]。

在例文“方法”部分“模型开发和验证”中,写明本研究预测因素存在缺失,通过多重插补来进行处理;插补次数为5次,插补模型中包括所有预测因素以及结局变量;在插补完成后,对插补数据的分析结果,根据Rubin规则进行合并。数据缺失在研究中难以避免,清晰透明地描述缺失数据的处理方法至关重要,方法的选择会影响研究结果及研究的可重复性。

3.7 统计分析方法

条目10a:描述预测因素在分析中是如何处理的。[D]

研究者需明确描述每个预测因素的处理方法,包括将连续变量转换为分类变量时的切点值界定方法,原始数据的转换方法,以及预测因素与结局之间的线性或非线性关系[5]。若模型为非线性回归模型,应报告采用的方法,如多项式回归或限制性立方样条;若为线性回归模型,建议报告预测因素与结局指标呈线性关系的假设[7]。

在例文数据处理部分,写明本研究采用多项式回归处理连续变量与结局的非线性关系。由于在该研究中一部分预测因素是已建成的QRISK2模型中的已有的因素,故未对这些因素的处理方法进行详细描述,对于拟增加的新变量也缺乏描述,若能补充这些信息,则报告更为完整。

条目10b:详细说明模型类型,建模过程(包括预测因素的选择)和内部验证方法。[D]

研究者需明确报告预测模型开发时所用的所有统计方法,应至少包括:①统计模型类型,如logistic模型、Cox模型等;②备选预测因素的选定:指在建模前所有潜在预测变量是通过什么方式选定的;③进入模型预测因素的筛选方法:指在建模中进入最终回归模型中的预测因素的筛选过程,如单因素分析、逐步回归等;④交互项的处理;⑤比例风险假设(对于Cox模型);⑥内部验证方法,如重抽样、交叉验证等。

在例文统计部分,作者介绍了QRISK 3模型是基于Cox模型建立的,备选预测因素来源于QRISK2模型中的变量及文献中论证的新的预测变量,预测因素效应量和显著性被用来作为模型中预测因素筛选的标准,考虑了年龄的交互项,利用随机拆分进行的内部验证。例文统计学方法方面报告较为完整,但未对Cox模型的比例风险假设进行检验。目前大多数模型在该条目上报告不足,研究者需注重统计学方法报告的完整,逐一描述各要点[14]。

**条目10c:描述模型验证中预测值的计算方法。[V] ** 预测模型验证的论文中应准确描述个体结局发生概率预测值的计算方式,包括但不限于直接使用被评估预测模型公式或简化评分规则或列线图等[5]。

例文同时包括模型开发与验证,在模型开发中拟形成纳入不同类型预测因素的三种模型,并介绍了会采用每个变量的回归系数作为权重形成风险预测方程,在模型验证阶段会采用同样的方法计算预测值,故在模型验证阶段中未重复描述。若在一项模型开发研究中提出了多个模型或同一模型的多个表示形式,那进行模型验证的研究者应清晰描述本次评估验证的模型全部信息。

条目10d:详述评估模型预测效果(或比较不同预测模型)的所有方法。[D;V]

模型预测的性能评价主要包括区分度和校准度,所有预测模型均应报告这两者,也可增加R2、灵敏度、特异度、决策曲线等多维度反映模型性能,若要评价引入新预测因子后的预测效能增加值,也可使用综合区分改善度(IDI)及净重分类改善度(NRI)等指标[5]。

在例文中介绍了QRISK3模型开发与验证过程中均采用D统计量、C统计量评价模型的区分度,比较模型预测概率与实际发生率的差异评价模型的校准度,同时计算了净重分类改善度。区分度差、校准不良的模型会降低模型的临床实用性,甚至在某些情境下影响有效临床决策[15],因此必须报告模型的性能指标作为模型使用者的参考。

条目10e:如果有,描述验证模型后进行的任何模型的更新(如再校准等)。[V]

当在其他个体中验证或应用现有预测模型时,预测性能通常会变差,此时可考虑进行模型更新。在模型验证的论文中,若存在模型更新应详细描述更新的方法,如重新校准截距或回归系数、添加新的预测因子等。

例文是模型开发类研究,不是对QRISK2模型的验证和更新,故未提及该项内容。

3.8 风险分层

条目11:如果进行了风险分层,提供如何建立风险分层的细节。[D;V]

预测模型一般获得的是绝对风险值,即结局事件发生的概率,并不能直接指导临床决策,根据发生概率将研究对象划分为不同风险等级有助于临床实践[16]。风险分层的建立方法及划分的层数要求虽尚无明确共识,但若研究进行了风险分层,作者应详细描述风险分层的具体细节,包括风险阈值的界定、层数等信息;研究同时包括开发和验证时则应分别描述[7]。

例文中,作者依据NICE指南设定10年心血管疾病发病风险阈值为10%,将人群划分为2类,10年发病概率<10%的为低风险组,≥10%为高风险组,该分层方式被同时用于QRISK 3模型的开发与验证中。这些信息的报告能帮助读者全面了解模型的临床实用性。

3.9 建立与验证的比较

条目12:识别建模数据集与验模数据集在研究设定、纳入标准、结局指标和预测因素上的任何差异。[V]

模型验证是评价模型可推广性及可移植性的重要过程[13]。无论是内部验证还是外部验证,作者必须清楚地报告验证数据集的研究设定、研究对象的纳入标准、结局指标与预测因素的定义、测评方法及编码方法,且这些内容是否与建模数据库存在差异,应明确强调任何差异以及差异的处理方法[5]。

在例文中,作者将所有研究样本随机分为建模与验模数据集,由于两者数据集来源于同一整体,其研究设定、纳入标准、结局指标和预测因素的内容是一致的,这样的描述能让读者了解两组数据集的相似性。但对于不同空间、时间外部验证的数据集,作者需描述建模与验模数据集的差异,为模型结果的解读及适用范围提供信息。

4 结果

4.1 研究对象

条目13a:描述研究对象纳入研究的过程,包括有结局或无结局的研究对象数量以及随访情况(如果适用),建议制作流程图。[D;V]

了解研究对象纳入研究的过程便于读者判断模型适用的人群及范围。依据TRIPOD报告规范依从性标准,作者需报告从更大的初始群体中选定研究对象的过程,研究对象发生或未发生结局的例数(不适用于结局为连续型数据),若为预后且有随访的研究还需报告随访时间等信息[2]。

在例文“结果”中报告了研究对象的基本信息,首先从Qresearch数据库筛选符合纳入标准的全部数据集,再进一步排除“缺少居住信息”、“已诊断为心血管疾病”及“服用他汀类药物”的研究对象,最后形成用于模型开发及验证的数据集;然后在“心血管疾病发生率”这一小节和“表2”中报告了建模数据中的结局发生数据;最后报告了随访信息,即“建模数据集中位随访时间为4.4年,2 141 841例的随访时间为10年或以上;验模数据集中位随访时间为4.4年,728704例的随访时间为10年或以上。”例文在该条目的报告上还可以继续完善,一是可考虑采用流程图的形式展示研究对象纳入过程,更能清晰直观地反映整个研究流程;二是验模数据集结局发生数据也应报告。

条目13b:描述研究对象的特征(包括人口学资料、临床特征与可用的预测因素),以及缺失预测因素与结局指标的研究对象的数量。[D;V]

清晰描述研究对象基线数据基本上是所有研究性论文必须报告的内容之一。预测模型类研究要求描述一般人口统计学数据、所有预测因素、缺失预测因素的研究对象数量及缺失结局数据研究对象的数量[2]。

例文在“表1”中展示了研究对象年龄、性别、种族、疾病特征等数据,同时展示了体质量指数、收缩压、血胆固醇等6个指标记录完整性的数据;在“表2”中展示了结局数据,虽未在正文中体现结局指标缺失的信息,但作者强调了“在附录表3中展示了家庭医生诊疗数据中记录的发生了结局的研究对象数量及百分比”。例文的报告相对全面,如果仅单个或几个变量缺少观察结果,也可将相关信息作为表下方的备注内容,或总结为文本在结果中描述即可。

条目13c:比较模型验证数据集与模型开发数据集在重要变量上的分布差异,如人口学资料、预测因素和结局指标等。[V]

依据TRIPOD报告规范依从性标准,涵盖模型验证的研究需同时报告参与模型建立与模型验证研究对象的基线特征、预测因素及结局指标的分布情况,用于判断模型验证或应用的人群特征,但对于仅在新拟合模型中增加预测因素、不修订原始模型的增量研究中,则不适用[2]。

例文中,“表1”展示了建模、验模研究对象的基线特征,并且说明了建模与验模不同性别的基线特征值是类似的。一项系统综述的结果显示在78项外部验证的研究中,仅40%研究比较了建模与验模研究对象的基线特征[3],因此还需提高报告该条目的意识。

4.2 模型建立

条目14a:明确每个分析中的研究对象和结局事件的数量。[D]

预测模型类研究中的有效样本量是最后用于统计分析的样本量,研究对象结局发生数量与纳入模型的预测变量数量会直接影响模型的拟合。作者应全面描述每个模型开发中所涉及的研究对象数量及结局事件发生数量,若结局指标为连续型数据则不适用[2]。

在例文中报告了建模数据集为7, 889, 803例,结局发生数量为363,565例,但例文中构建了三个预测模型,不同模型利用的是否为同一组数据尚不清楚,作者有责任向读者说明每个模型建立所用数据集的具体信息。

条目14b:可报告每个候选预测因素与结局指标的未校正的关联程度。[D]

单因素分析能为了解某一因素从未校正到校正分析后其对结局预测能力的变化差异提供信息,若研究方法中提出要进行单因素分析,则结果中应报告每一变量的效应值;若存在缺失数据,还应报告每个单因素分析中所包括的研究对象数量[4]。

QRISK 3模型在开发过程中未进行单因素分析,在结果中呈现的也是校正后的变量数据。单变量分析只是可选项,并不是必选项,可由研究者根据研究设计自行设定。

4.3 模型详述

条目15a:提供可对个体进行预测的完整预测模型(如所有的回归系数、模型截距或既定时间点的基线生存率等)。[D]

预测模型应提供足够详细的信息,以便开展模型验证或应用实践,实现对个体或群体的预测。对于二分类logistic回归模型,需报告模型中每个预测因素的回归系数或比值比及其置信区间,以及模型截距项;对于基于Cox回归的模型,需逐一报告模型中各因素的回归系数、风险比及其置信区间,为评估个体在特定时间点结局发生概率,还应报告该时间点的基线累积风险;对于其余模型构建方法,均需报告效应值或相应的参数。

在例文“表3”、“表4”中,作者提供了QRISK 3 模型中预测因素的风险比及其置信区间,但由于未提供10年基础生存概率,读者缺乏相应公式用以计算某个体结局事件发生的概率,易导致模型的外部验证受限。目前诸多研究均未完整显示最终模型,也未提供至少一个时间点的基线累积风险[5],这些信息还需进一步加强阐明。

条目15b:解释如何使用预测模型。[D]

为促进预测模型的临床可用性和可解释性,研究者常将发生概率公式转化为简化评分规则、列线图或在线计算器等展示形式易于临床应用[6],作者需详实报告该预测模型的具体使用方法,让其他使用者能直接进行验证或实践。

在例文中,作者提供了在线计算工具,可以满足模型使用者单次的模型应用,但不利于使用者在模型验证中进行批量计算,因此建议提供完整的预测公式。

4.4 模型效能

条目16:报告预测模型的预测效果参数(及其可信区间)。[D;V]

与条目10d相对应,在方法中描述的区分度、校准度及其他模型性能指标均应在结果中报告。研究中若开发或验证了多个模型,每个模型的性能指标都应报告[2]。

在例文“表5”中,作者分别报告了将三个模型用于不同性别人群中的性能指标,区分度中的D统计量在2.26-2.49之间、C统计量在0.858-0.880之间,平均预测风险与观察到的风险之间存在密切的对应关系反映出模型具有较好的校准度,同时研究还报告了R2及净重分类改善度,结果中报告的指标与方法中的内容能完全对应。例文在该条目上报告得相对完整,但忽略了在建模数据库中应用的性能指标,最好同时报告建模及验模的性能指标便于让读者了解不同阶段模型的效果评价。

4.5 模型更新

条目17:如果有更新,报告模型的更新结果(即更新后的模型参数和模型预测效果)。[V]

与条目10e相对应,若在模型验证研究进行了模型更新,则应详细报告模型更新的方法,更新后模型中各预测因素的回归系数、截距或基线累积风险以及模型的区分度及校准度等参数信息[2]。

例文是重新构建了新的模型QRISK 3,属于模型开发类研究,故未描述该项内容。更新后的模型与原先的模型相异,故应提供更新模型的全部信息,以使读者能在进行模型验证或实践。

5 讨论

5.1 局限性

条目18:讨论研究的局限性(如非代表性样本、预测结局指标平均事件不足、缺失数据等)。[D;V]

研究中难以避免存在局限,研究设计、研究方法等原因都可能造成研究局限。依据TRIPOD报告规范依从性标准,作者应在讨论中清楚说明本研究存在的任何局限性[2],阐明局限是否会对模型开发或验证造成影响,是否会影响模型的可信性,适用性和可推广性。

在例文“讨论”部分指出本研究的局限性在于缺乏正式的疾病诊断、存在信息偏倚及数据缺失导致的潜在偏倚,同时作者也解释了研究采用的数据库相对全面,预测变量、结局指标的记录较为完整,能将偏倚影响降至最低。局限性的报告表明作者对所研究的主题极其了解,已充分考量过研究的不足之处更易让读者判断[4]。

5.2 解释

条目19a:讨论模型在模型验证数据集与模型开发数据集或与任何其他模型验证数据集中的预测效果的对比。[V]

对于模型验证的研究,应明确描述验证的模型与原先开发的模型之间的一致性或差异性,当验证的模型显示出(与模型开发时或其他验证研究中)不同的预测效果时还需分析可能的原因。

例文在“讨论”中写明将开发的模型应用于验证数据集时,模型也显示出较好的区分度和校准度,故未展开具体讨论。但若出现在验证数据集中模型的性能指标较差时,需详细探讨其原因及改善策略、提升模型适用性。

条目19b:结合研究目的、局限性、其他相似研究的结果和其他相关证据,对研究结果进行整体解释。[D;V]

对研究结果中展开全面的解释及讨论,需同既往研究结果进行比较分析,尤其是与作用于同一人群同一结局指标的不同预测模型的比较,进一步探讨本研究开发或验证的模型的优劣势。

例文在“讨论”部分详解了QRISK3模型中新增预测因素与既往研究对比的效应值数据及新增因素的临床价值,同时还分析了QRISK 3模型预测性能优于QRISK 2模型的可能原因。例文在该条目上的报告是合适的,TRIPOD报告规范并未对讨论的深入程度作出限定,重点强调需结合研究目的、局限性等进行全面的分析。

5.3 意义

条目20:讨论模型的潜在临床应用和对未来研究的启示。[D;V]

预测模型有助于临床诊疗决策、患者预后管理及卫生资源配置,其应用价值可能不仅在于临床实践,也可以是理论上的革新。作者有必要报告本研究中预测模型的潜在应用场景及应用条件,并结合当前研究的局限性、不足之处提出对未来研究的启示[2]。

在例文中,作者在“讨论”部分提出本次验证使用的数据集虽独立于模型开发所用的数据集,但两者来源于同一数据库中的实践记录,还需要进行更严格的外部验证。阐明潜在用途及未来研究方向能推进该模型在专业领域中的应用及促进该主题的深入研究。

6 其他信息

6.1 补充信息

条目21:提供补充资料和信息,如研究方案、网页计算器和数据集。[D;V]

作者应提供足够详细的信息以便读者能直接验证或应用该模型,包括研究方案、网页计算器和数据集等补充材料。如果预测模型过于复杂难以完整报告或需要不断进行模型更新,则还需提供能计算预测概率的可访问的源代码。

在例文中,作者表明已经在QRISK网站(qrisk.org)上发布了源代码,并且提供了简易的在线计算器供使用者计算发病概率。若有相关补充材料可考虑提供,但并非强制要求。

6.2 资助

条目22:提供研究资金来源和资助方在本研究中的角色。[D;V]

研究资金来源和资助方角色能一定程度上反映研究中是否存在潜在利益冲突,作者应披露本研究所获得的所有资金来源,并说明资助者在研究过程中所起的作用,或明确说明未得到任何外部资助。

例文在“基金”部分注明本研究未得到外部资金支持,意味着可能不存在财务和其他利益冲突。虽然例文在该条目上的报告比较明确,但有研究显示仅27%的论文完整报告了资金信息[5],该条目还需得到充分报告。

三、模型开发中一些更高级问题

疾病预测模型建立,上面介绍的是经典统计方法,事实上,近年来还广泛应用机器学习和深度学习的方法建立预测模型,也越来越普遍了。与经典统计学建立模型相比,主要是采用算法代替统计学方法,其它是相似的。但是,模型评价时,仍然略有区别。

同时,在统计学建模中,对于变量的转换,变量的选择,也有很多新的内容,详细可以见:巧用LASSO回归构建高预测水平的临床预后模型

另外,预测模型的评价,近年来也有很多新的发展,因为模型建立了,但是,并不代表就一定有价值。只有稳定的模型才具有意义,也意味着,在不同的人群环境下,模型均很好地进行预测,因此,模型需要进行稳定性评估,具体方法有很多种,详细见这里:疾病风险预测模型稳定性评估:5种常用的交叉验证技术来护航,相关案例可以参考:Leukemia:ENKTCL分层预后模型NRI进一步得到验证

有关模型预测的评估,也有很多新的指标,预测因子是临床预测模型的基础组成部分,探索新的预测因子有助于改善诊断和预后模型的预测准确度,提高个体化治疗水平。详细见:临床预测模型:新预测因子的预测增量值,以及决策曲线分析法用于评价疾病风险模型、和疾病风险预测模型评价方法:ROC曲线,拟合优度检验与NRI

总是需要验证你的机器学习模型的稳定性。换句话说,你不能把这个模型与你的训练数据相匹配,并预测它的未来日期,然后希望它每次都能准确地给出结果。

本内容来自于Tripod官网,统技思维,梅斯医学,以及网络等,在此致谢!

(0)

相关推荐