凝聚多方力量,利用临床预测模型促进科学发展
最近ATM刊登了一篇标题为In-depth mining of clinical data: the construction of clinical prediction model with R的特别报告。这篇报告是由一系列构建临床预测模型的方法学文章组成的。我们饶有兴致地阅读了这篇由临床医生团队所写的,长达96页的报告。我们欣喜地看到,临床医生对统计和预测模型的关注,以及他们在临床预测模型的开发和验证方面所具备的良好专业知识。
正如作者在文章中所述,如今研究人员可以接触到大量数据,数据的可得性已不再是临床研究领域的限制因素。但与此同时,大量数据亟需得到合理的分析和利用,统计分析能力的不足会导致多项研究无法按时完成,甚至无法进行。如果临床医生能够自己对数据进行统计分析,研究效率将大大提高——至少从论文发表数量上来说,是这样的。
为实现这一目标,一篇对于临床医生来讲通俗易通,且包含分析案例和实现方法(R语言代码)的方法学文章的发表,正当其时。这也是原文章的重要价值所在。作者特意从实用性的角度撰写了这篇论文,使读者可以快速获得使用R语言的上手经验,以及如何用它完成预测模型类论文中几乎所有必要的分析。原文亦可作为初学者的入门指南,引导读者了解临床预测模型的开发和评估的完整过程。
统计学家总是对方法学论文极具批判性精神。我们建议,原文至少应在以下几个方面进行改进:
(1)第14页的图2展示了作者建议的研究流程。实际上,更具逻辑性的思考方式应该是首先确定结局变量,然后根据结局变量寻找潜在的预测变量,而不应颠倒顺序。
(2)在第31页和第63页中,对有效的成对比较数的解释是不准确的。据我们所知,衡量生存结局的C统计量需要考虑数据的删失情况(2-4)。另外,也无需在同一篇论文中重复完全相同的段落。在第27页和第30页中,作者引入判别能力的概念时,也出现了不必要的重复。
(3)报告中还缺少了一些很重要的内容。例如,为什么在模型开发过程中需要进行内部验证,以及如何使用R语言进行内部验证。
(4)报告中使用的某些术语在临床预测模型领域中并不常用,这可能导致在与其他科研人员(尤其是统计学家)交流时造成障碍。
(5)由于英语并非论文作者母语,论文中出现不流畅的语句也是情有可原的。但如能在发表前请专业人士进行审阅,论文的质量则会有很大程度的提高。
对于具有数据分析经验或统计学背景的读者而言,本文或许无法为他们提供足够丰富的信息。如果读者想对临床预测模型领域有更深入的了解,我们推荐以下两本经典教材:Frank Harrell编著的《Regression Modeling Strategies: With Applications to Linear Models, Logistic Regression, and Survival Analysis》(5),以及另外一本与临床预测模型更为相关的书,由Ewout Steyerberg编著的《Clinical Prediction Models: A Practical Approach to Development, Validation, and Updating》(6)。
从报告的字里行间中,我感觉到,大多数临床医生认为统计学家总是在说“等等,这个分析看起来有点问题”,但是,至于什么是正确的,统计学家从来没有给出过明确的答案。这或许是因为,统计学家擅长否定原假设,但却无法证明原假设是正确的。当然,这只是玩笑话。统计学家一直以来都在努力地防止统计方法的误用和对分析结果的错误阐释。随着对临床预测模型需求的日益增长,这对统计学家来说无疑是新的机遇,也是新的挑战。
我在加拿大魁北克市参加Cochrane年度会议的时候,当一位资深科研人员得知我是统计学家时,他对我说:“你就是这个房间里的摇滚明星。”不过以我的经验,我却不这样认为。我们更像是乐队中的鼓手:每个人都能听到鼓点(就如每个读者都会阅读论文中由统计学家提供的方法,表格,图示,分析和结果),但是大多数时候观众是看不到鼓手的(统计学家是否获得了与他们工作成果相符的荣誉?他们的姓名被列在了作者列表中的哪个位置?)。
统计学家可能不会致力于追求乐队主唱的角色,但是他们确实想为临床预测模型对方法学带来的新挑战发出自己的声音。由统计学家和方法学家组成的课题组,在提高临床预测模型的研究质量方面做出了许多努力。他们包括但不限于PROGnosis RESearch Strategy (PROGRESS) 合作组(7-10),Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis Or Diagnosis (TRIPOD) statements工作组(11),以及STRATOS (STRengthening Analytical Thinking for Observational Studies) 发起者们 (12)。他们的贡献都应该得到认可和赞赏。
对于很多临床医生而言,预测模型被看作是高级的临床研究,因为此类研究需要用到更复杂的统计方法和大量数据分析。但是,从统计学角度来说,事实或许并非如此。
最近,Bradley Efron,一位真正的“统计学摇滚明星”(13)在莱顿大学统计科学中心的成立仪式上做了一次演讲,主题是他对于“预测易于估计,估计易于归因”的洞见(14)。即使是一个弱分类器(weak learner)预测模型,也可以得到一个可接受的,甚至是良好的预测表现。作为听众之一的临床预测模型领域的知名专家Ewout Steyerberg,对本次演讲评论道:“新的预测算法影响了公众对可预测性的认知,而不是对科学的认知。”
很多临床预测模型是根据如下的配方生产的:
1个数据集+ 1个算法= 1个新的预测模型
有些稍好的研究使用2个数据集(1个用于模型开发,1个用于模型验证)和N个算法(事实上我并不认为后者必然会使研究变得更好)。由于新的临床预测模型的不断涌现,旧的模型似乎只能有很短的保质期,但事实却是新的临床预测模型可能永远都没有上架的机会。
我们是在生产学术垃圾吗?我们该如何做才能提高临床预测模型的研究质量呢?
与其他领域的领先实践相比,临床预测模型对质量的要求并不是最严格的。预测模型早已广泛应用于银行,保险公司,以及政府经济研究机构。在这些领域中,预测模型会受到模型验证师,模型风险审核师,以及监管者的严格监督。如果上述领域的模型开发人员按照当前临床预测模型的惯用方法来构建他们的模型并投入实际应用,模型的质量甚至都不能满足公司的内部标准和合规性要求,更不用说将它们作为高级研究成果发表在顶级期刊上了。
高质量的临床预测模型研究不仅意味着更大的样本量,运用合适的统计分析方法和良好的模型表现,科研人员还应更加关注临床预测模型的理念健全性,并且研究成果应对临床实践产生一定的影响。
模型表现(即预测准确性)通常被视为判断临床预测模型质量的金标准。但是,临床预测模型的研究不应被当作Kaggle竞赛,它必须服务于科学。因此,我们鼓励相关科研人员,尤其是临床医生,将更多的精力放在临床预测模型的理念健全性上。
理念健全性至少应包括以下几个方面:模型的设计应具有逻辑性和透明性;构建模型所依据的生理学或病理学机制应是正确的;模型方法论应与同一领域的其他模型保持一定程度的一致性。但现实情况是,即使在模型外部验证的过程中,科研人员也很少评估临床预测模型的理念健全性。我们希望可以通过对临床预测模型的系统评价和meta分析来解决这个问题(15),这类研究正在快速地发展。
提高临床预测模型的研究质量需要临床医生,方法学家,统计学家和其他利益相关者的共同努力。让我们在临床预测模型研究中更紧密地合作!
参考文献
详见本文原文:Ann Transl Med 2020;8(4):70. doi: 10.21037/atm.2019.11.10