创伤性颅内出血死亡率的预测因素:国家创伤数据库研究

写在前面

    TBI是世界范围内死亡的主要原因。预后建模利用患者数据预测TBI的各种结果,提供了独特的机会来协助临床推理和简化决策。此前若干项研究已经使用临床和放射学数据开发了创伤性脑损伤预后的预后模型。但这些模型的局限性在于未知的普遍性,更广泛的人群,有限的准确性以及预测结果所需的大量变量。借助大数据时代高度发达的网络信息系统,建立完整的国家级别的数据库对一些重大疾病进行研究,真实性更高,更加具有泛化推广的可能性,因此具有极其重要的意义。正是基于这个原因,国家创伤医学中心颅脑创伤数据库项目于本月初在我院正式启动。而今日分享的这项研究,亦是利用美国最大的创伤登记中心,采用严格的分析方法和真实的保留模型验证来确定死亡率的预测指标。作为庚子年本公众号分享的最后一篇文献,希望能为广大神经外科、神经重症同道提供参考与借鉴。同时,辛丑年本公众号将发布一期新春特辑,敬请期待。

                                           Front Neurol. 2020; 11: 587587.

研究目的

创伤性颅内出血(tICH)导致明显的创伤发病率和死亡率。一些研究已经开发了tICH结果的预后模型,但是以前的模型面临局限性,包括普遍性差和准确性有限。本研究使用美国最大的创伤数据库,开发出一种预后模型,并确定死亡率的预测指标,并采用严格的分析方法并进行真正的模型验证。

研究方法

研究人群

在机构审查委员会批准后(IRB注册编号:00000396,00000482,00004624),数据从国家创伤数据库中回顾性收集,这是美国创伤登记数据的最大和基本上包罗万象的汇总。2012年1月1日至2016年12月31日,共有4339668名患者入院。2012年至2015年,根据国际疾病分类第九修订版(ICD-9)对患者进行识别,这些患者对应特定的tICH亚型:硬膜外(852.4,852.5)、硬膜下(852.2,852.3)、蛛网膜下(852.0,852.1)或实质出血(851.0,851.1,851.4,851.5,851.8,851.9)。2016年,患者通过ICD-10编码进行识别:硬膜外(S064X)、硬膜下(S065X)、蛛网膜下(S066X)或实质出血(S0633、S0637、S0638)。2012 - 2016年共248,546例患者符合tICH标准。

收集每位患者的人口统计学和临床数据,包括性别,年龄,种族,种族,收缩压,血液酒精浓度,格拉斯哥昏迷评分(GCS)分数,损伤严重程度评分(ISS),tICH类型,合并症(CVA,残差)神经系统缺陷,糖尿病,吸烟者,并发症(中风/ CVA),创伤中心水平和创伤中心区域。从上述任何领域中缺少数据的患者均从分析中剔除,从而得出最终的研究人群(n = 212,666)。

由于此分析仅涉及国家数据库及其身份不明的数据,因此我们无需征得人类受试者的知情同意。

统计分析

分析中的因变量是患者死亡,其定义为院内死亡或临终临终。鉴于大多数创伤性脑损伤后出院的患者在30天内死亡,因此出院后的出院率等于死亡率。)。研究的独立变量包括性别,年龄,种族,种族,收缩压,血液酒精浓度,GCS-言语,GCS-Eye,GCS-Motor,ISS,硬膜外出血,硬膜下出血,蛛网膜下腔出血,实质内出血,合并症,并发症,创伤中心水平和创伤中心区域的存在。如果变量在NTDB中可用,并且以前的文献已经假设或确定了变量与死亡率的关联,则选择变量。

在模型开发和训练之前,将数值量度缩放为以0和1为边界的连续变量,并使用合成的少数群体过采样技术(SMOTE)平衡数据分布。80%的数据集用于初始培训和测试,而20%的数据用作最终保持测试集。

线性SVM的基于Python的(www.python.org)sklearn库实现使用某些参数来生成最佳超平面:C,对偶和惩罚。C或成本表示超平面周围的边距大小,其中较大的C将创建具有较小边距的超平面。因此,对C进行修改以影响训练时被错误分类的数据点的数量。对偶指定在训练集上运行时,模型将解决对偶优化还是原始优化问题。罚分指定在计算模型预测的罚分时使用L1还是L2正则化。

为了确定这些参数中的每一个的最佳设置,生成了一系列SVM模型以选择提供最佳预测性能的模型。在模型创建中,我们在0.0001和5之间递增地更改C,以识别提供最大预测得分的值。由于我们数据集中的数据点数量和特征数量相对较少,因此最好解决原始优化问题。此外,由于通常使用L1正则化来完全消除作为预测贡献者的特征,因此将惩罚设置为L1以帮助特征选择。

使用这些参数,进行了线性支持向量机(SVM),并在随机的80%训练集上进行训练。使用此训练集中的10倍交叉验证评估了初始模型的性能。递归特征消除(RFE)用于考虑变量的越来越小子集,以便在不牺牲准确性的情况下识别出最重要和最佳的特征数量。再次使用80%的训练数据对带有RFE的新线性SVM进行了训练。最后,对剩余的20%数据(一个真正的保留数据集)进行了SVM测试。这样,可以以严格的方式评估在初始交叉验证步骤中选择的超参数的一般性。在此保持集上评估了模型的准确性,准确性和召回率。生成了接收器工作特性(ROC)曲线。

对于每个数据点,训练后的线性SVM可以使用自变量的值来计算每个患者的死亡概率。使用普拉特方法对线性SVM的决策函数进行了校准,以提高概率准确度(15),并计算了每个数据点的概率。使用这些值来进行事后风险分层,以便更好地可视化风险状态在整个研究人群中的分布方式。根据过去文献中使用的tICH死亡风险分层阈值选择了四个亚组(4),并根据计算出的概率将研究人群分为四个亚组:I级(预计死亡率<5%),II级(预计死亡率5-15%),III级(预计死亡率15-40%),和IV级(预测死亡率> 40%)。对于每个亚组,比较预测死亡率和实际死亡率,以评估每个亚组内SVM的预测价值是否得到维持。

研究结果

研究人群

在研究中选择的212,666名患者中,有77,938名(36.6%)是女性,入院时的平均年龄为54.3岁。在研究的总人口中,有1,910名患者是自我报告的美洲印第安人,4,912名亚裔,20,334名非裔美国人,550名夏威夷土著或其他太平洋岛民,160,044名白人和16,248名其他人。19,374(9.1%)报告为西班牙裔或拉丁裔。平均收缩压为139 mmHg。29,501(13.9%)位患者的血液酒精浓度高于法定限值,8,560(4.0%)位患者的血液酒精浓度低于法定限值,而157,854位(74.2%)患者的血液酒精浓度为零。平均总GCS为12.3,而平均ISS为17.5。硬膜外出血13,156(6.2%),硬膜下出血122,772(57.7%),蛛网膜下腔出血106,359(50.0%),48,352(22。7%)患者发生实质内出血。62,273名(29.3%)患者患有一种以上类型的出血,其中硬膜下出血和蛛网膜下腔出血是最常见的组合。评估之前存在的合并症包括CVA /残余神经功能缺损,糖尿病和当前吸烟者。有C118 /残余神经功能缺损的患者为6,118(2.9%),患有糖尿病的患者为26,265(12.4%),目前吸烟的患者为25,659(12.1%)。在患者停留期间发生的医疗并发症包括1,485(0.7%)位患者的CVA /中风。在1级创伤中心(能够为受伤的各个方面提供全面护理的全面区域资源)中接待82,544(38.8%)位患者,在2级创伤中心(能够为所有人提供最终护理)中有41,335(19.4%)位患者受伤的患者),3,412(1。6%)3级创伤中心的患者(能够提供及时的评估,复苏,手术,重症监护和稳定治疗),以及147(0.1%)4级创伤中心的患者(能够提供更先进的创伤生命支持将患者转移到更高级别的创伤中心)。在中西部的创伤中心看病的患者为51,774(24.3%),在东北部为40,047(18.8%),在南部为76,456(36.0%),在西部为42,399(19.9%)。19,140名患者(9.0%)患有死亡或临终关怀(东北地区为8%),南部地区为76,456(36.0%),西部地区为42,399(19.9%)。19,140名患者(9.0%)患有死亡或临终关怀(东北地区为8%),南部地区为76,456(36.0%),西部地区为42,399(19.9%)。19,140名患者(9.0%)患有死亡或临终关怀(表格1, 图1)。因缺少数据而被移走人口的死亡率为11.3%。未配对的样本t检验显示该比率与研究人群的比率无显着差异(p = 0.529)。

模型评估

交叉验证显示平均准确度为0.792(95%CI 0.783-0.799)。该模型的准确性或正确分类的比例为0.827。精确度为真实阳性与总预期阳性的比例,为0.309。回忆/敏感度(真实阳性与阳性总数之比)为0.750。特异性(真阴性与阴性总数之比)为0.831。ROC曲线下的面积(AUC)为0.791,它描述了模型区分结果的能力。在最终模型中,选择了九项功能。高ISS,高龄,存在硬脑膜下出血和蛛网膜下腔出血与死亡率增加相关,而高GCS-V,高GCS-M,当前吸烟者,血液酒精水平超出法定限值,图2)。

研究人群的事后风险分层显示,有134,161名(63.1%)I级tICH患者(预计死亡率<5%)的实际总死亡率为1.5%[95%CI:(1.4%,1.6%)], 41,899名(19.7%)II级tICH患者(预期死亡率5-15%)的实际死亡率为9.8%[95%CI:(9.5%,10.0%)],15,501名(7.3%)III级患者tICH(预计死亡率为15-40%)的实际死亡率为22.2%[95%CI:(21.5%,22.7%)],而21,105名(9.9%)IV级tICH患者(预计死亡率> 40%)为实际死亡率为46.6%[95%CI:(45.8%,47.2%)]。

使用其他几种机器学习算法对数据集进行了训练,以确认线性SVM的使用适合这些数据的特征。在将逻辑回归,决策树分类器,k最近邻算法,高斯朴素贝叶斯分类器,线性判别分析,径向基函数核SVM和多项式核SVM与我们的线性SVM的性能进行比较时,线性SVM的性能最高型号(表2)。当应用于测试集时,使用每种模型的死亡率预测准确性来衡量性能。

事后测试

在支持向量机中,像在回归等其他机器学习模型中一样,考虑可变共线性不是一个优先事项。在支持向量机中,共同考虑变量(即使它们是相关的)也可以提高模型的预测能力,因为该算法不受数据集的统计属性的影响。因此,此模型识别出的关联本身不一定与通过回归识别出的关联具有可比性,因此不能如此解释。因此,我们不一定能得出以下结论:这9个特征中的每一个都是死亡率的唯一预测因子。

以前的文献曾建议,当它与另一tICH,诸如SDH等同步发生时SAH是多个预测TBI死亡率。我们检查了SAH人群亚组的死亡率,包括并发SDH的SAH,没有SDH的SAH和没有其他tICH的SAH。这些组的死亡率分别为16.67%,6.16和5.73%。未配对样本t检验显示,并发SDH的SAH与没有SDH的SAH之间的死亡率显着不同(p = 0.00821),以及并发SDH和没有其他tICH的SAH之间的死亡率(p = 4.25×10 -4))。但是,未配对的样本t对所有SAH与非SAH组的死亡率进行的检验分析,结果均无统计学意义(p = 0.643)。

在患者入院时可能无法全部获得这九个已识别的变量,从而降低了完整模型在许多情况下的适用性。因此,仅使用在入院时容易识别或近似的自变量来训练另一个模型:硬膜外血肿,硬膜下血肿,蛛网膜下腔出血,挫伤,年龄,ISS,GCS-V,GCS-M ,以及GCS-E。模型评估得出的精度为0.806,精度为0.274,召回率为0.714,AUC为0.764。尽管性能略低于完整模型,但是当所有九个预测变量都不可用时,像这样的精简模型可能是可行的选择。

讨论

模型评估

尽管存在各种模型,但选择线性SVM的原因是它能够容纳许多独立变量,并且离群值对模型性能的影响有限。此外,考虑到使用大型NTDB数据集的好处,使用了一个真正的保留集来避免过度拟合,并可以更准确地描述模型性能。与以前开发的模型相比,使用真正的保留集是一种新颖的方法。鉴于在可比研究中看到的样本量明显较小,因此通常不可能使用真正的保留集。因此,尽管准确性和敏感性稍有下降,我们的模型仍可能更广泛地推广到更广泛的人群。与其他先前开发的模型相比,我们的模型在特异性和AUC方面表现相当出色,而在准确性和敏感性上则表现较低(表3)。这种差异可能是由于使用了真正的保留集进行模型验证的结果,鉴于该研究的患者人数众多,这可能是有可能的。

假定患者在医学和/或手术方面得到了最佳治疗,则未将每种tICH的治疗(例如手术)作为模型的一部分进行评估。与以前开发的模型相似,该研究的目的不是确定最佳治疗方法,而是确定假设患者接受了最适当护理的死亡率预测指标。

变量关联

更高ISS,高龄,SDH,SAH,低GCS,水平创伤中心的存在,且BAL的存在超出与由以前的文献由死亡率确证结论法定上限。先前对饮酒量与TBI结果之间关系的分析得出了矛盾的结论,这可能是由于研究方法不同以及饮酒量与对tICH的生理反应之间的复杂关系所致。尽管据推测由于NMDA受体和交感神经系统抑制,低至中度饮酒对TBI具有保护作用,但由于脑水肿增加和对神经行为功能的负面影响,高饮酒与TBI结果差强人意相关,该研究证实了这一点。有趣的是,发现当前吸烟者状态与死亡率降低有关。过去的较小规模研究发现,该因素不能很好预测TBI的预后,因此,有必要对这一变量进行进一步研究。然而,对于由本研究中鉴定的有益效果的一个可能的解释是尼古丁的通过胆碱能抗炎通路调制的神经保护作用。

由这种模型开发的风险分层类别可能具有临床用途。例如,对于即将来临的tICH患者,可以收集9个相关变量,并且该模型将使用历史国家数据来估计将患者归为适当预后组的死亡率,从而有助于分类。通过NTDB进行的持续数据收集可用于改善模型的性能。

这些模型的一个重要应用可能是指导TBI相关研究的入学。该领域的许多研究可能都受到过分广泛的入选标准的限制,以至于他们包括了可能做得好的患者,或者在极端情况下可能做得不好的患者,而不论实验干预是什么。这种方法会严重限制临床试验的能力。理想情况下,此类研究应侧重于结果不确定性较高的患者(例如,此处定义的II级或III级tICH),因此可能更可修改。等级“计算器”的开发是为了允许该模型具有更广泛的可用性和应用性。该计算器可用于选择要进行临床试验的患者以及更好的风险分层个人。

局限性

与其他先前开发的模型相比,该当前模型的准确性和灵敏度较低。但是,这可能归因于更大,更多样化的研究人群,以及使用了真正的保留集,从而避免了可比模型中可能出现的过拟合现象。因为这是使用NTDB预测死亡率的第一项研究,所以这些结果的可推广性可能更大。

此外,如事后测试所示,当将九个已识别的特征相互结合考虑时,它们仅限于作为预测因素,因此,每个特征可能与死亡率无关。使用替代的机器学习方法对这9个变量进行亚组分析,可以确定每个变量还是变量的特定组合与死亡率更相关。这将有助于更好地定义每个变量与死亡率之间的个体关系,因此有必要在以后的研究中加以证明。

另外,该模型的范围仅限于tICH病例,因此,其对非出血性TBI类型的影响可能尚不清楚。我们的目标是专注于基于CT的准确预测因素。由于CT扫描的敏感性较差,因此从分析中排除弥漫性轴索损伤(DAI),脑震荡,外伤性脑水肿和弥漫性脑损伤的选择,这通常是最初对患者进行评估的方式,而通过MRI进行进一步评估并不常见。

在模型中评估的医学并发症和合并症仅限于与tICH关系最密切的那些。NTDB中包含的其他并发症和合并症可能值得评估,并可能指出与tICH死亡率的新发现关联。

像所有大型创伤数据库一样,NTDB会丢失和错误输入的生理数据,尤其是针对GCS和SBP值的生理数据,这可能会导致意外的数据分布。尽管在大型创伤数据库的研究中使用完整病例分析是标准的方法,但其使用可能会影响研究结果。应该确定NTDB的最佳数据估算方法,并将其应用于未来的研究中,以最大程度地减少偏差。

此外,由于NTDB旨在提供涵盖创伤护理所有领域的广泛而通用的数据,因此该研究尤其受到二级数据分析的限制。NTDB不包含某些在评估tICH预后时很重要的临床因素,例如治疗时间和干预类型。它还不包括已知的相关预后评分,例如Marshall CT扫描分类评分(MCTC)。为了确保在以后的研究中具有更大的鲁棒性,国家创伤数据收集应设法为与创伤护理领域相关的每个数据点包括额外的相关领域。

最后,与其他基于ICD代码的数据库研究一样,编码错误可能会导致结果变化。

结论

针对tICH建立了线性SVM模型,并选择了九种特征作为死亡率的预测因子。这些发现适用于多种出血亚型,可能对入院后高危患者的分类有益。尽管许多研究试图创建模型来预测TBI的死亡率,但我们试图利用美国最大的可用TBI数据库使用现代建模方法,机器学习和真实的保留测试集来确认那些预测因素。我们确定的预测变量与以前的报告一致,但如果进行更严格的评估,总体预测准确性会比先前的报告低。

译者简介

陈龙,复旦大学附属华山医院虹桥院区ICU医师,在读博士,目前在胡锦教授团队中从事神经外科及神经重症临床与科研工作。

(0)

相关推荐