3+分免疫预后模型这样来构建
今天给大家带来的是2020年发表在Frontiers in Bioengineering and Biotechnology(IF=3.644)杂志上的文章“Predicting the Risk of Melanoma Metastasis Using an Immune Risk Score in the Melanoma Cohort”。这篇对TCGA数据库中黑色素瘤患者样本进行筛选得到差异表达的免疫相关基因(immune-related genes,IRGs),并以此为依据构建了免疫风险评分(immune risk score,IRS)用于预测患者黑色素瘤转移风险。
Predicting the Risk of Melanoma Metastasis Using an Immune Risk Score in the Melanoma Cohort使用免疫风险评分在黑色素瘤队列中预测黑色素瘤转移的风险
一.研究背景
黑色素瘤是一种高度侵袭性的癌症,尽管手术切除原发性黑色素瘤的治愈率很高,但若发生转移,其5年生存率只有15-20%。因此,确定黑色素瘤转移的有效诊断生物标志物至关重要。已有研究提出了基于基因表达的特征来预测黑色素瘤患者的预后情况,但少有研究对转移风险进行深入研究。作者在本文中利用黑色素瘤队列构建免疫风险评分来预测黑色素瘤转移风险。
二.分析流程
三.结果解读
1.筛选差异表达免疫相关基因(immune-related genes,IRGs)
从TCGA数据库中下载黑色素瘤患者数据,共纳入470个样本,包括103个原发性样本和367个转移性样本,并作为训练集。在这470个样本中,有110个样本( 未转移65例,转移45例)是在同一天被确诊并提交测序,作者选择这些样本作为内部验证集。
ImmPort是一个可准确及时地提供免疫学数据的平台,作者从该网站上下载免疫相关基因(immune-related genes,IRGs)的列表,以此为依据确定原发样本和转移样本之间显著差异表达的IRGs,共得到124个差异表达IRGs (fold change > 2 或 < 0.5, FDR < 0.05)(图1A)。对其进行KEGG分析,结果显示,差异表达IRGs主要通过免疫和癌症等相关通路参与黑色素瘤转移(图1B)。
图1A/B 差异表达IRGs的火山图与KEGG富集分析结果
2.构建免疫风险评分(immune risk score,IRS)
作者接下来使用单变量和多变量logistic分析来选择参与构建构建免疫风险评分(immune risk score,IRS)公式的基因。本研究中,"黑色素瘤转移风险 "的概念是指黑色素瘤是否发生发生淋巴结或远处转移,它是一个二元变量。
首先进行单变量logistic分析,找出与黑色素瘤转移风险相关的IRGs (P < 0.05)。
接着对这些与转移风险相关的IRGs进行多变量logistic分析,找出独立预测因子 (P < 0.05)。
将独立的转移风险IRGs建立风险评分模型。以多变量logistic分析中IRGs的β系数作为权重,计算IRS:
IRS = C3AR1∗0.2193 + CD1D∗1.3537 + FCGR3A∗−0.0339 + FLT1∗0.3464 + IL20RB∗−0.4672 + LTB4R∗−0.1884 + NOV∗−0.0035 + PPBP∗−0.4763
训练集和内部验证集中IRS分布和所选基因的表达量热图分别见图1C,D。
图1C/D 训练集和内部验证集中IRS分布和所选基因的表达量热图
3.评估模型效果
作者分别绘制训练集和内部验证集的ROC曲线和PR曲线,并计算曲线下的面积AUC来量化IRS对黑色素瘤转移风险预测的能力(图2,A、B为训练集,C、D为内部验证集)。作者还评估了使用其他临床信息对黑色素瘤转移风险进行预测的效果,结果表明使用其他临床信息进行预测的AUC<0.70,表明预测能力未优于IRS(表1)。作者根据Youden指数(灵敏度与特异度之和减去1),将最大Youden指数对应的阈值作为最佳阈值。计算得最佳阈值为0.60。然后计算了该阈值下IRS在训练集和内部验证集中的灵敏度,特异性,阴性预测值,阳性预测值,阳性似然比和阴性似然比(表2),说明IRS是可靠的。
图2 训练集和内部验证集的ROC曲线和PQ曲线
表1 不同指标对黑色素瘤转移风险的预测能力
表2 IRS的统计摘要
接下来作者通过决策曲线分析对不同阈值下的净获益进行量化,确定IRS的临床实用价值(图3)。
IRS预测患者转移的概率记为Pi,当Pi达某个阈值,就界定为阳性有转移,采取治疗措施。此时会有真转移病人治疗的获益(利),也会有非转移病人治疗的伤害以及真转移病人未治疗的损失(弊)。而纵坐标就是利减去弊之后的净获益(Net Benefit, NB)。
横的线None表示,所有样本都被判断为是阴性(Pi < Pt),所有人都没干预,净获益为0。
斜的线All表示,所有样本都被判断是阳性,所有人都接受了干预。
结果显示,使用IRS进行判断得到的净获益高于两种极端情况下的净获益。
图3A,B 决策曲线分析(A为训练集,B为内部验证集)
4.IRS与黑色素瘤转移风险之间的关联
根据IRS的最佳阈值(IRS=0.60),作者将训练集和内部验证集分为低IRS组和高IRS组,建立了年龄和多变量调整的Logistic回归模型(表3),通过优势比(OR值)研究IRS与黑色素瘤转移风险之间的关联。
在年龄调整模型中,训练集中高IRS组患者发生黑色素瘤转移的可能性是低IRS组患者的18.45倍(95%CI=10.59-32.14)。内部验证集患者的转移风险也有类似的增加,高IRS的OR值为8.93(95%CI=3.53-22.61)。
在多变量调整的模型中,OR值在训练集(OR=16.35,95%CI=8.74-30.59)和内部验证集OR=7.32,95%CI=2.40-22.33)中均比年龄调整模型有所降低,但高低组之间的差异仍然显著(P<0.01)。
表3 IRS与黑素瘤转移之间关系的年龄和多变量调整模型的优势比
为了提供一个定量工具来预测黑色素瘤转移风险的个体概率,作者在IRS和临床信息的基础上分别利用训练集和内部验证集构建了诊断列线图(图4A,C)。此外,还绘制了诊断列线图的校准曲线,来比较预测与实际结果之间的情况,结果显示,两个队列的预测与实际结果之间具有良好的一致性(图4B,D)。
图4 IRS的列线图和校准曲线(A、B为训练集,C、D为内部验证集)
5.使用GEO数据集对IRS进行外部验证
为了确保IRS进行预测的可靠性和有效性,作者使用GEO数据库中其他黑色素瘤队列进行验证,根据以下标准进行排除后选择了GSE8401,GSE15605和GSE46517数据集作为外部验证集:
样本量n<50的数据集。
没有黑色素瘤是原发性还是转移性的信息的数据集。
使用细胞系或动物样本的数据集。
作者使用这几个数据集绘制ROC曲线,计算AUC分别为0.83、0.80和0.76,表明IRS较高的诊断准确性。通过单变量逻辑回归分析计算OR值(表4),验证了IRS是黑色素瘤转移的危险因素。决策曲线分析也表明使用IRS可以为黑色素瘤转移的诊断增加净获益(图3C-E)。
表4 IRS在外部验证集的预测性能
图3A,B 外部验证集中决策曲线分析
小结
这篇文章下载TCGA中黑色素瘤数据,基于ImmPort筛选差异表达的免疫相关基因(IRGs),进行KEGG富集分析。应用logistic分析构建了IRS用于预测黑色素瘤转移风险。选择了训练集中110个确诊当日提交测序的样本作为内部验证集。计算训练集和内部验证集的ROC曲线和PR曲线的AUC评估模型的预测性能,并根据Youden指数选择了IRS的最佳阈值。通过决策曲线分析对不同阈值下的训练集和内部验证集的净获益进行量化,使用优势比(OR值)研究IRS与黑色素瘤转移风险之间的关联,还构建了诊断列线图。最后使用3个GEO数据集作为外部验证集检验IRS预测转移的可靠性。本文比较有特色的是使用IRS预测患者转移情况而非常见的预后情况,值得学习。