为什么他就发3+分我就被拒?因为他标题上有机器学习吗?
Identification of a Sixteen-gene Prognostic Biomarker for Lung Adenocarcinoma Using a Machine Learning Method
用机器学习方法构建一个十六基因组成的肺癌预后标志物
一、研究背景
肺癌是全世界癌症死亡的主要原因,每年约有100万人死于这种疾病。而TCGA-肺腺癌(LUAD)是最常见的组织学亚型,肺癌的发病率和死亡率都在增加LUAD患者的平均5年生存率仅为15%,虽然在治疗方面取得了进展,因此寻找LUAD的预后指标并提供靶向治疗显得尤为重要。
二、分析流程
三、结果解读
1、LUAD生存相关基因的鉴定
图1.A:给出本文鉴定种子基因和关键基因、以及构建模型后的验证流程图
图1.生存相关基因鉴定流程和结果
图1.B-C:对利用单因素cox回归分析和RSF模型筛选到的与LUAD生存有关的基因进行KEGG分析,结果表明单因素cox得到的5376-个基因与代谢和局灶性粘附过程有关;而RSF得到的1113个基因在代谢途径上富集。
接着,作者首先对TCGA队列Ⅰ的临床特征数据进行单因素和多因素cox回归分析(补表1),取p值小于0.05的预后因素作为临床因素分别与两模型筛选出的RNA-seq数据进行整合,由此得到四种用于生成关键基因的模型,以下均分别写作:cox_RNA、cox_RNA_CLI、RSF_RNA、RSF_RNA_CLI。利用最小AIC准则(赤池信息量准则)分别对四组模型构建出的关键基因模型进行筛选,各得到一个最佳模型,它们包含的基因列表分别如补表2-5所示。
图1.D:对四个关键基因模型包含的基因绘制Venn图,发现有四个基因同时包含于cox和RSF模型获得的关键基因。
补表1.对TCGA队列I进行的cox分析结果
补表2-5.四种模型得出的基因标志物列表(此处仅给出补表2结果)
2、LUAD风险评分模型的开发
根据补表2-5中的基因相关系数,作者在TCGA队列Ⅱ中利用四组基因标志物分别建立了风险评分系统,计算得出的风险评分越高,则LUAD患者的预后越差,按照50百分位数作为阈值进行高/低风险患者分组。
图2:分别对四组风险评分系统的分组进行KM生存分析,均表现为低风险组患者预后更好,但RSF_RNA_CLI组的HR值最大,p值最小,表现出了更为良好的预后价值。
表1:作者利用R包"Hmisc"计算四组预后预测模型的C-index,发现RSF_RNA_CLI的C-index最大(0.656),说明其预测准确性更高
图2.四模型的KM生存分析(TCGA队列Ⅱ)
表1.预测模型的C-index(TCGA队列Ⅱ和验证集GSE72094)
3、对风险评分模型预测能力的验证
作者先利用验证集GSE72094对上述风险评分模型的预测能力进行验证,对该验证集患者的临床特征数据进行单、多因素cox回归分析(补表7),取p值小于0.05的因素与模型整合(同上述对TCGA队列的操作),并依次构建四组风险评分模型,按照50百分位数作为阈值进行高/低风险患者分组。
图3:分别对四组风险评分系统的分组进行KM生存分析,均表现为低风险组患者预后更好,但RSF_RNA_CLI组的HR值最大,p值最小,表现出了更为良好的预后价值。
同时作者也进行了C-index的计算,四组预后预测模型中RSF_RNA_CLI的C-index最大(0.672),验证了其预测准确性最高的结论。
补表7.对验证集GSE72094进行的cox分析结果
图3.四模型的KM生存分析(验证集GSE72094)
为了保证结论的准确性,作者接着又对验证集GSE11969进行了与上述验证集完全一致的验证操作,KM生存分析的结果如补图1所示,C-index的计算结果如补表9所示,RSF_RNA_CLI的C-index最大(0.670),作者的重复验证让RSF_RNA_CLI模型得出的16基因标志物的预后价值最高这一结论更加具有说服力
补图1.四模型的KM生存分析(验证集GSE11969)
补表9.预测模型的C-index(验证集GSE11969)
在验证完模型的预测能力之后,作者又将本文中构建的16基因模型与先前研究中报道的5个LUAD预后标志物进行预后价值的对比(表2),结果显示在三个数据集中(TCGA队列Ⅱ、验证集GSE72094、验证集GSE11969)均出现本文16基因模型的HR值最大,p值最小、C-index最大的情况,说明本文获得的16基因模型的预后价值和预测准确性都很可观。
表2.16基因模型与5个先前研究模型的对比
4、十六基因标志物的蛋白互作和通路分析
图4.A:作者绘制了16关键基因中包含于GEO数据库中的11个基因在验证集GSE72094患者中的表达热图。红色表示高表达,绿色表示低表达,结果显示病人的风险评分越高,基因的表达水平就越高。
图4.B:对上述11个基因进行KEGG分析,发现它们对尼古丁成瘾过程的富集有统计学意义。
图4.C:作者在starbase2.0 (http://starbase.sysu.edu.cn/starbase2/index.php)上下载了16个关键基因与相关蛋白的相互作用情况,并用Cytoscape进行可视化,在该网络中关键基因主要与9种蛋白有相互作用关系。
图4.D:作者尝试将这个16基因标志物用于肺鳞状细胞癌(LUSC)的预后预测,于是用16基因标志物来预测TCGA中的LUSC患者(n=486)的预后,KM生存分析结果显示高风险组患者预后较差,但用该模型预测LUSC患者预后的效果不是特别理想(HR = 1.58, 95% CI: 1.20-2.07, p = 1.21e-03)
图4.KEGG分析和蛋白-基因互作网络
小结
本篇文章作者利用了RSF模型和cox回归分析来构建肺腺癌的预后标志物,将二者与患者临床特征数据结合后进行了筛选和预后价值的对比,最终确定了由RSF构建的一个16基因组成的LUAD预后标志物,为LUAD患者的预后预测和靶向治疗提供了指导。