纯生信自噬基因与乳腺癌预后也能发5分!
今天给大家带来的是2020年1月发表在Aging (Albany NY)(IF=5.5)杂志上的文章“Development of prognostic index based on autophagy-related genes analysis in breast cancer”。在文章中作者构建了一个自噬基因相关的预后模型,为乳腺癌预后预测提供了新思路。
Development of prognostic index based on autophagy-related genes analysis in breast cancer基于自噬基因相关的乳腺癌预测指标
一.研究背景
自噬是一个由多组自噬相关基因调控的多步骤的溶酶体降解过程,可促进营养物质循环,满足细胞代谢需求,与肿瘤生成密切相关。目前,普遍认为自噬在肿瘤有双向作用,例如:降解受损细胞器维持细胞稳态,起抑癌作用;同时,在癌症进展阶段,自噬为肿瘤增值和侵袭转移提供营养,促进肿瘤发展。
二.分析流程
三.结果解析
1.鉴定自噬基因在乳腺癌中差异化表达
图1A:热图,对从TCGA数据库获得1039例有超过1个月随访乳腺癌患者的1109份肿瘤组织标本,和113份正常样本进行对比,红色表示表达上调的基因,绿色表示下调的基因
图1B:火山图,采取FDR <0.05 和 [log2 (fold change)]> 1的标准,初步筛选出13个显著上调和16个显著下调的自噬相关基因
图1C :散点图,显示29个基因在正常组织和肿瘤中表达差异,绿色基因在为正常组织中表达情况,红色为基因在肿瘤表达情况。其中上调的基因是:ATG9B, BAK1, BAX, BIRC5, CDKN2A, CTSD, CXCR4, EIF4EBP1, ERBB2, FADD, GAPDH, IKBKE, IL24, PARP1, PTK6 和 RGS19;下调的基因是:CCL2, DLC1, EGFR1, CX3CL1, FOS, FOXO1, GABARAPL1, MAP1LC3C, NRG1, NRG2, PPP1R15A, PRKN 和 TP63
图1. 筛选差异基因
2.差异基因的功能富集分析
图2A:对所有差异表达基因进行GO富集分析,发现差异基因涉及自噬凋亡和内肽酶的调控
图2B:对所有基因进行KEGG富集分析,发现差异基因涉及内质网蛋白加工和细胞因子-细胞因子受体相互作用等功能
图2. 所有差异基因GO、KEGG富集分析
3.鉴定预后相关基因
图3A:森林图展示了27个基因的风险比,证明大多数自噬相关基因是保护性基因(绿色)
图3BC:GO富集分析、KEGG富集分析,证明27个基因与自噬相关的生物学过程和信号通路相关
图3. 确定预后相关的ARGs
图4:基因突变分析发现筛选后的基因进行基因突变分析发现22个基因突变率超过5%,并且EIF4EBP1突变率最高为20%
图4. 基因突变分析
4.构建预测模型
构建模型:对把这组基因先进行单因素分析,随后进行多因素分析,最后得出12个基因和预后显著相关,并基于多因素分析构建模型API。
具体公式:
[Expression level of CASP8* (-0.5681)] + [Expression level of EIF4G1 * (0.3535)] + [Expression level of MAP1LC3A * (-0.2183)] + [Expression level of HSPB8 * 0.1302] + [Expression level of NRG1 * (-0.6381)] + [Expression level of SERPINA1* (-0.1772) + [Expression level of EIF4EBP1 * (0.1618)]+ [Expression level of BAG1* (-0.2884)] + [Expression level of CASP4 * (0.3839)] + [Expression level of AMBRA1 * (-0.4073)] + [Expression level of ATG4A * 0.6891] + [Expression level of IFNG * (-0.9043)].
将12个基因进行PPI网络分析确定EIF4G1,CASP8和MAP1C3CA为12个基因中的核心基因
图S3. 确定核心基因
5.验证模型效果
首先计算TCGA数据库在这个模型下的风险分数,并且以中位数将患者划分成高风险组和低风险组(图5A);然后通过散点图(图5B)展示了患者的生存时间,发现低风险患者存活时间长且死亡人数少;再通过热图(图5C)展示筛选出自噬相关基因的表达谱,发现大多数自噬相关基因下调;最后通过K-M生存曲线(图5D)验证模型,发现高风险组患者生存率低于低风险组。
图5. 生存分析
图6AB 单因素分析,比较年龄,肿瘤亚型,肿瘤分期,肿瘤大小和淋巴结转移等因素的风险比,发现API模型仅次于转移表明API模型和患者预后相关;随后调整年龄,肿瘤亚型,肿瘤分期,肿瘤大小和淋巴结转移等因素,进一步用多因素分析,发现验证API模型仍为独立的预后指标
图6C ROC曲线:验证该模型预测预后效能,发现在1年、3年、5年的生存期的预测中均能较好预测
图6. 检测API模型效能
6.API模型的临床应用
图7A:分析API模型和肿瘤大小关系,危险分数越高,肿瘤越大,但是三期肿瘤略低于二期
图7B:分析API模型和淋巴结转移关系,危险分数越高,淋巴结转移程度越高
图7C:分析API模型和肿瘤分期关系,晚期肿瘤比早期肿瘤危险分数越高
图7D:分析API模型和乳腺癌HER2亚性、管腔A型、管腔B型的关系、正常组织的关系
因此,API模型分数越高,临床预后指标越不好
图7. 癌症分期与模型的关系
最后小结一下,作者首先从TCGA数据库中筛选出29个差异表达的自噬基因,然后通过风险比、基因突变分析、多因素分析等进一步筛选出12个基因并构建出乳腺癌预后模型API,然后通过单因素多因素分析ROC曲线验证模型,最后作者还进行了API与临床的数据分析。