【生信挖掘】模块化代码复现6分免疫相关lncRNA预后模型

生信已经成为科研圈发SCI的神器了,检索PubMed上可见发表的文章不管高分低分都涉及生信,但是许多人听见生信编程就望而却步,产生恐惧心理,我们特邀请医科堂生信挖掘一对一辅导训练营周老师开设专栏,通过文章实例复现的方式帮助大家学懂文章,看懂代码,希望能够给大家有所帮助。

大家好!今天分享一篇2021年4月发表在《Frontiers in Oncology》(IF=6.244,中科院二区期刊)上的一篇文章,题为"An Immune-Related lncRNA Expression Profile to Improve Prognosis Prediction for Lung Adenocarcinoma: From Bioinformatics to Clinical Word"

研究摘要

在这项研究中,系统的阐明了肺腺癌中的免疫相关lncRNA表达图谱,并且通过单因素,多因素回归分析构建了包含4个免疫相关lncRNA的预后模型,从而形成高低风险组,发现具有不同的预后和免疫细胞浸润。GO、KEGG分析显示了高低风险组差异基因的富集通路,GEPIA数据库展示了单个免疫相关lncRNA在肿瘤和癌旁的表达情况,以及和生存预后的关系。最后此研究中,收集了临床78例肺腺癌的表达情况,于体外验证了四个免疫相关lncRNA的预后模型。

研究结果

1.免疫相关lncRNAs特征的构建与评估
从TCGA数据库中下载497个LUAD样本以及54个癌旁样本的表达矩阵,使用perl脚本分离出lncRNA和mRNA,从中提取出331个免疫基因的表达矩阵,并通过person相关分析得到免疫相关lncRNA。紧接着,采用单因素、多因素分析构建了4个免疫预后相关lncRNA模型。
主要使用代码:perl分离脚本,单因素R脚本,多因素R脚本
2.评估细胞和组织中免疫相关 lncRNA 的表达
进一步探讨了四个相关lncRNA在细胞和组织中的表达,采用PCR检测肺腺癌细胞和对照的表达量,组织及生存曲线采用数据库Gepia里面的数据。
主要使用代码:Gepia数据库http://gepia.cancer-pku.cn/。Gepia数据库是北大开发的对TCGA数据可视化的一个在线网站,对于肿瘤分析是一个非常不错的工具。
3.四种免疫相关 lncRNA 与其他临床病理特征的关联
采用R语言对高低风险组的四个免疫相关lncRNA进行热图可视化,并且分别展示了在stage, T分期,M分期和N分期中四种免疫相关lncRNA的表达情况。
主要使用代码:R语言临床性状相关性分析脚本
4.风险评分与年龄、性别、AJCC分期以及AJCC-TNM的关系
采用柱状图,比较了不同临床形状中高低风险的表达水平,类似卡方检验,结果发现高低风险和性别,AJCC分期,M分期,N分期相关
5.高低风险组差异基因的功能和通路富集分析
采用limma包得出高低风险组的差异基因,对部分差异基因进行热图展示,并且采用GO和KEGG进行富集分析。
主要使用代码:R语言差异分析脚本,GO分析脚本和KEGG富集分析脚本。
6.比较高低风险组的免疫状态
基于PCA降维分析,比较了全基因组,所有免疫相关lncRNA,四种免疫相关lncRNA三种模型的区分度,可以发现四种免疫相关lncRNA的红色绿色分开良好。进一步,采用GSEA富集分析,查看Immune Response和Immune System Process的富集情况。最后采用CIBERSORT比较高低分析组的免疫细胞情况。
主要使用代码:PCA降维分析R脚本,GSEA软件使用,CIBERSORT算法R脚本使用。
7.临床癌症队列中预后特征的识别和验证
临床收集78对肺腺癌样本,采用PCR检测四种免疫相关lncRNA的表达,并且基于前期构建的模型计算出风险分数,并结合临床资料分析,体外验证四种免疫相关lncRNA的模型
主要代码:单因素多因素分析R脚本,生存曲线R脚本
这篇生信文章相对来说结构思路还是很清晰的,构建了一个四种免疫相关lncRNA的预后模型并在体外验证。其实换一个套路,做点糖酵解,铁死亡,缺氧,细胞焦亡生信的预后模型分析都是类似的。

文章复现

医科堂精心整理模块化代码帮助大家复现论文主要内容,具体获取代码方式见文末!
01-03 从TCGA数据库中下载数据,构建基因表达矩阵
04 分离lncRNA和mRNA矩阵
05 获取TCGA临床信息
06 limma包差异分析得到差异基因
07-09 对差异基因进行GO和KEGG富集分析
10 cibersot算法脚本
11-12 对cibersort结果进行可视化脚本
13 表达矩阵融合生存数据
14-15 单因素多因素分析脚本
16 生存曲线脚本
(0)

相关推荐