GEO\TCGA纯生信数据挖掘经典套路
今天介绍的GEO\TCGA纯生信数据挖掘经典套路文章题目:Identification of key genes for predicting colorectal cancer prognosis by integrated bioinformatics analysis,PMID: 31897151。
研究背景:
结直肠癌(CRC)是威胁生命的疾病,预后不良。因此,鉴定CRC的分子预后生物标志物至关重要。本研究旨在确定可用于预测CRC患者预后的潜在关键基因。
研究方法:
从GEO数据库下载了三个CRC微阵列数据集(GSE20916,GSE73360和GSE44861),并从The Cancer Genome Atlas(TCGA)数据库获得了一个数据集。使用BRB-ArrayTools软件分析了三个GEO数据集以检测差异表达基因(DEG)。这些DEG的功能和途径富集分析是使用注释,可视化和集成发现数据库进行的。构建了DEG的蛋白质-蛋白质相互作用(PPI)网络,提取了轮毂基因,并分析了PPI网络的模块。为了研究CRC中枢基因的预后价值,基于样本分割方法和Cox回归模型,使用TCGA CRC数据集中的数据进行生存分析。使用Spearman的相关性分析评估中心基因之间的相关性。
研究结果:
与正常结直肠组织相比,在这三个GEO数据集中,共鉴定出105个常见DEG,包括CRC中51个下调基因和54个上调基因。构建了由100个DEG和551个边组成的PPI网络,并确定了44个节点为中心基因。在这44个基因中,四个枢纽基因TIMP金属肽酶抑制剂1(TIMP1),溶质载体家族4成员4(SLC4A4),醛固酮还原酶家族1成员B10(AKR1B10)和ATP结合盒亚家族E成员1(ABCE1)是与CRC患者的总生存期(OS)相关。从PPI网络中提取了三个重要的模块。中心基因TIMP1存在于模块1中,ABCE1与模块2相关,而SLC4A4在模块3中被鉴定。单因素分析显示TIMP1,SLC4A4,AKR1B10和ABCE1与CRC患者的OS相关。多变量分析表明,SLC4A4可能是与OS相关的独立预后因素。此外,相关分析的结果表明,TIMP1,SLC4A4和ABCE1之间没有相关性,而AKR1B10与SLC4A4正相关。
研究结论:
总之,通过综合生物信息学分析鉴定了与CRC患者的OS相关的四个关键基因TIMP1,SLC4A4,AKR1B10和ABCE1。这些关键基因可以用作预测CRC患者生存的预后生物标志物,因此可以代表CRC的新治疗靶标。
文章分析内容:
1、GEO数据库搜索下载相关数据,并且进行差异分析绘制热图和火山图
2、差异基因GO、信号通路富集分析
3、PPI分析,筛选hub基因
4、对hub基因进行生存分、Cox回归分析
5、hub基因之间相关性分析
天下没有不可以发表的纯生信套路,只怕永远都是迟迟不动手,站在零基础的位置。