你也可以学得会的核心基因轻松发2分+SCI
今天和大家分享的是2020年1月发表在Diabetes, Metabolic Syndrome and Obesity: Targets and Therapy(IF=2.842)上的一篇文章:“Identification of Key Genes Involved in Diabetic Peripheral Neuropathy Progression and Associated with Pancreatic Cancer”,作者利用GEO数据库 的数据集确定了参与DM(糖尿病)、DPN(糖尿病周围神经病变)和PC(胰腺癌)的关键基因和相关通路,并发现了同时参与DM、DPN、PC疾病进程的关键基因:MMP9,为DM和PC的诊断与治疗提供 了有潜力的生物标志物。
Identifification of Key Genes Involved in Diabetic Peripheral Neuropathy Progression and Associated with Pancreatic Cancer
参与糖尿病周围神经病变且与胰腺癌有关的关键基因鉴定
一、研究背景
糖尿病是世界上最常见的疾病之一,常伴有多种并发症,其中最常见的为糖尿病周围神经病变,其 发病机制非常复杂;且有先前研究发现,糖尿病与胰腺癌风险增加有关,但糖尿病和胰腺癌之间的潜在 机制和联系尚未得到完善的分析。因此作者希望在本文中利用GEO数据库进行生物信息学分析,探究 DM、DPN与PC之间的联系,寻找与之相关的关键基因。
二、分析流程
三、结果解读
1、差异表达基因(DEGs)鉴定
作者先利用GSE95849数据集鉴定DM与DPN的差异表达基因,再利用GSE95849和GSE28735数据 集来鉴定DM和PC的差异表达基因。GSE95849数据集中包括6个DPN样本、6个DM样本、6个对照组样 本,作者将三类样本两两一组做DEGs鉴定;接着作者分别鉴定了GSE95849数据集中DM组与对照组的 DEGs以及GSE28735数据集中PC组与对照组的DEGs
2、对GSE95849得到的DEGs做通路分析
对从GSE95849数据集鉴定得到的三组DEGs(DM与对照组、DPN与对照组、DPN与DM)分别做 GO、KEGG分析(结果分别见表1、表2)。其中,GO分析结果提示炎症反应和免疫相关生物学过程可 能与DM和DPN的疾病进展有关;KEGG分析表明,三组DEGs均在TLR通路、造血细胞系以及趋化因子 受体相关通路中较为富集。
表1.DEGs的KEGG分析结果
表2.DEGs的KEGG分析结果
3、通过PPI网络获得hub基因
利用STRING数据库分别对三组DEGs构建PPI网络,再利用Cytoscape获取PPI网络中的hub基因。首先,利用Cytoscape中的cytoHubba插件计算网络中所有基因的degree(连接度),在表3中给出 degree值前30位的基因列表;接着利用Cytoscape中的MCODE插件获得三组PPI网络的核心功能模块 (取MCODE得分12为最低标准),在图2.A-C中分别给出了三个PPI网络的核心功能模块。将从三组 DEGs中筛选出的基因绘制Venn图取交集,结果得到3个hub基因:TLR4、CCR2、MMP9,它们具有作 为DM和DPN生物标志物的潜力。
表3.cytoscape计算degree的mocode_score结果
图2.利用cytoscape获得DEGs中的hub基因
4、鉴定DM与PC的hub基因
采用与鉴定DM和DPN的hub基因完全一致的流程,作者先对从GSE95849和GSE28735数据集得到 的两组DEGs取交集(如图3.A的Venn图所示),接着对二者共有的这59个DEGs做GO和KEGG分析,发 现它们在ECM受体反应、局灶性粘附和肿瘤相关信号通路中比较富集。接着,利用STRING数据库构建 这59个DEGs的PPI网络(图3.B)。先利用CytoHubba计算基因的degree,并利用MCODE生成核心功 能模块(图3.C),这15个基因即为hub基因。
图3.利用cytoscape获得DM与PC的hub基因
4、鉴定DM与PC的hub基因
采用与鉴定DM和DPN的hub基因完全一致的流程,作者先对从GSE95849和GSE28735数据集得到 的两组DEGs取交集(如图3.A的Venn图所示),接着对二者共有的这59个DEGs做GO和KEGG分析,发 现它们在ECM受体反应、局灶性粘附和肿瘤相关信号通路中比较富集。接着,利用STRING数据库构建 这59个DEGs的PPI网络(图3.B)。先利用CytoHubba计算基因的degree,并利用MCODE生成核心功 能模块(图3.C),这15个基因即为hub基因。
为了进一步从这15个hub基因中筛选出有作为生物标志物潜力的关键基因,作者对15个hub基因的 表达水平和预后价值进行和检测。首先作者利用GEPIA在线工具比较了15个基因在胰腺癌样本和对照组 样本中的表达差异(图4.A),发现PLAU、MET、APOL1、MMP9在PC样本中明显高表达;接着进行 KM生存分析,比较了15个hub基因高低表达组之间的OS差异,发现PLAU、MET、APOL1、MMP9、 CLU的高表达与胰腺癌患者预后改善有关(图4.B-C)。因此证明了这5个hub基因具有作为DM和PC生 物标志物的潜力。
基于先前空腹血糖水平升高会提高PC患病风险的研究结论,作者猜想慢性高血糖(CHG)可能会 引起上述15个hub基因的表达水平改变。因此作者利用GSE59953数据集进行验证,分别对21d治疗组 与对照组、48h治疗组与对照组、21d与48h治疗组(这里的治疗指TGF-β1治疗,可以改善细胞的CHG 水平)进行DEGs鉴定,接着对三组DEGs做GO和KEGG分析,发现它们在ECM受体反应、局灶性粘附和 肿瘤相关通路中最为富集。最后利用cytoscape筛选出PPI网络中的核心功能模块,得到了6个hub基因(CXCL8, EGR1, FN1, FOS, PPARG ,SPP1)。与预期不符的是, 这6个基因中并不包括从GSE95849和 GSE28735数据集中得到的15和hub基因,因此作者认为上述15个hub基因的表达水平不会因为 CHG(或TGF-β1治疗)而发生明显变化。
图4.KM生存分析筛选有生物标志物潜力的hub基因
5、胰腺癌中MMP9的相关通路富集分析
从上述获得的DM与DPN、DM与PC之间的hub基因可以发现,MMP9是唯一一个同时与DM、 DPN、PC疾病进展有关的关键基因,并且具有一定的预后价值,因此作者单独研究了MMP9在胰腺癌中 的相关信号通路。首先作者在TCGA中下载了178例PC患者的RNA-seq数据,利用LinkedOmics数据库 (http://www.linkedomics.org/login.php)的LinkFinder模块分析了与MMP9相关(spearman相关) 的差异表达基因,其中1550个与MMP9正相关,729个与MMP9负相关,在图5.A中利用火山图进行可 视化,并取其中spearman相关系数前50位的正相关基因和负相关基因绘制热图(图5.B-C) 接着,使用LinkedOmics中的LinkInterpreter模块对MMP9相关基因进行GSEA富集分析,结果表 明与MMP9相关的基因在细胞因子-受体相互作用、ECM-受体反应、造血细胞系、B细胞受体相关通 路、局灶性粘附、三羧酸循环相关通路中明显富集(图5.D-J)。由于与MMP9相关的差异表达基因均与 糖尿病发生、炎症反应以及肿瘤相关通路有关,因此作者认为MMP9具有作为胰腺癌诊断和治疗的生物 标志物的潜力。
图5.使用LinkedOmics对MMP9相关通路做富集分析
小结
本篇文章中,作者利用GEO数据库的数据集分析了参与DM、DPN和PC疾病进程的关键基因和相关 信号通路,发现炎症反应和免疫相关通路与DM和DPN有关,而ECM受体反应、局灶性粘附和肿瘤相关 通路与DM和PC有关。同时,作者发现MMP9同时与DM、DPN、PC的疾病进展有关,可以作为三者潜 在的诊断和治疗靶点。
本文的研究局限性:1、GSE95849数据集的RNA样本来自外周血单核细胞,而不是来自周围神 经,因此利用该数据集获得的hub基因与DPN进展有关这一结论说服力较差;2、GSE95849和 GSE28735两数据集是分别由DM和PC的数据生成的,因此没有在一个数据集中直接地分析DM和PC之 间的关系,难以充分地反应DM和PC之间的真实关联;3、本文的研究全部基于生物信息学分析,因此 需要进一步的生物学实验来加以验证。