2020年筛个基因也还能发SCI?
Identification of Key Genes and Pathways for Enchondromas by Bioinformatics Analysis利用生物信息学分析鉴定内生软骨瘤的关键基因和途径
一、研究背景
软骨瘤起源于透明软骨,出现在髓腔内时称为内生软骨瘤(enchondromas,EC)。内生软骨瘤在男性中更为常见,其发病高峰在20至30岁。这种癌症可以发生在活动脊柱的任何区域。EC的确切病因未知。因此,了解与EC病理过程相关的分子机制对于制定更有效的诊断和治疗策略至关重要。高通量基因表达分析平台特别是GEO数据库在医学肿瘤学中应用越来越广,作者利用GEO数据库中的原始数据进行生物信息学分析,发现了mRNA在EC发生、发展中的表达变化。
二、分析流程
三、结果解读(数据挖掘经典套路)
1. 筛选差异表达基因(DEGs)
肿瘤数据挖掘经典套路第一步就是筛选差异表达基因DEGs,方法有很多,常见的就是使用limma包和GEO2R在线分析平台进行筛选。
作者使用GEO2R对来自GEO数据库的GSE22855数据集进行差异表达基因的筛选,最终筛选出了242个DEGs,结果如下:
火山图(图1):图中横坐标代表了表达倍数的变化,倍数越大代表了差异越大;纵坐标代表了p值的负对数,该值越大越具有显著性。
图1. 差异表达基因的火山图
差异表达基因的热图(图2)
图2. 差异表达基因的热图(部分)
前十个差异表达基因的表(表1):
表1. 前十个最重要的上调和下调的DEGs
2. GO分析
作者使用DAVID在线工具进行GO分析,结果如下(图3)。图中分3个板块展示了这些差异表达的基因相关的细胞组分、分子功能、生物过程。其中:
生物过程(红色的柱)主要富集在:对缺氧的反应、对钙离子的反应、对细胞外凋亡信号通路的负调控、轴突延伸参与轴突引导、胶原纤维组织、白细胞介导的信号通路等;
分子功能(蓝色的柱)主要富集在:细胞外基质(ECM)结构成分、整合素结合、核糖体结构成分、肝素结合、激酶活性、受体结合等;
细胞组分(黄色的柱)主要富集在:细胞核糖体亚单位、核糖体和基底膜、内质网(ER)腔、蛋白酶ECM、ECM等。
图3. GO分析结果
此外,作者还使用下图来详细说明这些生物学过程和这些DEGs的关系(图4),左半圆代表DEGs,右半圆代表了一些关键的基因功能。
图4. DEGs的GO分析结果
3. KEGG富集分析
作者利用DAVID在线分析工具进行KEGG富集分析,找到了EC差异表达基因相关的通路,结果如下(图5-图6):
上调的DEGs富集在ECM-受体相互作用、ER中的蛋白处理、核糖体、病灶粘附和PI3K-Akt信号转导通路;
下调的DEGs富集在矿物质吸收通路。
图5. KEGG富集分析找到的通路和与这些通路相关的DEGs
图6. KEGG富集分析结果可视化图
4. PPI网络分析
作者利用STRING数据库和Cytoscape软件构建PPI网络,结果如下:
前十个核心调控基因为:SEC61B、RPN2、DDOST、RPS15A、RPL23、RPL7A、RPLP1、RPS3A、RPL14、RPS28(图7)。该PPI网络图由圆圈(基因)和边(关系)构成,一个圆圈上的线越多代表着该基因参与更多基因的表达,也就是在研究的疾病当中起着关键作用的基因。
图7. PPI网络
利用MCODE插件,共得到201个节点和271条边,前三个重要模块如图8。从模块相关的基因可以发现,这些基因主要涉及核糖体、ER中的蛋白加工、ECM-受体相互作用以及蛋白消化吸收通路。
图8. 前3个重要模块
小结
这是一篇数据挖掘的入门文章,文章的行文逻辑是数据挖掘入门的经典套路。总结一下数据挖掘的经典套路:第一步,利用数据库筛选差异表达基因(DEGs),数据来源可以是GEO、TCGA、Oncomine等公共网络生物信息学平台,可视化结果包括火山图和热图;第二步,进行GO分析和KEGG富集分析,GO分析主要用来寻找这些基因相关的细胞组分、分子功能、生物过程,KEGG富集分析主要用来寻找相关通路为该疾病作机制分析,作者采用的是DAVID平台;第三步,PPI网络分析,这一步通过构建网络筛选出该疾病的核心调控基因和模块。通过筛选到的核心调控基因和通路,为今后的研究提供了理论依据。