非肿瘤纯生信:Tuner综合征的核心基因筛选

Frontiers in Endocrinology(IF:3.634)的一篇文章,“Bioinformatic Analysis Identifies Potential Key Genes in the Pathogenesis of Turner Syndrome”,文章通过挖掘GEO数据库中有关特纳综合征的数据集,经分析差异表达基因,功能分析,构建PPI网络以及识别核心模块等生信手段,发现了可能的特纳氏综合征致病基因。下面由我来给大家详细讲一下吧。

Bioinformatic Analysis Identifies Potential Key Genes in the Pathogenesis of Turner Syndrome
生物信息学分析确定特纳综合征发病的潜在关键基因

一. 文章背景

特纳综合征(Turner syndrome,TS)是一种在女性中存在的性染色体非整倍性的遗传病,患者的性染色体只有一条父源或母源的X染色体,核型为45X;患者具有多种症状,包括身材矮小,卵巢衰竭和骨骼异常等。TS的病因很复杂,而且其致病机理尚不清楚。作者希望通过分析GSE46687这个比较TS患者和正常女性外周血单核细胞基因表达差异的数据集,去揭示可能的TS致病基因,探究其发病机制。

二. 文章思路

三. 结果解析

1. 筛选差异表达基因

作者利用GEO数据库中的GEO2R分析工具对GSE46687数据集(外周血单核细胞芯片数据集)进行分析。分组为:

  • Xm-XX:16 TS患者(X染色体母系遗传) VS 10 正常女性

  • Xp-XX:10 父系遗传TS患者(X染色体父系遗传) VS 10 正常女性

利用GEO2R工具寻找两组中的DEG(差异表达基因),筛选标准是|logFC>1|,adjp<0.05,并取交集。最后得到表达上调的DEG60个,表达下调的DEG25个(C)。A-B两图分别Xm-XX组和Xp-XX组中的DEG在样本中表达情况的热图。此外,作者选择了一些共同存在于TS患者中的DEG,对其作用和表达情况做了简要描述。

图1. 筛选差异表达基因

2. 在特定组织中表达的DEG

作者在BioGPS数据库中分析了上述85个DEGs在不同组织器官中的表达情况,并选取在特定组织中有最高表达的基因。标准如下:

  • 基因在特定组织中的表达量要为在所有组织中的表达量的中位数的10倍以上

  • 基因的第二高表达水平不到最高表达水平的三分之一

根据以上标准对85个DEGs分别进行了分析,得到的在特定组织器官中高表达的基因如下表。

表1. 在某一特定组织器官中高表达的基因

3. 对DEGs进行功能分析和通路分析

这里作者利用DAVID数据库对上文得到的85个DEGs进行了functional categories分析以及GO和KEGG通路分析,下图展示了DEGs富集最显著的11个功能通路(p<0.05)。

图2.对DEGs的功能分析结果

4. 构建PPI网络

先利用STRING数据库预测这85个DEGs间的相互作用关系(参数选择:互作分数>0.4),之后利用Cytoscape对PPI(蛋白质相互作用)网络进行可视化(A),这个网络有42个结点和49条边(红色表示在TS中表达上调的DEGs,绿色表示在TS中表达下调的DEGs)。随后利用ClusterOne应用去分析PPI网络中的核心PPI网络模块(B-C)。

图3. 蛋白质相互作用网络

5. 识别可能的TS致病基因

通过分析DEGs中在X染色体上的基因,作者发现AP1S2,CSF2RA,CD99这三个基因与免疫系统相关。作者认为结果4中8个PPI网络核心模块基因与TS的发生有关,且CDC27和CD99这两个基因在造血/免疫系统中高表达(结果3)。通过Genecards数据库的分析,作者也在DEGs中找到一些与TS发生相关的基因。最后作者将这些基因汇总成表2

表2. 可能的TS致病基因以及表达情况

好啦,今天的文献分享就到这里了,我们快速总结一下。本篇文章是一篇挖掘GEO数据库中TS患者数据的套路文章。在获取GSE46687的表达矩阵后进行差异分析得到共85个DEGs,紧接着就是利用DAVID数据库进行功能富集分析,STRING数据库获取PPI网络并用Cytoscape可视化也不可少,并用ClusterOne分析了核心模块。以上便是主干,枝叶便是从BioGPS数据库得到了这些DEGs中在特定组织高表达的基因。结合以上和Genecards中关于TS的信息,作者综合分析得到了可能的TS致病基因。其实相同的方法不限于TS,大家也可以去GEO数据库中找找别的遗传病或其它疾病的信息去做类似分析。

(0)

相关推荐