TCGA单基因泛癌分析:富集分析结果答疑

前段时间我们推出了TCGA单基因泛癌分析,详见

TCGA单基因免疫相关泛癌分析(应要求,对出图添加更细致的描述)

TCGA单基因免疫相关泛癌分析-进阶版本

其中GO,KEGG和GSEA富集分析我们是使用clusterprofiler包做的出的图有气泡图,条形图,山峦图(波浪图)和circle图

下面总结一下常见的问题

1 条形图和气泡图顺序不一样是怎么回事?

条形图通过颜色和长度反应了两个指标,分别是p.adjust和count。count的意思是我们输入了300个基因,其中有n个基因富集到该通路中,n就是count值。显然条形图是按照p.adjust排序的。

气泡图反应了三个指标,气泡的大小指count,颜色代表p.adjust,还有个generatio。generatio是啥呢?我们看一下结果的数据

generatio的分子是count,分母都是254,254是啥?

这里我们输入了300个基因,而只有254个基因是被纳入到数据库的,也就是被注释的。比如KEGG数据库大约有七八千个基因,而人类有两万多基因。

那么气泡图是按照啥排序的呢?

比如我们展示前20个结果,我们首先选择p.adjust最小的前二十个,按照从小到大排序排列,再用generatio值从大到小排序,得到我们最终展示结果的顺序。

2 山峦图是怎么排序的?

首先按照p.adjust从小打到排序,选20个。然后按照NES值从大到小排序作图。

3 山峦图中,山的高度代表什么?

这。。。让我联想到高中时候,有个同学问我化学题,问道最后实在没问题了,问了一句,那空气中的稀有气体对反应有影响怎么办?我无言以对。但是这个问题至今我都记得,也不知道这位同学现在怎么样,有这种探索精神的人将来才能成大才吧。

我也就用尺子量了一下,确实不是所有的山峦高度都是一样的。就像下图:

第2 4 5个山峰的高度是不一样的,那么我们单独画每一个的图:

第二个:

第四个:

第六个:

看来也不是running enrichment score,那么看一看富集到的基因数,

synaptic signaling:76

anterograde trans-synaptic signaling:75

nervous system development:180

(0)

相关推荐