TCGA单基因泛癌分析:富集分析结果答疑
前段时间我们推出了TCGA单基因泛癌分析,详见
TCGA单基因免疫相关泛癌分析(应要求,对出图添加更细致的描述)
其中GO,KEGG和GSEA富集分析我们是使用clusterprofiler包做的出的图有气泡图,条形图,山峦图(波浪图)和circle图
下面总结一下常见的问题
1 条形图和气泡图顺序不一样是怎么回事?
条形图通过颜色和长度反应了两个指标,分别是p.adjust和count。count的意思是我们输入了300个基因,其中有n个基因富集到该通路中,n就是count值。显然条形图是按照p.adjust排序的。
气泡图反应了三个指标,气泡的大小指count,颜色代表p.adjust,还有个generatio。generatio是啥呢?我们看一下结果的数据
generatio的分子是count,分母都是254,254是啥?
这里我们输入了300个基因,而只有254个基因是被纳入到数据库的,也就是被注释的。比如KEGG数据库大约有七八千个基因,而人类有两万多基因。
那么气泡图是按照啥排序的呢?
比如我们展示前20个结果,我们首先选择p.adjust最小的前二十个,按照从小到大排序排列,再用generatio值从大到小排序,得到我们最终展示结果的顺序。
2 山峦图是怎么排序的?
首先按照p.adjust从小打到排序,选20个。然后按照NES值从大到小排序作图。
3 山峦图中,山的高度代表什么?
这。。。让我联想到高中时候,有个同学问我化学题,问道最后实在没问题了,问了一句,那空气中的稀有气体对反应有影响怎么办?我无言以对。但是这个问题至今我都记得,也不知道这位同学现在怎么样,有这种探索精神的人将来才能成大才吧。
我也就用尺子量了一下,确实不是所有的山峦高度都是一样的。就像下图:
第2 4 5个山峰的高度是不一样的,那么我们单独画每一个的图:
第二个:
第四个:
第六个:
看来也不是running enrichment score,那么看一看富集到的基因数,
synaptic signaling:76
anterograde trans-synaptic signaling:75
nervous system development:180