技术贴 | 微生太宏基因组报告解读 | 第九篇:功能分析-基于EggNOG数据库

本文由阿童木根据实践经验而整理,希望对大家有帮助。
原创微文,欢迎转发转载。
EggNOG数据库收集了COG(Clusters of Orthologous Groups of proteins,直系同源蛋白簇),构成每个COG的蛋白都是被假定为来自于一个祖先的蛋白,因此是orthologs或者是paralogs。通过把所有完整基因组的编码蛋白一个一个的互相比较确定的。在考虑来自一个给定基因组的蛋白时,这种比较将给出每个其他基因组的一个最相似的蛋白(因此需要用完整的基因组来定义COG),这些基因的每一个都轮番地被考虑。如果在这些蛋白(或子集)之间一个相互的最佳匹配关系被发现,那么那些相互的最佳匹配将形成一个COG。这样,一个COG中的成员将与这个COG中的其他成员比起被比较的基因组中的其他蛋白更相像。
一、组成概况
根据数据库的注释结果,绘制各样品COG相对丰度统计图。下图是相对丰度前20的COG相对丰度柱形图,其中不同的颜色代表不同的COG类别。

二、LEfSe差异分析
LEfSe是一种结合了非参数检验和线性判别分析的方法,常被用于寻找可以区分多组样品的Biomarker。LEfSe分析结果中的COG的LDA>阈值,表示该COG在相应分组中丰度较高,而在其他分组中丰度较低。下图是COG的LEfSe分析LDA柱形图。

三、功能物种来源分析
LEfSe分析得到的差异COG结合HUMAnN2的分析结果,可进行功能物种来源分析,分析特征COG在每个样品的物种中的分布情况。下图是COG物种来源组成柱形图,其中横坐标对应样本,以及样本分组,不同分组用不同颜色标出。纵坐标对应各个样本该功能的相对丰度,不同物种来源用不同颜色标出。

四、聚类分析
从COG的相对丰度表中筛选出丰度排名前20的COG,接着通过对多个样品的COG进行丰度聚类来考察COG丰度在不同样品或者分组间的相似或差异性。下图是COG聚类热图。

五、Circos图分析
Circos图可以用于展示每个样本中COG的丰度,以及各个COG分别在各个样本中的比例。下图是COG在各个样本中的分布Circos图。其中左半圈为丰度最高的十个COG,每个COG内,不同颜色代表不同样本来源的比例;右边半圈为样本,样本内不同颜色代表不同COG的比例。

六、 相关分析
相关分析可用于分析环境因子或其它组学数据与宏组学数据之间的相关性。先选出丰度较高的COG,再计算环境因子与抗性基因间的Spearman相关系数进行,最后选出与环境因子相关最多的COG,可以得到如下的COG与环境因子之间的相互关系热图。其中X轴上为环境因子,Y轴为COG。R值(相关系数)在图中以不同颜色展示,右侧图例是不同R值的颜色区间。* 0.01≤ P <0.05,** 0.001≤P < 0.01,*** P < 0.001。

七、 RDA分析
RDA分析可用于研究环境因子、样品、功能三者之间的关系,寻找影响样品分布的重要环境驱动因子。RDA分析更多的描述请见前面的篇章。下图是COG RDA分析的结果。


感谢阅读~

你可能还喜欢

1 技术贴 | 微生太宏基因组报告解读(开篇)
2 技术贴 | 微生太宏基因组报告解读 | 第一篇:测序数据过滤
3 技术贴 | 微生太宏基因组报告解读 | 第二篇:物种组成分析
4 技术贴 | 微生太宏基因组报告解读 | 第三篇:物种分组统计分析
5 技术贴 | 微生太宏基因组报告解读 | 第四篇:PCoA、NMDS、RDA/CCA、相关分析
6 技术贴 | 微生太宏基因组报告解读 | 第五篇:EggNOG、CAZy、CARD等7大数据库助力宏基因组功能分析
7 技术贴 | 微生太宏基因组报告解读 | 第六篇:功能分析-基于KEGG数据库