转录组 代谢组专题 | 转录组 代谢组关联分析内容及分析思路

随着测序技术及质谱技术的发展,获得高通量的测序数据和质谱数据的方法越来越方便。系统生物学通过整合生物系统中诸多相互联系和作用的组分来研究复杂生物过程的机制。系统生物学研究为生命科学的研究提供了新思路。高通量的多组学(Miti-Omics)技术为系统生物学提供了海量的实验数据和先进的技术方法。

在生物学的领域中,广泛应用到了“多组学”的研究方法,包括基因组,转录组,蛋白质组,代谢组的两两或者两种以上的组学研究,其中转录组 代谢组的研究是目前多组学研究中最为成熟,最为深入,发文最多的技术。

那么转录组和代谢组的数据如何通过生物信息学的方法有机联系起来,而不是两个数据的简单堆叠呢?

转录组与代谢组的关联分析方法主要包括以下内容:

1.基于KEGG通路的注释和富集分析

2.基于皮尔逊的相关性分析

3.基于降维的模型构建确定关联关系

基于KEGG通路的注释和富集分析

01 KEGG通路注释

Kyoto Encyclopedia of Genes and Genomes(KEGG,https://www.genome.jp/kegg)京都基因和基因组百科全书,是整合了基因组、生物学通路、疾病、药物、化学物质等信息的综合性数据库。生物体内的不同基因产物通过相互作用行使生物学功能,对差异表达基因的通路注释分析有助于进一步解读基因的功能。KEGG 将基因组信息和高层次的代谢物的功能信息有机地结合起来,为基因组测序和其他高通量代谢实验技术产生的大数据代谢物信息提供系统化的分析。将转录组分析后得到差异基因和代谢组分析后得到的差异代谢物进行KEGG通路注释,两个组学数据相互验证,确定关键变化的代谢通路。

图1 KEGG通路注释分析

注:转录组与代谢组联合分析的KEGG注释中,将有差异的基因和代谢物注释到具体的通路中。其中,绿色的方框代表注释到该框内的基因在这个差异分组里是下调的;红色方框代表注释到该框内的基因在这个差异分组里是上调的;蓝色方框代表注释到该框内的基因在这个差异分组里既有上调的又有下调的。绿色的圆点代表注释到该圆点上的代谢物在该差异分组里下调;红色的圆点代表注释到该圆点上的代谢物在该差异分组里上调。

02 KEGG富集分析

对差异基因或差异代谢物进行KEGG通路注释时,往往可以注释到非常多的通路中,这时候需要进行富集分析,缩小通路的范围,找到变化最相关的通路信息。对差异基因与差异代谢物分别进行超几何分布的富集分析。筛选p-value<0.05的通路进行重点关注。

图2 KEGG富集柱状图

注:横坐标为kegg通路信息,纵坐标为Pvalue值。红色柱子代表基因,绿色柱子代表代谢物。

在转录组 代谢组的多组学文章里,关键代谢通路变化的展示是一个非常关键的分析内容。在文章中,一般通路注释会与基因和代谢物的热图结合进行展示。既可以展示检出的差异基因和差异代谢物的情况,又可以展示基因和代谢物在不同的差异分组里的上下调关系。

图3 文章中展示的通路热图

通路热图描述参考

We examined the expression of structural genes of the anthocyanin biosynthesis pathway, as well as transcription factor gene families (MYB, bHLH, and WD40) known to regulate anthocyanin biosynthesis in other species. The expression of ZjANS (Zj.jz022481171) was 219.96-fold higher at DAP30 than at DAP110, a result consistent with the high content of cyanidin in young jujube fruit skin. Meanwhile, metabolomic analysis showed that cyanidin-3-O-rutinoside and peonidin-3,5-O-diglucoside were the major anthocyanin components of jujube fruit skin. Cyanidin-3-O-rutinoside is the product of glycation modification, and peonidin-3,5-O-diglucoside is the product of methylation. Therefore, genes encoding glycosyltransferases and methyltransferases are likely to participate in the biosynthesis of these anthocyanins. In the transcriptomic data, expression of the UDP-glucuronosyltrans ferase gene ZjUGT79B1 (Zj.jz027401002) was higher at DAP30 than at DAP110. By contrast, expression of the methyltransferase gene ZjCCoAOMT (Zj.jz041523079) increased with maturity, suggesting that it may be involved in the methylation of other flavonoids. In addition, two MYB homologues ZjMYB113 (Zj.jz044581035) and ZjMYB5 (Zj.jz005919060)  three bHLH homologues ZjGL3a (Zj.jz029235018), ZjTT8 (Zj.jz001627021), and ZjGL3b (Zj.jz022481028), and three WD40 homologues ZjWDR1 (Zj.jz028347005), ZjWDR2 (Zj.jz010873005), and ZjWDR3 (Zj.jz043343182) were also identified .(Shi Q et al. 2020. Journal of Agricultural and Food Chemistry, 68(51).)

基于皮尔逊的相关性分析

对于一些没有通路注释的代谢物和基因,如果单纯的依靠KEGG注释和富集分析,往往会漏掉这些关键的信息。基于Pearson/Spearman相关性分析,可以计算两个变量之间可能存在的相关关系。可以利用相关性分析,计算基因和代谢物之间的相关性,筛选相关性系数R>0.8,相关显著性检验p值<0.05的基因代谢对进行后续绘图分析。

01 相关性聚类热图分析

在相关性计算后,可以通过绘制基因与代谢物的相关性聚类热图,将基因和代谢物的相关性直观的展示出来。

图4 差异基因与差异代谢物的相关性聚类热图

注:相关性聚类热图中,横坐标代表代谢物,纵坐标代表基因。柱子的颜色代表基因与代谢物的相关性,颜色越红代表基因与代谢物的正相关性越强,颜色越绿代表基因与代谢物的负相关性越强。

02 相关性九象限图

相关性九象限图也是基于基因与代谢物的相关性进行绘图。另外增加了基因和代谢物的差异倍数的阈值。通过横纵坐标的虚线将图划分了9个象限,横坐标上的虚线表示转录组的差异倍数阈值,纵坐标上的虚线表示的代谢组的差异倍数阈值,阈值线外表示显著差异的基因/代谢物,阈值线内则表示非显著差异的基因/代谢物。

图5 基因与代谢物相关性九象限图

备注:

03 相关性网络图

相关性网络图是最直观的展示基因与代谢物一一对应关系的分析内容。因为差异分组中基因与代谢物的相关性较多,所以选取每个通路中相关性大于0.8的差异基因和差异代谢物作图。图中代谢物用绿色标出,基因用红色标出,实线代表正相关,虚线代表负相关。在文章展示时,选择与候选基因相关性高的代谢物或者与候选代谢物相关性高的基因进行个性化作图。实际项目中,可以根据自己的研究目的挑选出来的基因和代谢物进行相关性网络图的绘制。一般推荐Cytocape绘图(可关注后面的转录组 代谢组专题,手把手教你用cytocape画相关性网络图)。

图6 基因与代谢物的相关性网络图

相关性网络图也是转录组 代谢组文章中的一个高频出现的分析内容。既可以展示基因与代谢物的相关,也可以通过连接线的颜色来突出是正相关还是负相关。还可以通过连接线的粗细来展示相关性的强弱。

图7 文章中展示相关性网络图

相关性网络图相关文献案例具体描述

The DEGs and DEMs in 4FADvs4WD, such as caffeoyl-CoA Omethyltransferase, Quercetin and 3,7-Di-O-methylquercetin, were found to be related to flavonoids biosynthesis (Fig. 4a). While, except for flavonoids biosynthesis (e.g. Chalcone synthase 3, Chalcone synthase1, flavanone 3-hydroxylase, flavonoid 3′,5′-hydroxylase, Quercetin, Kaempferol, Myricetin, Phloretin and Myricetin) (Fig. 4b), the co-expression network of DEGs and DEMs in 8FADvs8WD were mainly enriched in ascorbate metabolism (e.g. L-ascorbate oxidase, aldehyde dehydrogenase family 3, GDP-mannose-3′,5′-epimerase perakine reductas, L-ascorbate) (Fig. 4c) and glutathione metabolism (e.g. glucose-6-phosphate 1-dehydrogenase 1, glutathione S-transferase, CYS-GLY and Glutathione reduced form) (Fig. 4d). The results showed that the FA could modulate the co-expression of DEGs and DEMs related to ascorbate metabolism, glutathione metabolism and flavonoids biosynthesis during drought stress.(Sun Jianhao et al.BMC Genomics, 2020.)

基于降维的模型构建确定关联关系

O2PLS分析

O2PLS模型用于两个数据组间的整合分析,包括系统生物学组学间关联、分子调控机制-表型间关联等各种大数据组的内在联系都可通过此模型进行整合分析。该模型一方面可反映不同数据组间的整体影响,另一方面可直接体现不同变量在模型中的权重(权重越大,意味着该变量的变化对另一个组学的扰动更剧烈),从而更加精准地发现关键调节现象。O2PLS为非监督建模,可客观描述两数据组间是否存在关联趋势,尽可能从源头上避免假阳性关联。由于O2PLS模型可灵活进行组学数据挖掘,发现不同层面的调节信息,从而有助于建立系统生物学调节网络。

对转录组和代谢组进行O2PLS模型分析,该模型通过计算,将每个组学的数据都分解为三个部分,即关联部分(joint part,两组学共同对应变化,即有关联)、正交部分(Orthogonal part,两组学彼此正交,即互不相关)、噪音部分(noisepart,冗余信息)。挑选两个组学数据中的Joint part部分,分别绘制载荷图。通过载荷图初步判断不同数据组中相关性和权重都比较高的变量,筛选出影响另一组学的重要变量。在载荷图总每个点到原点的距离意味着和另外一个组学相关性的大小,图中越靠近外圈的因子(基因和代谢物),为两组学关联越高的因子。图中标示出对另一个组学影响较大的前10个基因、代谢物。

左图8 基因载荷图           右图9 为代谢物的载荷图

对于文章中的O2PLS分析的展示如下图:

图10 文章中展示的转录组和代谢组关联的O2PLS分析

O2PLS分析相关文献案例具体描述

Integration analysis was performed using from one to three joint components and one orthogonal component per dataset (transcriptomic and metabolomics). The model used with three joint components explained more than 90% of the total variation of the transcriptome (R2t) and metabolome (R2m) (Figure3A). Almost 100% of the modeled transcriptome and metabolome variations were considered joint variation because they could be explained by variation in the complementary model [metabolomics (RmCORR/ R2m) and transcriptomic (RtCORR/R2t) models, respectively]. Based on the loading coefficients thresholds calculated after 1000 permutations, we identified 10 transcripts and 16 metabolites as having the most influence on the model (Figure 3B).

参考文献:

[1] Shi Q ,  Du J ,  Zhu D , et al. Metabolomic and Transcriptomic Analyses of Anthocyanin Biosynthesis Mechanisms in the Color Mutant Ziziphus jujuba cv. Tailihong[J]. Journal of Agricultural and Food Chemistry, 2020, 68(51).

[2] Sun J ,  Qiu C ,  Ding Y , et al. Fulvic acid ameliorates drought stress-induced damage in tea plants by regulating the ascorbate metabolism and flavonoids biosynthesis[J]. BMC Genomics, 2020, 21(1).

[3] Rodriguez V M ,  Guillermo P ,  Malvar R A , et al. Maize Stem Response to Long-Term Attack by Sesamia nonagrioides[J]. Frontiers in Plant Science, 2018, 9:522.

迈维代谢自主研发多组学关联分析流程,辅助客户文章发表100 。真正的实现多组学数据有机联系,打通基因与表型之间的联系,系统生物学的更深层次了解。

想get如此丰富的关联分析内容,马上联系迈维代谢驻地的销售小伙伴们吧。

(0)

相关推荐