转录和蛋白水平的表达量相关性如何
看到文章:《Restoration of energy homeostasis by SIRT6 extends healthy lifespan》,链接:https://www.nature.com/articles/s41467-021-23545-7 ,做了转录组测序数据,蛋白质组学数据和代谢组学数据。提到了转录和蛋白水平的表达量相关性,值得分享一下。
首先是表达量矩阵质量控制三张图的比较
我在生信技能树的教程:《你确定你的差异基因找对了吗?》提到过,必须要对你的转录水平的全局表达矩阵做好质量控制,最好是看到标准3张图:
PS: 示例的3张图来自于我的GitHub博客:https://github.com/jmzeng1314/GEO
左边的热图,说明我们实验的两个分组,normal和npc的很多基因表达量是有明显差异的 中间的PCA图,说明我们的normal和npc两个分组非常明显的差异 右边的层次聚类也是如此,说明我们的normal和npc两个分组非常明显的差异
如果分组在3张图里面体现不出来,实际上后续差异分析是有风险的。这个时候需要根据你自己不合格的3张图,仔细探索哪些样本是离群点,自行查询中间过程可能的问题所在,或者检查是否有其它混杂因素,都是会影响我们的差异分析结果的生物学解释。
那么,我们来看看转录组测序数据,蛋白质组学数据各自的质量控制三张图吧,如下所示:
可以看到, 蛋白质表达量矩阵里面的WT和TG其实区分度在前两个主成分并不好,所以作者展现了3维的结果,总算是把两个分组比较好的区分开来。然后是走标准分析流程,火山图,热图,GO/KEGG数据库注释,作者展现了差异基因的热图,也挺好的。
另外, 就是转录组测序数据的表达量矩阵的三张图了,也是挺好的!自己去看文章《Restoration of energy homeostasis by SIRT6 extends healthy lifespan》,链接:https://www.nature.com/articles/s41467-021-23545-7
然后是表达量相关性散点图
转录组测序数据,蛋白质组学数据都能拿到表达量矩阵,都是可以各自内部走标准分析流程,火山图,热图,GO/KEGG数据库注释,其中作者选取了两个技术共有基因的各自内部的差异分析的变化倍数来绘制散点图,如下所示:
The global transcriptome correlated well with the proteome (r = 0.59, p < 0.0001; Supplementary Fig. 5b).
这个p < 0.0001;说明相关性是非常显著啊,r = 0.59, 说明是比较好的正相关!
然后可以看差异分析上下调基因的一致性
这个时候应该是韦恩图啦,但是文章里面并没有展现!
但是判定转录组测序数据,蛋白质组学数据各自的上下调基因,需要统计学指标比如p值和变化倍数,这些指标主要是看数据分析人员的主观判断,并不绝对,可能这就是为什么作者并没有展示吧!
最后是差异分析上下调功能通路的一致性
文章里面描述了,在转录组测序数据和蛋白质组学数据看到了 SIRT6 up-regulated proteins were enriched for metabolic-related pathways, whereas down-regulated proteins included immune-related pathways
这就完美的证明了文章的生物学观点,从转录和蛋白质表达两个水平。
当然了,转录和蛋白水平肯定是有个别甚至非常多的基因是有表达量不一致的,但是生命科学就是这样,只需要大体上符合,就可以讲故事了。
很多人拿到了我代码,喜欢问一个很“幼稚”的问题,为什么同样的代码同样的数据分析结果不一样!经过沟通后我让他说出来不一样的地方,对方又是支支吾吾,哑口无言,答非所问!
其实生物信息学数据分析本来就不应该去苛求一模一样,如果是两次差异分析,你看两次分析的基因的logFC的散点图是否相关性很高就足够了。或者说两次差异分析富集到的通路重合度还不错就足够了。