热图如何绘制,怎么分析?看完这篇就会了
在组学研究中,我们常常会用到热图(Heatmap)。色彩丰富的热图总能吸引读者的眼球,给文章增色。但一堆堆的色块让人眼花缭乱,背后的分析方法更让人不知从何下手。今天我们先来初步探一探门道。
热图的解读
热图如下(Nucleic Acids Res (2015) 43 (W1): W566-W570.),本质上它是表现一个数值矩阵,图上每一个小方格都是一个数值,按一条预设好的色彩变化尺(称为色键,Color Key),来给每个数值分配颜色,虽然看起来眼花,但道理却很简单。这幅图就是24个样本(列)中,30类基因(行)的表达情况。
但不同基因在不同样本中的表达量,可能会跨越好几个数量级,这样就会把色键分得很细,所以通常会对表达量取对数,或取Z-score,这样色键的范围一般就在个位数内变化。
上方两条色彩稍微简单的横条,是根据实验分组,用颜色标出组别。两个横条表示两种分组方式,也就是两个变量(normal tumor和tissue)。就这幅图来说,第一行的黄色表示正常组织,紫色表示肿瘤组织;第二行的蓝绿色表示乳腺,红色表示前列腺。
图外围那些线条,是聚类分析的树形图。越靠下游的子目录中的个体关系越近,最先聚为一类,之后小类与小类又聚为一个大类。而且有些节点走了很远才跟其他组别聚成一类,有些节点没走多远就聚了,所以这些支线的长短,就代表了距离。
高通量测序的数据,通常比较磅礡,生成的热图,每个方格就会很小,基本看不清。这时就可以用一些处理技巧,比如上面那幅图,研究纳入了54675个基因,如果都画出来,这图就会很长,色块也会很密。所以它先通过K均值聚类算法,把这些基因聚成30类。
热图的绘制
绘制热图,最常用的是R语言,当然也能用GraphPad Prism做。但如果数据量不是特别大的话,这里推荐一个在线工具ClustVis,但数据量大时还是容易卡顿。
另一个不太卡的在线工具叫Morpheus,博大研究所开发的。还有桌面软件HemI,华中科技大学开发的。三者都是免费又好用的神器,功能上大同小异。
获取在线热图绘制网站,公众号后台回复:热图在线。注意不要输错了。
下面以ClustVis为例来演示热图的制作吧。
进入网站界面如下:
1.按照网站的要求,它需要的数据格式如下,绿色部分是必须的,红色的是分组信息,可以根据研究需要进行增删:
小编自行在excel中完成了上图的输入:
2.点击data import:
可以选择粘贴或者上传excel文件。上传之后,点选第一个数值单元格,就可区分哪些是数值,哪些是标签和注释(列和行):
3.点击输出热图即可:
点OK,一幅主图就出来了。
4.调整数据展示选项:
根据自己需要进行相关调整。
5.最后保存为自己想要的Figure格式即可。
最终结果展示:
还有问题可以查阅文献(或点击文末原文链接):Metsalu, Tauno and Vilo, Jaak. Clustvis: a web tool for visualizing clustering of multivariate data using Principal Component Analysis and heatmap. Nucleic Acids Research, 43(W1):W566–W570, 2015. doi: 10.1093/nar/gkv468.