技术贴 | MetaboAnalyst 4.0,代谢组学研究利器的升级
本文由面瘫的猫编译,董小橙、江舜尧编辑。
原创微文,欢迎转发转载。
MetaboAnalyst是一款基于网络的用于代谢组学数据分析、注释,并整合其他组学数据的工具套件。本文介绍了这一实用工具的更新版本——MetaboAnalyst 4.0。这次更新增加了四个新的关键特性,并重新设计了用户界面,其基础知识库的更新也基于人类代谢组数据库(HMDB)的最新数据。
论文ID
原名:MetaboAnalyst 4.0: towards more transparent and integrative metabolomics analysis
译名:MetaboAnalyst 4.0:用于更加透明和综合性的代谢组学分析
期刊:Nucleic Acids Research
IF:11.561
发表时间:2018年
通信作者:Jianguo Xia
通信作者单位:加拿大麦克吉尔大学寄生虫学研究所、加拿大计算基因组学中心、动物科学系
实验内容
引言
MetaboAnalyst是一个基于网络的综合性工具套件,旨在帮助用户轻松地进行代谢组数据分析、可视化和功能注释。从2009年的MetaboAnalyst 1.0采用单一模块实现了代谢组学数据处理和统计分析起,MetaboAnalyst不断更新,分别在2012年和2015年发布了2.0和3.0版本,以满足代谢组学研究不断发展的需要。而且为了更好地应对不断增长的用户需求,MetaboAnalyst已经迁移到Google云服务器。在过去的12个月中,MetaboAnalyst已经处理了来自60 000用户的超过180万个工作。2017年,至少四分之一的代谢组学研究都使用了MetaboAnalyst,说明其已经成为代谢组学数据分析的首选工具之一。
MetaboAnalyst今年的更新改善了用户界面、提高了可重复性/透明度,实现了支持批量处理、提供改进的来自非靶向质谱(MS)数据的通路注释、支持meta分析和多组学分析等功能,并扩展了基础知识库,也支持本地安装使用。今年更新的主要特点包括:
·同步发布R软件包(MetaboAnalystR)以及相应的R 命令的历史面板以实现更透明及可重复的分析;
·扩大了代谢组和代谢通路数据库,从而通过功能富集分析实现代谢组学的数据解释;
·增加了一个基于MUMICHOHG算法、利用非靶向代谢组学数据实现通路活性预测的新模块;
·一个支持代谢组学生物标志物meta分析的新模块;
·一个支持通过基于知识的网络分析和可视化实现多组学数据整合的新模块;
·其他重要的更新,包括为了实现MetaboAnalyst的便捷下载和本地安装的Docker image;提供了直接链接,实现与核磁共振(NMR)、气相色谱-质谱(GC-MS)和液相色谱-质谱(LC-MS)光谱分析相关的多个在线工具的关联。
MetaboAnalyst 4.0可在http://metabo.st.ca免费获得。
1 MetaboAnalyst 4.0框架概述
MetaboAnalyst用户界面的升级,既提供了更现代的“外观和感觉”,也保留了相同的易于操作的模块化分析途径。所有功能现在被分成4类12个模块:(一)探索性统计分析,(二)功能分析,(三)数据整合和系统生物学,(四)数据处理和通用功能(图1)。
图1
探索性统计分析类模块 (一般统计、生物标志物分析、双因素/时间序列分析和功效分析)可以接受来自靶向或非靶向的代谢组学数据集的数据。功能分析类模块除了用于代谢物组富集分析和靶向代谢组学数据的通路分析两个现有模块外,还包括一个根据MS数据预测通路活性的新模块。数据集成和系统生物学类包括三个模块(生物标志物meta分析、联合通路分析和network浏览器)。最后,数据处理和通用功能类模块包含通用数据处理工具,如化合物ID转换,批处理效应校正,以及与三个基于网络的实用工具的关联,包含支持NMR的Bayesil, 支持GC-MS的GC-AutoFit以及支持LC-MS的XCMS Online。
2 MetaboAnalystR以及改进了的透明度/可重复性
MetaboAnalyst持续更新的潜在缺点是界面或默认参数设置的微小变化,可能导致长期的可重复性问题。解决这个问题的一个可能方法是在不同的时间点创建工具的多个快照,但相关的维护成本却令人望而却步。另一种方法是在整个分析过程中提高MetaboAnalyst的透明度。因为MetaboAnalyst的多数分析都基于R软件的功能,所以在操作时使用嵌入可选参数的R命令会更有效。而且,MetaboAnalyst的许多高级用户已经请求访问基础R代码,以便开发个性化定制的数据分析或执行批量数据处理。
为了适应这些需求(更好地支持透明性、灵活性和批量分析),我们开发了MetaboAnalystR软件包。R软件包的使用可以保证用户能够实时“查看”并保存MetaboAnalyst正在运行的R代码,从而使得在本地使用该代码来再现分析工作成为可能。MetaboAnalystR和网络服务器之间的R代码也已修改,可以确保两者之间完全互换,并在跨平台操作时也保证相同功能。在数据分析的每一步,R命令会显示在页面右侧“R命令历史”的侧栏中,每个命令会根据执行顺序出现(图2A)。MetaboAnalyst还将整个R命令历史作为可执行R脚本存储,以便在完成每个模块后下载这个包含用户选择的所有参数和操作的脚本。这种形式(R脚本)可以很容易在网络上共享和复制,或者使用MetaboAnalystR包实现本地复制。
对于MetaboAnalyst的任何更新,都存在关于早期服务器执行的数据分析的可重复性的问题。例如,由于基础代谢物组库的更新,输入相同的数据,分析结果的排列顺序和P值将会改变。为了帮助解决这个问题,MetaboAnalyst(3.0版)仍可考虑维持使用(http://old.metabo.st.ca),只要有足够访问和使用。
3 MetaboAnalyst的知识库更新
为了解决缺少更新的解释导致分析质量下降等潜在问题,我们更新了用于代谢物名称映射的化合物数据库、用于代谢通路分析的通路库和用于功能富集分析的代谢物组信息。更新细节如下。
化合物数据库 功能分析之前,MetaboAnalyst执行内部映射,将常见化合物的名称映射到各种数据库标识符,包括KEGG、HMDB、ChEBI、METLIN和PubChem。这个数据库已经用HMDB版本4.0进行了更新,包括HMDB标识符的更新以及关联其他数据库的链接。因此,MetaboAnalyst的化合物数据库已经扩展到约19 000个化合物,并带有与下游功能分析相关的详细解释,代表了HMDB化合物(约114 100)的核心子集。
代谢物组和代谢通路库 MetaboAnalyst的代谢物组主要由其MSEA模块使用。六个现有的和一个新的代谢产物组库,均是基于HMDB 4.0版本更新/创建。更新的代谢产物组库包括血液疾病组(330种疾病增加至344种),脑脊液(108种疾病增加至166种)和尿液(108种疾病增加至166种)相关疾病,以及基于部位分布的代谢物组(从57个器官、生物流体和组织增加至73),基于通路的代谢物组(从80个代谢通路增加至147个),单核苷酸多态性(SNPs)-相关的代谢物组(从4501个SNP增加至4598个)和一个新的药物相关通路的代谢物组库(461个通路)。这些代谢物组仅来自于人类数据,因此目前正在更新通路分析模块,以支持来自SMPDB的大量通路的交互式可视化分析。
4 新模块#1:MS峰到通路
高通量分析和基于非靶向或MS的宏观代谢组学数据的功能解释仍然是当前代谢组学研究的主要瓶颈。传统的基于MS的处理通常包括峰值识别、光谱反卷积和峰值标注。解决这些问题的方法通常会产生一个“干净”的MS峰列表,然后通过搜索各种光谱或化合物数据库手动完成峰值标注。但这一过程通常会产生大量的假阳性,而高分辨率MS仪正不断地用来减少这些假阳性。在计算上,一种有前景的思路是将分析单元从单个化合物转移到单个通路(或任何一组功能相关的化合物,它们共同产生独特的光谱足迹)——类似于广泛使用的基因组富集分析或GSEA。Mummichog算法是这个思路的简洁、有效的实现方法,它使得利用高分辨率MS峰直接预测通路活性成为可能,而不需要预先执行精确的峰值标注。我们在MetaboAnalyst中添加了新模块(MS Peaks to Pathways),通过用户友好的界面支持基于Mummichog算法的MS峰值分析。在R中实现了Mummichog(1.0.10版本)算法,从而与MetaboAnalyst的工作流程和前述的可重复性策略保持一致。该模块的知识库包括5个基因组规模的代谢模型以及21个生物体的扩展库。在未来几个月内,SMPDB通路还将包含其他模式生物。虽然在Mummichog算法中,化合物的识别通常不被重视,但是匹配化合物的后处理分析对于下游的验证和解释是至关重要的。为了满足这些需求,我们实现了KEGG式的全局代谢网络,允许用户可视化整个峰匹配模式,并交互放大为特定的候选化合物,以检查其所有匹配的同位素或加合物形式。
使用该模块,用户必须上传一张包含3列——m/z特征、P值以及统计数据(例如t值或倍数变化值)的表格。如果还没有计算出这些值,用户可以将m/z峰值列表文件或峰值表上传到MetaboAnalyst的统计分析模块进行统计分析,再将这些结果上传到“MS Peaks to Pathways”模块。同时,用户需要指定它们的精确度、离子模式(正或负)和P值界值,以描绘丰富的m/z特征和背景。在数据上传之后,用户必须选择一个有机体(库)来执行非靶向通路分析。
“MS Peaks to Pathways”模块的输出包括一个结果表,表内包含用户上传数据中所富集的通路排序。该表包括匹配总数、原始P值(Fisher精确或超几何测试)、EASE分数和根据用户数据使用Gamma分布建模的P值。用户可以点击“查看”链接查看每个通路的详细情况,也可以下载包含用户上传的所有m/z特征的化合物的匹配信息的综合表。重要的是,所有这些信息(通路、化合物和匹配峰)可以在KEGG全局代谢网络(图2b)内直观地进行深入研究。该页面由三个部分组成:(i)含有控制各种可视化特征的菜单的顶部工具栏,(ii)显示通路分析结果的左侧面板和(iii)用于代谢网络交互式视觉探索的中心视图。用户可以滚动鼠标放大和缩小网络视图。点击通路左侧面板上的名称可以突出其所在网络的所有化合物。双击代谢物节点将显示相应化合物的所有匹配细节,如图2B所示。当前视图可以作为便携式网络图形(PNG)或可缩放矢量图形(SVG)文件下载。
图2
5 新模块#2:生物标志物的meta分析
生物标志物识别仍然是代谢组学研究的重要领域。对于同一疾病进行的不同代谢组学研究,生物标志物的一致性和鲁棒性仍有问题。为了解决生物标志物的验证和可重复性问题,有研究人员在相似条件下收集的多个代谢组学数据集,这种方法可以减少研究偏倚,从而使生物标志物更加可靠。这种做法通常被称为生物标志物的meta分析。如果执行得当,生物标志物的meta分析能够利用多个独立研究的汇总效能,显著地提高识别数据内的真实情况的精度。然而,目前还没有专门用于代谢组学生物标志物数据的meta分析工具。为了解决这个问题,我们在MetaboAnalyst 4中增加了“生物标志物meta分析”模块,其目标是将来自多个独立代谢组学研究的数据集进行meta分析,以此识别更优的生物标志物。其主要步骤如下:
i. 在上传数据之前,用户应整理所有数据集,以确保特征名称(化合物ID、光谱存储器或峰)以及所有研究中分类标签(仅两组)的一致性;
ii. 一旦数据被整理和上传,用户可以对每个单独的数据集执行标准数据处理、标准化和差分分析;
iii. 一旦通过上述步骤(ii)处理了每个单独的数据集,就可以使用以下几种统计选项之一来执行meta分析:(a)合并P值,(b)计数或(c)直接合并非常相似的数据集数据;
iv. 在完成步骤iii之后,将得到一张包含所有重要特征的汇总统计结果的表格。用户可以单击查看不同数据集上任何特征的箱图摘要;
v. 用户可以在交互式Venn图中直观地分析meta分析结果,以查看数据集的所有可能组合之间的共同特征。图2C中是例举的一个例子。
6 新模块#3:网络浏览器
代谢组学正越来越多地与其他组学平台一起用于研究复杂疾病以及获得对微生物群落功能的认识。然而,整合多个组学数据并在系统层面解释这些结果已经成为一个重大挑战。一种常用的策略是使用已经为每个领域开发的工具和方法,分别分析每组组学数据,然后使用显著特征(即代谢物、基因和蛋白质)的单独列表拼凑出“大画面”。已知的基因、代谢物和疾病之间的关系可以轻易地展示为基于知识的网络(network),加上对交互式网络的可视化,将是解决当前数据整合挑战的重要策略。已经开发出的网络浏览器模块可以为用户提供一个易于使用的界面,允许将他们的代谢物和/或基因(包括KEGG直系图或KOs)映射到不同类型的分子相互作用网络上。然后,这种网络的可视化可以用于获得新的发现或帮助用户发现新的假设。
网络浏览器模块是对MetaboAnalyst的联合通路分析模块的补充,它支持横跨传统通路的连接,并且能在全局视野下分析单个通路中不明显的功能变化。网络浏览器模块目前支持五种类型生物网络,包括KEGG全局代谢网络、基因-代谢物相互作用网络、代谢物疾病相互作用网络、代谢物-代谢物相互作用网络和代谢物-基因-疾病相互作用网络。最后四个网络仅适用于人类研究。
用户可以上传代谢产物列表,基因列表,或两者兼而有之。对于代谢物,MetaboAnalyst 4.0目前接受化合物名称、HMDB ID或KEGG化合物ID作为代谢物标识符。对于基因,Entrez IDs, ENSEMBL IDs,官方基因符号或KEGG直系同源物目前得到支持。然后,使用MetaboAnalyst内部数据库来映射上传的代谢产物和基因列表。随后,用户可以选择五个网络中的任一个开始可视化地探索他们的数据,还可以执行功能富集分析,然后突出那些感兴趣的代谢物或基因涉及的功能网络。图2D显示了MetaboAnalyst的网络浏览器模块的一个输出示例。每个生成的网络可导出为SVG或PNG图片,用于发布。交互式网络探索、功能富集分析和网络拓扑分析的集成将为用户提供更多的信息,促进相关研究。
7 其他更新
基于过去三年积累的用户建议,还有些小的更新。例如,在生物标志物分析模块中,许多用户希望选择提供与已选生物标志物信息互补的特征。因此,我们使用k-means分析得出的聚类成员添加特征相似性信息,以支持特征选择。另外,我们还添加了两种常用的偏最小二乘(PLS)方法,用于改进数据解释以及实现更稳健的统计分析。对于双因素方差分析,我们也实现了对I型和III型方差分析的支持,以及对不同实验设计的附加分析选项。我们还尝试通过添加“光谱分析”功能来为用户提供易于使用、可免费用于光谱处理和注释的网络工具,包含支持NMR的Bayesil, 支持GC-MS的GC-AutoFit以及支持LC-MS的XCMS Online。
8 安装使用
MetaboAnalyst 4.0的使用是基于Prime-Faces(v6.1)组件库(http://primefaces.org/)和R软件(版本3.4.3)实现的。利用sigma.jsJavaScript库(http://sigmajs.org)实现交互式网络可视化。整个系统架设在谷歌云服务器上,拥有32GB的RAM和八个虚拟CPU,每个为2.6 GHz。对于希望在本地使用MetaboAnalyst 4.0的用户,我们提供了将MetaboAnalyst下载为war文件或Docker image的选项。在网络服务器的“资源”页,我们提供了下载和本地安装的详细说明。在GitHub(http://GITHUB.COM/XIALAB/MetaboAnalystR)出可以下载MetaboAnalystR包。
9 与其他工具的比较
XCMS Online、Workflow4Metabolomics、Galaxy-M和Metabox等工具和MetaboAnalyst 4.0及其以前版本之间的详细比较如表1所示。
表1
基于该表,MetaboAnalyst为统计分析、功能解释以及与其他组学数据的整合提供了最全面的支持。很显然,MetaboAnalyst支持实时交互数据分析的方式,目前没有其他工具能够实现。虽然MetaboAnalyst在其原始频谱处理和注释的内置支持方面有所缺陷,但新的“频谱分析”特性有助于解决这一问题。原始LC-MS光谱处理和分析一直是XCMS Online、Galaxy-M和Workflow4Metabolomics的主要优势,而且这些工具仍然是LC-MS数据分析的必用工具。总体而言,MetaboAnalyst的主要优势在于其下游数据分析,就像Metabox一样。事实上,MetaBox的设计类似于MetaboAnalyst,它主要接受经过预处理的代谢组学数据,用于各种统计计算、功能分析和基于网络的整合。然而,Metabox当前必须本地安装后才能使用。
评论
这篇文章详细介绍了代谢组学研究的重要工具——MetaboAnalyst最新4.0版本的更新情况。文章既从整体上介绍了工具框架、MetaboAnalystR及其改进了的透明度/可重复性、知识库更新等情况,也具体介绍了“MS峰到通路”、“生物标志物的meta分析”、“网络浏览器”三个新增模块和其他细节更新,最后还总结了安装使用中的一些问题,也与其他代谢组学常用工具进行了比较。文章对于从事代谢组学研究的科研人员,尤其是MetaboAnalyst的用户来说非常实用。小编能力有限,如有不足之处,还请指出,大家多多交流。感兴趣的朋友可通过查看原文了解更多。