点点鼠标就能完成的NMR代谢组学实战

2024-08-05 12:53:13

本文有大量的外链，推荐阅读原文

代谢组学数据分析简介

代谢组学几乎完全不涉及生物信息学最核心的序列比对，包括武汉中科院数物所波谱国重实验室等主流科研机构都是利用化学计量学和多元统计分析方法，对通过核磁共振（NMR）、液相色谱质谱联用（LC-MS）、气相色谱质谱联用（GC-MS）等手段获取的小分子代谢物（相对分子质量MW小于1000）的定量数据进行处理。除此之外只有一些商业公司在做外包服务，因此相比基因组、转录组、蛋白质组显得非常小众。

目前在代谢组学中运用较多的多元统计分析方法，包括

主成分分析（Principal component analysis, PCA）

层次聚类分析（Hierarchical clustering analysis, HCA）

非线性映射（Nonlinear innuendo analysis, NLM）

分级聚类法（hierarchical cluster analysis, HCA）等非监督分类方法

以及K最邻近法（K-nearest neighbor classification method, K-NN）

偏最小二乘法-判别分析（Partial least squares projections to latent structures - discriminant analysis, PLS-DA）

正交偏最小二乘法-判别分析（Orthogonal projections to latent structures - discriminant analysis, OPLS-DA）

人工神经网络（Artificial Neural Network, ANN

支持向量机（Support Vector Machine, SVM）等监督分类方法。

篇幅所限，有关这些方法的具体内容和意义请参考相关文献。

代谢组学数据分析最常用的软件SIMCA是1987年由瑞典Umetrics公司研究开发的一款多元变量统计分析软件。官方网站随便一个课程视频都是一、两千美刀，其他学习资源目前也都限于各生物公司的培训资料，同样价格不菲。这里我利用SIMCA官方的教程和数据操作一遍完整的流程以飨读者。

下载并安装软件

官方网站的下载页面提供了30天免费试用版SIMCA，当前更新到第15版；下载解压得到.exe格式文件，安装后即可在Windows系统上运行。由于之前为了给转录组入门实战数据腾位置，我删掉了苹果机上的Windows双系统，这次我将临时在Parallels Desktop 13试用版虚拟机上运行Windows 10系统来进行操作。

教程及数据

官网下载页虽然也提供了官方教材Analysing_NMR_metabolomics_data_using_OPLS-DA.pdf，但是和数据NMR_METABOLOMICS.xls一样都非常不便下载，不过好在网上随便搜索一下也能找到很多流传的资源。方便起见，我上传到了我的GitHub里面，点击文件标题名就可以直接下载。

数据信息

该研究以杨树的文库中编码功能未知的转录因子MYB的基因PttMYB76为例，比较MYB76杨树与野生型杨树生长过程的代谢组学特征差异。实验材料包括来自MYB76杨树（编号为Ai, Bi, Ci）和野生型杨树（编号为Di, Ei, Fi）两组共6棵树的45个样品，其中i代表生长方向，即1代表顶部，8代表底部。加上12组重复观测值，数据集中总共有57组观测值，655种变量。由于这里我们主要目的是做数据分析，因此对实验细节不加赘述，有需要者可以参考原文：
S. Wiklund et.al A new metabonomic strategy for analysing the growth process of the poplar tree. Plant Biotechnology Journal 2005 3 pp 353-362

数据导入

打开菜单栏中的File，点击New选项中的Regular project弹出浏览界面，选择点击下载好的数据集NMR_METABOLOMICS.xls文件导入数据。

这里还需要按照软件要求调整数据格式，打开菜单栏中的Edit，点击Transpose将表格翻转90度；

在打开菜单栏中的Home，依次选择第一行后点击Primary variable ID，选择第二列后点击Secondary observation ID；最后点击右上角的Finish import，保存后即完成数据导入。

主成分分析

打开新建的模型M1，点击模型界面左上角的Workset…，选择Scale界面，点击左下角Find Primary ID…右侧的三角形，选择第一行的Select all（或者Ctrl+A）全选变量名；然后点击右侧Type项中下拉按钮，选择Par选项后，点击下方的Set all，对所有变量值进行Pareto标度化。

再选择Observations界面，长按Ctrl键，选出A、B、C三棵MYB76杨树对应观测值，在Set class栏中输入2，点击Set将MYB76杨树观测值编为2组；同理将D、E、F三棵野生型杨树对应观测值编为1组；再在下方的Model typr栏中选择PCA-X，点击确定完成设置。这里要求处理组样本需要具有较高的类别编号，对照样本需要具有较低的类别编号，这样做会有利于后面的直接解释。

选择新建的M1模型，点击上方工具栏中的Autofit自动拟合最佳模型。

生成的模型产生的8个主成分，这里我们看到第8主个成分增加后，模型预测性Q2没有明显增加，说明这个主成分对于模型的贡献以及非常微小。

为了便于分析，这里我们只选取前3个主成分，可以通过点击Autofit右侧的remove删去多余的主成分。

如果误删成分，可以点击remove上方的add恢复。（我没有点错！我只是为了给大家试错，对，没错，就是这样！）
最后的结果应该是这样：

点击上方工具栏中的DModX可以选择生成折线图或直方图查看离群值。

点击上方工具栏中的Scores可以选择Scatter生成以第一主成分t1和第二主成分t2分别为横纵坐标的t1-t2得分图。

也可以选择3D生成分别以三个主成分为坐标的三维得分图。

这里两组样本数据并没有得到很好的区分，我们需要在看一下t2-t3得分图。

实现这个得分图需要点击工具栏中的Scores选项下最右侧的图标，或者右键点击之前生成的得分图，点击第二个图标，进入设置界面。

、

在Scores页面中Selected栏下，X-axis对应的Comp选择2，Series对应的Comp选择3，点击确定即可生成t2-t3得分图.

这里我们对比两个得分图可以明显看出，后者对两组样本数据的区分效果优于前者。

此外，如果仔细观察t1-t2得分图，还可以发现生长方向i值有明显地沿某一方向依次变化的趋势，表现了杨树生长过程的代谢组学特征的规律性变化。

正交偏最小二乘法判别分析

右键点击模型M1，选择New as Model 1生成新的模型M2。

选择Observations界面，长按Ctrl键，选出最后12组重复观测值，右键选择Exclude；再在下方的Model typr栏中选择OPLS-DA，点击确定完成设置。

再次点击Autofit自动拟合最佳模型，得到一个1+4的OPLS模型。

点击上方工具栏中的Scores，选择Scatter即可生成OPLS-DA得分图。

主成分分析和正交偏最小二乘法判别分析的对比

显然正交偏最小二乘法判别分析的分类效果更佳！

解释正交偏最小二乘法判别分析模型

点击上方工具栏中的Loadings，选择Line生成图片后，右键点击图片，点击Properties，在Loadings页面中选择Selected栏下，X-axis对应的Item选择Var ID，Series对应的Item选择pq。

点击确定生成载荷图。

点击上方菜单栏中的Plot/List，点击工具栏中的Scatter，在Data series页面中Select data type项选择Observations and loadings，X-axis对应的Item选择p，Series对应的Item选择p(corr)。

点击确定生成S-plot。

标记点为可能的生物标志物。

诊断正交偏最小二乘法判别分析模型

模型概要

R2X(cum)是模型所解释的X预测和正交变异之和，即0.157+0.613=0.769，也可以被解释为X总变异的76.9%；

R2Y(cum) 是模型所解释Y的总变异, 此处为0.977；

Q2(cum)衡量模型预测好坏，此处为0.941；

预测变异 = X变异中与Y相关的部分

A代表于X和Y之间的相关主成分的数量。如果仅使用一个响应向量，则A总是1；

R2X衡量X变异中与Y相关部分，这里是0.157；

正交变异 = X变异中与Y无关的部分

A在此对应于不相关（正交）主成分的数量。每个正交分量都被表示出来并且可以被单独解释；

R2X是衡量X变异中与Y不相关的部分。每个主成分的信息都被分别表示出来；

首行中粗体的R2X（cum）是X变异中与Y无关部分的总和，此处为0.613；

噪声 = 1- 0.157 – 0.613 = 0.23 = 23%

_补充_

响应排序检验

点击上方菜单栏中的Analyze，点击工具栏中的Permutations，在Permutation Plot页面中Number of permutations to项选择999。

点击确定生成响应排序检验示意图，通常R2Y和Q2与直线的斜率越接近水平，模型越有可能过拟合。

变量权重重要性排序

点击工具栏中的VIP，选择VIP predictive。

即直接生成变量权重重要性排序图。

右键点击图片，选择Create栏中List，可生成变量权重重要性排序表，可以选择VIP值大于1的作为感兴趣的物质进行代谢通路分析。

参考书目

许国旺. 代谢组学:方法与应用[M]. 科学出版社, 2008.
贾伟. 医学代谢组学[M]. 上海科学技术出版社, 2011.

想更多了解此文？

R数据分析：潜变量与降维方法（主成分分析与因子分析）

今天把潜变量和降维分析的方法合起来给大家写写,因为这两个东西之间有诸多共同之处. 潜变量为啥需要潜变量呢?考虑一个问题,比如你想测测一个人有多幸福,你怎么测? 估计你会看看这个人: 脸上有没有笑容 ...
多组学排序利器：PLS-DA用ggplot可视化才好

写在前面 PLS_DA 我在第一次使用的时候用于代谢组数据的区分,样本数量少,并且组件区分不是很明显.后来也就无所谓是什么数据了,作为一种降维方法,运用于什么组学倒是无所谓,只要找到我们需要的差异,也 ...
【1115.】PCA、PLS-DA、OPLS-DA到底啥关系？

导读代谢组学是一门十分火热的研究领域,在代谢组学的数据分析中,下图你一定不陌生. 图中的同一种颜色所覆盖的区域代表同一组的样本数据,如果同组的样本都聚在一起,不同组的数据分布在不同的颜 ...
科研| Ann Rheum Dis：血清代谢组和脂质组差异确定血清阴性类风湿性关节炎和银屑病关节炎的潜在生物标志物

编译:阿温,编辑:谢衣.江舜尧. 原创微文,欢迎转发转载. 导读目的:血清阴性类风湿性关节炎(negRA)和银屑病关节炎(PsA)的鉴别诊断往往比较困难,因为它们症状相似,且缺乏可靠的临床标志物.由 ...
代谢组学是什么？

代谢组学是在基因组学.转录组学和蛋白质组学之后升起的系统生物学的一个新的平台,其定义为:定性.定量考察生物体系受到刺激或扰动后其代谢产物的动态变化,揭露机体生命代谢活动本质的科学. 代谢组学力求对生物 ...
茶树大叶，中叶和小叶品种的代谢组学和途径变化

Metabolomic and Pathway Changes in Large‐leaf, Middle‐leaf and Small‐leaf Cultivars of Camellia sine ...
科研│J AGR FOOD CHEM：代谢组学和转录组学分析显示蓝光促进草莓中绿原酸的合成（国人佳作）

编译:微科盟伊一,编辑:微科盟景行.江舜尧. 原创微文,欢迎转发转载. 导读发光二极管已经广泛应用于工厂和农业设施.可以根据不同植物的光质量和强度要求设计不同的发光二极管,从而调节植物的生长发育以 ...
科研 | 郑州大学：整合代谢组学和转录组学分析揭示豇豆豆荚中花青素和其他类黄酮积累的分子机制（国人佳作）

编译:微科盟伊一,编辑:微科盟景行.江舜尧. 原创微文,欢迎转发转载. 导读豇豆是豆科重要的蔬菜作物,因其豆荚嫩.口感好.营养丰富而被广泛种植.紫色豇豆豆荚吸引了更多的关注,主要是因为它醒目的颜色 ...
科研 | ECOTOX ENVIRON SAFE:转录组学和代谢组学分析揭示海棠如何抵抗臭氧?（国人佳作）

编译:寒江雪,编辑:景行.江舜尧. 原创微文,欢迎转发转载. 导读臭氧(O3)是一种在工业化国家和发展中国家普遍存在的氧化性有毒空气污染物.为了解O3胁迫对海棠的影响并探讨海棠对其防御机制,本研究对 ...
科研 | BMC Genomics：转录组结合代谢组学分析揭示了高羊茅中一氧化氮调节镉胁迫适应的关键因素（国人佳作）

编译:Mr. Left,编辑:景行.江舜尧. 原创微文,欢迎转发转载. 导读据报道,一氧化氮(NO)可以缓解高羊茅中镉(Cd)的毒性.但是,NO介导的Cd解毒的潜在机制尚不清楚.在本研究中,作者通过 ...
科研 | 中科院：转录组学、蛋白质组学和代谢组学分析揭示了磷酸三苯酯（TPP）肝毒性途径的机制

编译:小北,编辑:夏甘草.江舜尧. 原创微文,欢迎转发转载. 导读磷酸三苯酯(TPP) 在各种环境介质和生物群中均有发现,说明人类对其接触广泛.然而,TPP暴露对肝毒性健康风险的信息仍然缺乏.在本研 ...
科研 | 铀的植物毒性机理的代谢组学，转录组谱和矿物营养素代谢研究

编译:Mr.Left,编辑:夏甘草.江舜尧. 原创微文,欢迎转发转载. 导读铀是一种非必需元素,很容易吸收并保留在植物根部,对植物根部造成损伤,而不是转移到植物的其他部位.对铀的植物毒性机理了解甚少 ...
科研 | 转录组学和代谢组学分析揭示苹果属观赏海棠如何抵抗臭氧

编译:Mr. Left,编辑:夏甘草.江舜尧. 原创微文,欢迎转发转载. 导读臭氧(O3)是一种氧化性有毒空气污染物,在工业化国家和发展中国家普遍存在.为了了解O3暴露对苹果的影响并探索其防御机制, ...