NMDS非度量多维尺度分析—基于微生物群落 / 开普饭

今天，看到赖江山老师在博客中分享了vegan中的一些函数的中文帮助文件，翻译专业，可读性强，这本材料是我们熟悉vegan原理和提高内涵的有力学习途径。（末尾有彩蛋）

本文主要做NMDS分析并做一张完善的高质量图片，提取stress值，推荐适合NMDS结果的差异分析并通过命令展示在图形上，最后加上置信区间椭圆。

非度量多维尺分析（ NMDS）是一种很好的排序方法，因为它可以使用具有生态学意义的方法来度量群落差异。一个好的相异性测度与环境梯距离具有很好的秩关系。因为 NMDS只使用秩信息，并且映射的在有序空间上是非线性的，故它能处理任意类型的非线性物种矩阵，并能有效、稳健地找到潜在梯度。

NMDS分析，网络上已近有很多相关教程分享其原理，与其他排序（PCA、PCoA、CCA、RDA）方法的不同之处，简单来讲NMDS也是一种使用物种组成数据的排序称作非限制性排序；NMDS基于距离算法，优于PCA、PCoA、CCA、RDA的地方在于当样本或者物种数量过多的时候使用NMDS会更加准确；

vegan 的ordiplot()函数可以用来绘制NMDS 的结果：

plot(vare.mds, type = "t")

vegan 包中的metaMDS()函数不需要单独计算相异矩阵，直接将原始数据矩阵作为输入。结果比以前更丰富，除了奥杜尔包中isoMDS()结果中的成分外还有很多其他结果输出：nobj, nfix, ndim, ndis, ngrp, diss, iidx, jidx, xinit, istart, isform, ities, iregn, iscal, maxits, sratmx, strmin, sfgrmn, dist, dhat, points, stress, grstress, iters, icause, call,model, distmethod, distcall, data, distance, converged, tries,engine, species。该函数将这些的过程封装到一个函数中：

一般生态群落数据比较离散，用平方根转换数据，然后进行 Wisconsin双重标准化，或物种除以它们的最大值将数据均一化为相等的总数。这两个标准化通常可以提高排序的质量，但是我们在最初分析中忘了考虑数据的转化问题。
默认使用 Bray-Curtis相异系数。
运行多次独立的isoMDS()，并在一定次数的尝试之后停止，或者找到两个具有最小应力函数之后停止，返回了最佳的排序结果。
旋转排序图，使样方坐标的最大差位于第一轴上。
对排序结果进行标准化，使一个单元应于将群落相似性从重复相似性减半。
函数发现物种排序轴为样方排序轴的加权平均值并将其扩大，使物种和样方排序轴具有相等的方差，可以使用shrink = TRUE撤消。metaMDS()的帮助页面将提供更多细节，并解释函数使用的帮助页面将提供更多细节，并解释函数使用过程。

清理环境

#清空内存 rm(list=ls())

准备主题和数据


Mytheme <- theme_bw() +

#scale_fill_brewer(palette = "YIOrRd", guide = guide_legend(title = NULL), limits = c("CK1","CK3","CK5","CK7","CK9","CK11","CK13","CK15","CK17","CK19"))+

theme(
panel.grid.major=element_blank(),

panel.grid.minor=element_blank(),
plot.title = element_text(vjust = -8.5,hjust = 0.1),

axis.title.y =element_text(size = 24,face = "bold",colour = "black"),

axis.title.x =element_text(size = 24,face = "bold",colour = "black"),

axis.text = element_text(size = 20,face = "bold"),

axis.text.x = element_text(colour = "black",size = 14),

axis.text.y = element_text(colour = "black",size = 14),

legend.text = element_text(size = 15,face = "bold")

#legend.position = "none"#是否删除图例
)
#设定路径

path = getwd()
# 导入包

library(phyloseq)

library(ggplot2)

suppressMessages(library(vegan))
# 使用示例数据，注意是phyloseq封装好的

data("GlobalPatterns")

ps = GlobalPatterns

提取数据运算NMDS

vegan_otu <- function(physeq){ OTU <- otu_table(physeq) if(taxa_are_rows(OTU)){ OTU <- t(OTU) } return(as(OTU,"matrix")) } x = as.data.frame(t(vegan_otu(GlobalPatterns))) head(x) x = as.matrix(x)


x = t(t(x)/colSums(x,na=T))* 100 # normalization to total 100

head(x)
##bray

bray.mds<-metaMDS(t(x), distance="bray", k=2, trymax=100) #maximum numbers of random starts in search of stable solution

bray.mds
##jackard

x = decostand(x,"pa")

jaccard.mds<-metaMDS(t(x), distance="jaccard", k=2, trymax=100)

jaccard.mds

str(bray.mds) #structure # ## 输出坐标 bray_axis = bray.mds$points jaccard_axis = jaccard.mds$point

计算Stress值

Stress值是反映模型合适程度的指标，NMDS会多次打乱数据计算Stress值，直到找到最合适的模型，也就是最低的Stress值；理想状况下，Stress值为0，一般Stress值低于0.1较为合理（本数据这个值偏高一些）

# 读入实验设计和Alpha多样性值 design = as.data.frame(sample_data(ps)) head(design)


########outbray出图坐标准备

outbray = as.data.frame(bray_axis)

index = merge(outbray,design, by="row.names",all=F)

head(index)

dim(index)

stress = paste("bray ","stress: ",round(bray.mds$stress,3), sep = "") stress

使用坐标和stress出图

mi = c("#FFF5EB" ,"#FEE6CE" ,"#FDD0A2", "#FDAE6B", "#FD8D3C", "#F16913", "#D94801", "#A63603", "#7F2704","black") # mi=c("#1B9E77" ,"#D95F02", "#7570B3","#E7298A") p <-ggplot(index, aes(x=MDS1, y=MDS2, fill = SampleType)) + geom_point(alpha=.7, size=5, pch = 21) + labs(x=paste("NMDS1",sep=""), y=paste("NMDS2" ,sep=""), title=stress)+ #stat_ellipse( linetype = 2,level = 0.65,aes(group =group, colour = group))+ #stat_ellipse( linetype = 1,level = 0.8)+ #geom_text_repel(aes(label=points$id),size=4)+ scale_fill_manual(values = mi)+ #labs(title = "toamto hea and dis")+ guides(color=guide_legend(title = NULL),shape=guide_legend(title = NULL))+ #scale_y_continuous(expand = c(0,0))+ geom_hline(aes(yintercept=0), colour="black", linetype=2) + geom_vline(aes(xintercept=max(index$MDS2/2)), colour="black", linetype="dashed") p # points$id=row.names(points) # p+geom_text(aes(label=points$id),size=4)#?stat_ellipse p = p + Mytheme p


plot_name = paste(path,"/a3_NMDS.pdf",sep = "")

ggsave(plot_name, p, width = 8, height = 6)

成图展示：

基于ade4 的NMDS分析（此中文来自赖江山老师团队翻译结果）

非度量多维尺分析（ Non-metric multidimensional scaling, NMDS）可以用）可以用 MASS包中的 isoMDS()函数实现，输入相异矩阵即可。函数实现，输入相异矩阵即可。vegan的 vegdist()函数可以计算群落的相异矩阵，默认是 Bray-Curtis相异系数，现在通常称为 Steinhaus 相似指数，在芬兰称为 Sorensen指数。基本步骤如下指

library(vegan) library(MASS)

data(varespec) vare.dis <- vegdist(varespec) vare.mds0 <- isoMDS(vare.dis)

NMDS排序结构通过迭代来不断最小化应力函数（stress function），默认情况下是找到两个维度并使用度量尺度分析(cmdscale)作为初始结构进行调整。从跟踪(trace)信息中可以看出迭代过程(通过设置参数trace = F来隐藏迭代过程)。

isoMDS()返回一个排序构建过程和应力函数的列表(item points, stress)。S应力函数是一个拟合度统计量，是排序空间内对象结构与原始距离矩阵之间的相异程度的度量。NMDS将观察到的群落差异非线性地映射到排序空间上，可以基于任何类型距离矩阵对对象进行排序。可以用MASS包的函数 Shepard()或者vegan包的stressplot()函数来评估 NMDS的结果（Shepard图）。

stressplot(vare.mds0, vare.dis)

stressplot函数绘制了一个Shepard图，其中横坐标为原始距离，纵坐标为排序距离，用单调的折线拟合。此外，stressplot()显示了这两者距离相关性，如拟合度（goodness of fit）与应力函数的关系是R²= 1 - S²。“fit-based R²”是拟合值θ(d)和运算出的排序图上距离d之间的相关性，或者是折线和点之间的相关性。它应该是线性的，即使拟合有点弯曲，通常仍被称为“线性拟合”。这两个相关性都是基于Shepard图中的残差，但是它们的零模型有所不同。在线性拟合中，零模型是所有排序距离相等，拟合为一条水平直线。这听起来很合理，但是需要N-1维的 N个点的零模型，而这个零模型在排序空间中是没有几何意义的。基本应力采用零模型，所有的观测都放在同一点上，这在几何上是可能的。注意，有时人们使用群落差异和排序距离之间的相关性。但是由于NMDS是一种非线性方法，因此这样做既危险又具有误导性：使用该准则，具有更多非线性关系的分类将会出现更多错误。

reference

http://wap.sciencenet.cn/home.php?mod=space&uid=267448&do=blog&id=1194081

NMDS非度量多维尺度分析—基于微生物群落