9.3 用ANOSIM假设检验组间的不同
ANOSIM检验是由Clarke(1993)开发的一种无分布的多元数据分析方法,经常被群落生态学家和微生物组研究人员使用。它是一种非参数程序,用于检验两组或多组样本之间无差异的假设,基于组间和组内相似性的排列检验(Clarke 1993)。它比较了物种(或任何其他分类群)丰度和组成在采样单元(如:就分组因素或实验处理水平而言,与ANOVA分析类似,ANOSIM将组成员资格或处理水平作为因素,并将其建模作为解释变量。相似度的分析基于一个简单的想法:如果测试的组是有意义的,那么组内的样本应该比不同组的样本在组成上更相似。因此,零假设是:在测试组或治疗条件的成员之间没有差异。本实验采用Bray-Curtis相似性测度法。

M=N(N-1)/2 是样品对数。

R被解释为一个相关系数,作为其他类型的相关系数,如Pearson’s相关系数,是“效应大小”的衡量标准。检验统计量是为了检验在原假设下组间是否存在差异。如果零假设是正确的,那么R=0,这意味着平均而言,组间和组内的差异是相同的。当高相似性和低相似性完全混合且与群体没有关系时,就会发生这种情况。如果零假设被拒绝,那么R不等于0,这表明组内所有的样本对比任何来自不同组的样本对更相似。例如,在这种情况下,所有最相似的样本都在样本组内,则R = 1。理论上,R < 0也是有可能的。但实际上这种情况是在生态和微生物组研究中不太可能。极端情况R =-1,表示最相似的样本都不在组内。
9.3.2 用vegan包说明ANOSIM的相似性分析
anosim (data, grouping, permutations = 1000, distance = ”bray”)
其中,data为数据矩阵,其中行为样本,列为响应变量。或不同的物体或对称的不同方阵;; grouping = grouping variable (一个因素); permutations = 评估ANOSIM统计量的显著性的排列数; distance = 距离或不相似度量。如果输入数据不具有不相似结构或为对称方阵,则需要指定距离。这里用Vdr小鼠粪便数据来说明ANOSIM测试。首先,我们需要加载数据和尚未加载的vegan包。如前所述,将获得分组信息。
> abund_table=read.csv("VdrFecalGenusCounts.csv",row.names=1,
> abund_table<-t(abund_table)
> grouping<-data.frame(row.names=rownames(abund_table),t(as.data.frame
> grouping$Group <- with(grouping,ifelse(as.factor(X2)%in% c
(11,12,13,14,15),c("Vdr-/-"), c("WT")))
> grouping<- grouping[,c(4)]
> library(vegan)
> bray<-vegdist(abund_table, "bray")
> anosim(bray, grouping,permutations = 1000)
anosim(dat = bray, grouping = grouping, permutations = 1000)
Dissimilarity: bray
ANOSIM statistic R: 0.19
Significance: 0.2
Permutation: free
Number of permutations: 1000
> anosim(abund_table, grouping, permutations = 1000, distance = "bray")
distance = "bray")
Dissimilarity: bray
ANOSIM statistic R: 0.19
Significance: 0.19
Permutation: free
Number of permutations: 1000
> fit <- anosim(bray, grouping,permutations = 1000)
> summary(fit)
anosim(dat = bray, grouping = grouping, permutations = 1000)
Dissimilarity: bray
ANOSIM statistic R: 0.19
Significance: 0.18
Permutation: free
Number of permutations: 1000
Upper quantiles of permutations (null model):
90% 95% 97.5% 99%
0.282 0.323 0.538 0.846
Dissimilarity ranks between and within classes:
0% 25% 50% 75% 100% N
Between 2 9.5 17 21.50 28 15
Vdr-/- 1 6.5 14 19.75 25 10
WT 5 8.0 11 16.50 22 3
> plot(fit)
使用Jaccard不同配合ANOSIM. 下面的R代码使用Jaccard方法适合ANOSIM
> anosim(abund_table, grouping, permutations = 1000, distance = "jaccard")
anosim(dat = abund_table, grouping = grouping, permutations = 1000,
distance= "jaccard")
Dissimilarity: jaccard
ANOSIM statistic R: 0.19
Significance: 0.2
Permutation: free
Number of permutations: 1000
使用Sørensen不同配合ANOSIM. 以下使用Sørensen方法适用于ANOSIM rensen
> fit_S <- anosim(abund_table, grouping, permutations = 1000,distance =
> summary(fit_S)
anosim(dat = abund_table, grouping = grouping, permutations = 1000)
Dissimilarity: bray
ANOSIM statistic R: 0.19
Significance: 0.19
Permutation: free
Number of permutations: 1000
Upper quantiles of permutations (null model):
90% 95% 97.5% 99%
0.282 0.344 0.546 0.846
Dissimilarity ranks between and within classes:
0% 25% 50% 75% 100% N
Between 2 9.5 17 21.50 28 15
Vdr-/- 1 6.5 14 19.75 25 10
WT 5 8.0 11 16.50 22 3
9.4 Multi-response Permutation Procedures的假设检验
9.4.1 介绍MRPP
多响应置换程序(MRPP)是一种非参数程序,用于检验两组或多组样本之间无差异的假设,基于组间和组内差异的置换检验(Mielke 1984,1991)。测试差异可能会使均值(位置)或组内距离差异(spread) (Warton et al. 2012)。

式中,delta= MRPP检验统计量,为抽样单位间两两不相似的组内均数的总体加权均值:Ci=ni/N;N=项目总数: n;=组i中项目的数量。
实施MRPP主要有五个步骤: 第一步:一般情况下使用欧几里得距离计算距离矩阵 第二步:计算各组di的平均距离。第三步:计算g多组的增量 第四步:确定效果大小。统计量A是对效应大小的衡量,它被解释为ANOISIM中的R;它是作为组内同质性与随机期望的比较而得到的。

检验统计量是检验在零假设下组间无差异。如果组内异质性随机等于期望,则A=0:当组内所有项各都相同时,则A= 1。A < 0.1在生态学中很常见;> 0.3在生态学中是相当高的。然而,据我们所知,目前尚无微生物组效应大小的报道标准。
第五步:检验显著性。正如在PERMANOVA和ANOSIM检验中,检验统计量delta的p值是通过Monte Carlo置换得到的。显著性检验是简单地用小于观测到的增量的置换增量的比例,并进行小样本校正。它是在这个或更小的条件下的概率。
9.4.2 用vegan包做MRPP
mrpp(data, grouping, permutations = 1000, distance = “bray”)
其中,data =数据矩阵或数据框架,其中行是观测值,列是结果,或一个不相似对象或对称的不相似方阵。结果可能是单变量的或多变量的;grouping =分组变量(一个因素);permutations =评估MRPP统计量的显著性的置换数:distance = distance or dissimilarity measure如果输入数据没有dissimilarity structure或者是一个对称的方阵,那么需要指定距离。在ANOSIM测试中,我们需要访问数据并加载vegan包。
> mrpp(bray, grouping,permutations = 1000)
mrpp(dat = bray, grouping = grouping, permutations = 1000)
Dissimilarity index: bray
Weights for groups: n
Class means and counts:
Vdr-/- WT
delta 0.44 0.427
n 5 3
Chance corrected within-group agreement A: 0.0502
Based on observed delta 0.4353 and expected delta 0.4583
Significance of delta: 0.17
Permutation: free
Number of permutations: 1000
> mrpp(abund_table, grouping, permutations = 1000, distance = "bray")
mrpp(dat = abund_table, grouping = grouping, permutations = 1000,
distance= "bray")
Dissimilarity index: bray
Weights for groups: n
Class means and counts:
Vdr-/- WT
delta 0.44 0.427
n 5 3
Chance corrected within-group agreement A: 0.0502
Based on observed delta 0.4353 and expected delta 0.4583
Significance of delta: 0.15
Permutation: free
Number of permutations: 1000
> meandist(bray, grouping,permutations = 1000)
Vdr-/- WT
Vdr-/- 0.4401 0.4766
WT 0.4766 0.4273
[1] "meandist" "matrix"
Vdr-/- WT
5 3
使用meandist()和 summary()函数获得平均距离和汇总统计我们可以使用meandist()summary()函数来查找组内、组间和总体方法以及他们的差异,以及所有重要的MRPP统计数。选项和分类强度。
> bray_mrpp <- meandist(bray, grouping,permutations = 1000,distance =
"bray",weight.type = 1)
> summary(bray_mrpp)
Mean distances:
within groups 0.4372
between groups 0.4766
overall 0.4583
Summary statistics:
MRPP A weights n 0.05016
MRPP A weights n-1 0.04900
MRPP A weights n(n-1) 0.04612
Classification strength 0.04131
9.5.1 介绍UniFrac,加权UniFrac和广义UniFrac距离矩阵
在多变量微生物组组成分析中,加权和未加权的 UniFrac distance是测量两种微生物组群体的的最常用方法。UniFrac距离,也被称为未加权UniFrac距离,由Lozupone等人在2005年提出(Lozupone and Knight 2005)。它是根据系统发育距离估计微生物组样品之间差异的一种方法。UniFrac距离度量的目标是使来自不同条件的微生物组样本之间的客观比较成为可能。unweighted UniFrac定义如下:

式中,d = unweighted UniFrac distance;A,B=微生物组群落A与B;n=系统发育树的根状分支;bi=i枝长度,piA和piB=群落A和B从分支i下降的类群比例。I()是指示物种是否存在于i支的指示函数。在上式中,群落A和群落B从i支下降的类群比例分别定义为>0和I(piA>0)和I(piB>0)。
按照这种定义,UniFrac度量是通过将两个样本之间不共享的分支长度除以其中一个样本(但不是两个样本都包含的分支长度)来计算的(Lozupone和Knight 2005)。距离为0表示两个样本完全相同,距离为1表示两个样本没有共同类群。unweighted UniFrac distance作为缺席二值检验,只考虑类群的存在和缺席信息;它是检测稀有血统丰度变化的最有效方法。然而,这种距离度量的定义完全忽略了类群丰度信息(Chen et al .2012).2007年,Lozupone等人在原始的未加权方法(Lozupone et al. 2007)的基础上增加了比例加权,因此将这种新的UniFrac方法称为加权UniFrac。加权UniFrac距离利用类群丰度信息,并对丰度差异的分支长度加权;在加权的UniFrad距离度量中,系统发育树的每个分支长度的加权是由两个样本之间的类群丰度比例的差异,而不是只看类群的存在或不存在。加权UniFrac距离(Lozupone et al. 2007)定义为

式中,dW=(标准化)加权UniFrac距离;A、B=微生物组群落A、B;n =系统发育树的根状分支;bi =分支i的长度。
该定义的公式有以下几个特点:(1)以丰度差异为分支长度加权;==(2)即使将丰度数据转化为存在缺失数据,也不能将dW简化为du;(3) dw采用绝对比例差,导致dw值主要由大比例分支决定,对小比例分支丰度变化不太敏感(Chen et al. 2012)。通过向UniFrac距离添加一个比例加权,加权的UniFrac距离减少了低丰度分类群被表示为0或根据采样深度的低计数的问题。在加权的UniFrac中,低丰度分类群的权重更低,因此对度量报告的总距离的影响更小(Wong et al. 2016)。因此,加权的UniFrac可以检测每个谱系中存在的序列数量和分类群的变化(Lozupone et al. 2007);它对检测丰富基因的变化最为敏感(Chen et al. 2012)。然而,未加权或加权的UniFrac距离在检测中等丰富谱系中的变化时可能都不是很有效(Chen et al. 2012),因为它们对罕见谱系或最丰富的谱系都赋予了过多的权重。因此,Chen等人提出了以下广义UniFrac距离,以统一加权的UniFrac距离和非加权的UniFrac距离。

式中,d(α)=广义UniFrac距离;α∈[0,1] 是用来控制来自高丰度分支的贡献;A,B=分别是微生物群落A,B;n=生根的系统发育树的分支;bi=分支i的长度;∑nbi(piA+piB)(α)=标准因子以确保d(α)值在[0,1].广义UniFrac 距离包含一个额外的参数α控制家系丰度的权重,所以距离不由高丰度家系决定。α=0.5已经远超于最大值。UniFrac距离的标准化公式有几个特征:(1)利用相对差值|piA-piB|/(piA+piB)对大比例分支的权重进行了衰减,权重值在[0,1]区间(2)根据这个公式,如果我们将丰度数据转换为存在/缺失数据,现在dW可以简化为dU,当我们令式(9.11)中α=1,d(α)减少到dW。



其中tr(.)是矩阵的迹函数,H=X(XTX)-1XT 为设计矩阵X的hat(投影)矩阵,G为高尔居中矩阵,n为样本个数,m为预测因子个数。设dij为群落i与j之间的广义UniFrac距离,且表示为A=(aij)=(-1/2dij2).高尔矩阵定义为G=(I-11/n)A(I-11/n)。未加权、加权 UniFrac距离和广义UniFrac距离的详细的检验统计量及统一公式,读者可以参考作者的原始论文。
9.5.2 母乳数据集
母乳数据集来自两项最近发表的研究(Urbaniak et al.)。2016;Wong等人2016年)。它从哺乳期收集了58个微生物样本加拿大白人女性。母乳是发育中的婴儿的重要细菌来源,并影响新生儿的细菌组成,进而影响到以后生活中的疾病风险。在第一篇论文中,作者使用这组数据比较了早产和出生的、剖腹产(选择性和非选择性)、阴道分娩以及男婴和女婴之间的细菌分布。在第二篇文章中,使用相同的数据集来说明作者自己开发的工具,包括unweighted UniFrac、weighted UniFrac、information UniFrac和ratio UniFrac。在这里,我们使用这个数据集来比较GUniFrac软件包中的微生物群落。
GUniFrac包被发展以完成广义的uniFrac距离来比较生物群落,正如PERMANOVA程序, GUniFrac包基于置换估计伪F的统计值的显著性,如果树在一个环境中所占的比例大于偶然的预期值,那么这两个群落就被认为是不同的,在这个包中,加权和不加权UniFrac,以及方差调整加权UniFrac距离也可以实现, UniFrac距离可以被计算出来,并且在GUniFrac包中比较微生物群落,包括dW,d(0.5),d(0),d(U),以及方差以调整加权UniFrac距离dVAW,以上部分,我们介绍了dW,d(0)和d(U)的公式,d(0.5)代表一系列距离的中间值,通过以下公式计算出来:


其中mi为第i支两个社团的总个体数/reads, m为总个体数/reads。它的开发是为了考虑这样一个事实,即加权UniFrac距离不考虑随机抽样下权重的变化,从而导致较少的功率检测社区之间的差异(Chang et al. 2011)。GUniFrac包依赖于vegan和ape包,作者还建议使用ade4包。一个用法如下所示:
GUniFrac(otu.tab, tree, alpha = c(0, 0.5, 1))
> setwd("E:/Home/MicrobiomeStatUsingR/Analysis/")
> otu_tab <- read.table("td_OTU_tag_mapped_lineage.
txt", header=T, sep="\t", row.names=1, comment.
char="", check.names=FALSE)
在参数中,row.names = 1 参数指定表中包含行名的列1;comment.char = “ “用于完全关闭注释的解释。它比默认的read.table()快得多。数据集的前6行“td_OTU_tag_mapped_lineage.txt”的内容如下:
> head(otu_tab)
S31 S1 S42 S13_T2 S30 S50 S43 S20 S29 S47U S26 S13_T3 S33 S8L
0 38 36 30 14 13 18 27 38 49 7 5251 12 17 35
1 2866 15069 42985 3292 1223 1056 3959 3021 7023 1856 7993 2571 13306 1101
2 437 9831 4628 4231 4473 718 3843 441 4311 2496 5672 4940 4112 4830
3 3356 7407 5355 62 121 14 3616 6184 334 108 31 30 13 56
4 12 478 16 342 23 8 18 97 390 126 4 271 53 7
5 145 238 234 3 56 1 109 156 374 28 0 45 0 1
3 Bacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;EscherichiaShigella;|98
> taxonomy <- otu_tab$taxonomy
> otu_tab <- otu_tab[-length(colnames(otu_tab))]
> otu_tab <- t(as.matrix(otu_tab))
> head(otu_tab)
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
S31 38 2866 437 3356 12 145 43 0 20 19 33 27 16 21 79 40 30 12
S1 36 15069 9831 7407 478 238 1368 25 306 2821 91 169 323 475 1290 3795 532 186
S42 30 42985 4628 5355 16 234 14491 2 357 153 48 109 136 520 781 617 727 867
S13_T2 14 3292 4231 62 342 3 282 1 188 51 64 168 161 574 557 33 408 7
S30 13 1223 4473 121 23 56 3 0 123 3 13 3 279 207 703 123 617 5
S50 18 1056 718 14 8 1 3 1 20 5 0 1 35 49 119 28 83 5
第二步:使用抽平将样品OTU计数标准化到一个标准测序深度UniFrac的作者推荐使用稀疏数据(Carcer等人,2011年),并将其用于计算未加权的UniFrac距离矩阵,而非稀疏数据则使用自定义的UniFrac脚本用于加权、信息和比例UniFrac (Wong等人,2016年)。然而,在GUuniFrac软件包手册中,所有的UniFrac距离计算都使用了稀有数据。因为GUuniFrac对不同的测序深度很敏感,为了在相同的基础上比较微生物群,可以使用稀疏法(Chen 2012)。因此,我们遵循包手册;在执行未加权,加权UniFrac和方差调整加权UniFrac距离前细化样本 。可以使用vegan package中的rrarefy()或rarefy()函数来实现。
> library(vegan)
> otu_tab_rarefy <- rrarefy(otu_tab, min(apply(otu_tab,1,sum)))
> library(phangorn)
> otu_tree <- midpoint(otu_tree)
> otu_tree
Phylogenetic tree with 115 tips and 114 internal nodes.
Tip labels:
1, 11, 6686, 18, 230, 82, ...
Node labels:
NA, 71.9, 79.1, 86.9, 87.1, 52.4, ...
Rooted; includes branch lengths.
> library(GUniFrac)
> #Calculate the UniFracs
> unifracs <- GUniFrac(otu_tab_rarefy, otu_tree, alpha=c(0, 0.5, 1))
> dw <- unifracs[,, "d_1"] # Weighted UniFrac
> du <- unifracs[,, "d_UW"] # Unweighted UniFrac
> dv <- unifracs[,, "d_VAW"]# Variance adjusted weighted UniFrac
> d0 <- unifracs[,, "d_0"] # GUniFrac with alpha 0
> d5 <- unifracs[,, "d_0.5"]# GUniFrac with alpha 0.5
> meta_tab<- read.table("metadata.txt", header=T, sep="\t",
row.names=1, comment.char="", check.names=FALSE)
> otu_meta_matched <- match(rownames(meta_tab),rownames(otu_tab))
> otu_meta_matched <- otu_meta_matched[!is.na(otu_meta_matched)]
> otu_tab <- otu_tab[otu_meta_matched,]
> meta_tab_Ordered <- meta_tab[match(rownames(otu_tab),rownames
下面的R代码使用了vegan package中的adonis()函数来执行 PERMANOVA比较妊娠距离系列的中间距离。感兴趣的读者可以尝试UniFrac的其他距离指标。
> set.seed(123)
> adonis(as.dist(d5) ~ meta_tab$Gestation)
adonis(formula = as.dist(d5) ~ meta_tab$Gestation)
Permutation: free
Number of permutations: 999
Terms added sequentially (first to last)
Df SumsOfSqs MeanSqs F.Model R2 Pr(>F)
meta_tab$Gestation 4 0.4336 0.108391 1.2001 0.08305 0.22
Residuals 53 4.7869 0.090319 0.91695
Total 57 5.2205 1.00000
> adonis(as.dist(d5) ~ meta_tab$Gender)
adonis(formula = as.dist(d5) ~ meta_tab$Gender)
Permutation: free
Number of permutations: 999
Terms added sequentially (first to last)
Df SumsOfSqs MeanSqs F.Model R2 Pr(>F)
meta_tab$Gender 2 0.1864 0.093197 1.0182 0.0357 0.381
Residuals 55 5.0341 0.091529 0.9643
Total 57 5.2205 1.0000
> adonis(as.dist(d5) ~ meta_tab$milktype)
adonis(formula = as.dist(d5) ~ meta_tab$milktype)
Permutation: free
Number of permutations: 999
Terms added sequentially (first to last)
Df SumsOfSqs MeanSqs F.Model R2 Pr(>F)
meta_tab$milktype 3 0.4019 0.133976 1.5014 0.07699 0.06 .
Residuals 54 4.8186 0.089233 0.92301
Total 57 5.2205 1.00000
Signif. codes: 0 '***’ 0.001 '**’ 0.01 '*’ 0.05 '.’ 0.1 ' ’ 1
> PermanovaG(unifracs[, , c("d_0", "d_0.5", "d_1")] ~ meta_tab$Gestation)
F.Model p.value
meta_tab$Gestation 1.262764 0.263
9.6 概括和讨论
在本章中,我们介绍了多元群落微生物组数据的假设检验及其在R中的逐步实现。我们用来说明的数据来自我们自己的研究(Jin et al. 2015;王等。或公开提供。读者可以使用本章提供的R代码和解释来分析他们自己的微生物组数据。
问题是哪一种方法更适合分析多元群落微生物组数据?在生态文学中,关于这个问题的讨论很多。(McArdle and Anderson 2001; Legendre et al. 2005; Legendre2007; Laliberte 2008; Legendre et al. 2008; Pélissier et al. 2008; Tuomisto and Ruokolainen 2008; Anderson et al. 2011; Legendre and Legendre 2012)
基于距离的方法存在以下问题:(1)它们不能正确划分数据中的变化,不能提供正确的第一类错误率,因此不适合分析beta多样性;(2) 正如 Anderson 等人认为,更有问题的是,使用划分方法对驱动beta多样性模式的底层过程的相对重要性进行直接推断(Anderson等,2011年)。例如,ANOSIM和Mantel测试已被证明不适合测试关于元数据变化的假设检验,因此,建议在分析beta多样性时,应限于分析beta多样性的变化,而不是分析beta多样性。基于原始数据的替代方法被认为为分析beta多样性提供了更合适和更强大的工具。然而,基于距离的方法确实有一些优点,例如,Mantel测试被认为是一种有效的方法来关联两个距离矩阵(Anderson et al.2011)并提供了更大的灵活性,允许使用其他类型的距离函数,如Jaccard或Steinhaus/Bray-Curtis (Legendre et al. 2005),它可能适合于关于群点(样本)间beta多样性变化的假设 (Legendre et al. 2005)。与简单的Mantel试验相比,生态学研究也指出,部分Mantel方法的解释在一段时间内存在问题.(e.g., Legendre et al. 2005; Anderson et al. 2011).
关于vegan包中的函数的使用,这个包的作者推荐adonis()而不是mrpp()和anosim()。原因在于函数adonis()允许用连续和/或分类预测器解释beta多样性中的方差进行类似方差的测试。然而,mrpp()和anosim()都只处理分类预测因子,它们不如adonis()强大。(Oksanen et al. 2016).
