16s分析之LEfSe分析
突然有一天,师兄对我说,这么长时间了差异分析做了没啊?额,差异分析?之前不是做过吗?我开始 library(edgeR) ;不是这个,那个 LEfSe!好吧,那就做 LEfSe 吧!什么是 LEfSe ?又是一个学习的过程,分享给大家:
首先我去找了 LEfSe 的网址:
http://huttenhower.sph.harvard.edu/galaxy
哇哦,这个网站何止 LEfSe ,简直就是一个 NGS 数据分析品台但是我们今天关注 LEfSe ,打开:
首先选择导入文件,上面写着,上传你 tab 分隔的文件,文件包含相对丰度和门类信息(也许包含子分类和子标签),读到这里当然对导入数据格式不是很清晰:
需要什么形式的数据呢?我往下拉,在下面的页面看到了这个:
首先数据都使用的相对丰度百分数
第一行:是一组标签
第二行:也是一组标签
第三行:每个样品编号了
第四行:是总细菌的相对丰度
第五行:是放线菌门的相对丰度
第九行:是梭状芽胞杆菌纲的相对丰度
到这里,我似乎就明白了这个输入文件的形式:
分组信息和样品信息位于前几行,数据部分是六个门类等级下所有单元相对丰度的一个合并,这些不同等级的相对丰度放到一起,并用 tab 分隔符:到这里我想起了 Qiime 的一条命令,下面补充跑数据之 lefse 数据:
#这次我使用的 usearch10 跑出来的 txt 格式的 otu_table,转化为 biom 文件:
biom convert -i otu_table.txt -o otu_table.biom --table-type="OTUtable" --to-json
#统计序列,确认一下没有问题:
biom summarize-table -i otu_table.biom
#分门类统计相对丰度:
summarize_taxa_through_plots.py -otaxa_summary -i otu_table.biom -m map_lxdjhg_ys.txt
运行界面,错误,什么原因呢?发现是没有加物种注释在biom文件后面:
# 添加物种信息至 OTU 表最后一列,命名为 taxonomy
biom add-metadata -i otu_table.biom --observation-metadata-fp uclust_assigned_taxonomy/rep_seqs_tax_assignments.txt-o otu_table_tax.biom --sc-separated taxonomy --observation-header OTUID,taxonomy
#分门类统计相对丰度:
summarize_taxa_through_plots.py -otaxa_summary -i otu_table_tax.biom -m map_lxdjhg_ys.txt
#很快就运行完了:
现在开始整理表格,使用 Excel(R语言整理表格不过关,大家见笑)这个过程的确浪费些许时间,一共六张表格每张通过选择替换命令逐步将其中不需要的字符修改为分析要求的样式,可能需要十分钟吧最后整理成一整个文件txt。
开始上传:
选择本地文件,类型选择 Auto_detect 上传点击 Start :
成功后,页面右侧出现文件:
开始步骤 A :
Select whether the vectors:变量是行名:这里也就是 OTU 相对丰度Select which row to use as class:选择一行为分组:这里选择第一行Select which row to use as subclass:选择一行为另一个分组:我不选Select which row to use as subject:#大家自己理解Per-sample normalization of the sum of thevalues to 1M (recommended when very low values are present):#大家自己理解
开始步骤 B :
Alpha value for the factorialKruskal-Wallis test among classes:0.05Alpha value for the pairwise Wilcoxon testbetween subclasses:0.05Threshold on the logarithmic LDA score fordiscriminative features:2#可以根据自己数据调整Do you want the pairwise comparisons amongsubclasses to be performed only among the subclasses with the same name?:NASet the strategy for multi-class analysis:#大家自己理解
开始步骤 C ,开始作图:
开始步骤 D :
步骤 E :需要选择差异的种属:
步骤 F 所有差异物种全部做柱状图:
最后就是这些结果:
学习永无止境,分享永不停息!
写在后面
为此,有人讲 Qiime 出来 biom 文件和注释文件,通过 pyhton 脚本迅速调整为分析,参考网址(https://github.com/twbattaglia/koeken; https://pypi.python.org/pypi/pannenkoek/0.1.5),两个软件都可以使用,很遗憾,我安装不上任何一个,是基于 Qiime1,也没有其他 linux 系统,就放弃了,如果大家安装的上一定要留言哦。当然作为小白的我经过一整天的尝试,成功将 Qiime 搞错乱,已卸载。