宏基因组分析专题(4):宏基因组拼接的高效工具:megahit的安装和使用
本文由微科盟phage根据实践经验而整理,希望对大家有帮助。
微科盟原创微文,欢迎转发转载,转载须注明来源《微生态》公众号。
在上一节“宏基因组分析专题(3):宏基因组数据的质控-fastQC和Trimmomatic的安装和使用”内容中我们讲解了测序数据的质量评估和控制,二代测序虽然其通量高,但是其错误率也高(通常一条read的前后若干bp错误率较高),在进行fastq质量评估和Trimmomatic对错误碱基进行修剪后,我们需要把质控后的reads通过一些软件结合一些算法把这些比较短的reads拼接成一些长一点的Contigs才能进行下一步的分析。 下面来介绍一下宏基因组拼接的软件和流程。
写在前面
(1)SOAPdenovo:这款软件由华大开发,SOAPdenovo2是用于short-read组装的软件,主要用于组装比较大的基因组, 组装速度快但是错误率较高。
(2)SPAdes:metaSPAdes是目前宏基因组领域组装指标较好的软件,尤其在株水平组装优势明显,组装效果优,但是拼接时间长,资源消耗高
(3)IDBA:适合预测深度不均一的数据,且资源消耗过高
(4)Megahit:MEGAHIT是NGS de novo汇编程序,在土壤等复杂环境样本组装、大量样本混合组装方面优势明显,速度很快,消耗的资源少。
安装和使用
MEGAHIT是NGS de novo汇编程序,用于以节省时间和成本的方式来汇编大型和复杂的宏基因组学数据。它分别在具有和不具有图形处理单元的单个计算节点上,在44.1和99.6 h内完成了252 Gbps的土壤宏基因组学数据集的组装。MEGAHIT将数据整体组装在一起,即不需要像分区和规范化这样的预处理。与以前的组装土壤数据的方法相比,MEGAHIT生成了三倍大的组装,具有更长的重叠群N50和平均重叠群长度;此外,有55.8%的读段与装配体对齐,从而提高了四倍。
图1 Megahit的流程图
组装算法大致可以分为三类:
-1 一端测序的文件
-2 另一端测序的文件
-m/--memory 在 SdBG 构造中使用的最大内存(以字节为单位)
--k-list 设置k参数 所有必须是奇数,在 15-255 范围内,增量 <= 28
-o 输出的文件夹
--tmp-dir 输出临时文件
-v/--version 版本号
-v/--version 帮助
megahit -t 20 -1 SRR1977249_1.clean.fastq.gz -2 SRR1977249_2.clean.fastq.gz -o SRR1977249
图2
SRR1977249数据耗时323秒
图3
图4
megahit -t 20 -1 SRR1976948_1.clean.fastq.gz -2 SRR1976948_2.clean.fastq.gz -o SRR1976948
图5
SRR1976948总耗时421秒
SRR1977249和SRR1976948总耗时744秒,不到13分钟,非常的快
本文来源于微科盟原创作者phage,仅用于学术分享,如有侵权,请联系删除!