宏基因组分析专题(4):宏基因组拼接的高效工具:megahit的安装和使用

本文由微科盟phage根据实践经验而整理,希望对大家有帮助。

微科盟原创微文,欢迎转发转载,转载须注明来源《微生态》公众号。

在上一节“宏基因组分析专题(3):宏基因组数据的质控-fastQC和Trimmomatic的安装和使用”内容中我们讲解了测序数据的质量评估和控制,二代测序虽然其通量高,但是其错误率也高(通常一条read的前后若干bp错误率较高),在进行fastq质量评估和Trimmomatic对错误碱基进行修剪后,我们需要把质控后的reads通过一些软件结合一些算法把这些比较短的reads拼接成一些长一点的Contigs才能进行下一步的分析。
下面来介绍一下宏基因组拼接的软件和流程。

写在前面

宏基因组拼接工具有哪些?
目前宏基因组拼接软件主要有4种:

(1)SOAPdenovo:这款软件由华大开发,SOAPdenovo2是用于short-read组装的软件,主要用于组装比较大的基因组, 组装速度快但是错误率较高。

(2)SPAdesmetaSPAdes是目前宏基因组领域组装指标较好的软件,尤其在株水平组装优势明显,组装效果优,但是拼接时间长,资源消耗高

(3)IDBA:适合预测深度不均一的数据,且资源消耗过高

(4)Megahit:MEGAHIT是NGS de novo汇编程序,在土壤等复杂环境样本组装、大量样本混合组装方面优势明显,速度很快,消耗的资源少。

本文将重点介绍MEGAHIT的安装和使用。

安装和使用

第一:Megahit的介绍

MEGAHIT是NGS de novo汇编程序,用于以节省时间和成本的方式来汇编大型和复杂的宏基因组学数据。它分别在具有和不具有图形处理单元的单个计算节点上,在44.1和99.6 h内完成了252 Gbps的土壤宏基因组学数据集的组装。MEGAHIT将数据整体组装在一起,即不需要像分区和规范化这样的预处理。与以前的组装土壤数据的方法相比,MEGAHIT生成了三倍大的组装,具有更长的重叠群N50和平均重叠群长度;此外,有55.8%的读段与装配体对齐,从而提高了四倍。

图1 Megahit的流程图

Megahit组装的算法使用的是基于迭代的kmer的DBG法,其特点是超快和超高效内存使用,所以Megahit的软件运行速度极快,节约了大量的拼接时间。

组装算法大致可以分为三类

1.基于OLC (Overlap-Layout-Consensus),适用于测序量不大的长片段数据
2.基于kmer的DBG (de bruijn graph),适用测序量大的短片段数据
3.综合OLC和DBG法
第二:Megahit常用的参数

-1 一端测序的文件

-2 另一端测序的文件

-m/--memory 在 SdBG 构造中使用的最大内存(以字节为单位)

--k-list  设置k参数 所有必须是奇数,在 15-255 范围内,增量 <= 28

-o 输出的文件夹

--tmp-dir 输出临时文件

-v/--version 版本号

-v/--version 帮助

第三:Megahit实战
采用了上一章,用fastqc和Trimmatic质控后的数据:SRR1977249和SRR1976948双端质控后的数据。
对于SRR1977249

megahit -t 20 -1 SRR1977249_1.clean.fastq.gz  -2 SRR1977249_2.clean.fastq.gz -o SRR1977249

图2

SRR1977249数据耗时323秒

图3

输出的文件是多个k组装而输出的文件

图4

同样的对于SRR1976948数据:

megahit -t 20 -1 SRR1976948_1.clean.fastq.gz -2 SRR1976948_2.clean.fastq.gz -o SRR1976948

图5

SRR1976948总耗时421秒

SRR1977249和SRR1976948总耗时744秒,不到13分钟,非常的快

图6
到这里我们完成了所有的宏基因组组装过程,如果你测的是土壤中的宏基因组,那么这些Contigs包含土壤所有的微生物,为了进一步研究,下一章内容我们会将这些Contigs通过一定的算法进行分类(例如四碱基的频率),来得到一些bins来进行进一步分析,敬请期待。

本文来源于微科盟原创作者phage,仅用于学术分享,如有侵权,请联系删除!


(0)

相关推荐