MEGAN 提取注释结果没那么简单

MEGAN 提取注释结果

之前的提取方法

之前对于diamond比对完成后的的daa文件,我都是转化为rma文件,然后提取物种和功能丰度,之前一段时间也没有管,但是最近时间紧张,所以想缩短一点时间,才发现这个rma文件处理起来十分的缓慢,我在MEGAN社区也证实了这一点,作者团队也遗憾的表示了这一点:

~/megan/tools/daa2rma -i ./temp/megahit/all.diamond.nr.daa -mdb ~/db/megan/megan-map-Oct2019.db -o ./temp/MEGAN/all.diamond.nr.rma

提取物种数据不好后续处理

当我提取出来物种数据后,发现分类等级实在是太多,并且让注释为空的时候,默认都是进行的合并,所以在我进行后续分析的时候根本无法在不同分类等级进行区分:

#-提取物种注视结果
~/megan/tools/rma2info -i ./temp/MEGAN/all.diamond.nr.rma -c2c Taxonomy -r2c Taxonomy --paths true --list ture > ./temp/MEGAN/all.diamond.nr-taxonomy.txt

使用rma提取功能:

# 提取EGGNOG注释
我们只需要提取原始的注释文件,后续再使用小工具进行合并整理。
~/megan/tools/rma2info -i ./temp/MEGAN/all.diamond.nr.rma -r2c EGGNOG --paths > ./temp/MEGAN/all.diamond.nr_eggnog.txt

# 提取SEED注释
~/megan/tools/rma2info -i ./temp/MEGAN/all.diamond.nr.rma -r2c SEED --paths > ./temp/MEGAN/all.diamond.nr_SEED.txt

# 提取INTERPRO2GO注释
~/megan/tools/rma2info -i ./temp/MEGAN/all.diamond.nr.rma -r2c INTERPRO2GO --paths > ./temp/MEGAN/all.diamond.nr_INTERPRO2GO.txt

现在的提取方法

我使用daa-meganizer来整理daa文件,该命令直接在源文件中直接修改并整理添加到后面,并不会直接输出文件。(如果需要也可以输出id)

# 40多个G也只需要一个小时就可以搞定
~/megan/tools/daa-meganizer -i ./temp/MEGAN/all.diamond.nr.daa -mdb ~/db/megan/megan-map-Oct2019.db

修改物种提取参数

我添加了-mro true 参数,将主要的分类等级提取出来,便可以很好的对物种数据进行分级:

~/megan/tools/daa2info -i ./temp/MEGAN/all.diamond.nr.daa -c2c Taxonomy -r2c Taxonomy --paths true --list ture -r true -mro true > ./temp/MEGAN/MEGAN-taxonomy3.txt

使用daa文件提取功能数据:

# 提取EGGNOG注释
我们只需要提取原始的注释文件,后续再使用小工具进行合并整理。
~/megan/tools/daa2info -i ./temp/MEGAN/all.diamond.nr.daa -r2c EGGNOG --paths > ./temp/MEGAN/all.diamond.nr_eggnog.txt

# 提取SEED注释
~/megan/tools/daa2info -i ./temp/MEGAN/all.diamond.nr.daa -r2c SEED --paths > ./temp/MEGAN/all.diamond.nr_SEED.txt

# 提取INTERPRO2GO注释
~/megan/tools/daa2info -i ./temp/MEGAN/all.diamond.nr.daa -r2c INTERPRO2GO --paths > ./temp/MEGAN/all.diamond.nr_INTERPRO2GO.txt

(0)

相关推荐