7-跟着science学习宏基因组-从宏基因组中提取16S/18S序列分析2-组装注释
[TOC]
写在前面
这是对宏基因组提取扩增子序列16S分析的第二部分,这部分将核糖体RNA基因组装后进行分析。上一节我们使用了 bbmap提取了核糖体序列,但是单纯用于ASV的方法聚类是不行的,以为宏基因组打断建库,核糖体序列提取出来也是很混乱的,本小结我们使用组装的方法构建相对较长的核糖体序列,当然会得到更好的注释信息。
使用megahit组装16s
mkdir ./extract_16S/megahit
megahit --continue -t 6 --12 ./extract_16S/SUBERR793599.bbduk.fa.gz -o ./extract_16S/megahit/SUBERR793599/final.contigs.fa
for i in ./rawdata_0.01/*_1.fq.gz
do
base=$(basename $i _1.fq.gz)
echo $base
mkdir ./extract_16S/megahit/${base}
megahit --continue -t 6 --12 ./extract_16S/${base}.bbduk.fa.gz -o ./extract_16S/megahit/${base}/final.contigs.fa
done
barrnap 基因结构注释:核糖体RNA
相似功能的软件有RNAmmer,但是只有大学和科研机构的用户可以免费使用。barrnap这款软件,完全开源免费。使用perl语言开发
支持有以下类型的RRNDA预测
bacteria (5S,23S,16S),
archaea (5S,5.8S,23S,16S),
metazoan mitochondria (12S,16S)
eukaryotes (5S,5.8S,28S,18S)
barrnap --threads 6 --reject 0.1 ./extract_16S/megahit/SUBERR793599/final.contigs.fa/final.contigs.fa > ./extract_16S/megahit/SUBERR793599.gff 2> ./extract_16S/megahit/SUBERR793599/barrnap.log
参数解释:
—kingdom 指定物种,这里宏基因组,无需指定 (bac代表细菌,arc代表古菌,euk代表真核生物,mito代表后生动物线粒体)
输入文件为fa文件
输出文件为gff文件
批量 运行
for i in ./rawdata_0.01/*_1.fq.gz
do
base=$(basename $i _1.fq.gz)
echo $base
barrnap --threads 6 --reject 0.1 ./extract_16S/megahit/${base}/final.contigs.fa/final.contigs.fa > ./extract_16S/megahit/${base}.gff 2> ./extract_16S/megahit/${base}/barrnap.log
done
final.contigs.fa 序列注
序列注释 -rdp
# conda install -c bioconda rdp_classifier
conda install -c bioconda rdptools
classifier.jar classify -c 0.8 ./extract_16S/megahit/SUBERR793599/final.contigs.fa/final.contigs.fa -f filterbyconf -o ./extract_16S/megahit/SUBERR793599/final.contigs.fa.rdp
# --批量运行
for i in ./rawdata_0.01/*_1.fq.gz
do
base=$(basename $i _1.fq.gz)
echo $base
classifier -c 0.8 ./extract_16S/megahit/${base}/final.contigs.fa/final.contigs.fa -f filterbyconf -o ./extract_16S/megahit/${base}/final.contigs.fa.rdp
done
megahit混合组装—全部样本一起
mkdir ./extract_16S/cross_assembly
# 这里忽略了我的-o选项
megahit --continue -t 6 --12 ./extract_16S/*.bbduk.fa.gz -o ./extract_16S/cross_assembly
barrnap 定位核糖体RNA基因 gff文件
mkdir ./extract_16S/16S_assembly
barrnap --threads 6 --reject 0.1 ./extract_16S/cross_assembly/megahit_out/final.contigs.fa > ./extract_16S/cross_assembly/barrnap.gff 2> ./extract_16S/16S_assembly/barrnap.log
序列注释-rdp
classifier.jar classify -c 0.8 ./extract_16S/megahit/SUBERR793599/final.contigs.fa/final.contigs.fa -f filterbyconf -o ./extract_16S/megahit/SUBERR793599/final.contigs.fa.rdp
附
reference
根际互作生物学研究室 简介
根际互作生物学研究室是沈其荣教授土壤微生物与有机肥团队下的一个关注于根际互作的研究小组。本小组由袁军副教授带领,主要关注:1.植物和微生物互作在抗病过程中的作用;2 环境微生物大数据整合研究;3 环境代谢组及其与微生物过程研究体系开发和应用。团队在过去三年中在 isme J, Microbiome, PCE,SBB,Horticulture Research等期刊上发表了多篇文章。欢迎关注 微生信生物 公众号对本研究小组进行了解。
团队工作及其成果 (点击查看)
了解 交流 合作
团队负责人邮箱 袁军:
junyuan@njau.edu.cn;
成员联系:文涛:
2018203048@njau.edu.cn
团队公众号: