16s分析之Qiime中一些常用的命令学习笔记

首先提出一个问题:我们在测序公司得到数据,可能他们会给跑出otu.table文件,但是没有进化树,在影响到了后续的Aplha,beta多样性分析:

让我们开始解决这个问题:

# 物种注释(如果没有注释文件的话)

assign_taxonomy.py -ouclust_assigned_taxonomy -i rep_seqs.fa \

# 文本OTU表转换为BIOM:(公司给你的文件如果是txt文件的话)

biom convert -i otu_table.txt -ootu_table.biom --table-type="OTU table" --to-json

# 添加物种信息至OTU表最后一列,命名为taxonomy

biom add-metadata -i /otu_table.biom --observation-metadata-fprep_seqs_tax_assignments.txt -o otu_table_tax.biom --sc-separated taxonomy--observation-header OTUID,taxonomy

#跑进化树文件:

#对齐

align_seqs.py -i rep_seqs.fa -opynast_aligned_seqs

#过滤

filter_alignment.py -o pynast_aligned_seqs/-i pynast_aligned_seqs/rep_seqs_aligned.fasta

#做树

make_phylogeny.py -ipynast_aligned_seqs/rep_seqs_aligned_pfiltered.fasta -o rep_set.tre

到此这个问题已经解决,那么还有什么问题是我们关注的呢?

有时候我们需要对otu表进行筛选,毕竟open_方法得到的otu数目太多,这个时候:

#比如挑选万分之一丰度的

filter_otus_from_otu_table.py--min_count_fraction 0.0001 -i otu_table.biom -o otu_table0001.biom

#有时候我们需要统计fa文件又多少条序列(http://qiime.org/scripts/count_seqs.html):

count_seqs.py -i in.fasta

count_seqs.py -i "*.fasta"#统计所有fa文件序列数量

#有时候我们需要根据挑选的otu编号来过滤需要的otu序列数(http://qiime.org/scripts/filter_fasta.html)

filter_fasta.py -f inseqs.fasta -ootu_map_filtered_seqs.fasta -m otu_map.txt

#用于去除singletons,也可以去除较少的序列数,设置-n即可(http://qiime.org/scripts/filter_otus_from_otu_table.html):
filter_otus_from_otu_table.py -iotu_table.biom -o otu_table_no_singletons.biom -n 2

#之前分享NMDS的R语言分析教程,现在我们用Qiime可以简单做一下(http://qiime.org/scripts/nmds.html):

nmds.py -i beta_div_weighted_unifrac/ -obeta_div_weighted_nmds_results/

#再比如我们的fa文件是单个样本分开的,而且没有添加序列名,这个时候用到,参考(http://qiime.org/scripts/add_qiime_labels.html):

add_qiime_labels.py -i fasta_dir -mexample_mapping.txt -c InputFileName -n 1000000 -o combined_fasta

Qiime功能很强大,但是我们也有一些其他运行很顺手的工具想在Qiime中使用,这里推荐几种工具,附上安装代码:

1:fastqc软件:

# 下载

fastqchttp://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc
wgethttp://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip

#解压文件

unzip fastqc_v0.11.5.zip

cd FastQC

#添加执行权限:

chmod +x fastqc

# 想让fastqc可以全局使用,我们可以添加一个目录,比如说~/bin,然后创建链接(快捷方式)到这个目录下,这样我们就可以全局使用程序了。

# 创建  ~/bin 目录

mkdir -p ~/bin

# 将~/bin 文件夹加到PATH:

echo 'export PATH=~/bin:$PATH' >>~/.bashrc

source ~/.bashrc

在~/bin生成fastqc快捷方式

ln -s ~/src/FastQC/fastqc ~/bin/fastqc

# 测试这个工具是否可用。

fastqc –h

我们测序得到的文件多数是fq和fa,那么什么样的软件可以很好编辑这两种文件呢?

2.安装seqkit软件:成功:专门用于处理测序序列文件,非常强大

seqkit:http://bioinf.shenwei.me/seqkit/download/

chmod +x seqkit

ln -s ~/src/seqkit_linux_amd64/seqkit~/bin/seqkit

比如我使用它取反向互补序列:

seqkit seq rep_seqs.fa -r -p >cs.fa

学习永无止境,分享永不停歇!

(0)

相关推荐