宏基因组分析专题(3):宏基因组数据的质控-fastQC和Trimmomatic的安装和使用
本文由微科盟phage根据实践经验而整理,希望对大家有帮助。
微科盟原创微文,欢迎转发转载,转载须注明来源《微生态》公众号。
写在前面
为什么要质控?
宏基因组测序一般用的是illumina二代测序技术,二代测序技术的一般过程为:先把样本基因组中的DNA随机打断,使用酶将两端补平,然后在这些片段两端加上接头 (adaptor),Index 和引,在进行PCR扩增后再上级测试,目前二代测序的长度为150-250 bp左右,在测序过程中,reads两端的序列极容易出错,因此在公司测序得到的rawdata存在一些含有带接头的、低质量的reads,为了保证信息分析质量,必须对raw reads过滤,得到clean reads,后续分析都基于clean reads。
安装步骤
curl -O -L
https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948_1.fastq.gz
curl -O -L
https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948_2.fastq.gz
curl -O -L
https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1977249_1.fastq.gz
curl -O -L
https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1977249_2.fastq.gz
2.1 使用conda安装
conda install FastQC
下载
wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.3.zip
解压
unzip fastqc_v0.11.3.zip
设置权限
cd FastQC/
chmod 755 fastqc
加入到 PATH
export PATH=/home/user/FastQC/:$PATH
测试
fastqc --help
应该能看到帮助信息,说明已经安装成功。
fastqc -t 20 SRR1976948_1.fastq.gz SRR1976948_2.fastq.gz SRR1977249_1.fastq.gz SRR1977249_2.fastq.gz

图1
产生8个文件分别为4个网页报告文件和4个质控后的zip文件
Fastqc 常用参数
-help 显示帮助信息
-t 使用的线程数
-o 将输出文件输出到指定的文件夹中
打开SRR1976948_1_fastqc.html
报告说明:在打开的网页上是整个质控的报告,报告的结果为,绿色的对勾是合格,警告是黄色叹号,不合格是红叉。
4.1 Basic Statistics 基本信息

图2
Encoding指测序平台的版本和相应的编码版本号,可推测是Phred 33 或是Phred 64 质量分数的编码方式。
Total Sequences输入文本的reads的数量。
Sequence length 测序的长度
%GC 是我们需要重点关注的一个指标,这个值表示的是全部序列中的GC含量,这个数值一般是物种特异的,比如人类基因组就是42%左右。

图3
Trimmomatic 支持多线程,处理数据速度快,主要用来去除 Illumina 平台的 Fastq 序列中的接头,并根据碱基质量值对 Fastq 进行修剪。软件有两种过滤模式,分别对应 SE 和 PE 测序数据,同时支持 gzip 和 bzip2 压缩文件。
另外也支持 phred-33 和 phred-64 格式互相转化,不过现在绝大部分 Illumina 平台的产出数据都是 phred-33的格式了。
conda install Trimmomatic
curl -O -L
http://dib-training.ucdavis.edu.s3.amazonaws.com/mRNAseq-semi-2015-03-04/TruSeq2-PE.fa
trimmomatic PE -threads 20 SRR1976948_1.fastq.gz SRR1976948_2.fastq.gz SRR1976948_1.clean.fastq.gz SRR1976948_1.unpaired.fastq.gz SRR1976948_2.clean.fastq.gz SRR1976948_2.unpaired.fastq.gz ILLUMINACLIP:TruSeq2-PE.fa:2:40:15 LEADING:2 TRAILING:2 SLIDINGWINDOW:4:2 MINLEN:25

图4

图5
trimmomatic PE -threads 20 SRR1977249_1.fastq.gz SRR1977249_2.fastq.gz SRR1977249_1.clean.fastq.gz SRR1977249_1.unpaired.fastq.gz SRR1977249_2.clean.fastq.gz SRR1977249_2.unpaired.fastq.gz ILLUMINACLIP:TruSeq2-PE.fa:2:40:15 LEADING:2 TRAILING:2 SLIDINGWINDOW:4:2 MINLEN:25


图7
本文来源于微科盟原创作者phage,仅用于学术分享,如有侵权,请联系删除!