宏基因组分析专题(3):宏基因组数据的质控-fastQC和Trimmomatic的安装和使用

本文由微科盟phage根据实践经验而整理,希望对大家有帮助。

微科盟原创微文,欢迎转发转载,转载须注明来源《微生态》公众号。

写在前面

为什么要质控?

  宏基因组测序一般用的是illumina二代测序技术,二代测序技术的一般过程为:先把样本基因组中的DNA随机打断,使用酶将两端补平,然后在这些片段两端加上接头 (adaptor),Index 和引,在进行PCR扩增后再上级测试,目前二代测序的长度为150-250 bp左右,在测序过程中,reads两端的序列极容易出错,因此在公司测序得到的rawdata存在一些含有带接头的、低质量的reads,为了保证信息分析质量,必须对raw reads过滤,得到clean reads,后续分析都基于clean reads

安装步骤

第一步:下载测试数据

curl -O -L

https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948_1.fastq.gz

curl -O -L

https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948_2.fastq.gz

curl -O -L

https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1977249_1.fastq.gz

curl -O -L

https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1977249_2.fastq.gz

第二步:安装fastQC软件

2.1 使用conda安装

conda install FastQC

2.2 使用源代码安装 (手动安装)

下载

wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.3.zip

解压

unzip fastqc_v0.11.3.zip

设置权限

cd FastQC/

chmod 755 fastqc

加入到 PATH

export PATH=/home/user/FastQC/:$PATH

测试

fastqc --help

应该能看到帮助信息,说明已经安装成功

第三步:快速运行FastQC

fastqc -t 20 SRR1976948_1.fastq.gz SRR1976948_2.fastq.gz SRR1977249_1.fastq.gz SRR1977249_2.fastq.gz

图1

产生8个文件分别为4个网页报告文件和4个质控后的zip文件

Fastqc 常用参数

-help 显示帮助信息

-t 使用的线程数

-o 将输出文件输出到指定的文件夹中

第四步:fastqc报告解读

打开SRR1976948_1_fastqc.html

报告说明:在打开的网页上是整个质控的报告,报告的结果为,绿色的对勾是合格,警告是黄色叹号,不合格是红叉。

4.1 Basic Statistics 基本信息

图2

Encoding指测序平台的版本和相应的编码版本号,可推测是Phred 33 或是Phred 64 质量分数的编码方式。

Total Sequences输入文本的reads的数量。

Sequence length 测序的长度

%GC 是我们需要重点关注的一个指标,这个值表示的是全部序列中的GC含量,这个数值一般是物种特异的,比如人类基因组就是42%左右。

图3

第五步:使用Trimmatic对原始数据进行修剪

Trimmomatic 支持多线程,处理数据速度快,主要用来去除 Illumina 平台的 Fastq 序列中的接头,并根据碱基质量值对 Fastq 进行修剪。软件有两种过滤模式,分别对应 SE 和 PE 测序数据,同时支持 gzip 和 bzip2 压缩文件。

另外也支持 phred-33 和 phred-64 格式互相转化,不过现在绝大部分 Illumina 平台的产出数据都是 phred-33的格式了。

5.1 Trimmatic的安装:

conda install Trimmomatic

5.2 下载Illumina双端接头序列

curl -O -L

http://dib-training.ucdavis.edu.s3.amazonaws.com/mRNAseq-semi-2015-03-04/TruSeq2-PE.fa

5.3 使用Trimmomatic去接头和低质量序列

trimmomatic PE -threads 20 SRR1976948_1.fastq.gz SRR1976948_2.fastq.gz SRR1976948_1.clean.fastq.gz SRR1976948_1.unpaired.fastq.gz SRR1976948_2.clean.fastq.gz SRR1976948_2.unpaired.fastq.gz ILLUMINACLIP:TruSeq2-PE.fa:2:40:15  LEADING:2 TRAILING:2 SLIDINGWINDOW:4:2 MINLEN:25

图4

图5

trimmomatic PE -threads 20 SRR1977249_1.fastq.gz SRR1977249_2.fastq.gz SRR1977249_1.clean.fastq.gz SRR1977249_1.unpaired.fastq.gz SRR1977249_2.clean.fastq.gz SRR1977249_2.unpaired.fastq.gz ILLUMINACLIP:TruSeq2-PE.fa:2:40:15  LEADING:2 TRAILING:2 SLIDINGWINDOW:4:2 MINLEN:25

图6

图7

本文来源于微科盟原创作者phage,仅用于学术分享,如有侵权,请联系删除!


(0)

相关推荐

  • 2-跟着science学习宏基因组-去除宿主-评估测序质量是否足够

    去除宿主徐序列bowtie2 本小节数据已更新:https://github.com/taowenmicro/Megagenome_learing. bowtie2算是目前去除宿主的主流脚本之一了,使 ...

  • 转录组入门(mac 版本)

    软件安装 安装bioconda: 去官网下载和自己电脑系统一样的版本 https://conda.io/miniconda.html 下载完后,双击解压,然后cd 到文件目录,开始安装. # 安装 b ...

  • 5-跟着science学习宏基因组-kraken物种注释

    [toc] 写在前面 kraken基于mini数据库.并且这个序列也比较少,所以,很快就能完成 继续处理 胶水操作:提取序列名称 zcat ./trimmomatic/SUBERR793599_for ...

  • 全基因组甲基化分析简述

    DNA甲基化是一种非常基础且重要的表观修饰,在调控基因表达.转录因子结合和抑制转座子元件中起到关键的作用. 目前,DNA甲基化检测的技术已经比较成熟,例如高通量的WGBS.RRBS.MeDIP-seq ...

  • 使用gunzip命令的t参数检测fastq的gz文件完整度

    前面我们发布了 明码标价之普通转录组上游分析,终于开始接单了,第一个项目介绍98个转录组测序数据的表达量获取,超级简单,就是耗费计算资源,500G的fastq数据文件,中间步骤加起来,起码耗费2个T的 ...

  • 我的第一次ChIP-seq实践

    我的第一次ChIP-seq实践

  • 3-跟着science学习宏基因组-序列比对组装

    写在前面 宏基因组相信会有很多人都会对他产生兴趣,但是却不像扩增子那样每个人都可以在自己的电脑上运行宏基因组数据.我们这份教程大部分都可以在帮你基本上运行了,只是有的数据库实在是太大了.例如:nr,所 ...

  • MPB:微生物所蔡磊组-​​基于二代测序的真菌基因组组装和注释

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  • m6A图文复现02-数据下载和质控

    但很多粉丝留言表示这些英文教程看不懂,数据也很分散,没有中文解说实在是很难跟下来,希望我们出一个手把手系列教程. 这个全套 MeRIP-seq 图表复现代码在GitHub:https://github ...

  • LncRNA鉴定上游分析

    前面我们介绍了一系列的LncRNA鉴定相关文献的案例精选: 4个发育时间点的总共12个鸡转录组测序样本的长非编码RNA的鉴定 59匹马的8个组织的长非编码RNA的鉴定 9个组织的37个样本的大豆的长非 ...

  • 宏基因组:一日一工具之-kneaddata -完成质控加去宿主

    一日一条命令-kneaddata 写在前面 kneaddata是一分结合质控和去除宿主的过程,集合了两个软件Trimmomatic和 Bowtie2,Trimmomatic作为质控软件应用的非常多,但 ...

  • lncRNA实战项目-第三步-了解参考基因组及注释文件

    响应生信技能树的号召:lncRNA数据分析传送门 , 一起来一个lncRNA数据分析实战! 下载原始测序数据: 在GEO数据库搜索GSE87182, 这里没有直接给出ftp地址,需要先从BioProj ...