lncRNA组装流程的软件介绍之FastQC

咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程

下面是100个lncRNA组装流程的软件的笔记教程

拿到原始数据后我们首先采用fastqc程序进行质控,看原始数据质量情况,fastqc会生成一个html结果报告,根据图形化界面,我们可以判断下机数据情况是否符合分析要求。

FastQC的官网:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

一、软件安装

使用conda安装

conda install fastqc

二、fastqc的用法

安装完成以后,可以使用fastqc -h来查看软件的帮助文档。

1. 软件用法:

image-20210502172118975

2. 常用参数:

-o --outdir 输出目录,需自己创建目录

-f 指定输入文件的类型,支持fastq|bam|sam三种格式的文件,默认自动识别。

-t --threads选择程序运行的线程数,即同时处理的文件数目。

-c --contaminants,污染物选项,输入的是一个文件,格式是Name [Tab] Sequence,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析,一般用不到。

三、软件运行命令

fastqc -t 6 -o ./02.fastqc/  ./01.raw_data/*fastq.gz 

命令参数解读:

-t 6 # 设置线程数为6
-o ./02.fastqc/ # 指定输出文件夹为./02.fastqc/
./01.raw_data/*fastq.gz  # 输入文件,01.raw_data文件夹下所有的以.fastq.gz 结尾的测序原始数据文件

四、结果解读

FastQC会对每⼀个输入的fastq.gz⽂件生成1个html⽹页和⼀个zip的压缩包。压缩包⾥是⽹⻚中包含的图⽚信息,因此我们只需要看⽹页⾥里里⾯面整理理好的内容就好。

FastQC有3种结果:绿色代表PASS;黄色代表WARN;红色代表FAIL。当出现黄色时说明需要查看结果。当然,我这里没有黄色的结果。

1.Basic Statistics

Basic statistics是该fastq一些基本信息,主要有

Filename:文件名

File type: 文件类型

Encoding:测序平台的版本和相应的编码版本号,用于计算Phred反推error P时用

Total Sequences: 输入文本的reads的数量

Sequences flagged as poor quality:标记为差的碱基序列

Sequence length: 测序长度

%GC: GC含量,表示整体序列的GC含量,由于二代测序GC偏好性高,且深度越高,GC含量会越高,一般有物种特异性。

2.Per base sequence quality

图中的横坐标表示什么意思?

横轴为read长度,例如:测序列第1个碱基到第150个碱基

图中的纵坐标表示什么意思?

纵坐标表示每一bp所对应的测序质量值,
将该碱基判断错误概率值P取log10之后再乘以-10,
得到的结果再加上pherd值对应ASCII表所得到的值就是该碱基测序的质量量值;
Q = -10*log10(error P)
即20表示1%的错误率,30表示0.1%的错误率;

图中的蓝色线是什什么意思?

蓝⾊的细线是各个位置的质量值的平均值的连线;

图中的box 下面的bar , 上面的bar,箱体的下沿,箱体的上沿,箱体内部的横线分别代表什么意思?

每1个boxplot,都是该位置的所有序列列的测序质量量的⼀个统计,
上⾯面的bar是90%分位数;
下⾯面的bar是10%分位数;
箱⼦子的中间的横线是50%分位数;
箱体上缘是75%分位数;
箱体下缘是25%分位数;

3.Per sequence quality scores

横轴表示Q值,纵轴表示每个值对应的read数目,当测序结果主要集中在高分中,证明测序质量良好。

4.Per base sequence content

横坐标是什什么意思?纵坐标是什什么意思?

横轴代表1到150bp;纵轴代表ATCG在该bp的百分比。

为什么前⾯面的几bp线是波动的?后⾯面的线是平衡的?

根据Wason-Crick配对原则,A和T应该相等,G和C应该相等;
但是一般测序的时候,刚开始测序仪状态不不稳定,很可能出现不不平衡的情况。
像这种情况,
如果测序的得分很高,可以不进行trim开始部分的序列列信息;
如果测序得分很低,需要进行trim开始部分的序列列信息。

当任一位置的A/T比例与G/C比例相差超过10%,报"WARN";当任一位置的A/T比例与G/C比例相差超过20%,报"FAIL"。

5.Per sequence GC content

横轴表示GC含量,纵轴表示不同GC含量对应的read数;

蓝线是理论分布(正态分布,通过从所测数据计算并构建理论分布),红色是实际情况,两个比较接近判为好的。

曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads);形状接近正态分布但偏离理论分布的情况提示我们可能有系统偏差;

如果出现两个或多个峰值,表明测序数据里可能有其他来源的DNA序列污染,或者有接头序列的二聚体污染。偏离理论分布的reads超过15%时,报"WARN";偏离理论分布的reads超过30%时,报"FAIL"。

6.Per base N content

当出现测序仪不能分辨的碱基时会产生N,横轴为碱基分布,纵轴为N比率,当任一位置N的比率超过5%报WARN,超过20%报FAIL。我这里几乎没有。

7.Sequence Length Distribution

理论上每次测序仪测出的read长度是一致的,但是由于建库等因素通常会导致一些小片段,如果报FAIL,表明此次测序过程中产生的数据不可信。

8.Sequence Duplication Levels

统计序列完全一致的reads的频率,横轴表示重复水平,纵轴表示重复⽔平序列列占所有序列的百分比。一般测序深度越高,越容易产生一定程度的重复序列。    

duplicate是全部序列列的duplicate的情况吗?还是随机筛选了一部分?为什什么要这样做?

是选择的每一个⽂文件里前100,000条序列作为样本进行的计算,因为样本本身很⼤,前100,000已经能够代表样
本的重复性。

9.Overrepresented sequences

当有某个序列大量出现时,超过总reads数的0.1%时报WARN,超过1%时报FAIL。

10.Adapter Content

横轴表示碱基位置,纵轴表示百分比。当fastqc分析时没有选择参数-a adapter list时,默认使用图例中的4种通用adapter序列进行统计。若有adapter残留,后续必须去接头。

11.Per tile sequence quality

每个tail测序情况,横轴表示碱基位置,纵轴表示tail的index编号,这个图主要是为了防止在测序过程中某些tail受到不可控因素的影响而出现测序质量偏低,蓝色表示测序质量很高,暖色表示测序质量不高。当某些tail出现暖色,在后续的分析种把该tail测序结果全部去除。

文末友情推荐

与十万人一起学生信,你值得拥有下面的学习班:

(0)

相关推荐

  • NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC

    NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC 目录 前言 1. FastQC 1.1 帮助信息及运行代码 1.2 报告解读 1.3 小结 文接上篇:NGS数据分析实践:04 ...

  • 技术贴 | 微生太宏基因组报告解读 | 第一篇:测序数据过滤

    本文由阿童木根据实践经验而整理,希望对大家有帮助. 原创微文,欢迎转发转载. 导读 本系列的上一篇推文,即"开篇"中已经描述了宏基因组研究的基本思路和方法.先回顾一下,首先是收集样 ...

  • 转录组学习三(数据质控)

    对原始测序fq文件数据进行质量控制 任务 了解fastq测序数据 需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量! 作业,理解测 ...

  • NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC

    NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC 目录 2. MultiQC 2.1 帮助信息及运行代码 2.2 报告解读 2.3 小结 文接上篇:NGS数据分析实践:05. ...

  • lncRNA组装流程的软件介绍之MultiQC

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之aspera

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之trim-galore

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之diamond

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之CPC2

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之featureCounts

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍软件推荐之DEseq2

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之PLEK

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之gffcompare

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...