lncRNA组装流程的软件介绍之FastQC / 开普饭

咱们《生信技能树》的B站有一个lncRNA数据分析实战，缺乏配套笔记，所以我们安排了100个lncRNA组装案例文献分享，以及这个流程会用到的100个软件的实战笔记教程！

下面是100个lncRNA组装流程的软件的笔记教程

拿到原始数据后我们首先采用fastqc程序进行质控，看原始数据质量情况，fastqc会生成一个html结果报告，根据图形化界面，我们可以判断下机数据情况是否符合分析要求。

FastQC的官网：http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

一、软件安装

使用conda安装

conda install fastqc

二、fastqc的用法

安装完成以后，可以使用fastqc -h来查看软件的帮助文档。

1. 软件用法：

2. 常用参数：

-o --outdir 输出目录，需自己创建目录


-f 指定输入文件的类型，支持fastq|bam|sam三种格式的文件，默认自动识别。
-t --threads选择程序运行的线程数，即同时处理的文件数目。

-c --contaminants，污染物选项，输入的是一个文件，格式是Name [Tab] Sequence，里面是可能的污染序列，如果有这个选项，FastQC会在计算时候评估污染的情况，并在统计的时候进行分析，一般用不到。

三、软件运行命令

fastqc -t 6 -o ./02.fastqc/ ./01.raw_data/*fastq.gz

命令参数解读：

-t 6 # 设置线程数为6 -o ./02.fastqc/ # 指定输出文件夹为./02.fastqc/ ./01.raw_data/*fastq.gz # 输入文件，01.raw_data文件夹下所有的以.fastq.gz 结尾的测序原始数据文件

四、结果解读

FastQC会对每⼀个输入的fastq.gz⽂件生成1个html⽹页和⼀个zip的压缩包。压缩包⾥是⽹⻚中包含的图⽚信息，因此我们只需要看⽹页⾥里里⾯面整理理好的内容就好。

FastQC有3种结果：绿色代表PASS；黄色代表WARN；红色代表FAIL。当出现黄色时说明需要查看结果。当然，我这里没有黄色的结果。

1.Basic Statistics

Basic statistics是该fastq一些基本信息，主要有

Filename:文件名


File type: 文件类型
Encoding：测序平台的版本和相应的编码版本号，用于计算Phred反推error P时用
Total Sequences: 输入文本的reads的数量
Sequences flagged as poor quality：标记为差的碱基序列
Sequence length: 测序长度

%GC: GC含量，表示整体序列的GC含量，由于二代测序GC偏好性高，且深度越高，GC含量会越高，一般有物种特异性。

2.Per base sequence quality

图中的横坐标表示什么意思？

横轴为read长度，例如：测序列第1个碱基到第150个碱基

图中的纵坐标表示什么意思？

纵坐标表示每一bp所对应的测序质量值，将该碱基判断错误概率值P取log10之后再乘以-10，得到的结果再加上pherd值对应ASCII表所得到的值就是该碱基测序的质量量值； Q = -10*log10（error P）即20表示1%的错误率，30表示0.1%的错误率；

图中的蓝色线是什什么意思？

蓝⾊的细线是各个位置的质量值的平均值的连线；

图中的box 下面的bar ，上面的bar，箱体的下沿，箱体的上沿，箱体内部的横线分别代表什么意思？

每1个boxplot，都是该位置的所有序列列的测序质量量的⼀个统计，上⾯面的bar是90%分位数；下⾯面的bar是10%分位数；箱⼦子的中间的横线是50%分位数；箱体上缘是75%分位数；箱体下缘是25%分位数；

3.Per sequence quality scores

横轴表示Q值，纵轴表示每个值对应的read数目，当测序结果主要集中在高分中，证明测序质量良好。

4.Per base sequence content

横坐标是什什么意思？纵坐标是什什么意思？

横轴代表1到150bp；纵轴代表ATCG在该bp的百分比。

为什么前⾯面的几bp线是波动的？后⾯面的线是平衡的？

根据Wason-Crick配对原则，A和T应该相等，G和C应该相等；但是一般测序的时候，刚开始测序仪状态不不稳定，很可能出现不不平衡的情况。像这种情况，如果测序的得分很高，可以不进行trim开始部分的序列列信息；如果测序得分很低，需要进行trim开始部分的序列列信息。

当任一位置的A/T比例与G/C比例相差超过10%，报"WARN"；当任一位置的A/T比例与G/C比例相差超过20%，报"FAIL"。

5.Per sequence GC content

横轴表示GC含量，纵轴表示不同GC含量对应的read数;


蓝线是理论分布（正态分布，通过从所测数据计算并构建理论分布），红色是实际情况，两个比较接近判为好的。
曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差（overrepresented reads）；形状接近正态分布但偏离理论分布的情况提示我们可能有系统偏差；

如果出现两个或多个峰值，表明测序数据里可能有其他来源的DNA序列污染，或者有接头序列的二聚体污染。偏离理论分布的reads超过15%时，报"WARN"；偏离理论分布的reads超过30%时，报"FAIL"。

6.Per base N content

当出现测序仪不能分辨的碱基时会产生N，横轴为碱基分布，纵轴为N比率，当任一位置N的比率超过5%报WARN，超过20%报FAIL。我这里几乎没有。

7.Sequence Length Distribution

理论上每次测序仪测出的read长度是一致的，但是由于建库等因素通常会导致一些小片段，如果报FAIL，表明此次测序过程中产生的数据不可信。

8.Sequence Duplication Levels

统计序列完全一致的reads的频率，横轴表示重复水平，纵轴表示重复⽔平序列列占所有序列的百分比。一般测序深度越高，越容易产生一定程度的重复序列。

duplicate是全部序列列的duplicate的情况吗？还是随机筛选了一部分？为什什么要这样做？

是选择的每一个⽂文件里前100,000条序列作为样本进行的计算，因为样本本身很⼤，前100,000已经能够代表样本的重复性。

9.Overrepresented sequences

当有某个序列大量出现时，超过总reads数的0.1%时报WARN，超过1%时报FAIL。

10.Adapter Content

横轴表示碱基位置，纵轴表示百分比。当fastqc分析时没有选择参数-a adapter list时，默认使用图例中的4种通用adapter序列进行统计。若有adapter残留，后续必须去接头。

11.Per tile sequence quality

每个tail测序情况，横轴表示碱基位置，纵轴表示tail的index编号，这个图主要是为了防止在测序过程中某些tail受到不可控因素的影响而出现测序质量偏低，蓝色表示测序质量很高，暖色表示测序质量不高。当某些tail出现暖色，在后续的分析种把该tail测序结果全部去除。

文末友情推荐

与十万人一起学生信，你值得拥有下面的学习班：

lncRNA组装流程的软件介绍之FastQC