lncRNA组装流程的软件介绍之FastQC
咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程!
拿到原始数据后我们首先采用fastqc程序进行质控,看原始数据质量情况,fastqc会生成一个html结果报告,根据图形化界面,我们可以判断下机数据情况是否符合分析要求。
FastQC的官网:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
一、软件安装
使用conda安装
conda install fastqc
二、fastqc的用法
安装完成以后,可以使用fastqc -h来查看软件的帮助文档。
1. 软件用法:
2. 常用参数:
-o --outdir 输出目录,需自己创建目录
-f 指定输入文件的类型,支持fastq|bam|sam三种格式的文件,默认自动识别。
-t --threads选择程序运行的线程数,即同时处理的文件数目。
-c --contaminants,污染物选项,输入的是一个文件,格式是Name [Tab] Sequence,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析,一般用不到。
三、软件运行命令
fastqc -t 6 -o ./02.fastqc/ ./01.raw_data/*fastq.gz
命令参数解读:
-t 6 # 设置线程数为6
-o ./02.fastqc/ # 指定输出文件夹为./02.fastqc/
./01.raw_data/*fastq.gz # 输入文件,01.raw_data文件夹下所有的以.fastq.gz 结尾的测序原始数据文件
四、结果解读
FastQC会对每⼀个输入的fastq.gz⽂件生成1个html⽹页和⼀个zip的压缩包。压缩包⾥是⽹⻚中包含的图⽚信息,因此我们只需要看⽹页⾥里里⾯面整理理好的内容就好。
FastQC有3种结果:绿色代表PASS;黄色代表WARN;红色代表FAIL。当出现黄色时说明需要查看结果。当然,我这里没有黄色的结果。
1.Basic Statistics
Basic statistics是该fastq一些基本信息,主要有
Filename:文件名
File type: 文件类型
Encoding:测序平台的版本和相应的编码版本号,用于计算Phred反推error P时用
Total Sequences: 输入文本的reads的数量
Sequences flagged as poor quality:标记为差的碱基序列
Sequence length: 测序长度
%GC: GC含量,表示整体序列的GC含量,由于二代测序GC偏好性高,且深度越高,GC含量会越高,一般有物种特异性。
2.Per base sequence quality
图中的横坐标表示什么意思?
横轴为read长度,例如:测序列第1个碱基到第150个碱基
图中的纵坐标表示什么意思?
纵坐标表示每一bp所对应的测序质量值,
将该碱基判断错误概率值P取log10之后再乘以-10,
得到的结果再加上pherd值对应ASCII表所得到的值就是该碱基测序的质量量值;
Q = -10*log10(error P)
即20表示1%的错误率,30表示0.1%的错误率;
图中的蓝色线是什什么意思?
蓝⾊的细线是各个位置的质量值的平均值的连线;
图中的box 下面的bar , 上面的bar,箱体的下沿,箱体的上沿,箱体内部的横线分别代表什么意思?
每1个boxplot,都是该位置的所有序列列的测序质量量的⼀个统计,
上⾯面的bar是90%分位数;
下⾯面的bar是10%分位数;
箱⼦子的中间的横线是50%分位数;
箱体上缘是75%分位数;
箱体下缘是25%分位数;
3.Per sequence quality scores
横轴表示Q值,纵轴表示每个值对应的read数目,当测序结果主要集中在高分中,证明测序质量良好。
4.Per base sequence content
横坐标是什什么意思?纵坐标是什什么意思?
横轴代表1到150bp;纵轴代表ATCG在该bp的百分比。
为什么前⾯面的几bp线是波动的?后⾯面的线是平衡的?
根据Wason-Crick配对原则,A和T应该相等,G和C应该相等;
但是一般测序的时候,刚开始测序仪状态不不稳定,很可能出现不不平衡的情况。
像这种情况,
如果测序的得分很高,可以不进行trim开始部分的序列列信息;
如果测序得分很低,需要进行trim开始部分的序列列信息。
当任一位置的A/T比例与G/C比例相差超过10%,报"WARN";当任一位置的A/T比例与G/C比例相差超过20%,报"FAIL"。
5.Per sequence GC content
横轴表示GC含量,纵轴表示不同GC含量对应的read数;
蓝线是理论分布(正态分布,通过从所测数据计算并构建理论分布),红色是实际情况,两个比较接近判为好的。
曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads);形状接近正态分布但偏离理论分布的情况提示我们可能有系统偏差;
如果出现两个或多个峰值,表明测序数据里可能有其他来源的DNA序列污染,或者有接头序列的二聚体污染。偏离理论分布的reads超过15%时,报"WARN";偏离理论分布的reads超过30%时,报"FAIL"。
6.Per base N content
当出现测序仪不能分辨的碱基时会产生N,横轴为碱基分布,纵轴为N比率,当任一位置N的比率超过5%报WARN,超过20%报FAIL。我这里几乎没有。
7.Sequence Length Distribution
理论上每次测序仪测出的read长度是一致的,但是由于建库等因素通常会导致一些小片段,如果报FAIL,表明此次测序过程中产生的数据不可信。
8.Sequence Duplication Levels
统计序列完全一致的reads的频率,横轴表示重复水平,纵轴表示重复⽔平序列列占所有序列的百分比。一般测序深度越高,越容易产生一定程度的重复序列。
duplicate是全部序列列的duplicate的情况吗?还是随机筛选了一部分?为什什么要这样做?
是选择的每一个⽂文件里前100,000条序列作为样本进行的计算,因为样本本身很⼤,前100,000已经能够代表样
本的重复性。
9.Overrepresented sequences
当有某个序列大量出现时,超过总reads数的0.1%时报WARN,超过1%时报FAIL。
10.Adapter Content
横轴表示碱基位置,纵轴表示百分比。当fastqc分析时没有选择参数-a adapter list时,默认使用图例中的4种通用adapter序列进行统计。若有adapter残留,后续必须去接头。
11.Per tile sequence quality
每个tail测序情况,横轴表示碱基位置,纵轴表示tail的index编号,这个图主要是为了防止在测序过程中某些tail受到不可控因素的影响而出现测序质量偏低,蓝色表示测序质量很高,暖色表示测序质量不高。当某些tail出现暖色,在后续的分析种把该tail测序结果全部去除。
文末友情推荐
与十万人一起学生信,你值得拥有下面的学习班: