NGS数据分析实践:00. 变异识别的基本流程

变异识别过程可以分成3大块:1. 原始数据质控;2. 数据预处理;3. 变异识别。大致可以细分为6个部分:(1) 原始测序数据的质控;(2) read比对,排序和标记PCR重复序列;(3) Indel区域局部重比对;(4) 碱基质量值重校正(Base Quality Score Recalibration,BQSR);(5) 变异检测;(6) 变异结果质控和过滤。

详细的变异识别流程可以参考下图:

Altmann A, Weber P, Bader D, Preuss M, Binder EB, Müller-Myhsok B. A beginners guide to SNP calling from high-throughput DNA-sequencing data. Hum Genet. 2012 Oct;131(10):1541-54. doi: 10.1007/s00439-012-1213-z.

此次实践操作的数据,采用多重PCR靶向扩增子测序技术,在Illunima Hiseq X Ten测序平台上进行双末端(paired-end,PE)测序。两端的读长read1和read2各测150bp(PE150),DNA插入片段(即被测序的DNA片段)的长度约为220bp,因此会出现reads测通(overlap)的现象。测通可以将插入片段的信息,完整还原为单条tags,以正确统计信息(表达量、拷贝数)的生物学意义。

整个实践预计包括以下部分:
1. 分析环境的配置—— conda。
2. 数据的准备——原始测序数据 + 参考基因组数据 + 注释数据库。
3. 数据质量的评估——fastqc + multiqc。
4. 序列比对、排序、标记PCR重复——bwa + samtools + picard。
5. Indel 区域局部重比对 —— gatk。
6. 碱基质量值重校正——gatk。
7. 变异识别——bcftools + gatk + freebayes + varscan。
8. 变异过滤——bcftools + gatk + vcftools。
9. 变异注释——annovar。
……

参考阅读:
从零开始完整学习全基因组测序数据分析:第3节 数据质控
从零开始完整学习全基因组测序数据分析:第4节 构建WGS主流程
生信菜鸟团 - 外显子组软件 http://www.bio-info-trainee.com/category/omics/exon
A beginners guide to SNP calling from high-throughput DNA-sequencing data

(0)

相关推荐