【直播】我的基因组(八):原始测序数据质量报告

由于我是分期付款,所以我先拿到了我的测序数据的质控结果和比对情况分析报告,需要补齐全款后才能拿到原始测序数据!(中间还出了个小意外,打款的时候不小心多打了30块钱!(⊙o⊙)…不过多打的30块钱想拿回来估计不太可能了,需要填写书面申请表格并且自费快递到公司,这边跨境快递费都不止这个数了)

报告的简易流程如下:

前面的实验流程不是我关心的重点,而且在前面的文章中我们已经谈到过了建库测序相关实验细节(Nanodrop和Qubit仪器检测提取到DNA,检验合格的DNA样品通过Covaris破碎机随机打断成长度为350bp的片段,用TruSeq Library Construction Kit进行建库,PE150测序方式,Agilent 2100检查文库的insert size,具体名词自行搜索理解)。现在这个报告重点就是分析结果里面的测序数据质量评估和参考序列比对分析。

测序数据质量评估部分提到了fastq格式的定义,接头,测序错误率的处理,GC含量,质量情况汇总如下:

可以看到,本次全基因组测序共占用了XTenseq的5条lane(具体自行搜索测序仪原理),略优于官网的介绍,但是表格里面的数字不加逗号,看得可是有点吃力!(具体就不再解释reads总数、Q20、Q30和GC含量这些概念了,可自行搜索或查看之前帖子)

Raw reads:统计原始序列双端read pair总数目;根据FASTQ的格式,以四行为一个单位进行统计。

Raw data:统计原始序列数据量。

Effective:过滤后用于后续的生物信息分析的Clean reads占原始数据的比例。

Error rate:通过公式一计算得到。

Q20、Q30:分别计算 Phred 数值大于20、30的碱基占总体碱基的百分比。

GC content:计算碱基G和C的数量总和占总的碱基数量的百分比。

Q30和reads总数都超出预期,非常赞!但这只是公司给出报告而已,我还是需要拿到数据后自己对原始测序数据自己做统计。公司给出的图表,其实都是可以通过自己写代码来实现的。

参考序列比对分析也是重点,如果测了一大堆的序列,都无法比对到人的基因组上面,或有倾向性的比对到部分基因组,又或者基因组某些区域没有覆盖到,那再好的数据也是白瞎!下面这幅图就打消了我的疑虑!

通过这幅图可以看到,该公司的测序数据能较好的覆盖基因组的所有染色体,覆盖率都近似于100%,所以根据这个数据,我可以充分地的对我的基因组中的每一个基因是否跟参考基因组有区别,有哪些区别进行全面分析!而且平均测序深度也比合同规定的30X要超出很多!

下面的数字表格也能很好的说明,本来应该只需要给我6亿条的reads(PE150测序,人30X),但是足足给了我8.9亿条!!!

表格里面提到了好几个概念,比如duplicate的reads,一般来说是PCR造成的duplicate,在找变异的时候需要去除掉。然后是那些比对到了不同染色体的reads pair,虽然只有2.29% ,也是需要重点分析的。

Total:clean data双端总reads数目

Duplicate:重复的reads数目

Mapped:比对到参考基因组上的总reads数目(比例)

Properly mapped:比对到参考基因组且方向正确的reads数目(比例)

PE mapped:双端reads比对到参考基因组上的reads数目(比例)

SE mapped:仅单端read比对到参考基因组上的reads数目(比例)

with mate mapped to a different chr:比对到不同染色体的reads数目

with mate mapped to a different chr (mapQ>=5):比对到不同染色体且比对质量不低于5的reads数目

Average_sequencing_depth::比对到参考基因组的平均测序深度(测序数据量/基因组大小)

Coverage:比对数据对全基因组区域的覆盖度(碱基覆盖长度占全基因组碱基总长的比例)

Coverage_at_least_4X::全基因组区域中碱基覆盖深度不低于4X的比例

Coverage_at_least_10X:全基因组区域中碱基覆盖深度不低于10X的比例

Coverage_at_least_20X:全基因组区域中碱基覆盖深度不低于20X的比例

我拿到的大概就是这些信息,随后数据到了我们对这些内容也会进行重新分析的。

HiSeq X Ten测序系统于2014年1月份推出,是目前最高通量的测序平台。它由10台HiSeq X测序仪组成,每台仪器可在3天内产生高达1.8 Tb测序数据,即每天高达600 Gb。若同时运行10台仪器,人们每年可测序>18,000个人类基因组。据介绍,HiSeq+X+Ten也是首个实现千元基因组测序的平台,这其中包括仪器折旧、DNA提取、文库制备及劳动力成本。(以下是对X-Ten测序结果的展示和介绍,有兴趣了解的可自行查看)

http://www.illumina.com/content/dam/illumina-marketing/documents/products/appnotes/appnote-hiseq-x.pdf

http://www.macrogencn.com/_d276676746.htm

文:Jimmy、吃瓜群众

图文编辑:吃瓜群众

(0)

相关推荐