生信基础50问-GC含量是否应该成正态分布呢

对NGS测序得到的成千上万条reads的GC含量进行统计,并且与正态分布形式对比已经是常规操作了,一般用fastqc软件即可分析,如下:

但现实情况往往不是这样。

不同NGS组学数据表现不一样

起初fastqc软件是为鸟枪法测序的WGS开发的,所以其报告的很多项目其实并不适合于其它NGS组学数据。比如下面的各项统计:

Basic Statistics
Per base sequence quality
Per sequence quality scores
Per base sequence content
Per base GC content
Per sequence GC content
Per base N content
Sequence Length Distribution
Sequence Duplication Levels
Overrepresented sequences
Kmer Content

那么问题来了,不同物种的ngs组学的GC含量理想范围是什么?

如果不合格,可能原因有哪些呢?

  • 接头序列污染

  • 其它物种序列污染

这个时候还可以选择 fastq_screen 等软件来检查,或者自己写脚本。

独家福利

如果需要组装自己的服务器;代办生物信息学服务器

如果需要帮忙下载海外数据(GEO/TCGA/GTEx等等),点我?

如果需要线下辅导及培训,看招学徒

如果需要个人电脑:个人计算机推荐

如果需要置办生物信息学书籍,看:生信人必备书单

如果需要实习岗位:实习职位发布

如果需要售后:点我

(0)

相关推荐