生信基础50问-GC含量是否应该成正态分布呢
对NGS测序得到的成千上万条reads的GC含量进行统计,并且与正态分布形式对比已经是常规操作了,一般用fastqc软件即可分析,如下:
但现实情况往往不是这样。
不同NGS组学数据表现不一样
起初fastqc软件是为鸟枪法测序的WGS开发的,所以其报告的很多项目其实并不适合于其它NGS组学数据。比如下面的各项统计:
Basic Statistics
Per base sequence quality
Per sequence quality scores
Per base sequence content
Per base GC content
Per sequence GC content
Per base N content
Sequence Length Distribution
Sequence Duplication Levels
Overrepresented sequences
Kmer Content
那么问题来了,不同物种的ngs组学的GC含量理想范围是什么?
如果不合格,可能原因有哪些呢?
接头序列污染
其它物种序列污染
这个时候还可以选择 fastq_screen 等软件来检查,或者自己写脚本。
独家福利
如果需要组装自己的服务器;代办生物信息学服务器
如果需要帮忙下载海外数据(GEO/TCGA/GTEx等等),点我?
如果需要线下辅导及培训,看招学徒
如果需要个人电脑:个人计算机推荐
如果需要置办生物信息学书籍,看:生信人必备书单
如果需要实习岗位:实习职位发布
如果需要售后:点我
赞 (0)