RNA-seq的fastq文件里面为什么有gc含量的双峰
最近接到一个粉丝求助,说自己课题组两年前在某公司测的转录组数据,跟着我们的课程学习完了转录组数据分析流程后,终于可以开干了,一条龙流程走完就傻眼了,我们课程授课涉及到的数据集基本上是完美结果,但他们两年前的数据集表现非常的诡异!
fastq测序数据质控的时候
首先fastq测序数据质量控制表格就发现质量差的可怜,而且居然有GC含量的双峰,如下:
遇到这样的情况,就必须单独看具体的每个样本,上面的GC含量图表是项目里面全部的样本的multiqc汇总图表。
我随机抽一个样本的fastqc报告看了看,如下:
这个59%到67%的GC含量reads有点多啊,就是第一个GC峰值。
然后80%附近GC含量reads也有点多,就是第二个GC含量峰值。
这两个GC含量峰值就是需要解决的问题,正常的RNA-seq数据不会出现这样的情况。
我们有必要仔细看看具体那些动辄一两百万的同一个GC含量的reads是什么,看了看,如下所示:
SequenceCountPercentagePossible Source
CCGGCCCGGAGCGGACGAGCCGCCCCGGCGGTGAACGGGGAGGAGGCGGG4705191.6550810978094788No Hit
CTGGAGTGCAGTGGCTATTCACAGGCGCGATCCCACTACTGATCAGCACG4244551.4930479903483649No Hit
GCGGGGGGCCCGGCGGGGCGTGCGCGTCCGGCGCCGTCCGTCCTTCCGTT2088550.7346610077021304No Hit
CCCGGCCCGGAGCGGACGAGCCGCCCCGGCGGTGAACGGGGAGGAGGCGG2013840.7083812806736052No Hit
GTCCCGGCCCGGAGCGGACGAGCCGCCCCGGCGGTGAACGGGGAGGAGGC1890630.6650413641003944No Hit
GCGCGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGTGGGAGGATCGC1857660.6534439527748628No Hit
GGGGGCCCGGCGGGGCGTGCGCGTCCGGCGCCGTCCGTCCTTCCGTTCGT1848810.6503309078785644No Hit
GGCGCGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGTGGGAGGATCG1844060.6486600645726416No Hit
CGGCGGGGCGTGCGCGTCCGGCGCCGTCCGTCCTTCCGTTCGTCTTCCTC1752510.6164567583290131No Hit
GGCGCGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGCTGGAGGATCG1698170.597342310909256No Hit
GCGCGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGCTGGAGGATCGC1692820.5954604137120588No Hit
CGCGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGTGGGAGGATCGCT1676470.5897091951748297No Hit
CGGGGGGCCCGGCGGGGCGTGCGCGTCCGGCGCCGTCCGTCCTTCCGTTC1616790.5687163681227297No Hit
CCGGCGGGGCGTGCGCGTCCGGCGCCGTCCGTCCTTCCGTTCGTCTTCCT1593690.560590793308663No Hit
GGACGAGCCGCCCCGGCGGTGAACGGGGAGGAGGCGGGAACCGAAGAAGC1551260.5456657656307039No Hit
CGCGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGCTGGAGGATCGCT1522670.5356090477114759No Hit
CCGGAGCGGACGAGCCGCCCCGGCGGTGAACGGGGAGGAGGCGGGAACCG1507670.5303327004296142No Hit
GGCGGGGCGTGCGCGTCCGGCGCCGTCCGTCCTTCCGTTCGTCTTCCTCC1319520.4641497176907975No Hit
GCTATTCACAGGCGCGATCCCACTACTGATCAGCACGGGAGTTTTGACCT1287370.45284074668334084No Hit
CCAGGCTGGAGTGCAGTGGCTATTCACAGGCGCGATCCCACTACTGATCA1242720.4371348196076663No Hit
CGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGTGGGAGGATCGCTTG1237750.43538658987494283No Hit
这个时候,聪明的读者应该是知道,可以去blast这些序列看看到底是啥情况。
比对的时候
同样的,比对后也使用multiqc汇总,可以看到,多比对情况有点多。一般来说RNA-seq数据,会采取PE100或者PE150的策略,这样的长度其实是很难发生基因组的多比对情况的。
这个时候可以思考一下会不会是基因组的重复序列或集中成簇,根据分布把重复序列分为分散重复序列(Interpersed repeat)和串联重复序列(Tendam repeat)两大类,然后根据两大类中重复序列长度在细分为几个子类。
(下面的思维导图来自于:https://mp.weixin.qq.com/s/vpe8W0QMKngeQ2UuBPd-Gg )
定量的时候
转录组数据比对后,就需要定量,这个时候的质量控制也很重要。
如果你对转录组的基本分析还有问题,可以看我们的教程合辑:
上游分析视频以及代码资料在:https://share.weiyun.com/5QwKGxi
下游主要是基于counts矩阵的标准分析的代码 https://share.weiyun.com/50hfuLi
如果你是Linux和R语言基础知识不熟练, 就需要自己恶补啦。计算机基础知识,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
逼自己一把,把R的知识点路线图搞定,如下:
了解常量和变量概念 加减乘除等运算(计算器) 多种数据类型(数值,字符,逻辑,因子) 多种数据结构(向量,矩阵,数组,数据框,列表) 文件读取和写出 简单统计可视化 无限量函数学习
Linux的6个阶段也跨越过去 ,一般来说,每个阶段都需要至少一天以上的学习:
第1阶段:把linux系统玩得跟Windows或者MacOS那样的桌面操作系统一样顺畅,主要目的就是去可视化,熟悉黑白命令行界面,可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。 第2阶段:做到文本文件的表格化处理,类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余,查找,切割,替换,合并,补齐,熟练掌握awk,sed,grep这文本处理的三驾马车。 第3阶段:元字符,通配符及shell中的各种扩展,从此linux操作不在神秘! 第4阶段:高级目录管理:软硬链接,绝对路径和相对路径,环境变量 第5阶段:任务提交及批处理,脚本编写解放你的双手 第6阶段:软件安装及conda管理,让linux系统实用性放飞自我
文末友情宣传
生信爆款入门-全球听(买一得五)(第5期)(可能是最后一期)你的生物信息学入门课 (必看!)数据挖掘第3期(两天变三周,实力加量),医学生/临床医师首选技能提高课 生信技能树的2019年终总结 ,你的生物信息学成长宝藏 2020学习主旋律,B站74小时免费教学视频为你领路,还等什么,看啊!!!