RNA-seq的fastq文件里面为什么有gc含量的双峰 / 开普饭

最近接到一个粉丝求助，说自己课题组两年前在某公司测的转录组数据，跟着我们的课程学习完了转录组数据分析流程后，终于可以开干了，一条龙流程走完就傻眼了，我们课程授课涉及到的数据集基本上是完美结果，但他们两年前的数据集表现非常的诡异！

fastq测序数据质控的时候

首先fastq测序数据质量控制表格就发现质量差的可怜，而且居然有GC含量的双峰，如下：

遇到这样的情况，就必须单独看具体的每个样本，上面的GC含量图表是项目里面全部的样本的multiqc汇总图表。

我随机抽一个样本的fastqc报告看了看，如下：

这个59%到67%的GC含量reads有点多啊，就是第一个GC峰值。

然后80%附近GC含量reads也有点多，就是第二个GC含量峰值。

这两个GC含量峰值就是需要解决的问题，正常的RNA-seq数据不会出现这样的情况。

我们有必要仔细看看具体那些动辄一两百万的同一个GC含量的reads是什么，看了看，如下所示：

SequenceCountPercentagePossible Source CCGGCCCGGAGCGGACGAGCCGCCCCGGCGGTGAACGGGGAGGAGGCGGG4705191.6550810978094788No Hit CTGGAGTGCAGTGGCTATTCACAGGCGCGATCCCACTACTGATCAGCACG4244551.4930479903483649No Hit GCGGGGGGCCCGGCGGGGCGTGCGCGTCCGGCGCCGTCCGTCCTTCCGTT2088550.7346610077021304No Hit CCCGGCCCGGAGCGGACGAGCCGCCCCGGCGGTGAACGGGGAGGAGGCGG2013840.7083812806736052No Hit GTCCCGGCCCGGAGCGGACGAGCCGCCCCGGCGGTGAACGGGGAGGAGGC1890630.6650413641003944No Hit GCGCGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGTGGGAGGATCGC1857660.6534439527748628No Hit GGGGGCCCGGCGGGGCGTGCGCGTCCGGCGCCGTCCGTCCTTCCGTTCGT1848810.6503309078785644No Hit GGCGCGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGTGGGAGGATCG1844060.6486600645726416No Hit CGGCGGGGCGTGCGCGTCCGGCGCCGTCCGTCCTTCCGTTCGTCTTCCTC1752510.6164567583290131No Hit GGCGCGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGCTGGAGGATCG1698170.597342310909256No Hit GCGCGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGCTGGAGGATCGC1692820.5954604137120588No Hit CGCGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGTGGGAGGATCGCT1676470.5897091951748297No Hit CGGGGGGCCCGGCGGGGCGTGCGCGTCCGGCGCCGTCCGTCCTTCCGTTC1616790.5687163681227297No Hit CCGGCGGGGCGTGCGCGTCCGGCGCCGTCCGTCCTTCCGTTCGTCTTCCT1593690.560590793308663No Hit GGACGAGCCGCCCCGGCGGTGAACGGGGAGGAGGCGGGAACCGAAGAAGC1551260.5456657656307039No Hit CGCGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGCTGGAGGATCGCT1522670.5356090477114759No Hit CCGGAGCGGACGAGCCGCCCCGGCGGTGAACGGGGAGGAGGCGGGAACCG1507670.5303327004296142No Hit GGCGGGGCGTGCGCGTCCGGCGCCGTCCGTCCTTCCGTTCGTCTTCCTCC1319520.4641497176907975No Hit GCTATTCACAGGCGCGATCCCACTACTGATCAGCACGGGAGTTTTGACCT1287370.45284074668334084No Hit CCAGGCTGGAGTGCAGTGGCTATTCACAGGCGCGATCCCACTACTGATCA1242720.4371348196076663No Hit CGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGTGGGAGGATCGCTTG1237750.43538658987494283No Hit

这个时候，聪明的读者应该是知道，可以去blast这些序列看看到底是啥情况。

比对的时候

同样的，比对后也使用multiqc汇总，可以看到，多比对情况有点多。一般来说RNA-seq数据，会采取PE100或者PE150的策略，这样的长度其实是很难发生基因组的多比对情况的。

这个时候可以思考一下会不会是基因组的重复序列或集中成簇，根据分布把重复序列分为分散重复序列（Interpersed repeat）和串联重复序列（Tendam repeat）两大类，然后根据两大类中重复序列长度在细分为几个子类。

(下面的思维导图来自于：https://mp.weixin.qq.com/s/vpe8W0QMKngeQ2UuBPd-Gg )

定量的时候

转录组数据比对后，就需要定量，这个时候的质量控制也很重要。

如果你对转录组的基本分析还有问题，可以看我们的教程合辑：

上游分析视频以及代码资料在：https://share.weiyun.com/5QwKGxi
下游主要是基于counts矩阵的标准分析的代码 https://share.weiyun.com/50hfuLi

如果你是Linux和R语言基础知识不熟练，就需要自己恶补啦。计算机基础知识，我把它粗略的分成基于R语言的统计可视化，以及基于Linux的NGS数据处理：

逼自己一把，把R的知识点路线图搞定，如下：

了解常量和变量概念
加减乘除等运算（计算器）
多种数据类型（数值，字符，逻辑，因子）
多种数据结构（向量，矩阵，数组，数据框，列表）
文件读取和写出
简单统计可视化
无限量函数学习

Linux的6个阶段也跨越过去，一般来说，每个阶段都需要至少一天以上的学习：

第1阶段：把linux系统玩得跟Windows或者MacOS那样的桌面操作系统一样顺畅，主要目的就是去可视化，熟悉黑白命令行界面，可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。
第2阶段：做到文本文件的表格化处理，类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余，查找，切割，替换，合并，补齐，熟练掌握awk,sed,grep这文本处理的三驾马车。
第3阶段：元字符，通配符及shell中的各种扩展，从此linux操作不在神秘！
第4阶段：高级目录管理：软硬链接，绝对路径和相对路径，环境变量
第5阶段：任务提交及批处理，脚本编写解放你的双手
第6阶段：软件安装及conda管理，让linux系统实用性放飞自我

文末友情宣传

强烈建议你推荐我们生信技能树给身边的博士后以及年轻生物学PI，帮助他们多一点数据认知，让科研更上一个台阶：

生信爆款入门-全球听（买一得五）（第5期）（可能是最后一期）你的生物信息学入门课
(必看！)数据挖掘第3期（两天变三周，实力加量），医学生/临床医师首选技能提高课
生信技能树的2019年终总结，你的生物信息学成长宝藏
2020学习主旋律，B站74小时免费教学视频为你领路，还等什么，看啊！！！

RNA-seq的fastq文件里面为什么有gc含量的双峰

fastq测序数据质控的时候

比对的时候

定量的时候

文末友情宣传

相关推荐