小L生信学习日记-5丨终于明白“参考基因组比对”是什么意思了
嗨,大家好,我是小L。
小L这段时间看了好多转录组学生信分析的相关资料,有种越看越茫然的感觉,这个领域太大了,小白进入很容易迷失在陌生信息的海洋里。
经过总结和学习,小L觉得还是要搭出一个整体框架来,然后根据自己的情况来选择学习内容的侧重点,然后对各个环节内容进行补充。
小L决定先在此次的系列专栏中打通转录组学分析的整个流程,做到心中有谱,分析不愁。所以,如果你是以下几种情况,可能会比较适合本专栏。
“我完全就是个自学生信的小白,找到的教程都是代码,太零碎了,常常不知道他们在说什么,想先补一下基础”
“我已经学了一些生信分析模块,但是只懂操作,无法将内容串联起来”
“我是生物、医学相关的,做了二代测序,但看不懂结果报告!也没必要学生信,只想要学会看懂二代测序分析结果报告”
好了,废话不多讲,接下来讲一讲下机数据质检之后,这可咋分析?
小L看文献,每次看到讲测序结果的时候都只能看到“对表达谱数据进行生信分析获得xxx个差异基因,吧啦吧啦”。但其实,数据质检之后,差异分析之前还有一些分析步骤需要进行。
本期专栏,小L把这部分打包讲解,按分析顺序分别为:参考基因组比对、表达定量、样本相关性分析。
参考基因组比对
转录组测序利用高通量测序技术对总的RNA反转录后的cDNA测序,得到样本在该状态下的绝大部分转录本。
在对这些转录本进行分析时,首先要了解一下测序样本的物种信息。测序获得的reads都是片段的,读长较短,无法直接进行分析。因此,对于有参考基因组的物种,可以从公共数据库下载该物种的基因组信息或者完整的转录本信息,然后把测序出的reads比对到参考基因组上。通过将每一个 read 快速的和参考基因组序列比对,最终得到 read在比对的基因组或其它参考序列上的位置及匹配质量等信息,进而才能对基因或转录本进行注释和定量。
简单来说,参考基因组比对这一步主要是为了能够进行后续的基因表达定量,同时也可以确认样本的物种信息,样本是否有污染情况,以及便于后续分析。
下图是将clean后的reads比对到参考基因组上,计算mapping到基因组上的reads情况:
▲图:参考基因组比对结果
结果图中,纵坐标是样本名称,横坐标是mapping rate。可以看出六个样本的mapping rate均比较高,说明样本中没有其他物种、细菌污染。
(mapping rate:样本比对到参考基因组上的比率。一般来说,如果不存在外源的污染,mapping 率可以达到90%以上,如果测序质量不是非常好的话,一般也在70%以上。)
下图是一个反例,如图可以看出,4个样本中只有一个合格,另外3个有污染,后被确认是支原体污染。
▲图:参考基因组比对结果-反例
表达定量
表达定量这一步是转录组测序分析里面最为重要的步骤之一。通过对比对到参考基因组上的测序序列进行定量可以构建该组织或者细胞的所有基因的表达谱。 有了表达谱,就得到了基因的相对表达水平,也可以进一步利用这个表达谱来鉴定差异表达基因。
目前,进行表达定量的方法有很多种,在此我们使用比较流行的工具 featurecounts 来统计比对到每一个基因上面的reads数目,这个数目作为该基因的raw counts 值。有了每一个样本的所有基因的 raw counts 的话,我们就可以方便的进行下一步的差异基因分析了。
样本相关性分析
相关性分析是考察变量与其他变量相关性的一种方法,通过多元统计分析相关变量是否以某种特定的方式聚集到一起。
金特达基因mRNA测序分析项目中通过计算样本的之间的皮尔森相关系数(Pearson Correlation Coefficient)来分析样本之间的相关程度。利用样本相关性图可视化相关性系数矩阵来展示样本相关性,对于检查实验的可靠性和样本选择的合理性具有重要意义。
简单说人话就是,做样本相关性分析是为了检测测序样本的生物学重复好不好,如果生物学重复选择的不好,样本的相似性程度较低,则各样本之间的相关性就低。
利用基因的表达量来做样本相关性分析图。相关程度用颜色表示,颜色越蓝,饱和度越高,说明样本的相关性越大。相关性接近于0的单元格基本无色。
相关性可以分为正相关(蓝色,0<皮尔森相关系数≤1)和负相关(-1≤皮尔森相关系数<0)。
▲图:样本相关性
上图,横纵坐标为各个样本,将这些样本两两进行比较,得出皮尔森相关系数。图中可以看出,样本自己与自己比较,皮尔森相关系数是1,与其他样本进行比较,皮尔森相关系数均大于0.9。这表明各样本之间的正相关性比较好,这也说明送样样本的生物学重复很好,数据是可信的。
小L专栏记录到现在,差不多已经记录了做差异分析之前的全部内容(以mRNA为例)。下期小L要开始学习差异基因分析的内容啦~
是不是终于来到你们最关心的内容了!你们有什么意见,可以在后台留言给小L哦~
拜拜,下期见!
参考来源:
1.https://www.jianshu.com/p/231fce6e0318