Omics精进09|mRNA生信分析常规流程
本文介绍「mRNA生信分析流程」
❞
mRNA生信分析速览
mRNA生信分析主要包含以下各部分。
mRNA分析详细步骤
数据质控及过滤
FastQC数据质控
关注测序数据的碱基质量、GC比等,见上图红框部分内容,一般会看一下几个图如,「重点图1」
「重点图2」
更多戳:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/good_sequence_short_fastqc.html
cutadapt数据过滤
去文库构建时加入的接头、reads两端低质量碱基、含N碱基、去短的reads。
参考基因组比对
利用转录组比对软件,将上一步得到的clean reads与对应物种基因组比对。转录组「比对软件」,可选择HISAT2或STAR或TopHat(按需选择),三者差异:
❝
HISAT2比对速度是STAR的2.5倍,是TopHat的100倍; 相比于
STAR和TopHat,STAR允许更多的soft-clipped事件和错配,会得到更多比对reads;
❞
「比对的作用」:1、评估文库构建的质量(文库构建时随机打断,如果文库优质,打断随机性好,比对时会发现reads均匀分布在基因组上);2、评估mRNA测序是否有意义(理论上reads应主要比对到CDS_Exons ,原因如下图,CDS_Exons占据mRNA绝大部分)。
转录本组装
「组装原因」,由于二代测序读长限制,必须把mRNA打断成小片段进行测序,组装的目地就是利用生信方法重新拼接全长转录本。「主流组装软件」为「Stingtie」和「Cufflinks」,两种软件差异:
❝
StringTie比Cufflinks
更为准确和灵敏;StringTie
的速度比Cufflinks
快;StringTie
组装的转录本的数目比Cufflinks
多;❞
基因表达量分析
基因表达量即在当前研究条件下,一个细胞中、或者是一定摩尔量的 RNA中某个特定基因比对上了多少条转录本(绝对定量,需要知道细胞个数)或者比对上转录本的比例(相对定量),更直接一点讲就是比对上reads的count数; 基因表达量与「基因长度」,「测序深度」成正相关:一个样本中,A基因越长,建库时被随机打断的片段越多,被测序的概率越大,比对到A基因的reads就越多;不同样本中,样本的测序深度越高,A基因被测到的次数越多,比对到A基因的 reads 就越多。所以,直接数reads来算表达量的方法是有问题的,有TPM/FPKM/RPKM三种标准化方法,将reads数除以基因长度,测序深度来校正二者对表达量影响。
TPM、RPKM、FPKM区别
TPM/FPKM/RPKM三种标准化方法差异:
❝
「TPM」(Transcripts PerKilobase Million) Xi,比对到基因i上的read数Li,基因i的长度(所有外显子长度的总和)Xi/Li,i基因校正后的reads数,使用基因长度校正每个基因的reads数「i基因的TPM即」,i基因长度校正后的reads数 「/」 样本所有基因长度校正后reads数之和
「RPKM」(Reads Per Kilobase Million) 「i基因的RPKM即」,i基因长度校正后的reads数 「/」 样本所有基因reads数之和也就是一个样本中一个基因的RPKM等于落在这个基因上的总的read数(total exon reads)与这个样本的总read数(mapped reads (Millions))和基因长度(exon length(KB)) 的乘积的比值。
「FPKM」(Fragments Per Kilobase Million) FPKM与RPKM的区别名称中即可知,FPKM将Reads数换成了Fragments数(下图为reads和Fragments区别),对于SE测序策略,FPKM等价RPKM;对于PE测序策略,FPKM使用Fragments计算;
❞
表达量分析
虽然认为TPM更准确,但是由于三者可相互转换,所以都在用。根据关注点不同,可以使用不同的软件组合:
关注已知和新转录本定量,可用Cufflinks或StringTie; 关注转录本水平定量,可用RSEM或eXpress直接将reads比对到参考转录本; 不经过比对的定量,节省计算资源,可用 Sailfish
或Salmon
或quasi-mapping
或kallisto;
基因差异表达分析
「转录组分析的重要目标」就是找case组和control组样本之间差异表达的基因;差异表达分析依赖上一步所获的各基因表达量;分析工具有很多,根据「依赖技术」可划分为:
count-based 方法,可用 DESeq
、limma
和edgeR;
assembly-based方法,可用Cuffdiff
和Ballgown;
alignment-free方法,
sleuth;
根据「有无生物学重复」,无生物学重复可用DESeq,有生物学重复可用DESeq2;
差异基因KEGG|GO富集分析
评估差异基因主要影响的生物学功能和通路。
KEGG(Kyoto Encyclopedia of Genes and Genomes)
找差异表达基因主要显著影响了哪些「生化代谢途径和信号转导途径」。
GO(GENE ONTOLOGY)
找差异表达基因主要富集在哪些GO term(分子到生物过程,分三类:molecular function、cellular component、biological process)中,评估「差异表达基因与哪些生物学功能显著相关」,对生物学功能起上调还是下调作用。
基因融合分析
两个或多个基因的CDS首尾相连,共享同一套调控序列形成新的基因,即为基因融合事件,可发生在基因组和转录组水平,如下图。
转录组和基因组层面融合差异(https://www.cnblogs.com/aipufu/p/11615336.html)
❝
基因融合的鉴定,可以基于全基因组测序数据(whole-genome sequencing,WGS),也可以利用转录组测序数据(RNA-seq),或者二种技术结合起来更好。「WGS鉴定出的基因融合」,基本能确定是由于基因组层面发生某种变异而引起的,但如果没有转录组测序数据,就无法准确判断融合后产生的新基因是否能够表达,或表达量的高低。而「转录组测序数据鉴定出的基因融合」,可以明确是能表达的基因融合,但却无法完全确定是否是由基因组变异产生的,还是来源于两个不同基因转录后发生的RNA融合。因此,如果条件允许,同时结合全基因组测序和转录组测序来鉴定基因融合,能够获得更准确的鉴定结果。
❞
「研究意义」:一些癌种的诱因,与癌症发生息息相关,前面文章中Gene panel设计时,gene fusion也是一类重要变异,如下图文(融合基因VS肿瘤)
基因融合与靶向药
基因融合生信分析可用「STAR」分析,其他软件如下图。
「基因融合事件发生主要机制」:易位,插入,颠倒,见下图
可变剪切分析
「研究的意义」:关注文章'施一公:人类已知的遗传疾病里,大约35%来自于剪接遗传’,如很熟悉的脊髓性肌肉萎缩(SMA)、阿兹海默症、地中海贫血症等。
可变剪接发生在转录过程的pre-mRNA和mature mRNA之间,RNA剪接体移除内含子,外显子以不同数目重新整合(如下图),产生多个转录本,多个转录本翻译成不同蛋白,使得蛋白丰富多样。
生信分析时可用ASprofile对StringTie组装的转录本进行可变剪切分析,统计「可变剪切事件类别和表达量」,常见的可变剪切事件类别如下图,包含外显子跳跃、内含子延伸、5' 端或3' 端等。
Reference
❝
Conesa A , Madrigal P , Tarazona S , et al. A survey of best practices for RNA-seq data analysis[J]. Genome Biology, 2016, 17(1):181. http://www.bioinformatics.babraham.ac.uk/projects/fastqc/good_sequence_short_fastqc.html 公众号文章:RPKM, FPKM, TPM有什么区别? https://hrjournal.net/article/view/2693 https://www.tumorfusions.org/ https://www.meiwen.com.cn/subject/bieeqhtx.html http://tech.sina.com.cn/2017-10-29/doc-ifynhhay8118096.shtml https://www.cnblogs.com/aipufu/p/11615336.html 「https://www.nature.com/articles/nrc3947」 https://academic.oup.com/nar/article/44/5/e47/2464672