转录组数据分析的4个维度认识

前沿

首先感谢Jimmy大神在我孤独的生信入门阶段给予我非常多无私的引导和帮助!

昨天接到大神任务总结下转录组分析的四个维度,最近我正好也想理清楚下转录组分析的知识点,以便更好地理解RNA-Seq数据的分析结果和方法原理,因此趁周末有些许空暇看了文献并进行了知识点的梳理。

文献简介:这篇 Modeling and analysis of RNA-seq data: a review from a statistical perspective 详细介绍转录组分析四个层面的统计学计算模型和方法,

如下:

1.样本
2.基因
3.转录本
4.外显子

如果你感兴趣文献,自行搜索,我们不提供pdf下载通道。全文精华在下图,虽然看起来一股浓浓的PPT风格:

转录组分析的四个层面
1.样本水平(相似性分析)

常用的方法:

  • Pearson correlation coefficients

  • Spearman correlation coefficients

  • TROM (用相关基因替代整体全部基因来分析,消除管家基因表达的影响)

这个分析很容易理解啦,相关性分析后的相关性系数矩阵热图可视化是其中一个常见的手段,其实也可以是PCA图,层次聚类图,等等

2.基因水平(基因表达差异分析)

全基因组表达差异分析(芯片只能检测已知基因)

  • 实验条件

  • 时间点

  • 组织

  • 细胞类型

  • 物种

三种常见的基因表达归一化方法(去除测序深度和基因长度对差异分析的影响)

  • RPKM(The reads per kilobase per million mapped reads)单端测序

  • FPKM(the fragments per kilobase per million mapped reads)双端测序

  • TPM(the transcripts per million mapped reads)[目前有研究者认为更好的归一化方法](

两类归一化策略

  • 基于分布:用全部基因或大部分基因的表达对不同样本进行归一化

    • The quantile normalization

    • DESeq

    • TMM

  • 基于基因:用无差异的基因或管家基因表达对不同样本间进行归一化

    • PoissonSeq

基因共表达网络分析

  • GCNs (A gene co-expression network)帮助分析基因间的功能性关系和推断注释未知基因功能

  • 最常用的方法WGCNA (WGCNA有开发号的R包,感兴趣可以去看下这篇文献),起初是应用与芯片数据的分析,目前可以用来分析归一化后的RNA-seq数据,被广泛用于分析基因表达矩阵来检查基因的聚类和基因的相关性

当然了,很多时候实验设计非常复杂,比如昨天生信技能树分享的:不同时间点不同药物浓度不同细胞系的转录表达(生信数据分析免费做)

3.转录水平(转录本重建和定量)

mRNA-Seq(一种针对编码RNA的转录组水平测序)

  • 两个主要任务
    • 用于转录本的重组、发现、组装和鉴定;这里稍微提下最大的挑战在于短reads信息不全,难以鉴定长转录本

    • 已知或新发现的转录本的分析和丰度估计

  • 两个主要分析方法
    • rQuant

    • SLIDE

    • IsoLasso

    • CIDANE

    • Likelihood-based methods

    • Regression-based methods

转录水平RNA-Seq分析方法
4.外显子水平
  • 计算选择性剪接中的外显子包含率即外显子可变剪接的概率

总结

通过这篇文献综述的阅读,系统的了解转录组分析四个层面的基础知识点和统计学算法的概念和知识点,算法模型这块涉及到统计学知识,有点难懂,我想后面用到了再来一一详细了解,现在先熟悉RNA-Seq数据分析的软件使用,边用边学习积累相关统计学知识。

最后还是要感谢Jimmy大神的文献分享和督促学习,还有很多不懂,还需继续努力学习。

(0)

相关推荐