生信新思路:正常组织的选择性多聚腺苷酸化数据库
昨天介绍的TC3A是基于TCGA肿瘤数据来进行分析的,而这次的这个APA atlas (https://hanlab.uth.edu/apa/)则是基于GTEx的数据来分析的。如果不清楚TCGA和GTEx的区别可以看我们之前的这个帖子:TCGA、ICGC、GTEx 数据库都是啥?
另外呢,去年关于APA在RNA-seq的分析,又有人发明了SAAP-RS的算法,这个数据库也就把最新的算法也纳入进来了,所以我们在一个数据库当中可以选择两种算法来查看相关的数据结果。
这个数据库提供了三个功能:
整体观察
和样本特征的相关性
和表达相关性
1
整体观察(landscape)
在这个部分,我们可以查看APA事件在某一个或者所有组织当中的变化情况。我们需要做的就是:选择分析算法,选择组织(如果不选默认是选择全部组织,也可以多选几个组织)以及选择想要查看的基因。
点击查看之后,我们就可以获得和目标基因在不同组织当中的APA事件分布的箱式图了。
2
和样本特征的相关性
对于正常组织而言,我们不可能分析和临床信息的相关性,但是正常的组织也有自己的临床特征比如:年龄、身高、体重等等的。这个功能就是让我们来分析这些APA事件和这些信息的相关性。
和上面的一样,只不过这次我们需要选择想要查看的样本信息。
对于结果的信息,首先是以表格的形式来查看显示不同组织信息和基因APA事件的关系。对于连续性变量,和APA的关系可以进行相关分析;对于分类变量则会进行方差分析。对于某一个变量的结果,也可以点击 Plot 看到相关的图。
3
和表达相关性
3’UTR 的变化其实并不一定影响基因表达的变化,但是如果影响了基因的表达,可能更能说明这个3'UTR的重要。这个数据库提供了这个基因的 APA 事件和所有基因的表达的相关分析,这样我们就可以了解这个APA事件是否和其他基因有关。虽然是统计学上相关,但是通过基因的位置,说不准能发现远程调控呢!
4
数据的下载
对于这个数据库当中的作用分析好的数据,这个数据库也提供了数据下载的功能。这样我们也就可以基于自己的目的来进行DIY了。具体如果DIY可以参考后面两天的文献解读。
从周一到现在今天这五天我们介绍了3'UTR的功能以及其中很多用来预测3'UTR相关的数据库。最近这两天介绍了关于介绍了和APA有关的数据库。这两个数据库主要还是通过TCGA的数据/GTEx的公共数据库来进行分析的结果。
注意:昨天介绍的TC3A用的是DaPars2的算法,而今天的这个APAatlas用的是DaPars的算法。如果想要比较差异的话,那这两个数据是不能硬性的融合的。那如果我想要获得TCGA数据库当中正常样本的APA评价,怎么办呢?那就留意一下明天的推送哦。