生信文章新思路:TCGA 选择性多聚腺苷酸化
一个文章套路的小故事
TCGA原始的数据库只有表达组学、甲基化、临床信息这些数据,所以大家在挖掘数据,最基本的就是在这几个组学里面来回的交叉融合。如果一个癌种别人交叉分析了,那其实基于基础的思路很难再去挖掘了。那如果再出来一个新的数据,那其实就可以继续交叉融合一波了。这个时候,由于TCGA的可变剪切数据库(TCGA spliceseq)的出现,就又有了很多利用可变剪切和其他组学有关的文章的出现。粗略搜一下现在和可变剪切有关的文章已经有了30篇左右。
由于RNA-seq数据的增多,为了使用RNA-seq来评价APA事件,所以就有人发明了DaPars算法。利用这个算法我们可以来评价RNA-seq当中的样本的APA事件。在这个算法里面,作者提出了一个远端PolyA位点使用比(Percentage of Distal polyA site Usage Index, PDUI)的概念来评价APA事件。利用PDUI数值来评价APA事件的发生比例,PDUI的数值范围是0-1,如果PDUI接近于1则代表这个基因更多的存在长的3'UTR;如果PDUI接近于0则代表这个基因更多的存在短的3’UTR。
这个算法的作者提供了一个python的脚本来计算APA事件(https://github.com/ZhengXia/dapars)。但是对于很多科研工作者而言使用python进行APA事件分析是很难的事情,所以这里就介绍几个基于DaPars分析的RNA-seq数据库。
目前公共的大型数据库,主要还是TCGA和GTEx。由于这两个数据库也都基于RNA-seq来构建的,所以相对应的就是可以来进行APA事件评价了。
PS: 需要明确的一点是,使用DaPars算法来进行APA事件评价的时候,我们需要的是最原始的RNA-seq的数据,如果是在TCGA官网上下载的count/fpkm数据是不能用的。这种最原始的数据,如果想要使用的话,是需要和TCGA进行申请的。
The Cancer 3′ UTR Atlas(TC3A, http://tc3a.org/) 是一个基于TCGA当中肿瘤数据来进行APA事件评价的数据库,这个数据库的作者就是发明DaPars算法的作者。为了这个数据库,作者还把算法升级了到DaPars2(https://github.com/3UTR/DaPars2)。
TC3A 总结了 TCGA 当中的所有肿瘤的 APA 事件,由于就是想做肿瘤的数据库,所以作者只使用了TCGA当中的肿瘤样本来进行分析。对于其中的正常样本就没有纳入进来。这个对于我们如果想要分析癌和正常的想法就实现不了了
这个数据库使用了 TCGA 常用数据库 cBioPortal 数据库的可视化框架。所以我们看到的 TC3A 数据库和 cBioPortal 其实是差不多的。我们需要做的就是
选择癌种
输入相关基因
也不知道是本身 cBioPortal 框架的问题还是其他问题,这个数据库在进行检索之后对于结果的加载十分缓慢,所以就只能通过文献里面的截图来观察这个数据库能干啥。通过文献的图片,我们可以看到,这个数据库可以比较 APA 事件评选指标 PDUI 在不同临床分析当中的差异,和预后的差异以及和本身基因表达的相关性等等。
那如果假如数据库确实是不好用了怎么办呢?作者十分友善的提供了原始数据下载的功能。在这里我们可以下载所有TCGA肿瘤当中,肿瘤样本的 APA 事件的PDUI数值。这样,虽然我们不用能数据库分析了,那可以把原始数据下载下来进行自定义分析嘛!