生信文章新思路:TCGA 选择性多聚腺苷酸化

一个文章套路的小故事

TCGA原始的数据库只有表达组学、甲基化、临床信息这些数据,所以大家在挖掘数据,最基本的就是在这几个组学里面来回的交叉融合。如果一个癌种别人交叉分析了,那其实基于基础的思路很难再去挖掘了。那如果再出来一个新的数据,那其实就可以继续交叉融合一波了。这个时候,由于TCGA的可变剪切数据库(TCGA spliceseq)的出现,就又有了很多利用可变剪切和其他组学有关的文章的出现。粗略搜一下现在和可变剪切有关的文章已经有了30篇左右。

所以如果出现,对于新的数据,就抓紧的吧。选择性多聚腺苷酸化(Alternative Polyadenylation, APA)是一个导致3'UTR异构体形成的事件。最近刚刚有把TCGA当中的数据进行了APA事件评价,所以利用这个是不是又有一波文章呢?今天就给大家介绍一下关于APA评价的算法以及对TCGA APA事件评价的数据库。
算法介绍
虽然对于选择性多聚腺苷酸化(Alternative Polyadenylation, APA)的鉴定还是3'端测序好一些。但是,确实是由于RNA-seq的大样本数据,如果不使用的话还很可惜的。基于这个考虑,有人就发明了利用RNA-seq来评价APA事件的算法(DaPars)。(了解APA以及3'UTR,可以查看之前的综述:3'UTR是做什么的?

由于RNA-seq数据的增多,为了使用RNA-seq来评价APA事件,所以就有人发明了DaPars算法。利用这个算法我们可以来评价RNA-seq当中的样本的APA事件。在这个算法里面,作者提出了一个远端PolyA位点使用比(Percentage of Distal polyA site Usage Index, PDUI)的概念来评价APA事件。利用PDUI数值来评价APA事件的发生比例,PDUI的数值范围是0-1,如果PDUI接近于1则代表这个基因更多的存在长的3'UTR;如果PDUI接近于0则代表这个基因更多的存在短的3’UTR。

这个算法的作者提供了一个python的脚本来计算APA事件(https://github.com/ZhengXia/dapars)。但是对于很多科研工作者而言使用python进行APA事件分析是很难的事情,所以这里就介绍几个基于DaPars分析的RNA-seq数据库。

目前公共的大型数据库,主要还是TCGAGTEx。由于这两个数据库也都基于RNA-seq来构建的,所以相对应的就是可以来进行APA事件评价了。

PS: 需要明确的一点是,使用DaPars算法来进行APA事件评价的时候,我们需要的是最原始的RNA-seq的数据,如果是在TCGA官网上下载的count/fpkm数据是不能用的。这种最原始的数据,如果想要使用的话,是需要和TCGA进行申请的。

TC3A

The Cancer 3′ UTR Atlas(TC3A, http://tc3a.org/) 是一个基于TCGA当中肿瘤数据来进行APA事件评价的数据库,这个数据库的作者就是发明DaPars算法的作者。为了这个数据库,作者还把算法升级了到DaPars2(https://github.com/3UTR/DaPars2)。

TC3A 总结了 TCGA 当中的所有肿瘤的 APA 事件,由于就是想做肿瘤的数据库,所以作者只使用了TCGA当中的肿瘤样本来进行分析。对于其中的正常样本就没有纳入进来。这个对于我们如果想要分析癌和正常的想法就实现不了了

这个数据库使用了 TCGA 常用数据库 cBioPortal 数据库的可视化框架。所以我们看到的 TC3A 数据库和 cBioPortal 其实是差不多的。我们需要做的就是

  1. 选择癌种

  2. 输入相关基因

也不知道是本身 cBioPortal 框架的问题还是其他问题,这个数据库在进行检索之后对于结果的加载十分缓慢,所以就只能通过文献里面的截图来观察这个数据库能干啥。通过文献的图片,我们可以看到,这个数据库可以比较 APA 事件评选指标 PDUI 在不同临床分析当中的差异,和预后的差异以及和本身基因表达的相关性等等。

那如果假如数据库确实是不好用了怎么办呢?作者十分友善的提供了原始数据下载的功能。在这里我们可以下载所有TCGA肿瘤当中,肿瘤样本的 APA 事件的PDUI数值。这样,虽然我们不用能数据库分析了,那可以把原始数据下载下来进行自定义分析嘛!

(0)

相关推荐