生信文章新思路：TCGA 选择性多聚腺苷酸化

2024-06-13 17:38:44

一个文章套路的小故事

TCGA原始的数据库只有表达组学、甲基化、临床信息这些数据，所以大家在挖掘数据，最基本的就是在这几个组学里面来回的交叉融合。如果一个癌种别人交叉分析了，那其实基于基础的思路很难再去挖掘了。那如果再出来一个新的数据，那其实就可以继续交叉融合一波了。这个时候，由于TCGA的可变剪切数据库（TCGA spliceseq）的出现，就又有了很多利用可变剪切和其他组学有关的文章的出现。粗略搜一下现在和可变剪切有关的文章已经有了30篇左右。

所以如果出现，对于新的数据，就抓紧的吧。选择性多聚腺苷酸化(Alternative Polyadenylation, APA)是一个导致3'UTR异构体形成的事件。最近刚刚有把TCGA当中的数据进行了APA事件评价，所以利用这个是不是又有一波文章呢？今天就给大家介绍一下关于APA评价的算法以及对TCGA APA事件评价的数据库。

算法介绍

虽然对于选择性多聚腺苷酸化(Alternative Polyadenylation, APA)的鉴定还是3'端测序好一些。但是，确实是由于RNA-seq的大样本数据，如果不使用的话还很可惜的。基于这个考虑，有人就发明了利用RNA-seq来评价APA事件的算法（DaPars）。（了解APA以及3'UTR，可以查看之前的综述：3'UTR是做什么的？）

由于RNA-seq数据的增多，为了使用RNA-seq来评价APA事件，所以就有人发明了DaPars算法。利用这个算法我们可以来评价RNA-seq当中的样本的APA事件。在这个算法里面，作者提出了一个远端PolyA位点使用比(Percentage of Distal polyA site Usage Index, PDUI）的概念来评价APA事件。利用PDUI数值来评价APA事件的发生比例，PDUI的数值范围是0-1，如果PDUI接近于1则代表这个基因更多的存在长的3'UTR；如果PDUI接近于0则代表这个基因更多的存在短的3’UTR。

这个算法的作者提供了一个python的脚本来计算APA事件(https://github.com/ZhengXia/dapars)。但是对于很多科研工作者而言使用python进行APA事件分析是很难的事情，所以这里就介绍几个基于DaPars分析的RNA-seq数据库。

目前公共的大型数据库，主要还是TCGA和GTEx。由于这两个数据库也都基于RNA-seq来构建的，所以相对应的就是可以来进行APA事件评价了。

PS: 需要明确的一点是，使用DaPars算法来进行APA事件评价的时候，我们需要的是最原始的RNA-seq的数据，如果是在TCGA官网上下载的count/fpkm数据是不能用的。这种最原始的数据，如果想要使用的话，是需要和TCGA进行申请的。

TC3A

The Cancer 3′ UTR Atlas（TC3A, http://tc3a.org/）是一个基于TCGA当中肿瘤数据来进行APA事件评价的数据库，这个数据库的作者就是发明DaPars算法的作者。为了这个数据库，作者还把算法升级了到DaPars2（https://github.com/3UTR/DaPars2）。

TC3A 总结了 TCGA 当中的所有肿瘤的 APA 事件，由于就是想做肿瘤的数据库，所以作者只使用了TCGA当中的肿瘤样本来进行分析。对于其中的正常样本就没有纳入进来。这个对于我们如果想要分析癌和正常的想法就实现不了了

这个数据库使用了 TCGA 常用数据库 cBioPortal 数据库的可视化框架。所以我们看到的 TC3A 数据库和 cBioPortal 其实是差不多的。我们需要做的就是

选择癌种
输入相关基因

也不知道是本身 cBioPortal 框架的问题还是其他问题，这个数据库在进行检索之后对于结果的加载十分缓慢，所以就只能通过文献里面的截图来观察这个数据库能干啥。通过文献的图片，我们可以看到，这个数据库可以比较 APA 事件评选指标 PDUI 在不同临床分析当中的差异，和预后的差异以及和本身基因表达的相关性等等。

那如果假如数据库确实是不好用了怎么办呢？作者十分友善的提供了原始数据下载的功能。在这里我们可以下载所有TCGA肿瘤当中，肿瘤样本的 APA 事件的PDUI数值。这样，虽然我们不用能数据库分析了，那可以把原始数据下载下来进行自定义分析嘛！

使用MA Anderson御用软件SpliceSeq对TCGA数据库的RNA-seq找可变剪切

MA Anderson御用软件SpliceSeq已经是发表于2012的文章了:<SpliceSeq: a resource for analysis and visualization of R ...
表达量何须以基因为单位

单细胞转录组下游的降维聚类分群这样的基础操作相信大家应该是都没有问题了,参考前面的例子:人人都能学会的单细胞聚类分群注释 ,只需要你有一个基于基因的表达量矩阵的分析. 对转录组数据(包括单细胞转录组 ...
明码标价之RNA-Seq数据的内含子保留分析

前面我们的明码标价之普通转录组上游分析,受到了各大热心粉丝的吐槽,觉得太简单了我们居然还好意思收费.后面我就就加上了稍微有一点难度的<可变剪切>,不过仍然是阻挡不了粉丝无穷无尽的需求,后台 ...
TargetScan: miRNA靶基因数据库

导语 TargetScan是一款预测miRNA结合位点的软件,对于哺乳动物中miRNA结合位点预测的效果非常好.在预测miRNA靶基因之前,首先需要确定转录本的3'UTR区域,TargetScan数据 ...
最强攻略2: 史上最全非编码RNA数据库汇总解读

第一单元 lncRNA数据库长链非编码RNA(Long non-coding RNA, lncRNA)是长度大于 200 个核苷酸的非编码RNA.研究表明, lncRNA 在剂量补偿效应.表观遗传调 ...
孤雁难飞，孤掌难鸣，免疫微环境与可变剪切的巧妙结合发7+

导语今天和大家分享的是2021年1月份发表在Molecular Therapy:Nucleic Acid杂志(IF=7.032)的一篇文章"Immune-related genes wit ...
生信新思路：选择性多聚腺苷酸化系列帖介绍

系列帖的由来最近一直是在总结核酸研究杂志2019发表的数据库(关于这个他们杂志专门发了一个总结文献,感兴趣的可以去看看,PMID: 31906604,如果懒得自己看,可以每天看一下我们公众号就行), ...
SCI生信文章复现系列（一）—基因在各癌种及器官中的表达分布

人人向往的生信文章究竟是怎么做出来的?生信小白如何从零起步,读懂生信图.做出漂亮的生信图片?SCI生信文章复现系列为你打开新世界大门,带你逐一复现生信SCI全文图片,手把手教你发生信SCI!本节将为大 ...
最新 | Frontiers in oncology杂志明确不再接收纯生信文章

Frontiers in oncology 发表经过严格同行评审的研究,以增进我们对癌症流行病学,分子途径,诊断和成像,个性化治疗以及新颖的治疗和管理策略的了解. 康奈尔大学,威尔·康奈尔医学院的杂志 ...
绝了！9+纯生信文章，我用15分钟零代码教你复现！老底儿都没了（附详细操作教程）

解螺旋公众号·陪伴你科研的第2520天高分生信生信文章怎么做? 今天为大家带来一篇影响因子高达8.9分的一篇分析基因家族的生信文章,影响因子虽高,但复现难度却不大,借鉴意义非常大,性价比如此高的文章 ...
这篇生信文章的撤稿理由竟然如此之多

需要发表论文的朋友要记住了:文章不能一图多用,或者盗用别人的图片,也不能大段抄袭文章的字段.出了上面的情况,往往文章都是会被拒稿的.像这篇文章:Retraction Note: Inhibition ...
非肿瘤生信文章投什么期刊？这里有介绍

有不少人私信我们:非肿瘤生信文章投什么期刊,有介绍吗?今天在这里介绍一下,非肿瘤生信文章可以投下面这些期刊.首先,比较好投的期刊还是Bioengineered,这本期刊很多人认为只接收肿瘤生信相关的文 ...
利用Cytoscape作图提升生信文章档次 – sci666

大家好,万众期待的怪阿姨开脑洞时间又到了. 今天给大家带来的是Cytoscape作图,Cytoscape的用法先前依凡大大已经作了介绍! 现在进入正题,开启脑洞作图模式. 做完microRNA芯片测序 ...
手把手教你一刻钟零代码复现近5分单基因生信文章（附详细操作教程）

解螺旋公众号·陪伴你科研的第2487天文末有惊喜从小白的角度,一刻钟复现生信套路.各位小伙伴大家好,我是解螺旋的雪球.今天雪球为大家带来一篇2020年10月份发表于Aging-US(影响因子:4. ...
肿瘤也有“冷”“热”之分？一篇简单易上手的5分纯生信文章，包你稳赚不赔

小编又发现一篇简单易上手的生信文,标题为"A Novel Immune-Related Prognostic Model for Response to Immunotherapy and ...

生信文章新思路：TCGA 选择性多聚腺苷酸化

相关推荐