国人佳作 | Genome Biology:CircAtlas:来自1070个脊椎动物转录组的一百万个高精度环状RNA的整合资源

编译:热血本能,编辑:十九、江舜尧。

原创微文,欢迎转发转载。

导读

现有的环状RNA(circRNA)数据库已成为转录组学必不可少的。但是,大多数方法都不适合挖掘候选circRNA优先级的深入信息。为了解决这一问题,作者整合了环形转录本集合,开发了基于1070个RNA-seq样本的circAtlas数据库,这些样本来自6个脊椎动物物种的19个正常组织。该数据库包含1,007,087个高度可靠的circRNA,其中超过81.3%已组装成全长序列。作者分析了它们的表达模式、保存和功能注释。作者描述了一种新的多重保护评分、共表达和调控网络,用于circRNA注释和优先级排序。可以从http:// circatlas.biols.ac.cn/访问CircAtlas。

论文ID

原名:CircAtlas: an integrated resource of one million highly accurate circular RNAs from 1070 vertebrate transcriptomes

译名:CircAtlas:来自1070个脊椎动物转录组的一百万个高精度环状RNA的整合资源

期刊:Genome Biology

IF:14.028

发表时间:2020.04.28

通讯作者:赵方庆

通讯作者单位:中国科学院大学

DOI号:10.1186/s13059-020-02018-y

主要内容

1. 结构和内容

1.1 circAtlas的构造和功能

circAtlas的构建基于对1070个RNA-seq数据集中的circRNA的全面分析,其中包括使用六种脊椎动物(人类,猕猴,小鼠,大鼠,猪和鸡)收集的19种正常组织, 基于生物信息学的最新方法。circAtlas的内容和结构如图1所示。简单地说,每个物种的circRNAs是通过四种检测算法来识别的,分别是CIRI2, find_circ, CIRCexplorer2, DCC,这些算法在之前的研究中得到了广泛的应用和测试。然后使用CIRI-full / CIRI-vis管道重建已鉴定circRNA的全长序列。然后,对全长环状RNA进行内部核糖体进入位点(IRESs)和ORFs的搜索,以预测其编码潜能。同时使用多重保守评分(MCS)方案对circRNA的保守性进行了表征,该方案可估计circRNA在三个水平上的保守性,包括物种,组织和个体。基于MCS,引入了一个ID分配方案,其中包括每个circRNA的信息,包括物种,保守和宿主基因。作者接下来将共表达网络,circRNA-miRNA和RBP结合位点的信息结合起来,以提供这些circRNA的全面注释。GO和KEGG数据库用于预测这些环状RNA的潜在功能。同时,将circad、circR2Disease、circRNADisease管路集成到circAtlas中,评价circRNAs与各种疾病的相关性。为了促进circAtlas的广泛使用,作者还开发了一个用户友好,交互式且开放访问的Web门户,用于查询和可视化circRNA及其注释。门户将环状RNA的列表或序列作为输入。如果查询circRNAs已经包含在circAtlas中,用户可以浏览并立即下载它们的序列、表达式概要和注释。否则,服务器将查询跨物种的新环状RNA的标准,执行功能性注释,并基于综合注释对候选环状RNA进行优先级排序。circAtlas数据库的web应用程序是使用MySQL v.5.6.38和PHP v.7.0开发的。circAtlas的全部内容都是免费提供的,可以从网站(http://circatlas.biols.ac.cn/)下载。

图一:circAtlas的内容和构造

1.2  CircRNA检测和全长转录本构建

智人,猕猴,小家鼠,褐家鼠,Sus scrofa和盖氏鸡的参考基因组的装配版本分别为hg38,rheMac8,mm10,rn6,susScr11和galGal4。这些文件是从GENCODE和Ensembl下载的。对于每个RNA-seq数据集,使用了四种不同的circRNA检测工具,包括CIRI2、DCC、CIRCexplorer2和find_circ,并使用了默认参数。至少两种工具检测到的环状RNA和至少两种独立的BSJ reads支持的环状RNA被保留下来用于下游分析。研究发现,每个物种平均产生167,847个环状RNA。同时,利用既有的circRNA反向重叠信息,又利用CIRI-AS检测到的circRNA的内部态势,利用CIRI完整的管线重建全长circRNA转录本。因此,平均每个物种获得136,467个全长环状RNA。最后,该研究者实现了每百万个映射片段(FPM)值的反剪连接作为circRNA表达水平的定量替代。

1.3  表达同源环状RNA的同源基因的鉴定

进化分析对于深入了解功能筛选的遗传基础至关重要。因此,作者基于同源基因在这6个物种中鉴定出进化保守的环状RNA。简而言之,从OMA ortholog数据库下载成对的同源基因列表,使用基因组注释文件确定每个物种在这些同源基因上的环状RNA。随后仅保留表达环状RNA的同源基因对进行保守环状RNA检测。接下来,从整个基因组比对中确定同源基因对中cirexon对的边界,即参与环状rna形成的外显子。这些从UCSC和Ensembl下载的比对结果用于确保下游分析中保守的环状RNA鉴定的准确性。为了检测来自这些cirexons的保守环状RNA,作者从相应的cirexons中提取了环状RNA BSJ两侧各50 bp的片段,用来表示BSJ序列。使用BLAT将一个物种的所有circRNA BSJ序列与其他物种的序列进行比对,然后采用最佳互反策略找到同源环状RNA。然后,使用multisoar v2.0软件,使用组合的方法构建ortholog组,对互反的最佳成对的正态环状RNA进行整合。最后,筛选出最匹配的同源环状RNA进行下游分析。通过对6个物种中每一个物种的环状RNA进行这一流水线操作,在任意两个物种中鉴定出129,635个进化保守的环状RNA,其中797个在6个物种中都是保守的。

图2:在六个脊椎动物中的表达情况和直系circRNA

1.4  circRNA保守性分析

由于保守通常被认为是优先考虑功能候选基因的标准,因此作者建议使用MCS在物种,组织和个体(或样品)水平上评估circRNA的保守性。计算公式为:MCS = N s + Nt Ni。简单地说,对于物种中给定的circRNA,这个公式包含了数字的两部分:整数部分和小数部分。整数部分,表示物种间环状RNA的守恒,是这个环状RNA(Ns)的标准数。小数部分Nt×Ni,代表跨组织和个体的circRNA保守性,是通过构建层次表达树来计算的,其中跨组织和个体的circRNA表达模式可以用两层内部的层次结构。组织和各个层中的节点分别代表特定物种中的组织和个体。然后,此小数部分的分数由Nt×Ni计算。

2. 效用和讨论

2.1 提高了circRNA保存分析的分辨率

为了全面研究环状RNA的保守情况,作者使用MCS来评估环状RNA在不同物种、组织或个体之间的保守情况。简而言之,对于每一个circRNA,通过加入组织和个体的归一化发生率与相应圆形转录本的正态数的乘积,得到MCS。为了验证该方法的性能,作者研究了每个物种在5 - 6个窗口内的环状RNA的MCS分布。因此,作者观察到MCS在物种、组织和个体水平上有明显的与circRNA保护正相关的趋势。对其他随机选择的窗口也观察到同样的趋势。这些结果表明MCS是分析环状RNA保存的一个有效参数。在成功地将保守分数分配给环状RNA后,对每个物种的MCS分数分布进行了分析。作者发现,circRNA转录进化迅速,在单个物种或亲缘关系较近的物种中均有表达,其中每个物种中大部分circRNA的MCS均低于2.0。总的来说,这些结果表明MCS方案能够提高circRNA保守分析的分辨率,并将极大地促进候选环状RNA的优先排序。例如,在circAtlas数据库中记录了来自YAP基因的65个环状RNA。作者根据这些环状RNA的MCS对其进行排序,发现其中最保守的hsa-YAP1_0001在5种脊椎动物和12种组织中均有表达,这表明它可能与重要的生物学功能有关。事实上,已有研究表明,通过抑制翻译起始机制的装配,hsa-YAP1_0001可以拮抗YAP的翻译。

图三:circRNA保守性分析的新型定量分析

2.2 circRNA亚类的综合研究

为了更好地了解环状RNA的多样性,作者根据环状RNA与已知遗传成分和转录方向的重叠程度,将环状RNA分为7组,包括外显子区、内含子区、基因间区、5 -UTR、3 -UTR、非重复区和反义区。值得注意的是,作者引入了一种新的circRNA,称为非重复序列,其中在某些circRNA的两个侧翼内含子上没有已知的重复序列(如RepeatMasker数据库中记录的那样)。这种环状RNA可能是通过结合RBPs而产生的,而不是通过内含子中侧翼重复序列的匹配产生的。作者首先根据这种分类来评估已识别环状RNA的组成。与之前的研究结果一致,环状RNA主要来源于带注释的外显子,对编码序列和5 -UTR外显子有明显的偏好。作者进一步对这7种环状RNA的表达模式和序列长度进行了详细的分析。值得注意的是,在这种情况下,外显子环状RNA常被用作所有比较的对照。原则上,反义RNA和内含子环状RNA在所有比较病例中表达水平最低。此外,该测量与其他类型的circRNA没有定量区别。然而,这些环状RNA在人类和其他生物的组织特异性、连接比、序列长度等方面都有明显的区别。在比较的亚类中,反义环状RNA最为明显,组织特异性最高,连接比最低,序列长度变异最大。考虑到反义环状RNA的转录方向与其宿主基因相反,并且可能作为感觉mRNA的调控因子,作者推测其表达模式可能与其宿主基因高度相关。然而,作者发现反义环状RNA和它们的宿主基因之间的Pearson相关系数大多在0.1到0.5之间变化,这是相关性不高或低的一个指标。非重复环状RNA在所有比较的病例中均保持中等水平的表达和组织特异性,但序列长度最短的病例除外。

作者随后研究了这些不同的环状RNA亚类在进化过程中被保留的机制。作者检查了这6种脊椎动物中存在的同源环状RNA,并计算了拥有相同序列的同源环状RNA的数量以及它们祖先节点上的BSJs和共享基因的数量。如图4f所示,随着物种间遗传距离的增加,共享的同源环状RNA和BSJs的数量迅速减少。相比之下,同源同源mRNA的减少要慢得多,这表明虽然同源同源同源mRNA来自于相同的基因,但不同物种的环状RNA在序列和BSJs上分化迅速。然后,计算这些节点上的每个同源circRNA子类的数目,以及每个子类在进化过程中所占的比例。如图4g所示,反义亚类的比例急剧下降,其次是基因间区、非重复区和3 -UTR区。许多内含子环状RNA在这些生物体中高度保守,即使是远亲物种也如此,在转录水平上表现出更强的选择约束。此外,作者还研究了这些节点中的环状RNA的表达模式是否在不同组织中发生变化,发现环状RNA具有高度的组织特异性,并且在大脑中主要表达。

图四 环状RNA不同亚类的表征

2.3 环状RNA的大规模功能性注释

环状RNA已被证明可以作为miRNAs或RBPs的海绵,因此被预测可以作为基因表达的转录后调控因子。此外,对大规模转录组数据结合计算算法的联合分析,为阐明这些基因可能的生物学作用提供了一种强有力的方法。为了识别功能性环状RNA并预测其潜在的调控机制,作者整合了共表达谱和环状RNA- miRNA以及环状RNA-RBP相互作用网络来注释每个物种中已识别的环状RNA。具体来说,作者独立地推断了6个物种的共表达网络,其中节点表示基因(环状RNA或mRNA),而边缘表示基因对之间的共表达关系。然后,通过预测环状RNA上的miRNA结合位点,将环状RNA- miRNA相互作用添加到网络中。此外,通过基于CLIP-Seq数据搜索BSJs周围的rbp结合峰,将circRNA-RBP相互作用集成到网络中。最后,作者利用连接节点及其注释的GO和KEGG术语推导出环状RNA的势函数。与以前的circRNA数据库相比,circAtlas集成了更多功能基因组资源来注释circRNA。

构建网络后,作者首先调查了可能与circRNA相互作用的RBP或miRNA。然后,根据与这些RNA相关的环状RNA的数量对它们进行排序。作者发现前10位RBPs在转录的正向调节功能上高度富集,如U2AF2和PTBP1。最常与环状RNA结合的miRNAs被鉴定为hsa-miR-711和hsa-miR-608,它们可能在环状RNA调控中发挥关键作用。值得注意的是,作者发现大多数环状RNA对不同miRNA的结合位点数量非常有限,而对同一miRNA的结合位点数量却非常有限。然后作者提取了最丰富的10个KEGG术语,发现最多数量的带注释的环状RNA参与了疾病相关功能,如癌症、白血病和前列腺癌中的转录失调。这表明环状RNA可能在疾病条件中发挥重要的调控作用。为了进一步证明circAtlas进行circRNA注释的可靠性,作者将它们与circad,circR2Disease和circRNADisease中记录的与疾病相关的circRNA的手动处理进行了比较。因此,作者发现这些数据库之间共享了456个环状RNA,其中大部分得到了以前实验注释的良好支持。

图五:基于环状RNA、mRNA、miRNAs和RBP集成网络的环状RNA注释

结论

为了弥合绝大多数circRNA及其生物学功能之间的巨大鸿沟,作者从包括人,猕猴,小鼠,大鼠,猪和鸡在内的六个脊椎动物中收集了一个完整的circRNA库,称为circAtlas。作者整合了1070个转录组,生成了超过100万个环状RNA的综合图谱,以及这6种脊椎动物多个组织的表达谱。评估了物种、组织和个体中每个环状RNA的保存情况。将共表达谱与miRNA相互作用和RNA结合蛋白(RBP)相互作用数据结合,对环状RNA进行功能注释。因此,circAtlas可以用作全面的功能性circRNA资源,以有效地浏览,注释和区分circRNA的优先级,并提供有关其保守性和功能的见解。


更多推荐

科研 | PNAS:转录组学揭示急性和慢性饮酒对肝脏昼夜新陈代谢有不同的影响

重磅综述 | Cell:非编码RNAs在肿瘤学中的作用(IF=36.216)

(0)

相关推荐