LNCipedia:人类lncRNA数据库
非编码RNA,根据其长度的不同可分为长链非编码RNA和短链非编码RNA。长链非编码并不编码蛋白,而是以RNA的形式在多种层面上(表观遗传调控、转录调控以及转录后调控等)调控基因的表达水平。研究表明,lncRNA在表观遗传调控、剂量补偿效应、细胞周期调控和细胞分化调控等众多生命活动中发挥重要的作用。
lncRNA与细胞周期和分化、发育、生殖、性别调控、衰老以及多种人类疾病密切相关。lncRNA起初被认为是基因组转录的“噪音”,是RNA聚合酶II转录的副产物,不具有生物学功能。文献研究表明,lncRNA参与了X染色体沉默、基因组印记以及染色质修饰、转录激活、转录干扰、核内运输等多种重要的调控过程,这些调控作用也开始引起人们广泛的关注。
LNCipedia
https://lncipedia.org/
LNCipedia是一个公共数据库,用于存储较长的非编码RNA(lncRNA)序列和注释。该数据库整合了多个人类(Human)lncRNA数据库信息,很大程度上解决了lncRNA数据库各自为政的问题。
整合的数据库包括LncRNAdb、Broad Institute、Ensembl、Gencode、Refseq、NONCODE、FANTOM,多篇文章中的lncRNA记录,并赋予了它们统一ID,同时还包含ncRNA转录本在基因组位置、长度、结构、miRNA结合、lncRNA在其他数据库中相关记录等信息。使用者可以在该数据库中录入、搜索和下载lncRNA相关信息现在已经升级到5.3版本。当前版本包含127,802笔录 和56,946个基因。
具体使用功能:
Search
在导航栏搜索框直接输入ID进行查询,在使用时可以选择资源来源、染色体位置以及类别,网站提供了相关的编码潜力以及ID历史记录转换器。
其中lncRNA,数据库根据以下原则进行了分类:
对于那些与蛋白编码基因所在链相同,而且存在overlap的lncRNA, 如果与所有的exon都没有overlap, 就归类为intronic, 否则归类为sense overlapping;
对于那些与蛋白编码基因的反向互补区间存在overlap的lncRNA, 归类为antisense;
对于那些与任何蛋白编码基因都没有交集的lncRNA, 如果在转录起始位点上游1000bp范围内存在白编码基因的转录起始位点,则归类为bidirectional, 否则归类为intergenic;
点击基因名称后,显示内容包括lncRNA基因ID, 转录本iD, 染色体位置,类别,长度等信息,示意如下如下:
点击Transcript: CASC15:21,可以看到其替代转录名称、替代基因名称、RNA序列,结构体,蛋白质编码潜力,还有 lncRNA保守性。
Locus conservation 是通过lncRNA邻近的蛋白编码基因在不同物种间的保守性,来分析对应的lncRNA的保守性,如果一个lncRNA的参照蛋白编码基因在其他物种中有同源,则认为对应的lncRNA在其他物种中也应该存在。
#Download
我们可以直接从网站上下载lncRNA对应的BED、FASTA、GFF、GTF (UCSC compatible文件,分为完整数据库和高可信度的(已排除可能的蛋白质编码基因版本)两种,下载时需注意,BED提供了GRCh37/hg19和GRCh38/hg38两种版本,示意如下
该网站还提供了API服务, 通过基因id或者转录本id来获取对应的信息,如下:
https://lncipedia.org/api/transcript/HOTAIR:1
https://lncipedia.org/api/gene/HOTAIR
这个数据库的更能内容主要是以上这些,如果文章中使用了该数据库,别忘了引用它们哟:
LNCipedia 5: towards a reference set of human long non-coding RNAsPieter-Jan Volders; Jasper Anckaert; Kenneth Verheggen; Justine Nuytens; Lennart Martens; Pieter Mestdagh and Jo Vandesompele; Nucleic Acids Research 2019