lncRNA的一些基础知识
前面我们系统性的总结了circRNA的相关背景知识:
同样的策略,我们也可以应用到lncRNA的学习。以前我在:miRNA、LncRNA、CircRNA靠谱小结 也提到过一些基础知识,但还不够丰满!其实读一篇综述是最好的学习方式,不过英文的毕竟难啃。假如你还是需要深入学习,建议看2009的CELL杂志的超级经典综述:Evolution and Functions of Long Noncoding RNAs
当然了,你假如仅仅是分析lncRNA的表达矩阵,你其实是可以不需要耗费时间去理解那么多生物学背景的,把它当做是一个基因ID即可,一个有名字的基因。
首先lncRNA是Non-coding RNAs的一种
而且Non-coding RNAs的别名太多了,"non-protein-coding RNA", "npcRNA", "non-messenger RNA", "nmRNA", "functional RNA", "fRNA", "ncRNA"。而Non-coding RNA 的分类就太多了,在:https://www.genenames.org/data/genegroup/#!/group/475可以看到信息列表。非编码RNA(Non-coding RNA)是指不编码蛋白质的RNA。其中包括rRNA、tRNA、snRNA、snoRNA 和microRNA 等多 种已知功能的 RNA,还包括未知功能的RNA。这些RNA的共同 特点是都能从基因组上转录而来,但是不翻译成蛋白,在RNA 水平上就能行使各自的生物学功能。如果你对Non-coding RNA 感兴趣呢,可以看 https://www.nature.com/collections/sqtqxdnvdz 里面的合辑:
SERIES | 01 JANUARY 2018
With improved methods to explore the transcriptome, in recent years there have been great advances in identifying and understanding non-coding RNAs. Regulatory pathways involving small RNAs, such as microRNAs, are now being elucidated in detail, and functions for long non-coding RNAs are also coming to light. The articles in this series discuss insights into the biology of non-coding RNAs of all sizes in a wide range of organisms
话说这个系列的综述里面的机制图,都画的好漂亮啊!
长链非编码RNA(long noncoding RNA,lncRNA)
长 度>200bp的RNA,由RNA聚合酶Ⅱ转录,lncRNA具有保守的 二级结构, 大部分不编码蛋白质,也有报道,其可以编码多肽,多 肽大部分无功能。
LncRNA来源很广,可以来源于基因编码区、 非编码区、外显子、内含子、正义链或反义链。
LncRNA发挥功 能的方式很广,可以与蛋白、DNA和RNA相互作用,参与多种 生物学过程的调控。
再次强调,如果你仅仅是处理数据,可以把LncRNA跟其它基因一样的处理即可。大部分都是看表达差异罢了。
在GENCODE Release (version 32)的LncRNA信息
据ENCODE (Encyclopedia of DNA Elements)项目统计,人类基因 组中约75%区域都可以转录。其中1%为编码蛋白外显子,40% 为蛋白编码基因(外显子+内含子)转录区域,剩下绝大多数转 录区域产生lncRNA。因为Long non-coding RNA genes数据库来源太多,研究也不统一,我比较喜欢GENCODE 数据库的。我倾向于把基因分成Protein-coding和Non-coding 两个大类,其在 GENCODE 数量如下:
Total No of Genes 60609
Protein-coding genes 19965
Long non-coding RNA genes 17910
Small non-coding RNA genes 7576
Pseudogenes 14749
- processed pseudogenes 10668
- unprocessed pseudogenes 3556
- unitary pseudogenes 228
- polymorphic pseudogenes 42
- pseudogenes 18
Immunoglobulin/T-cell receptor gene segments
- protein coding segments 408
- pseudogenes 237
这里面的17910个 Long non-coding RNA genes 是需要重点关注的。参考:https://www.gencodegenes.org/human/stats.html
所以,如果你分析LncRNA的数据,最后最好是输出的结果,以GENCODE数据库的ID为准,这样方便你我他!再次强调,如果你仅仅是处理数据,可以把LncRNA跟其它基因一样的处理即可。大部分都是看表达差异罢了。
lncRNA功能
前面我们提到过LncRNA发挥功 能的方式很广,可以与蛋白、DNA和RNA相互作用,参与多种 生物学过程的调控。同理我们应该是看综述,这个时候推荐的同样是引用最多的,发表在 Mol Cell. 2011 Sep 16; 43(6): 904–914. 的Molecular mechanisms of long noncoding RNAs
如果你觉得不过瘾,也可以继续看其它,再比如: Functional Classification and Experimental Dissection of Long Noncoding RNAs
LncRNA调控分析
LncRNA顺式(cis)调控基因分析
Antisense长链非编码RNA,至少其中相当多的一部分,能够顺式调节邻近蛋白编码基因的转录,精密控制这些发育多样性基因位点的时空表达,并参与到与之相关的发育和其它生物学过程。顺式调控就是指非编码RNA对临近mRNA的一种转录激活与表达调控方式。LncRNA以序列互补为原理结合在未解链的染色质大沟中,或者和解链的DNA链结合,LncRNA位点附近的基因转录会受到该LncRNA对正在转录或者剪接体的影响,某个基因的转录起始元件出现在临近的LncRNA转录位点中。
LncRNA 反式(trans)调控基因分析
反链LncRNA反式(trans)调控,是对远端mRNA转录的调控LncRNA可以调控远距离的基因的表达,例如结合增强子和启动子等。LncRNA可以起到支架作用,组织蛋白复合物行使功能,充当亚细胞结构,LncRNA以剂量依赖形式在胞质或者胞核内,调控结合的蛋白或者RNA的活性。通过皮尔森相关系数(阈值大于0.95)可以判断LncRNA是否调控基因。
lncRNA-miRNA相互作用
这个其实是目前的数据分析重点,就是我们一直说的ceRNA 理论。
lncRNA因其存在Introns等片段组成,长度可达数千nt,这就为吸附结合大量的miRNA提供了良好的物质基础,通过竞争占有胞内大量的miRNA,像海绵一样缓冲并削减其干涉靶基因mRNA编码蛋白的能力,我们就称这样的lncRNA与mRNA互为ceRNA关系,因此可见,作为关联节点的就是miRNA,它的靶构成了ceRNA,共同组合就是ceRNA网络。
lncRNA种类
主要是根据其在参考基因组上的位置,一个 lncRNA 可以归于以下五类中的一种或五种:(1)sense(2)antisense (3)bidirectional(4)intronic(5)intergenic,这个在很多综述都可以看到,我建议看最新的,就是发表在J Anim Sci Technol. 2018; 的综述:Long non-coding RNA: its evolutionary relics and biological implications in mammals: a review
参考综述是:Dhanoa et al. Journal of Animal Science and Technology (2018) 60:25
也可以分成更多类型,各种各样的综述都有:
反义型(antisense lncRNAs)、
内含子型(intronic lncRNAs)、
反向型(divergent lncRNAs)、
基因间型(intergenic lncRNAs)、
启动子上游型(promoter upstream lncRNAs)
启动子型(promoter-associated lncRNAs)
转录起始位点型(transcription start site-associated lncRNAs)
利用RNA-seq技术发现并且鉴定lncRNA
做到RNA-seq技术来鉴定lncRNA比较少,主要是非模式生物的,数据分析的难点主要在:LncRNA鉴定,可以看一写公司的结题报告:
主要是通过三个软件鉴定样本中的LncRNA,分别是CPAT、CPC2和CNCI。但是由于 LncRNA的特征,单一一种软件鉴定出来的结果假阳性较多,因此取三个软件得到结果的交集作为最终结果,三个软件结果可以做韦恩图。
发现并且鉴定lncRNA就需要命名啦,也是有一定规则的。
lncRNA的命名
实际上,目前lncRNA的命名还没有一个统一的原则,但为了让lncRNA的命名具有唯一性、准确性并最大程度上反映其功能,雨果基因命名委员会(HGNC,唯一的制定人类基因命名标准的官方授权机构)提供了一个命名指导指南,以供参考。参考文献:A short guide tolong non-coding RNA gene nomenclature
作者在发表新lncRNA时,可先获取HGNC的认可,如果作者发布的名字已在其他地方使用过,HGNC将会指定一个新名字供作者选择。
lncRNA的名字应是描述基因的缩写,便于人们理解名字的含义。如BANCR就是BRAF-activatednon-proteincoding RNA的缩写。
功能性转录假基因在命名时应保留它们假基因名称且不应改变其基于功能的名称。为了方便搜索,这个功能应加在名字的最后。eg: PTENP1 是“phosphatase and tensin homolog pseudogene 1 (functional)”.
而对于未知功能的lncRNA应依据基因组上下文来命名
如果有一个很接近的蛋白编码基因,lncRNA的名字应该以这个编码基因名字开始,再加后缀即可。
后缀的分类:
反义(antisense,AS),eg: BACE1-AS;
内含子(intronic,IT),eg: SPRY4-IT1;
重叠(overlapping,OT),eg: OSX2-OT;
长链基因间lncRNA(Longintergenic lncRNAs,lincRNAs),以LINC为前缀,数字为后缀,eg: LINC00485。
此外,有些lncRNA与编码基因是头碰头(headto head),可推断它们拥有双向启动子,HGNC推荐将其命名为反义上游(Antisense upstream,AU),例如,GENE2-AU1。
lncRNA的常用数据库大全
因为实在是太多,介绍起来没完没了,我们这里重点讲解一个即可,就是:RNAcentral,它整合了多个数据库,并且提供4个重要的功能:text search, sequence similarity search, bulk downloads, and programmatic data access.
如果你确实感兴趣它所整合的那些数据库本身,也可以自己慢慢学习:https://rnacentral.org/expert-databases
在Wikipedia可以查到更多:https://en.wikipedia.org/wiki/List_of_long_non-coding_RNA_databases