科研 | BMC Genomics:美洲河狸首次全组织lncRNA分析

编译:寒江雪,编辑:十九、江舜尧。

原创微文,欢迎转发转载。

导读

长链非编码RNA(lncRNA)在基因调控、表观遗传学等方向的研究中发挥着重要作用,也是哺乳动物进化适应的基础。很多哺乳动物由于没有完整的基因组信息,所以无法对lncRNA进行全面的鉴定。最近美洲河狸(Castor canadensis)的基因组完成了测序,为系统鉴定河狸lncRNA及其在各种组织中的表达特征奠定了基础。本研究通过对河狸16个组织部位进行高通量测序,发现并鉴定了河狸体内的多聚腺苷化的lncRNA,并根据与其他物种已知的lncRNA潜在的同源性分析,对lncRNA进行注释。

论文ID

原名:Pan-tissuetranscriptome analysis of long noncoding RNAs in the American beaver Castorcanadensis

译名:美洲河狸的长链非编码泛组织转录组分析

期刊:BMC Genomics

IF:3.501

发表时间:2020.2

通讯作者:Stephen A. Ramsey

通讯作者单位:美国俄勒冈州立大学

DOI号:10.1186/s12864-019-6432-4

主要内容

1引言

长链非编码RNA(lncRNA)是一种不编码蛋白质且长度至少为200个核苷酸的功能性核糖核酸,它通过多种机制调控表观遗传、染色质等基因表达。非编码RNA(ncRNA)一般都与宿主防御特定病原体以及对包括低氧在内的各种应激源的反应有关。越来越多证据表明,物种特异性和类群特异性的lncRNA可能是哺乳动物进化过程中的一些适应的基础。在现存的5000多种哺乳动物物种中,只有不到90种有高质量的基因组信息,而对于那些没有基因组的物种,由于缺乏基因组或转录组序列,无法全面的对lncRNA进行鉴定。最近测序了美洲河狸的基因组和三个组织的转录组,从而能够系统地研究这种半水生草食动物独特的生理、解剖和行为适应在分子水平的决定因素。例如河狸可屏息十五分钟,对树皮和某些有毒植物有消化能力等,这些适应性可能涉及lncRNA。因此建立河狸的lncRNA库是理解ncRNA在调控河狸解剖和生理学基础基因表达作用的重要起点。本文首次系统地鉴定和定位了美洲河狸中polyA lncRNA,编写了一套可以组装全组织转录组数据的流程,可以基于编码潜能和同源基因注释识别候选lncRNA,计算16个组织中lncRNA的表达水平。研究人员鉴定到9528个潜在的lncRNA,187个假定的lncRNA,其中147个是新的,40个是已知其他物种的非编码转录本的同源基因,如XISTMEG3TINCRNIPBL-DT。分析了187个lncRNA的表达水平,鉴定组织特异性和非特异性的lncRNA;3个河狸lncRNA的组织表达谱与其同源基因的组织表达谱相关,确定了河狸lncRNA可能调节的生物学途径和生物学过程。这些结果为研究河狸独特生理机制的细胞和生化机制奠定了基础,并为研究其他物种的lncRNA提供一种分析方法。
2 lncRNA分析流程

将16种河狸不同组织样本的末端序列配对,使用Trinity从头组装“泛组织”河狸polyA RNA转录组数据,得到了86714个非冗余contig。使用BUSCO基因集对泛组织河狸polyA RNA转录组完整性进行测试,发现66%的哺乳动物BUSCO基因与Trinity组装泛组织河狸polyA RNA转录组中的一个或多个contig匹配且置信度高(E<10-5)。通过五个过滤步骤过滤86714个contig识别可能的lncRNA(表1),共鉴定187个可能的lncRNA,其中40个与人类或小鼠等其他物种中已知的非编码转录本同源(已知lncRNA),147个从物种同源度来看是新的(新lncRNA)。
表1 鉴定河狸lncRNA的分析流程
 
3 已知和新的lncRNA长度和二级结构特征

lncRNA的生物功能依赖于足够稳定的结构构象,为了定量评估ncRNA的功能潜力,建模计算二级结构,获得了187个lncRNA的基于模型的最小自由能(MFE)的估计值。两组lncRNA的长度和MFE之间都与预期值呈负相关,但在新的lncRNA中这种关系较弱(图1)。
图1非编码转录本contig基于模型的结构稳定性与长度呈负相关。A新的lncRNA,B已知的lncRNA。
已知lncRNA长度显著长于新lncRNA(图2)。注释的lncRNA长度在204-4691nt之间,而假定的新lncRNA长度都在400nt以下,这与之前的基于转录组的lncRNA研究一致,即使在基因组是指导下组装,也是倾向于产生较短的contig。转录组组装中reads深度覆盖水平,两组的分布都是右偏的(图3),已知lncRNA比新lncRNA具有更高的覆盖水平,两组的差异没有长度差异那么明显。
图2 已知lncRNA序列比新lncRNA长。147个新非编码转录本和40个与已知非编码转录本同源的非编码转录本的连续长度密度分布。
图3 泛组织转录组组装中,已知的lncRNA比新的lncRNA具有更高的覆盖水平。147个新非编码转录本和40个与已知非编码转录本同源的非编码转录本contig覆盖深度的密度分布。
4 推测的新lncRNA与河狸基因组比对

研究人员将147个新lncRNA与河狸基因组比对,每条转录本的比对具有90%以上的一致性。为了进一步验证147个新的contig,使用BLASTn将它们与河狸基因组比对,其中144个最佳比对E值都小于10-18,所有的序列比对率都大于90%,其中140个序列大于95%。
 
5 美洲河狸中的新lncRNA

新lncRNA作为用来确定生物学合理性的方法,与其注释的类似物种表现相似。有8个候选的lncRNA在各个方面都具有有力的证据(表2)。其中有5个在长度和MFE在前十水平,长度和MFE之间的这种一致是因为转录长度和二级结构稳定性之间存在的相反关系(图1)。这8个新lncRNA至少在一个组织中有稳定的表达(RPKM≥6.5)(图4)。可能是由于新lncRNA转录本的长度和reads覆盖率之间并无关系的原因,这些转录本的覆盖率都不高(图5)。
 
表2 新lncRNA在多个关联中最强的证据
图4 美洲河狸新lncRNA的组织特异性表达。热图行对应147个lncRNA,列对应16个组织。
图5 平均reads覆盖深度与长度无关。A新lncRNA,B已知lncRNA。
 
6 已知lncRNA或已知非编码转录亚型的河狸同源基因

在40个可以鉴定到高可信度的lncRNA的直系同源基因中,注释到了16个lncRNA,12个非编码反义RNA,10个蛋白质编码的非编码亚型RNA和两个同义重叠RNA(表3)。为了评估河狸lncRNA与已知直系同源物的可能功能一致性,分析了表3中lncRNA的人类直系同源基因的KEGG注释,并进行富集分析。分析得出7条显著富集(FDR<0.05)的通路(表4),其在人类中组成基因与查询的lncRNA表达呈显著相关。
表3 河狸中可能是已知lncRNA或非编码转录本的同源基因的非编码RNA
表4 河狸lncRNA中人类同源基因通路富集分析结果
7 河狸lncRNA的组织水平表达

在鉴定分析后,对16个河狸组织lncRNA进行表达水平分析,所取组织包括:全血、脑、肺、肝、心脏、胃、肠、骨骼肌、肾、脾、卵巢、胎盘、河狸香腺、尾皮、趾蹼和舌头。147个新lncRNA(图4)和40个已知lncRNA(图6)的组织特异性表达谱的热图展示了组织特异性和广泛表达的河狸lncRNA。对基于RNA-seq的lncRNA表达量的检验,将结果与Lok研究结果比较,两组lncRNA表达量的相关系数为0.66。
图6 与已知非编码转录本同源的河狸lncRNA的组织特异性表达。热图行对应于40个contig,列对应于16个组织。
 
8 lncRNA-contig81051.1基因相关分析

研究人员选择了一个整体表达水平较高的新lncRNA,contig81051.1利用共表达分析探讨其可能的下游调控基因。鉴定到10个潜在的靶基因,在不同组织中RNA序列与lncRNA表达量相关系数为0.94,其中有8个基因定位到哺乳动物的同源基因。这8个基因GO功能注释富集到DNA重组功能,说明lncRNA-contig81051.1可能参与了染色质维持的调控。40个已知lncRNA表现出4种表达模式(图6)。例如,contig10709.1是心脏和骨骼肌特异表达基因与人类同源基因表达模式一致。在所有河狸组织中表达的已知同源基因的lncRNA,其人类同源基因普遍也表达。
9 二级结构分析

研究人员选择了两个lncRNA,一个已知lncRNA(lncRNA_contig11359.1,人lncRNA MEG3直系同源基因)一个新lncRNA(lncRNA_contig44966.1,卵巢和脾脏特异性表达)进行预测二次结构分析。河狸MEG3-lncRNA的最小自由能二级结构(图7A)具有三个分支结构,与先前发表的人类MEG3的二级结构(图7B)惊人地相似,且三个基序域明显。脾脏和卵巢特异性lncRNAlncRNA_contig44966.1在所有新lncRNA中MFE最低(图1A)且二级结构置信度高,中心泡有四个分支(图8)。由于lncRNA种间保守性比在二级结构水平上低,所以使用基于k-mer工具来评估lncRNA_contig44966.1在小鼠中是否有同源基因。其中得分最高的lncRNAGm9754-201相关系数最高为0.61,结构相似性较小,所以在小鼠中没有lncRNA_contig44966.1的直系同源基因。
图7最小自由能二级结构预测。AlncRNA_contig11359.1B人MEG3的同源序列
图8lncRNA_contig44966.1最小自由能二级结构预测。

结论

通过对美洲河狸16个组织的转录组分析,鉴定了40个已知的lncRNA和147个新lncRNA,分析了它们在成年河狸16个组织中的表达水平。根据已知的40个lncRNA的同源性对其进行注释,确认了其中几个lncRNA的组织表达的一致性,获得同源组织表达数据。其中8个lncRNA具有重要的生物学意义,可以用作有针对性的功能研究假设生成的基础。

评论

本文首次对河狸全组织进行转录组分析,所使用的分析流程是通用的,并且该流程可以用于在其他物种中基于RNA序列的lncRNA鉴定。从该分析中得到的序列数据将为优化河狸基因组注释、河狸基因的所有组织的表达水平、扩展啮齿动物比较基因组学提供了基础,阐明了河狸独特适应的生物学机制。

更多推荐

科研 | PNAS:转录组学揭示急性和慢性饮酒对肝脏昼夜新陈代谢有不同的影响

重磅综述 | Cell:非编码RNAs在肿瘤学中的作用(IF=36.216)

(0)

相关推荐