mirRNA与lncRNA研究策略

一、miRNA的一般研究策略

miRNA也称微RNA、microRNA,是真核生物中广泛存在的一种长度为21-23nt的RNA分子,可通过与mRNA的结合,抑制mRNA的转录,因此在基因表达调控、细胞周期、生物体发育时序等方面起重要作用。

图1 miRNA的一般研究策略及相关实验手段

1. 生物信息学预测靶基因

要对miRNA进行研究,首先需要采用生物信息学的方法预测miRNA的靶基因位点,即被miRNA基因沉默的作用部位。如TargetScan algorithm、PicTar algorithm、DIANA-microT algorithm、miRanda algorithm、PITA和rna22 algorithms。

2. 靶基因的预测结果确认

进行靶位点预测之后,接着是要通过miRNA pulldown方法,识别靶基因位点。其中,有以下三种常用的pull-down方法:

(1)生物素化的miRNA pull-down(biotinylated miRNA pull-down)。通过生物素标记的合成miRNA转染细胞,孵育后裂解细胞,用链霉亲和素包被磁珠吸附筛选miRNA及其作用的mRNA。

图2 生物素化的miRNA pull-down

(2)标记的miRNA pull-down(labeled microRNA pull-down assay,LAMP),通过用地高辛(DIG)标记的pre-miRNA寡核苷酸与细胞提取物混合孵育,用抗地高辛的抗体做免疫共沉淀(IP),获得被共沉淀的mRNA。

(3)核蛋白免疫共沉淀-RNA高通量测序(Ribonucleoprotein immunoprecipitation followed by microarray chip analysis,RIP-Chip,RIP-seq),通过用合成的miRNA转染细胞,孵育后裂解细胞,用特异的抗AGO2抗体对RISC进行免疫共沉淀,对获得的mRNA进行microarray分析。

图3 RIP-Chip基本实验流程

3 .miRNA的直接功能确认

通过实验方法验证miRNA是否能特异结合靶mRNA并特异抑制其表达。

(1)3’-UTR reporter assay

通过在报告基因如荧光素酶CDS的下游3’-UTR区域插入待确认的目的基因,克隆到载体如psiCHECK-2上,载体转染细胞,再用miRNA进行处理,如果目的基因上含有靶位点,则荧光素酶的转录受到抑制不发荧光。

图4  3’-UTR报告基因基本实验流程  
图5  3’-UTR报告基因验证miRNA直接作用情况

(2)miRNA的上调与下调

通过人工合成miRNA模拟物(miRNA mimics)或miRNA抑制物(miRNA inhibitor),增强或抑制miRNA的抑制效果,并与对照相比。

图6 miRNA的上调与下调验证miRNA直接作用情况

(3)位点定向突变(site-directed mutagenesis)

首先,将待测基因反转录为cDNA,通过用致突变的引物对cDNA模板进行重叠PCR扩增;然后,用相关的酶(一般为Kinase-Ligase-DpnI)对cDNA模板进行消化,克隆到报告基因载体;最后,将构建好的克隆转染至细胞,检测报告基因的表达。若表达显著下降,可表明靶位点定位准确。

图7 位点定向突变基本实验流程

4. miRNA的整体功能验证

对miRNA的上调/下调,通过Western Blot或其他生物学通路分析实验,探究miRNA最终是如何影响细胞、疾病等等情况。

5. miRNA的定量和定位

通过RT-qPCR、原位杂交(in situ hybridization)、microarray等实验手段,确定miRNA的具体表达量及其所在位置,以明确补充其机理研究。

二、AGO2在miRNA研究中的应用

AGO蛋白在miRNA通路中发挥多种功能。它们通过产生ac-pre-miRNA,参与了miRNA装配的过程,同时它们是RISC效应器蛋白,介导mRNA降解、去稳定作用或者转录抑制。另外,AGO2蛋白可以在转录后调控调节miRNA丰度,内源性Ago2的减少会降低成熟miRNA的表达和活性。Ago2的这个特殊功能是独立于它的剪切功能及内切酶活性的。

1. 人类AGO2蛋白

图1 人源AGO2基因染色体及cDNA结构图  

尽管所有的Argonaute蛋白都具有Piwi结构域,但并非所有的Argonaute蛋白都具有剪切活性。研究表明,人体内4中AGO蛋白(EIF2C1/hAGO1,EIF2C2/hAGO2,EIF2C3/hAGO3,EIF2C4/hAGO4)中,只有EIF2C2/hAGO2具有剪切活性。进一步研究显示,RNase H酶的活性位点包括一个天冬氨酸-天冬氨酸-谷氨酸/天冬氨酸肽链(Asp-Asp-Glu/Asp motif),正是这段肽链与Mg2 结合。人体AGO1及AGO4蛋白中的肽链都和这段保守的天冬氨酸-天冬氨酸-组氨酸肽链不同,而AGO3虽然拥有相同的保守肽链,在体外实验中同样未表现出剪切活性。体外实验中,通过突变改变人体AGO2这段保守序列后,AGO2失去剪切活性。

表1 基因沉默中可能与AGO2相互作用的蛋白

为得到AGO2蛋白具有剪切功能的直接证据,Meister构建了EGFP标记的报告基因。将此报告基因转染Hela细胞,筛选得到稳定表达的细胞株。向此细胞株中转染与报告基因的3’-UTR互不配对的全长miR16。一段时间培养后,实验组(转染miR16)Hela细胞表达的绿色荧光明显减弱,对照组(未转染miR16)荧光无明显变化,证实EGFP标记的此报告基因可被miR16抑制表达。选取实验组细胞,分别敲除AGO1-4。与未敲除细胞相比,敲除AGO1/ AGO3/ AGO4组细胞荧光表达无明显变化;敲除AGO2组细胞荧光表达明显上调。证实在miRNA介导的对靶mRNA的降解过程中,只有AGO2具有剪切活性,能够剪切mRNA。

2 .AGO2影响miRNA作用的发挥

(1)AGO2参与miRNA装配过程

在细胞核中,RNA合成酶II或III产生Pri-miRNA转录本,接着Drosha-DGCR8复合物对pri-miRNA进行剪切,获得的前体发夹结构,pre-miRNA,被Exportin-5-Ran-GTP从细胞核转移到细胞质。RNA酶Dicer与双链RNA结合蛋白TRBP的复合物剪切pre-miRNA 为它的成熟长度。成熟miRNA的功能链被Ago2装配到RNA介导沉默复合物RISC上,它引导RISC,通过mRNA剪切、转录抑制或脱腺苷化对靶mRNA进行沉默,而信使链则被分解。

图2 miRNA生产过程的“线性化”经典途径

(2)AGO2的修饰调节AGO2的活性机制

在细胞应激条件下,人AGO2蛋白可以在Ser387残基被p38 MAP激酶磷酸化有助于AGO2定位到处理器processing bodies上。P-bodies是非转录mRNA和与mRNA翻转、转录抑制相关的多种酶系的累积场所,包括AGO2蛋白和miRNAs。

图3 miRNA生产过程因子的调控

(3)RISC装配复合物(RLC):Dicer、TRBP和PACT与AGO2的连接

RISC是miRNA通路的细胞质效应器,包括一个单链miRNA将它引导至其靶mRNA。细胞质miRNA的处理和RISC的装配都是被RLC所介导。RLC是一个多蛋白复合物,包括RNase Dicer、双链RNA结合蛋白复合物TRBP(Tar RNA binding protein)和PKR的蛋白激活物PACT,其核心组分为AGO2,介导RISC作用于mRNA靶位点。

Dicer和TRBP相互作用,而后被Ago2招募,形成三体复合物,结合被转运的pre-miRNA组成RISC装配复合物RLC。

图4 Dicer、TRBP与AGO2的连接

(4)AGO2介导pre-miRNA的剪切:ac-pre-miRNA

由于miRNA的发夹茎环结构上序列互补程度非常高,在Dicer介导的序列剪切之前需要一个额外的内切核苷酸的剪切步骤:AGO2的剪切功能被激活,剪切发夹结构的3’ 臂——预期为信使链的中间,得到一个带缺口的发夹架构,产生AGO2-剪切的miRNA前体或称为ac-pre-miRNA。Dicer处理这个前体和pre-miRNA的效率是一样的。

图5 AGO2介导pre-miRNA的剪切

3. AGO2的实验应用

AGO2是RISC的核心组分,联系着miRNA和它们的mRNA靶位点。因此,在合适的条件下对AGO2的免疫纯化(IP)可以获得相互结合的miRNA和mRNA,从而识别miRNA的靶位点。还可以进行免疫荧光,检测三者复合物在细胞内的定位。

图6 结合AGO2的RNA的系统分选与鉴定

三、LncRNA的一般研究策略

图1 LncRNA的一般研究策略

(1)LncRNA筛选

通过lncRNA芯片或RNA测序等方法对多对疾病模型和对照样本组织进行lncRNA表达谱分析;通过生物信息学的方法筛选出具有表达差异的lncRNA,构建共表达网络,预测lncRNA的靶基因;通过PCR或Northern Blot技术对候选lncRNA验证,确定其表达差异。

(2)LncRNA全长克隆

可以通过5'RACE获取lncRNA 5'全长,3'RACE获取lncRNA 3'全长,最终拿到完整的lncRNA序列。

(3)表达分析

细胞水平表达:在细胞水平进行检测表达差异。

组织分布:检测不同组织、不同阶段表达特性。

表达水平动力学变化:比较不同处理条件下,如药物处理、诱导处理下,表达水平差异。

(4)功能研究

功能获得性研究:构建lncRNA过表达载体。

功能缺失性研究:可通过siRNA、shRNA、反义核酸等方法沉默lncRNA,干预       lncRNA后检测其对疾病相关基因表达影响和对细胞表型如增值、凋亡、侵袭、转移等的影响。

可通过RNA pull down、RNA-RIP、ChIRP-seq等方法检测与lncRNA结合的DNA、RNA、蛋白质。

表达调控:将lncRNA表达与其他领域相结合,解释lncRNA调控机理。

转录因子:研究lncRNA与转录因子的调控机制。

染色质重塑:lncRNA表观调控。

ceRNA机制:研究lncRNA-miRNA-mRNA三者之间的调控机制。

2. LncRNA的一般研究实验手段

图2 LncRNA的一般研究实验手段  

(1)与蛋白质的相互作用

识别lncRNA的蛋白质伙伴,可以为它们的功能的机制和路径提高线索。RIP技术,如chemical-cross-linked RIP、native RIP (nRIP)、UV-crosslinked immunoprecipitation (CLIP)使用抗体来pulldown核蛋白复合物,然后从中分离相关RNA用于分析。每个变体都有它各自的优势和缺陷。nRIP提供交联产物,而CLIP在避免交联产物的重新组合的同时用于识别RNA与蛋白质相互作用位点。这些技术可以结合高通量测序,如RIP-Seq、HITS-CLIP/CLIP-Seq,来识别lncRNA相互作用的全部宿主蛋白质因子,尽管还需要技术手段的确认。

(2)与DNA的相互作用

有几个实验技术被用于识别lncRNA的基因组靶位点。以染色体免疫共沉淀(ChIP)和RIP技术的原理为基础,使用染色体RNA免疫共沉淀(ChRIP)来识别与特殊染色体标签相互作用的RNA。另一方面,chromatin oligo-affinity precipitation (ChOP)、chromatin isolation by RNA purification (ChIRP)、capture hybridization of RNA targets (CHART)使用标记的互补寡核苷酸来识别与目的RNA相互作用的DNA位点。

图3 ChIRP基本实验流程

(3)结构特征

lncRNA可以形成特殊的二级和三级结构来执行它们的功能。通过selective 2’-hydroxyl acylation analyzed by primer extension (SHAPE)和in-line probing来获得局部核苷酸柔性。SHAPE可用于高通量分析,如SHAPE-Seq,连接其它依赖于RNA酶消化的技术,如fragmentation sequencing (FragSeq)和parallel analysis of RNA structure (PARS)。

四、miRNA与lncRNA的生物信息学预测

图1 生物信息学在miRNA研究中的应用

当开始研究一基因是否为一个miRNA调控的靶基因时,可以用不同的生物信息学计算方法来分析每个序列(如mRNA的3'-UTR区序列),这些计算方法采用不同的参数来预测一个给定的靶mRNA内具功能性miRNA结合位点的可能性。由于每种计算方法的有效性不同,下面3种计算方法应该被用来预测miRNA结合位点:miRanda、TargetScan和PicTar.这3种计算方法都允许研究者输入一个基因符号,这些计算方法将计算此基因内所有预测的miRNA结合位点。此外,这些计算方法可测定一个给定的miRNA所有的靶mRNA.因为不同的计算方法会预测出不同的miRNA结合位点,所以同时使用多种计算方法进行预测非常必要。值得注意的是,尽管miRNA结合位点在不同物种间的保守性是各种不同计算方法的组成部分,但并不是一个功能性位点所必需的。由于不同计算方法预测的结果存在很大的差异,如何确定哪些预测的结合位点需要进一步的实验验证成为研究者要面临的一个难题。作者认为至少这3种计算方法中的2种计算方法均预测到的miRNA结合位点,有必要进一步用实验验证。

因为很多经种子序列匹配预测的miRNA靶经体内验证实验证实并不是真的miRNA靶,为了起始一步减少预测到的抑制一给定的靶mRNA表达的miRNA的数量,进一步的程序分析是有必要的。结构特征控制着miRNA/mRNA间的相互作用的观点已被越来越多的人所接受。例如,一个RNA分子的大部分结构是高度复杂性的,只有特定的单链区域允许miRNAs接近并与互补位点结合。因此,复杂的RNA二级结构可能阻止miRNA/mRNA的相互作用。最近有研究证实,绝大部分已证实的靶的一个共同特征是优先与基于热动力学在RNA分子中容易接近且没有复杂二级结构的3’-UTR区中的位点。由于RNA可接近性可能是靶识别的一个关键特征,所以有必要采用mFold软件测定预测到的miRNA结合位点5’端和3’端各70个核苷酸的自由能,当其低于平均随机自由能时提示此位点允许miRNA接近并结合[20].这些允许miRNA接近并结合起来的位点,有必要进一步用实验进行验证。

在不同物种中成熟miRNA均是从具有茎环状二级结构的前体加工而来,具有较大的序列同源性。克隆到的miRNA序列通过检索基因组数据库找到在基因组中的位置,在和周围基因组序列比较中发现他们同样具有相似的前体结构,多位于编码基因间或内含子反向重复区域。一些miRNA基因在进化上具有高度保守性,此为生物信息学筛选的基础。该方法根据比较基因组学原理,并结合生物信息软件在已测序基因组中进行搜索比对,根据同源性的高低再进行RNA二级结构预测,将符合条件的候选miRNA与已经通过试验鉴定的miRNA分子进行比较分析,最终确定该物种miRNA的分步及数量。目前国际上较为普遍使用的两个计算机分析工具是miRseeker和miRscan,前者已用于果蝇及昆虫基因组候选基因的系统分析,后者则用于线虫和脊椎动物候选基因的分析。这两个工具已经成功鉴定出了大量的miRNA基因并通过了实验证实。由于miRseeker和miRscan的高灵敏度,它们已用于人类miRNA基因的寻找。由于该方法只能用于已完成基因组测序的物种,而那些未完成测序的物种就无能为力,而且由于miRNA前体长度的可变性,故用计算机方法寻找新基因具有一定的遗漏性,所以目前大多数实验室将计算机分析与实验方法结合使用,使得miRNA的发现量成几何级数增长。目前日益发展的微阵列技术也在筛选miRNA基因方面显示了极大的潜力。

随着疾病特异性的miRNAs不断被鉴定,对感兴趣的疾病通路中的新靶基因进行验证可能催生新的治疗策略。因此,能够鉴定和验证miRNA/mRNA靶配对具有极其重要的意义。尽管生物信息学方法和自由能分析并不完美,但可使作者能够对推测的miRNA/mRNA靶配对进行鉴定。一旦生物信息学方法预测成功,可以通过以下4条标准验证miRNA/mRNA靶配对的真实性。(1)miRNA/mRNA靶相互作用得到验证。(2)miRNA/mRNA共表达。(3)给定miRNA对其蛋白表达有可预测的影响。即用此miRNA的类似物可减少靶基因表达水平,而用此miRNA特异性抑制剂可增加靶基因的表达水平。(4)miRNA介导靶基因表达的调控导致相应的生物学功能的改变。

2. LncRNA的生物信息学预测

对lncRNA进行鉴定时,采取的策略是收集不同类型的数据(包括polyA RNA sequencing、nonpolyA RNA sequencing、表观遗传信号值、编码可能性、保守性和RNA结构等),并对其进行分析。例如CDS的RNA-seqpolyA的表达值比较高,而ncRNA的RNA-seqnon-polyA表达值比较高。通过对不同类型数据的整合,还可以进一步得到不同类型基因元素的网络调控关系。

对lncRNA进行综合分析的一般流程如下:(1)将基因组划分成小的单位(bin),根据Gencode的注释信息对每个bin进行注释;(2)分别计算每个bin的特征值,这些特征值包括序列保守性、结构稳定性、RNA表达值、组蛋白修饰、转录因子结合等;(3)利用机器学习的模型,将lncRNA与其他基因类别区分开,并且对新的lncRNA进行预测。

图2 利用数据整合对lncRNA进行鉴定
图3 lncRNA综合分析方法流程示例

有的时候我们的专业知识不足以完成分析和预测。尤其在面对高通量数据时,从中挖掘有用的信息尤为关键。这时可以用到机器学习(machinelearning)的方法,令机器自动分析数据,比如特征提取或是分类。机器学习应用在生物信息学主要有两大分支,即监督学习(supervisedlearning)和非监督学习(unsupervisedlearning)。在监督学习问题中,每个数据拥有一个对应标签,我们希望通过数据建立一个模型,根据数据预测标签。传统的监督学习方法包括线性判别分析(LDA)、决策树(decisiontree)、最近邻法(nearestneighbor)和神经网络(neuralnetwork)。20世纪90年代后,诞生了一批很有影响力的工作,包括支持向量机(SVM)、Adaboosting和随机森林(randomforest),相比于传统的方法,上述方法更好地处理了过拟合(overfitting)的问题,从而在实际应用中有很好的预测效果。

LncRNA研究是基因组时代重要的科学前沿,因为它有可能揭示一个全新的由RNA介导的遗传信息表达调控网络,从不同于蛋白质编码基因的角度来注释和阐明基因组的结构与功能,并为人类的疾病研究和治疗提供新的思路和方法。同时,新一代测序技术的发展也为鉴定lncRNA的计算机方法提供了强大的支持。以下是整理的长非编码RNA(lncRNA,lincRNA)数据库资源列表(按字母排序)。国内外长非编码RNA的研究刚刚兴起,希望这资源对国内的非编码RNA的研究者有所帮助。

(1) ChIPBase:提供长链非编码RNA的表达图谱和转录调控的全面鉴定和注释。整合了高通量的RNA-seq鉴定的lncRNA及其表达图谱和ChIP-Seq实验技术鉴定的转录因子结合位点。

网站:http://deepbase.sysu.edu.cn/chipbase/

更新:2012年11月

(2)LNCipedia:对人类的长链非编码RNA的序列和结构全面的注释。

网站:http://www.lncipedia.org

更新:2012年7月

(3)lncRNAdb:提供有生物学功能的长链非编码RNA的全面注释。这是长链非编码RNA研究领域的大牛John mattick实验室构建的网站。

网站:http://www.lncrnadb.org/

更新:2011年7月

(4)LncRNADisease:提供了文献报道的疾病相关的长链非编码RNA的注释。

网站:http://cmbi.bjmu.edu.cn/lncrnadisease

更新:2012年7月

(5)NONCODE:提供对长链非编码RNA的全面注释,包括表达和该团队开发的ncFANs计算机软件预测的lncRNA功能。这是非编码RNA研究的知名数据库,已经更新到第三版。

网站:http://www.noncode.org

更新:2012年1月

(6)NRED: 提供人和小鼠的长链非编码RNA在芯片数据的表达信息。这也是John mattick实验室构建的网站。

网站:http://jsm-research.imb.uq.edu.au/nred/

更新: 2009年

(0)

相关推荐