编译:阿菲,编辑:夏甘草、江舜尧。
原创微文,欢迎转发转载。
导读
在过去的十年里,由于测序成本的持续下降和最新的易于使用的文库构建工具的开发,RNA测序(RNA-seq)已经超过微阵列成为基因表达谱分析的金标准。迄今为止,拟南芥共发布了20000多个RNA序列文库,仅在2019年第一季度就有1300多个文库(图1A)。这一巨大的资源对于所有拟南芥研究人员研究转录调控、组织特异性、胁迫反应和他们感兴趣的基因的发育动力学非常有用。然而,对于缺乏专门的生物信息学人员或昂贵的计算资源的群体来说,获取和挖掘大量RNA序列数据仍然是一个巨大的挑战。
原名:A comprehensive online database for exploring ~20,000 public 1 Arabidopsis RNA-Seq libraries
译名:一个综合在线数据库,用于探索~20000个公共1拟南芥RNA序列文库
期刊:Molecular Plant
IF:12.084
发表时间:2020.08.04
通讯作者:翟继先
通讯作者单位:南方科技大学生物系植物与食品研究所
DOI号:10.1016/j.molp.2020.08.001
作者展示了拟南芥RNA序列数据库(ARS,http://ipf.sustech.edu.cn/pub/athrna/),该数据库整合了20068个可公开获得的拟南芥RNA序列库数据,该文库存放在Gene Expression Omnibus(GEO)、Sequence Read Archive(SRA)上,欧洲核苷酸档案24(ENA)和日本DNA数据库(DDBJ)在2019年3月25日之前(图1B)。作者下载了所有文库的原始数据,用26个标准化的流水线重新处理,将读取的数据映射到TAIR10基因组,并计算了Araport11中注释的所有37336个基因在每个文库中的标准化27表达水平(FPKM(每千基转录的片段数,每百万次映射读取数),并利用这些信息进行了共表达29分析(详见补充资料)。还将30个文库分别分为1176、1102、12和176组突变体、处理条件、组织和31个发育阶段(补充表2-7),并分析了不同突变体或处理下所有基因的32种差异表达水平。ARS是一个免费的、可访问的、用户友好的数据库,支持对基因ID、library ID、BioProject ID、关键字或这些查询组合类型,以一个或多个表和图的形式显示所选库中特定基因的表达水平。此外,内置在线整合基因组学查看器(IGV)(Robinson等人,2017)支持查看每个库的详细阅读比对,用户可以通过关键字搜索和选择库。搜索结果可以很容易地与其他人分享,点击“分享”按钮生成当前页面的链接。以AT2G17690(41 DRM1 DRM2 CMT3的抑制器,SDC)的查询结果为例,“信息”页面显示了SDC的基本信息,包括所有库中FPKMs的最大值、最小值、中值和平均值的统计,以及轨迹类型、别名、符号等详细信息,基因组坐标链,和基因结构。“数据表”页签显示了45个20068个库中SDC的FPKM值,包括样本名称、项目、生态型、基因型、组织、共46次读取、唯一映射率、发布日期等信息。“数据图”显示了不同组织(补充图1A)、发育阶段(补充图481b)、应激相关条件以及不同突变体(补充图1C)之间sdc47的FPKM值。49个“共表达”页面显示了其他基因,其表达模式与50个查询的基因密切相关。在线IGV可用于浏览所选51个库中SDC轨迹上的读取对齐(补充图1E)。作为一个验证,作者检查了几个已被充分记录的标记基因的表达,它们在该数据库中的表达水平与之前的53篇报道高度一致,如胁迫相关基因AT5G52310(对干燥反应54 29A,RD29A)、花粉特异表达基因AT5G45880(LAT52)和水分亏缺标记55AT2G33380(响应干燥20,RD20)(图1C)。此外,ARS可用于在20000多个文库中快速进行电子筛选,以鉴定特定基因型、条件或组织,这些基因型、条件或组织表现出感兴趣基因的改变。还是以SDC为例,SDC是植物利用基因沉默抑制内源基因的经典标记基因,其正常表达严格限制在胚乳中,但当转录基因沉默缺陷时,可以在体细胞组织中发现(Henderson和Jacobsen,2008)。在图1中高度表达的缺失突变体,如图1所示的缺失突变体,同时还发现了两组表观遗传调控相关的文库,这些文库以前没有报道过参与内源性sdc66的沉默(补充图1D)。第一组来自collin1突变体(hgf1-1 rep1和rep2)的两个生物复制品,该突变体编码形成68 Cajal体所需的支架蛋白,该蛋白与核处理中心的AGO4和NRPE1共定位,是DNA甲基化的全部功能所需的69个蛋白(Li等人。,2006年)。第二组文库来自于GENERAL CONTROL NONDEREPRESSIBLE 5(GCN5)的突变体,组蛋白乙酰转移酶和乙酰化组蛋白的读取器蛋白已被证明调节SDC表达(Zhang等人,2016)。因此,ARS提供了快速、灵敏和高通量的筛选方法来识别新玩家。随着存放在公共域中的RNA序列文库数量的增加,这种方法的效率将继续提高。在未来,作者计划定期更新ARS,增加最近出版的RNA序列库,并继续将这个站点作为一个免费的、有用的资源来维护。该数据库还可以用于普通用户方便地进行大规模的数据挖掘。例如AT4G14140(DNA甲基转移酶2,MET2b),DNA甲基转移酶家族成员MET,在胚乳中特异表达(图1D,左图82)。令人惊讶的是,快速搜索所有83个文库中MET2b的表达水平,结果表明它在多个野生型幼苗文库中表达,其丰度甚至比胚乳中的高。从多个独立的实验中仔细观察这些野生型文库发现,它们被不同类型的油菜素甾体(BR)抑制剂处理,如brassinazole(Brz)和丙环唑(PPZ),因此强烈表明BR相关的信号调节MET2b的表达(图1D,右图)。因此,我们的网站增加了丰富的网络可查询大型数据集集合,使研究人员能够使用大数据,开发出健壮、可测试的假设,而实验成本很低甚至没有(Brady and Provart,2009)。许多优秀的基于web的资源已经开发出来,用于托管和分析mRNA seq数据,例如MPSS数据库(Nakano等人,2006年)、UCSC基因组浏览器(Kent等人,2002年)、Anno-J浏览器(Lister等人,2008年)、Genevestigator(Hruz等人,2008年)、EPIC CoGe浏览器(Nelson等人,2018年),BAR的电子荧光象形图(eFP)浏览器(Winter 等人,2007年)和CoNekt(Proost和Mutwil,2018年)。与这些现有资源相比,设计用于主持单个项目或多个项目,或探索基因表达的空间和98个时间动态,这需要较少数量的微阵列或RNA seq 库(使用1385个微阵列样本,CoNekT使用913个RNA序列样本),ARS可以通过简单的“Google-like”搜索从20000多个拟南芥RNA seq-101文库中快速提取任意基因的丰度信息,并对组织102特异性、发育阶段、胁迫相关以及突变体和103种治疗方法的差异表达进行多重可视化。此外,ARS还可以通过内置的在线igv104基因组浏览器方便地查看这些数据。随着拟南芥RNA序列文库数量的快速增长,我们计划在未来定期更新ARS。(A) 2009年至2018年每年拟南芥测序碱基的数量。X轴表示3表示数据生成的年份,y轴表示以GB为单位的序列基数。4(B)拟南芥RNA序列数据库(ARS)的构建概况。从GEO、SRA、DDBJ和6个ENA数据库中收集了200685个公开可用的拟南芥RNA序列文库,并通过统一的管道进行处理。所有基因和文库相关的7个信息都可以通过我们的ARS网站8上的基于关键字的搜索来访问(http://ipf.sustech.edu.cn/pub/athrna/). 9(C)一些标记基因的表达水平。左图为10个花粉特异性表达的基因,LAT52,在不同的组织中;中间的一个例子是在不同的非生物胁迫下,一个缺水-11的标记实例RD20;右图显示了RD29A在不同处理的前10个上调文库中的12个表达水平,如13,干旱,盐。14(D)MET2b在不同组织和实验条件下的表达水平。左侧面板15显示不同组织中MET2b的表达水平。右图显示,与其他激素相关的17种处理相比,在BRZ、PPZ和乙烯处理的文库中,MET2b是16诱导的。ARS是一个免费的、可访问的、用户友好的数据库,支持对基因ID、library ID、BioProject ID、关键字或这些查询组合类型,以一个或多个表和图的形式显示所选库中特定基因的表达水平。此外,内置在线整合基因组学查看器(IGV)(Robinson等人,2017)支持查看每个库的详细阅读比对,用户可以通过关键字搜索和选择库。搜索结果可以很容易地与其他人分享,点击“分享”按钮生成当前页面的链接。以AT2G17690(41 DRM1 DRM2 CMT3的抑制器,SDC)的查询结果为例,“信息”页面显示了SDC的基本信息,包括所有库中FPKMs的最大值、最小值、中值和平均值的统计,以及轨迹类型、别名、符号等详细信息,基因组坐标链,和基因结构。“数据表”页签显示了45个20068个库中SDC的FPKM值,包括样本名称、项目、生态型、基因型、组织、共46次读取、唯一映射率、发布日期等信息。“数据图”显示了不同组织(补充图1A)、发育阶段(补充图481b)、应激相关条件以及不同突变体(补充图1C)之间sdc47的FPKM值。49个“共表达”页面显示了其他基因,其表达模式与50个查询的基因密切相关。在线IGV可用于浏览所选51个库中SDC轨迹上的读取对齐(补充图1E)。作为一个验证,作者检查了几个已被充分记录的标记基因的表达,它们在该数据库中的表达水平与之前的53篇报道高度一致,如胁迫相关基因AT5G52310(对干燥反应54 29A,RD29A)、花粉特异表达基因AT5G45880(LAT52)和水分亏缺标记55AT2G33380(响应干燥20,RD20)(图1C)。此外,ARS可用于在20000多个文库中快速进行电子筛选,以鉴定特定基因型、条件或组织,这些基因型、条件或组织表现出感兴趣基因的改变。还是以SDC为例,SDC是植物利用基因沉默抑制内源基因的经典标记基因,其正常表达严格限制在胚乳中,但当转录基因沉默缺陷时,可以在体细胞组织中发现(Henderson和Jacobsen,2008)。在图1中高度表达的缺失突变体,如图1所示的缺失突变体,同时还发现了两组表观遗传调控相关的文库,这些文库以前没有报道过参与内源性sdc66的沉默(补充图1D)。第一组来自collin1突变体(hgf1-1 rep1和rep2)的两个生物复制品,该突变体编码形成68 Cajal体所需的支架蛋白,该蛋白与核处理中心的AGO4和NRPE1共定位,是DNA甲基化的全部功能所需的69个蛋白(Li等人,2006年)。第二组文库来自于GENERAL CONTROL NONDEREPRESSIBLE 5(GCN5)的突变体,组蛋白乙酰转移酶和乙酰化组蛋白的读取器蛋白已被证明调节SDC表达(Zhang等人,2016)。因此,ARS提供了快速、灵敏和高通量的筛选方法来识别新玩家。随着存放在公共域中的RNA序列文库数量的增加,这种方法的效率将继续提高。在未来,作者计划定期更新ARS,增加最近出版的RNA序列库,并继续将这个站点作为一个免费的、有用的资源来维护。该数据库还可以用于普通用户方便地进行大规模的数据挖掘。例如AT4G14140(DNA甲基转移酶2,MET2b),DNA甲基转移酶家族成员MET,在胚乳中特异表达(图1D,左图82)。令人惊讶的是,快速搜索所有83个文库中MET2b的表达水平,结果表明它在多个野生型幼苗文库中表达,其丰度甚至比胚乳中的高。从多个独立的实验中仔细观察这些野生型文库发现,它们被不同类型的油菜素甾体(BR)抑制剂处理,如brassinazole(Brz)和丙环唑(PPZ),因此强烈表明BR相关的信号调节MET2b的表达(图1D,右图)。因此,我们的网站增加了丰富的网络可查询大型数据集集合,使研究人员能够使用大数据,开发出健壮、可测试的假设,而实验成本很低甚至没有(Brady and Provart,2009)。许多优秀的基于web的资源已经开发出来,用于托管和分析mRNA seq数据,例如MPSS数据库(Nakano等人,2006年)、UCSC基因组浏览器(Kent等人,2002年)、Anno-J浏览器(Lister等人,2008年)、Genevestigator(Hruz等人,2008年)、EPIC CoGe浏览器(Nelson等人,2018年),BAR的电子荧光象形图(eFP)浏览器(Winter 等人,2007年)和CoNekt(Proost和Mutwil,2018年)。与这些现有资源相比,设计用于主持单个项目或多个项目,或探索基因表达的空间和98个时间动态,这需要较少数量的微阵列或RNA seq 库(使用1385个微阵列样本,CoNekT使用913个RNA序列样本),ARS可以通过简单的“Google-like”搜索从20000多个拟南芥RNA seq文库中快速提取任意基因的丰度信息,并对组织102特异性、发育阶段、胁迫相关以及突变体和103种治疗方法的差异表达进行多重可视化。此外,ARS还可以通过内置的在线igv104基因组浏览器方便地查看这些数据。随着拟南芥RNA序列文库数量的快速增长,我们计划在未来定期更新ARS。超实用RNA-Seq的综合在线数据库网址:http://ipf.sustech.edu.cn/pub/athrna/
更多推荐
1 高分综述 | Trends in Biotechnology: 单细胞分辨率下利用空间转录组揭示器官分子结构(国人佳作)