科研 | 武汉大学:MaGenDB:锦葵科植物功能基因组学集成数据库(国人佳作)
编译:阿昊,编辑:Emma、江舜尧。
原创微文,欢迎转发转载。
锦葵科含有许多重要的经济植物,包括棉花、可可和榴莲。近年来,研究人员已经对几种锦葵科植物的基因组进行了破译,并为单个物种生成了许多组学数据。然而,目前还没有一个完整的多物种数据库可以让用户联合比较和分析相关数据。因此,我们开发了一个数据库MaGenDB (http://magen.whu.edu.cn)作为植物群落的功能基因组学中心。我们收集了13种锦葵科植物的基因组,并从功能RNA/蛋白质元素、基因本体、KEGG同源结构和基因家族等不同角度对基因进行了全面的注释。我们利用编码管道处理了374组不同的组学数据,并将它们集成到一个定制的基因组浏览器中,我们设计了多个动态图表来展示基因/RNA/蛋白质的知识,如动态表达谱和功能元素。我们还开发了一个智能搜索系统来高效地挖掘基因。此外,我们还构建了一个功能比较系统,以帮助在一个物种或密切相关物种之间的多个特征的基因之间进行比较分析。这个数据库和相关工具将允许用户快速检索大规模的功能信息,以便进行生物发现。
论文ID
材料方法
图1总结了所有数据源、数据处理和web界面特性。MaGenDB由四个部分组成:数据采集、基因功能注释和组学数据处理、数据库建设、web界面和工具包开发。
1. 数据源
本研究中使用的所有物种和基因组均来自公共数据库。基因组全基因组关联研究(GWAS)和单核苷酸多态性(SNP)数据从NCBI-PubMed数据库中提取。从NCBI SRA数据库下载了不同类型的组学数据,包括RNA序列、smRNA序列、CAGE序列、polyA序列、芯片序列、DNA酶序列、亚硫酸氢盐序列(BS序列)和PacBio长读序列. 质谱数据从蛋白质交换数据库下载(图1A)。
图1 MaGenDB示意图
(A)数据来源包括锦葵科5个亚科(subfamilies)的13个种(species)。(B)总结数据处理和获得的生物学知识。(C)所有数据都存储在MySQL关系数据库中,并带有附加索引。Django和React框架用于前端和后端之间的交互式查询。(D)网络界面和MaGenDB用法概述。主要功能或数据列在第一级菜单下。虚线表示不同页面之间的链接。
2. 基因功能注释
锦葵科植物基因组中的所有功能成分都用统一的标准程序进行了彻底的注释(图1B)。对于没有基因注释的基因组,使用StringTie和RNA序列数据中的默认参数重建了基因模型,但最近从综合多策略RNA序列数据中组装了棉花的IGIA基因注释。分别用tRNAscan-SE 2.0和rfam_scan模型对tRNA和各种ncRNA基因进行了预测。用TRF程序鉴定串联重复序列。用CPAT计算蛋白质编码电位得分。建立了三个本地BLAST数据库,包括NCBI核苷酸(NT)、非冗余蛋白质和拟南芥信息资源(TAIR)数据库。使用blastn和blastp程序比较所有基因模型的DNA和蛋白质序列。用Blast2GO对基因的GO术语和EC编号进行了分配。KO标识符使用KAAS web服务器进行注释,同源基因通过eggNOG web服务器进行识别。蛋白质编码基因的潜在转录因子(TF)家族被定位到PlantTFDB数据库。
研究者还鉴定了各种功能蛋白结构域和RNA元件。分别使用InterProScan和InterPro数据库、PfamScan和Pfam数据库以及NCBI保守域(CDD)数据库预测InterPro、Pfam和保守蛋白质结构域。分别用signalP、TMHMM和IUPred2A预测信号肽、跨膜螺旋和紊乱区域。用QGRS预测RNA G-四联体(RG4),用psRNATarget webserver预测miRNA靶位点。
3. 比较基因组分析
与锦葵科植物比较分析的植物基因组从PLAZA下载。利用MCScanX预测MaGenDB中任意两个基因组之间的基因共线性簇。利用Clustal Omega构建了共线基因间的多重序列比对。
从STRING数据库中提取了两个锦葵科(Gossypiumraimondii和Theobroma cacao)和拟南芥基因组的蛋白质-蛋白质相互作用(PPI)。采用与STRING相似但更严格的策略,通过基因共线性转移PPI得分,预测MaGenDB中其他高度共线的基因组的PPI网络。对于两个蛋白质A和B,计算来自一个基因组的“组合得分”作为A和B共线基因对之间的平均交互作用得分,将来自多个基因组的“组合得分”平均作为预测的相互作用强度。
4. 数据集成
我们在MySQL数据库中分别集成了不同类别的基因、转录和蛋白质水平的功能注释。独特基因和蛋白质的表格是根据基因组位置建立的。对于基因水平的元素注释,我们在GeneWiki页面中合并基因组并构建“密集”格式的轨迹,而对于功能注释(例如GO-term),则使用来自最长转录信息。
5. 数据库建设
所有预处理的数据都集成到MaGenDB MySQL数据库中,其中不同的表通过功能元素、本体和基因组位置关联在一起(图1C)。Django框架用于从数据库后端提供查询和计算支持。
6. Web界面和工具箱开发
React框架开发了一个用户友好的web界面(图1D),并使用BizCharts库实现了多个定制的动态图表。所有的基因组特征和组学数据都是用JBrowse及其插件可视化的。BLAST服务器由Sequence server驱动。PCR引物设计由Primer3实施,并进行定制,以适应选择性剪接事件的支持。用R语言包topGO进行GO富集分析。使用NGL-viewer呈现蛋白质三维结构。GenomeSyn viewer被开发来可视化两个基因组之间的基因同步簇。
实验结果
1. MaGenDB概述
MaGenDB (http://magen.whu.edu.cn)是锦葵科植物的基因组学中心,包含13个种的367个可用的深度测序数据(图1A)。对于每个基因组,数据库提供了多种功能注释、DNA变异、染色质和RNAP II状态(图1B)。在MaGenDB中保存了大约3.7亿个对NT、NCBI非冗余蛋白质数据库和TAIR的BLAST注释。超过2400万个功能元件被注释,包括相互作用域、Pfam结构域、CDD、信号肽、跨膜螺旋和RG4。数据库包含170660615 ppis和98831个蛋白质3D结构预测(表1)。记录所有转录本和蛋白质的编码电位得分,并用质谱法进行分析。为了进行比较基因组分析,收集了51个其他植物基因组,并注释了总计28976317个基因共线性(表1)。
表1 MaGenDB数据摘要
2. 智能搜索系统
为了让用户快速找到感兴趣的数据,我们设计了一个智能搜索系统来搜索基因、转录本和蛋白质。支持的查询包括基因号、基因、RNA和蛋白质的标识符;KO、EC、KEGG途径、KEGG模型、KEGG疾病、InterPro域和Pfam域的名称和标识符;GO和CDD域的标识符;TF家族的名称(表2)。
表2 智能搜索系统中的查询字段及实例
3. 基因维基(Gene Wiki)
GeneWiki是MaGenDB显示基因、转录本和蛋白质的所有功能注释的页面(图2),如基因结构、本体注释、基因表达、质谱证据、功能域、基因共线性和预测的蛋白质三维结构。用户通过“搜索”页面或其他超链接登录此页面。通过单击下拉按钮(图2A),可以将详细数据查看为有组织的部分。
图2 GeneWiki中的注释
(A)GeneWiki页面中不同类型的功能注释。(B)显示蛋白质质谱证据位置和细节的自定义图形和表格。(C)条形图和表格显示不同组织中FPKM基因表达水平。(D)自定义动态图表和为蛋白质标注的功能元素表。(E)查询蛋白质的PPI网络的交互式视图。(F)蛋白质预测三维结构和模型细节的动态可视化。
4. 基因组浏览器与多组学数据集成
所有的基因模型、处理过的组学数据、MaGenDB中的注释功能元素都使用定制的JBrowse和适当的默认设置可视化(图3A)。配置了一组插件来增强浏览器的功能和可用性,包括生成高分辨率的图形。用户可以通过输入基因组位置或在其他页面(如GeneWiki)中的超链接,方便地探索感兴趣的基因。类似的轨道被组织成轨道组。轨迹可以通过勾选打开或关闭来显示或隐藏。所有的功能数据都统一在同一个坐标系中,并且假设常常是在多个轨道同时联合探测时提出的。
5. MaGenDB功能基因组学工具
MaGenDB中有许多有用的基因组学工具,可以帮助研究人员探索和分析数据(图3B)。用户可以批量获取注释数据,执行不同的BLAST操作(图3C),同时动态地可视化染色体中的多个基因(在相同的路径或复合体中,或具有相同的功能域)(图3D),并设计带有选择性剪接(AS)事件选项的引物(图3E)。
图3 MaGenDB中的基因组浏览器和功能基因组工具
(A)基因示例的已处理组学数据的基因组浏览器视图。(B)MaGenDB提供的基因组学工具概述。(C)不同数据库的BLAST服务接口。(D)多个基因的基因组图查看器示例。(E)考虑备选拼接(AS)事件的初级设计页。
6. MaGenDB比较基因组学工具
MaGenDB包括几个独创的比较基因组学分析工具。感兴趣的基因是通过在“基因列表”中添加或删除基因来管理的,这是一个比较分析框架(图4A)。由于共线同源基因的功能趋于相似,它们在不同植物组织中的表达模式通常具有相似的特征。MaGenDB可以自动为查询基因的同链块中的所有基因生成基因表达热图,其中共线基因(collinear genes)具有相同的表达模式(图4B)。此外,共线基因簇的染色体位置可以交互式地可视化(图4C)。
图4 MaGenDB中的比较基因组学工具
(A)用于比较分析的感兴趣基因表的管理。(B)基因热图表达不同组织的共线基因。(C)共线基因的基因组定位。(D)两种蛋白质功能域的比较。(E)从基因结构的角度看共线基因的多重排列。(F)G. arboreum Chr06与G. hirsutum染色体间共线基因的环形图。
讨论
MaGenDB填补了一个重要植物科的空白,整合了大规模的多样性组学数据,实现了全面的数据可视化方法,构建了一个新的功能比较系统。在MaGenDB中存储了包括9种技术、18种注释类型和超过2400万个功能元素的374个经处理的omics数据,并使用精心设计的定制动态图表以用户友好的方式呈现。大量的数据集和一些强大的工具提供了比较功能基因组学资源和服务。因此,MaGenDB将在实验和计算两个方向上对植物和进化科学家有用。未来,随着新的锦葵科基因组和组学数据的出现,我们将不断更新MaGenDB,并将为数据库添加更多注释和功能。