常见的病毒数据库

宏病毒组各家的流程不论如何炫酷,最本质需要解决的问题还是要能够对病毒序列进行精确注释。上一期小编给大家介绍了宏病毒组的多个组装软件的测评,这期我们就来介绍一下常见的病毒数据库。

从数据库的发展及规模来看,目前的病毒数据库远远不如细菌微生物的数据库完善,因此建议大家在进行宏病毒组学数据注释工作的时候尽量选取多个数据进行综合注释。

NT数据库是美国国家生物技术信息中心NCBI官方的核酸序列数据库,NT库属于非冗余核酸序列数据库,数据来源于GenBank、EMBL 以及 DDBJ。从NT数据库数据库中抽取的病毒序列无疑是最全面的。这里小编简单和大家讲解一下的抽取思路。我们知道,从2016年末开始NCBI序列唯一识别号变为Accession号,因此抽取病毒序列前,我们首先需要做的一个工作就是确定Accession号对应的物种层级信息。因此这里需要介绍一下NCBI的Taxonomy数据库,NCBI的分类数据库,包含了地球生命体系中近10%的物种的名字和种系,这些物种都在数据库中收录有序列信息。依托于Taxonomy数据库中的accession2taxid文件,建立accession到taxid之间的映射关系,然后为了确定每个Taxon Node是否是属于病毒序列,需要回溯序列整个 “祖源” Lineages,这块的工作可以依托taxdump.tar.gz文件进行。然后通过提取的病毒的Taxonomy信息从NCBI中依托Accession号进行相应的序列提取,形成NT病毒数据库(NT-V)。如果您数据库抽提过程中碰到任何问题,后台留言小编,小编联系技术大拿帮您解决!

ViPR数据库(Virus Pathogen Resource,ViPR, https://www.viprbrc.org)由美国国立卫生研究院(NIH)资助克雷格·文特尔研究所、芝加哥大学及弗吉尼亚大学共同开发的病毒病原数据库。在目前释放的公开数据中,囊括了近20个病毒科,近73万毒株,包括单链RNA以及双链DNA基因组。最新的具体数据收录情况详见下图。

流感研究数据库(Influenza Research Database,IRD,https://www.fludb.org)为流感病毒研究提供了丰富的序列资源。该数据库包括了禽流感和非人类哺乳动物流感监测数据、与病毒提取物相关的人类临床数据、从提取物中分离的病毒的表型特征,以及流感病毒公共知识库中现有的所有基因组和蛋白质组数据。该资源还把宿主监测和临床数据与所有具有良好特征的流感病毒毒株的序列和表型数据联系起来。目前共收录流感毒株17万余株,具体收录信息详见下图。

美国病原体系统资源整合中心(Pathosystems Resource Integration Center,PATRIC)是由美国国家过敏与感染疾病研究所和美国疾病预防控制中心等相关机构提供资助搭建的的生物信息技术联盟和工作系统,致力于开发基因组数据分析算法,整合生物信息大数据资源,发展基于基因组数据分析的生物信息分析流程,提升基因组数据生物信息分析能力。近年来,全球细菌耐药形势严峻,PATRIC致力于开发和整合耐药基因数据库系统为实现基因组测序数据中耐药基因的查找、比对和预测提供了信息平台。PATRIC细菌性病原收录较多,病毒病原核酸信息共收录6449株。

GVD数据库

一般末尾都是重头戏,最后给大家介绍一下Cell Host & Microbe上刚刚公开报道的GVD数据库(Gut Virome Database)。GVD数据库的诞生开启了肠道病毒组分析标准形成之路,可以预见,它的发展必定为以病毒组为核心的健康和疾病研究提供标准化的数据资源中心。

该研究数据来自于全球32个人类肠道宏基因组研究项目中的2697个数据集,数据容纳了16个国家的1986例个体,主要以中国、北美以及非洲的人群为主。

GVD含有33,242个独特的病毒种群(大约种水平的分类学地位)。GVD数据集中共包含57,605个contigs,其中绝大多数为细菌噬菌体(占GVD的97.7%),剩余的约2%为真核病毒以及0.07%的古细菌病毒。GVD数据库中病毒成员可注释的细菌宿主分类组成如下图(C)所示,绝大多数为厚壁菌门、拟杆菌门和变形菌门。

通过计算GVD、病毒RefSeq v96、JGI IMG/ VR v4和单个病毒组数据库对病毒检出的效率,评估多个数据库之间的病毒识别敏感性。从下图可以明显看出黄色箱线图标注的GVD数据库在病毒检出能力上更胜一筹。GVD显著改进了当前病毒基因组数据库的病毒检测,平均病毒检测率比病毒RefSeq和IMG/VR分别提高了近182倍和2.6倍。

研究发现,病毒样颗粒(VLP)富集与常规宏基因组方法相比之下,单位测序量组装出的病毒contigs的数目并没有显著差异(下图A和B)。Shkoporov的之前的环境样本相关研究发现,VLP富集的方法虽然单位测序量组装出的病毒contigs的数目并没有显著比常规宏基因组方法增加,但是对于contigs的平均长度,VLP富集的方法有着显著提升(下图F)。有意思的是研究发现不同方法鉴定出病毒种类overlap所占比例较少,两种方法鉴定出的病毒种类各有特色,但是需要指出的是VLP富集的方法是在更少的测序量的基础上获得的相关数据(下图D)。

篇幅有限,GVD数据库的知识先简单介绍到这里。GVD数据库包含的内容非常丰度,如果各位小伙伴感兴趣,后台私信小编,小编可以考虑安排GVD数据库专场走起。

悄悄说一句,易基因的综合病毒数据库(EGENE-IVD,Integrated Virome Database)是由上述多种病毒数据库抽提综合而成,最新的GVD数据库正在被EGENE生信团队小伙伴加班加点整合纳入EGENE-IVD。

原文解读

(0)

相关推荐