CGGA: 中国脑胶质瘤图谱数据库
近日,GPB在线发表了北京市神经外科研究所、首都医科大学附属北京天坛医院江涛教授团队题为“Chinese Glioma Genome Atlas (CGGA): A Comprehensive Resource with Functional Genomic Data from Chinese Gliomas”的数据库文章,我们的“要文译荐”栏目很高兴邀请到文章共同第一作者赵征博士、张克难博士和王强威博士为大家系统介绍有关中国脑胶质瘤基因组图谱数据库的数据资源、在线数据可视化分析工具以及该数据涉及的原始数据共享等最新情况。
要点介绍
研究问题:
中国脑胶质瘤基因组图谱 (Chinese Glioma Genome Atlas,CGGA) 数据库的构建及其应用。
研究背景:
为了推动中国脑胶质瘤基础与临床医学研究,2004年,江涛教授团队开始着手构建中国人群脑胶质瘤生物样本库并持续追踪患者随访。2012年,依托于北京市神经外科研究所、首都医科大学附属北京天坛医院,江涛教授团队发起了“中国脑胶质瘤基因组图谱计划”。2019年,历经十五年的样本与信息收集以及功能组学数据测定,江涛教授团队构建了国内首个脑胶质瘤功能基因组学数据库——CGGA数据库。该数据库包含来自中国人群的2000余例原、复发脑胶质瘤多维组学数据和完备的临床信息资料。目前,数据库已存储并共享了全外显子组测序数据(286例)、全转录组测序数据(1018例)、全转录组芯片数据(301例)、DNA甲基化芯片数据(159例)、小RNA芯片数据(198例),以及详细患者临床资料(例如年龄、性别、放化疗信息、WHO等级、组织病理学分级、分子病理信息以及生存信息等)。此外,数据库针对不同组学数据特点,开发了多个数据可视化在线分析工具。CGGA数据库的建立填补了中国脑胶质瘤信息资源库的空白,同时也为我国脑胶质瘤的基础与临床研究提供了重要的信息资源平台。
主要结果1:
构建了全面的脑胶质瘤外显子组、转录组、表观遗传组等多组学信息库。
主要结果2:
提供了完备的脑胶质瘤临床信息、组织病理和分子病理等重要信息资源。
主要结果3:
开发了数个针对特定组学数据的可视化在线分析工具。
数据库链接:
http://www.cgga.org.cn/。
背景和研究对象
脑胶质瘤是成人最常见的颅内恶性肿瘤,年发病率约22.52/10万人。患者预后不良,常于手术后复发,对患者家庭及社会产生了巨大的经济和心理负担。近年来,随着脑胶质瘤分子生物学研究不断深入,越来越多的生物学标记物被发现并指导临床诊治。脑胶质瘤功能基因组学数据的全面收集和共享有助于加速科学研究和临床转化,对临床治疗对策和国家肿瘤防控政策的制定具有重要指导意义。
然而,当前脑胶质瘤功能基因组学数据的共享存在以下三个主要问题。一、国际上存在多个脑胶质瘤基因组共享数据库/数据中心,但数据量小、且以欧美裔患者为主,无法反应中国人群患者特征;二、现有数据库缺乏复发或复发配对患者的组学数据,无法评估治疗对脑胶质瘤在基因组水平的影响;三、现有数据库多数仅为数据存储平台,需要研究者自行下载后分析,对缺乏生物信息学背景的研究者不够友好。
为此,北京市神经外科研究所江涛教授团队于2019年6月7日发布“中国脑胶质瘤基因组图谱(CGGA)数据库”,该工作致力于中国脑胶质瘤患者功能基因组学信息的整合与共享,为脑胶质瘤基础研究与临床转化研究提供服务和支撑。
数据库介绍
CGGA数据库是第一个完备的中国脑胶质瘤患者队列的功能基因组学信息库。该信息库的建设包括标准样本采集、测序、分析流程、数据存储与共享等。CGGA数据库坚持长期随访,最大随访时间逾15年。自上线以来,CGGA不断更新完善,丰富数据内容、更新随访信息、提升可视化效果。当前,CGGA数据库提供全面的脑胶质瘤多维功能组学数据以及完备的临床信息资源,向全世界研究者开放。
数据库设计与构建
在CGGA数据库网站中,包含CGGA、TCGA和Rembrandt队列的脑胶质样本组学数据和临床资料,所有数据基于MySQL 14.14进行组织存储。数据库主要在Java Servlet框架下编写开发,并部署在Tomcat 6.0.44 web服务器上,其运行环境为CentOS 5.5 Linux。数据库的在线可视化分析工具主要通过Perl和R脚本实现。CGGA网站能够在Chrome及Safari等主流浏览器中稳定运行。数据库开发构架设计如图1所示。
数据库内容及使用
CGGA数据库能够在线可视化分析全外显子组、转录组学及小RNA、DNA甲基化芯片平台等数据资源(图2A)。在全外显子组可视化分析中,用户可针对其感兴趣的基因或者基因集合可视化分析脑胶质瘤中的突变谱,以此来更好的探究脑胶质瘤的遗传图谱(图2B,C)。此外,用户还可以探索特定基因的遗传改变对脑胶质瘤患者预后的影响(图2D)。在该结果中,还提供了可视化分析工具所使用的数据和运行脚本,以便用户可以更好的复现其分析结果。
图2 CGGA数据库的主要内容及外显子数据分析工具
A. CGGA包含全外显子组测序、mRNA和microRNA表达、DNA甲基化数据;临床数据;数个在线数据可视化分析工具。B.外显子测序数据的分析页面,包括构建突变谱和预后分析工具。C.构建全级别的脑胶质瘤的突变谱的结果页面。D.左:IDH1突变在全级别脑胶质瘤的预后分析;中:用于可视化分析的数据;右:用于可视化分析的R脚本。
此外,CGGA数据库还提供了在线的全转录组、小RNA及DNA甲基化数据的可视化分析工具(图3A)。用户可通过输入感兴趣的基因来查询在不同脑胶质瘤亚型中的分布情况(图3B)。其次,用户可以探索感兴趣的基因对在特定脑胶质瘤亚型中的共表达情况(图3C)。此外,用户可以针对自己感兴趣的基因探究在不同脑胶质瘤亚型中的的预后价值(图3D)。相应的组学数据、临床数据以及R脚本呈现在相应结果部分,以便用户可以很好的复现可视化分析的结果。
图3 CGGA转录组数据分析示例
A.RNA-seq分析页面截图,检索目标基因分布、基因对共表达情况及预后价值。B.基于2016年WHO评分系统的ADAMTSL4基因在原发性胶质瘤中的表达分布。C.ADAMTSL4与CD274基因的共表达情况。D.ADAMTSL4在不同脑胶质瘤亚型中的预后价值。
数据下载
CGGA数据库中所有功能组学数据和临床资料供全世界研究者开放使用。当前CGGA的部分原始测序数据储存于中科院国家生物信息学中心的组学原始数据归档库,欢迎研究者申请使用。
总结与展望
CGGA数据库包含了来自中国人群的2000余例脑胶质瘤样本的多维功能组学数据,其包括全外显子组测序、转录组测序和表观遗传组学数据等。CGGA数据库当前已实现多维功能基因组学数据共享,通过丰富多样的数据分析功能和用户友好的可视化分析工具,为全球众多国家和地区科研人员提供重要的脑胶质瘤数据资源服务。CGGA数据库建设仍在不断完善,不久将来我们将丰富诸如单细胞测序数据、影像组学数据等脑胶质瘤重要的数据资源。依托北京市神经外科研究所、首都医科大学附属北京天坛医院以及中国脑胶质瘤协作组(CGCG),我们将继续收集脑胶质瘤组织样本,开展测序,补充更多的中国人群的功能组学数据。我们期望CGGA数据库能够为中国人群脑胶质瘤的基础和临床科学研究助力,推动中国脑胶质瘤研究向前不断发展。
此外,我们呼吁全球相关研究机构公开共享脑胶质瘤功能基因组数据,提供更加丰富有效的样本临床信息和测序信息,促进对脑胶质瘤功能基因组数据的深入和系统分析挖掘,对肿瘤发生、耐药抵抗、复发进展、新药研发、疾病治疗、早期筛查、防癌防控等提供坚实有力的数据支持。