想发高分生信文章不得不知道的30个肿瘤综合性数据库推荐

1. 数据库名称:Oncomine数据库

网址:www.oncomine.org

是否需要注册:是

所属分类:综合性数据库

功能

肿瘤领域中一个经典的样本数据库。Oncomine数据库有三个核心功能:

(1)基因表达差异分析(通过检索基因表达谱差异,挖掘具有研究价值的靶分子,检索特定研究靶分子,分析其在肿瘤中的表达情况);

(2)分析基因表达与临床的相关性;

(3)多基因共表达分析。Oncomine和TCGA相比的优势就是,它除了数据,还提供了一些简洁易操作的分析工具,如差异表达分析、共表达分析等,分析后可以直接出图用在文章里。另外它还整合了TCGA和GEO的部分数据。

2. 数据库名称:TCGA数据库

网址:https://cancergenome.nih.gov/

是否需要注册:是

所属分类:综合性数据库

功能

TCGA,全称the Cancer Genome Atlas,最权威的肿瘤生信数据挖掘数据库,2006年由美国启动,目前收录了超过11000位患者、33种肿瘤(包括10种罕见肿瘤)、2万多例样本的高通量芯片或测序数据(包括基因组、转录组、表观遗传学数据、临床数据等)。

TCGA有非常强大的功能:

(1)可以分析肿瘤中基因突变的情况,找到有研究价值的致癌突变;

(2)比对肿瘤和正常组织,寻找异常的基因重组现象;

(3)分析肿瘤中差异基因的表达,找到有研究价值的基因;

(4)分析基因变异情况与预后的关系,探索研究或临床价值;

(5)通过比较基因的表达关系,分析肿瘤中基因的调控网络等。

3. 数据库名称:GEPIA数据库

网址:http://gepia.cancer-pku.cn/index.html

是否需要注册:否

所属分类:基因组数据库

功能

GEPIA全称Gene Expression Profiling Interactive Analysis,2017年由北京大学张泽民教授团队开发。目前,该网站已经收录了9736个癌症组织样本(33种癌症)和8587正常组织样本的表达数据(主要来自于TCGA和GTEx),是对TCGA基因表达谱数据进行动态分析和可视化的网站。操作简单,功能很强大,可以提供基因差异表达分析、基于基因表达的生存分析、表达相似基因分析、基因表达相关性以及主成分分析等。

4. 数据库名称:cbioportal数据库

网址:http://www.cbioportal.org/

是否需要注册:否

所属分类:综合性数据库

功能

开放性!对于多个癌症基因组学数据库能够起到交互式的探索,同时还是一个具有可视化及分析平台。cbioportal数据库里面可以能够更快捷表里地获得基因组数据,还能直观地获取大规模癌症基因组学项目的分子谱和临床预后相关性,提供CNA、基因突变信息。

针对每个基因,它可给出多个信息,主要包括:基因的CNA信息、基因突变在样本中的分布、突变位点和频率、共表达基因以及生存曲线等。在发现肿瘤相关突变、分析基因的生物学功能以及药物选择等方面的研究中具有重要推进作用。

那具体来说的话,里面存储的数据大致有DNA、mRNA和microRNA表达数据,非同义突变,蛋白质水平和磷蛋白水平数据,DNA甲基化数据和部分临床数据,对于新手非常友好。

5. 数据库名称: ICGC数据库

网址:https://icgc.org/

是否需要注册:否

所属分类:综合性数据库

功能

ICGC(International Cancer Genome Consortium,国际肿瘤基因组协作组),主要目标是全面阐明导致全球人类疾病负担的多种癌症中存在的基因组变化。ICGC收集了50种不同癌症类型(或亚型)的肿瘤数据,其中包括基因异常表达,体细胞突变,表观遗传修饰,临床数据等。ICGC包括亚洲、澳大利亚、欧洲、北美和南美17个行政区的89项目,包括25000个癌症基因组。CGC数据库有表达也有临床,我们可以拿这个数据库做差异,也可以用临床数据做KM生存分析以及临床相关性分析。

6. 数据库名称:OncoKB数据库

网址:https://www.oncokb.org/

是否需要注册:是

所属分类:药物相关

功能

由Memorial Sloan Kettering癌症中心(MSK)开发并维护的精准肿瘤学知识库。该知识库以体细胞突变为核心,收录突变对应靶向药的精准使用、突变在生物学与肿瘤学方面的影响以及突变在人群中的分布频率特征等信息。

该知识库收录信息的来源非常多样化,包括FDA、NCCN、ASCO或ESMO会议论文、不同癌种专家共识以及科学文献等。数据基于FDA (US Food and Drug Administration ), NCCN(National Comprehensive Cancer Network ) 的资料以及其他文献,和疾病专家小组的建议对药物反应做证据分类。这个数据库现在每隔2-3个月进行一次更新和补充,OncoKB的主要内容与肿瘤精准用药相关。

7. 数据库名称:TIMER

网址:https://cistrome.shinyapps.io/timer/

是否需要注册:否

所属分类:转录组

功能

TIMER用于系统分析各种癌症类型的免疫浸润的综合资源。通过TIMER算法估算了六种免疫细胞(B细胞,CD4 + T细胞,CD8 + T细胞,嗜中性粒细胞,巨噬细胞和树突状细胞)的浸润情况。

共包含七个模块:

进入 Gene模块,该模块展示基因表达和免疫浸润比例之间的关系;

进入 Survival 模块,该模块展示了临床结局和免疫细胞浸润和基因表达之间的关系;

进入 Mutation 模块,探讨突变基因 与免疫浸润之间的相关性 ;

进入SCNA 模块,体细胞拷贝数变异与免疫浸润之间的关系;

进入 Diff Exp模块,该模块展示基因在多癌种的肿瘤和正常组织的差异表达;

进入Correlation模块,该模块主要展示基因的共表达关系;

最后一个模块是Estimation,这部分可以将用户自己的数据进行免疫浸润的分析。

8. 数据库名称: MethyCancer数据库

网址:http://methycancer.psych.ac.cn/

是否需要注册:否

所属分类:DNA甲基化

功能

MethyCancer,癌症相关的甲基化基因数据库。该数据库拥有来自公共资源的高度整合的DNA甲基化数据、癌症相关基因、突变和癌症信息,以及我们大规模测序得到的CpGIsland (CGI)克隆。

MethyCancer可用于研究DNA甲基化、基因表达与癌症的相互作用。在数据库的首页,有人类染色体的标示图,可以快速的查看每条染色体上相关的数据概况。

MethyCancer中的甲基化数据共有5个来源:HEP,MethDB,UHN,Columbia University,BIG。通过这个数据库,我们可以方便的检索到癌症相关的基因,最重要的一点,这个数据库是可以免费下载。

9. 数据库名称:UCSC Cancer Genomics Browser

网址:http://genome.ucsc.edu/index.html

是否需要注册:是

所属分类:综合型数据库

功能

该数据库是一个由University of California Santa Cruz (UCSC) 创立和维护的,能够对癌症基因组学和临床数据进行整合、可视化和分析。

在Genome browser中,可以浏览基因组注释信息,包括已知基因、预测基因、表达序列标签、mRNA、CpG岛,克隆组装间隙和重叠、染色体带型、小鼠同源性等,可实现不同样本以及癌症类型之间的比较,分析基因组变异与表型之间的相关性。

其他几种工具BLAT、Table Browser、Variant annotation integrator等来查看和解释基因组数据。

10. 数据库名称GSCALite

网址:http://bioinfo.life.hust.edu.cn/web/GSCALite/

是否需要注册:否

所属分类:综合性数据库

功能

GSCALite由华中科技大学郭安源教授组开发,整合了TCGA、GTEx、 CTRP和GDSC数据库,用户可直接在网站输入基因集,选择用户自己感兴趣的肿瘤类型,便可自动完成多项数据分析,包括mRNA的差异表达分析(生成热图,并且可以表不同亚型之间的差异)、生存分析(生成热图)、突变谱分析(生成好看的oncoprint)、甲基化位点分析(可生成热图,也包括有甲基化与生存之间的关系)、通路分析(生成扇型图)、miRNA互作网络分析(生成网络图),CNV与表达的相关性分析(生成热图)、药物敏感性分析(生成热图),还有在GTEx数据库中对不同正常组织的表达分析,以比较正常组织间的表达情况。另外,网站输出的图质量高,可直接用来发表。

11. 数据库名称:CGAP数据库

网址:https://mitelmandatabase.isb-cgc.org

是否需要注册:否

所属分类:综合性数据库

功能

CGAP,其全称为“Cancer Genome Anatomy Project”,顾名思义,这个数据库其实是一项由NCI建立和主持的交叉学科的计划,主要是用于研究肿瘤细胞的分子结构所需的信息,包括正常组织,癌前病变,和恶性细胞的全面的分子学特征,数据库里面包含了cDNA克隆、文库、基因表达、SNP以及基因组变异等信息。

同时这个数据库个人觉得非常好的一点是用户体验感很好,操作省去了许多冗余的部分,如浏览不同库的信息时,有关于建库的信息、样品和组织的信息、库来源的克隆、序列和基因下载链接都能轻松获得。对于新手又是一大利好。

12. 数据库名称: Lnc2Meth数据库

网址:http://www.bio-bigdata.com/Lnc2Meth

是否需要注册:否

所属分类:甲基化

功能

是基于已有发表文献结果,对其中涉及到在特定研究疾病中的lncRNA及其甲基化结果进行了整理归纳。因此,对于想从lncRNA和甲基化这两个方面去做研究的小伙伴来说,是一个非常有用的数据库。

在该数据库进行信息检索当然需要一定的信息,主要有两个,一个是lncRNA,一个是某个疾病。只要这两个信息中的任何一个输入,进行检索,就可以拿到相关的信息。该数据应该说是目前唯一一个把lncRNA和甲基化信息进行关联和整理的比较好的数据库。除了上面的主要内容之外,该网站工具栏中还提供了信息重注释等功能。

13. 数据库名称:TCIA

网址:https://tcia.at/home

是否需要注册:否

所属分类:综合性数据库

功能

TCIA由生物信息学研究所(ICBI)开发和维护,是基于TCGA数据开发的,提供了20个癌种的NGS数据的免疫基因组分析结果。可以在该数据库查询特定免疫相关基因集的基因表达,免疫浸润的细胞组成,新抗原和癌胚抗原,HLA类型和肿瘤异质性等,从而通过计算基因组学方法解析肿瘤与免疫细胞相互作用。

14. 数据库名称: DiseaseMeth数据库

网址:http://bio-bigdata.hrbmu.edu.cn/diseasemeth/

是否需要注册:否

所属分类:DNA甲基化

功能

DiseaseMeth是一个保存了人类疾病相关的甲基化信息的数据库。在DiseaseMeth数据库中,甲基化数据的类型包括两大类别;

(1)芯片,对于DNA甲基化芯片,除了27K和450K这两种常见的illuminaDNA甲基化芯片,还有其他定制的芯片;

(2)NGS,从检索结果中,我们可以得到该基因相关的疾病,以及在该疾病中,这个基因的甲基化水平是上升还是降低。对于相关疾病,还有热图数据可以下载。总之,通过这个数据库,我们可以检索已有的对于某种疾病或者某个基因甲基化的研究结果。

15.数据库名称:CanProVar2.0数据库

网址:http://canprovar2.zhang-lab.org/

是否需要注册:否

所属分类:蛋白组

功能

CanProVar2.0数据库整合了来自各种公共资源的蛋白质序列变异信息,重点是癌症相关的变异,CanProVar2.0中的数据主要来源于TCGA、COSMIC、OMIM、HPI等数据库以及一些文献研究。它包含26种癌症类型,156671种癌特异性变异(crVARs),967017种非癌特异性变异(crVARs)。CanProVar可以快速访问蛋白质序列中的已知crVAR,以及相关的癌症样品,相关出版物,数据源和功能信息,例如蛋白质的基因本体论(GO)注释,发生变异的蛋白质结构域以及与蛋白质相互作用的crVAR。CanProVar还有助于揭示具有这些变异的crVAR和蛋白质的功能特征。

16. 数据库名称:TARGET

网址:https://ocg.cancer.gov/programs/target

是否需要注册:是

所属分类:综合性数据库

功能

是2018年新发布的针对儿童肿瘤的数据库,由 NCI’s Office of Cancer Genomics 和 Cancer Therapy Evaluation Program管理。TARGET纳入的疾病主要为Acute lymphoblastic leukemia (ALL)、 Acute myeloid leukemia (AML)、Kidney Tumors、Neuroblastoma (NBL)、 Osteosarcoma (OS)和Pan-cancer Model Systems (MDLS),采用多组学方法(基因组、转录组、表观遗传等)来确定驱动儿童癌症的分子变化,确定与起始和进展有关的基因及其突变情况,通过数据分析生成药物作用靶点和预后标志物,以便开发更有效毒性更小的治疗方案。

17、数据库名称:CCLE(Cancer Cell Line Encyclopedia)

是否需要注册:是

所属分类:转录组

网址:https://portals.broadinstitute.org/ccle

功能

CCLE是Broad研究所与诺华研究基金会联合开发的在线数据库,目前有1400多个cell line。在搜索界面,直接输入你想查的Genes或者细胞系,就可以进行简单的查询了。在实验前需要选用哪种细胞可以利用该网站查询。比如我们想知道某个基因在肿瘤细胞系的高低表达,就可以在这个网站搜索该基因目前,该数据库已经收录1100多种细胞系的基因信息,并实现了可视化,图片非常漂亮。包含拷贝数, mRNA表达(Affy),RPPA,RRBS和mRNA表达(RNAseq)等,还可以提供差异分析、共表达基因、GSEA等各种分析。

18. 数据库名称: COSMIC

网址:https://cancer.sanger.ac.uk/cosmic

是否需要注册:否

所属分类:综合性

功能

肿瘤细胞基因突变的数据库COSMIC:Catalogue of somatic Muation in Cancer。

包括两部分:Cancer/Genome Browser和Cell Lines Project。主要是根据人工整理(根据文献)及基因组筛选(根据测序数据)获得的各种肿瘤基因(包括lncRNA,miR,mRNA等)的调控元件(启动子、增强子、染色质开放)、甲基化、拷贝数和SNP变异,耐药等信息。可根据上百种肿瘤细胞系或肿瘤名称进行检索,根据这些信息可进行基因表达调控的研究,比如某一基因的异常高/低表达可能由何种因素导致。具体使用可检索及引用文献:COSMIC: the Catalogue of Somatic Mutations in Cancer (Tate et al., 2018)。

19.数据库名称:CanSAR数据库

网址:https://cansarblack.icr.ac.uk/

是否需要注册:否

所属分类:药物相关

功能

世界上最大的癌症药物研发数据库(canSAR),该数据库包含了包括生物学、药理学、化学、结构生物学和蛋白质相互作用网络等多种类型的数据。其目标是整合这些数据,并使多个学科的癌症研究科学家可以访问这些数据,以帮助进行假设生成和决策,从而确定癌症的原因,生物标志物和治疗方法。

canSAR数据库已经收集了数十亿的实验检测信息,描述了一百万种能够对人类蛋白产生作用的药物和化学物质,同时该数据库还将这些数据与基因信息数据以及临床实验数据合并在一起。最新的版本的canSAR数据库使用人工智能技术来鉴别于癌症有关的异常蛋白表面的凹陷处和缝隙,canSAR同样能够允许科学家鉴别肿瘤细胞内部的交流线,为找到新的癌症治疗方法提供了新思路。它是一个支持癌症转化研究和药物发现的公共癌症综合知识库。

20. 数据库名称:SEER

网址:https://seer.cancer.gov/

是否需要注册:是

所属分类:综合性数据库

功能

SEER是美国癌症发生率和生存率的权威信息来源,是美国最具代表性的大型肿瘤登记注册数据库之一,覆盖约34.6%美国人口的癌症发病率和生存数据,收集了大量循证医学的宝贵资料,主要包括肿瘤发病率数据和人口数据。

SEER具有完善的临床数据,例如患者的个人数据、原发肿瘤情况、癌症分期、生存数据和死亡原因等,每年更新一次。通过SEER Explorer可以访问各癌症的详细统计数据,使用SEER数据可以进行很多分析,例如根据不同癌症的诊断阶段、年龄和肿瘤的等级或大小计算生存率;确定随时间推移各种癌症部位的趋势和发生率等。

21. 数据库名称:LinkedOmics

网址:http://linkedomics.org/login.php

是否需要注册:是

所属分类:综合性数据库

功能

LinkedOmic涵盖了来自TCGA的32种癌症的多组学数据,以及来自CPTAC的基于质谱的乳腺癌、结肠直肠癌和卵巢肿瘤的蛋白质组学和修饰组学数据。

LinkedOmics有三个分析模块:LinkFinder,LinkInterpreter和LinkCompare

LinkFinder模块提供多种属性查询,例如基因组改变的mRNA或蛋白质表达特征,临床属性的候选生物标志物以及转录因子、microRNA或蛋白激酶的候选靶基因等,分析结果可以进行多种可视化。

LinkInterpreter模块可以按照GO、生物途径、网络模块及其他功能类别执行富集分析,从关联结果中发掘生物学意义。

LinkCompare模块使用可视化功能和meta分析比较和整合LinkFinder模块生成的相关结果,并且支持单个癌症或所有肿瘤的多组学分析。

22. 数据库名称:CancerSEA

网址:http://biocc.hrbmu.edu.cn/CancerSEA/home.jsp

是否需要注册:否

所属分类:综合性数据库

功能

CancerSEA是一个单细胞测序数据库,旨在以单细胞分辨率全面解码癌细胞的不同功能状态,从而探索癌细胞的功能异质性。其单细胞测序结果来源于SRA,GEO和 ArrayExpress网站中的72个数据集;功能分析结果来源于HCMDB,Cyclebase和StemMapper等数据集。

CancerSEA提供癌症单细胞功能状态图集,涉及来自25种癌症类型的41,900个癌症单细胞的14个功能状态;能够查询基因(包括PCG和lncRNA)或感兴趣的基因列表的哪个功能状态与不同癌症类型相关;提供在单细胞分辨率下与功能状态高度相关的PCG / lncRNA谱库。

23. 数据库名称:GTEx数据库

网址:https://gtexportal.org/home/

是否需要注册:否

所属分类:转录组

功能

The Genotype–Tissue Expression (GTEx)计划目的是研究个人的基因组变异如何影响基因表达,导致生物学差异(人体组织和细胞的健康状态和患病状态)。人体组织来自尸检、器官捐献和组织移植项目的多种不同组织类型(包括大脑、肝脏和肺部)近千个体的不同人体组织。GTEx报告了组织之间和个体之间基因调控的重要差异,主要包括组织特异性的基因表达和鉴定许多组织中的基因表达水平的遗传关联(表达数量性状基因座eQTL)。eQTL有助于寻找基因之间和个体之间基因表达的差异。通过对不同的个体/人体组织的基因组和转录组进行测序来鉴定eQTL。GTEx数据主要用作eQTL分析,包括局部(cis-eQTL)和远端(trans-eQTL)效应,其转录组数据需向dbGAP申请。

24. 数据库名称:UALCAN数据库

网址:http://ualcan.path.uab.edu/index.html

是否需要注册:否

所属分类:基因组数据库

功能

UALCAN是一个用户友好的、交互式的web资源,用于分析癌症转录组数据。

a)它提供方便地访问公开癌症转录组数据(TCGA和MET500转录组测序),

b)允许用户识别生物标志物或执行验证的潜在感兴趣的基因,

c)提供出版物质量图表和情节描述基因表达和病人生存信息基于基因表达,

d)评估基因表达在乳腺癌和前列腺癌的分子亚型,

e)通过连接HPRD、GeneCards、Pubmed、TargetScan和人类蛋白质图谱提供有关所选基因的额外信息。是对TCGA基因表达谱数据进行动态分析和可视化的网站。操作简单,功能很强大,可以提供基因差异表达分析、基于基因表达的生存分析、临床相关性分析等。

25.数据库名称:Cancer Hotspots

网址:https://www.cancerhotspots.org/#/home

是否需要注册:是

所属分类:综合性数据库,基因组

功能

Cancer Hotspots数据库由Memorial Sloan Kettering癌症中心的Kravis分子肿瘤学中心维护,提供大规模癌症基因组学数据中发现的在统计学上有显著复发突变的信息。目前,Cancer Hotspots里面包含有24592个肿瘤样品中鉴定的单残基和框内indel突变热点。用户还可按照gene、residue、type、variants等对其内容进行排列查看。该数据库确定了1,165个具有统计学意义的热点突变,其中每1000个或更少的患者中就有1个出现了80%的热点突变。并且在55个复发的框内indel中,验证了新型AKT1重复诱导途径过度活化并赋予了AKT抑制剂敏感性。由此发现可治疗的致癌基因中所有热点的26%是新颖的。在将部分患病患者直接匹配分子靶向治疗后,结合放射学和临床反应,以及人群规模的突变体等位基因,以发现癌症中驱动子突变的鉴定。

26. 数据库名称:OncoLnc

网址:http://www.oncolnc.org/

是否需要注册:否

所属分类:综合数据库

功能

OncoLnc数据库收录了来自TCGA的21种癌症的8647个患者的生存数据和对应的mRNA、miRNA表达谱数据,以及来自MiTranscriptome的lncRNA表达数据。

在OncoLnc可以将生存数据链接到mRNA,miRNA或lncRNA表达水平,从而进行不同层面的生存分析,快速挖掘各种肿瘤中生存相关的基因。数据库简单易用,首先选择感兴趣的基因和肿瘤,然后输入样本分组,就可以进行 KM生存分析。

27.数据库名称:HCMDB数据库

网址:https://hcmdb.i-sanger.com/index

是否需要注册:否

所属分类:肿瘤综合数据库

功能

数据库收集了GEO和TCGA上29种肿瘤,45种肿瘤亚型,38个转移部位,共124个数据集和7081篇文献的信息。其中表达数据涵盖了mRNA、miRNA、lncRNA,可研究基因参与肿瘤转移的描述,及在不同基因中的表达,会展示该研究里的差异表达基因富集到的通路及通路详细信息,显示差异基因表达及其网络图。

28. 数据库名称:GDSC

网址:https://www.cancerrxgene.org/

是否需要注册:是

所属分类:药物相关数据库

功能

GDSC是一个收集人类癌症细胞对药物的反应和敏感性的数据库,最新的8.3版本收录了518种化合物/药物、988种癌细胞系以及446,146个(化合物-细胞系对)的IC50值检测结果。GDSC数据库支持化合物(药物)、细胞系和癌基因三种检索方式, 并可以进行可视化分析,有助于发现潜在的肿瘤治疗靶点和个体化治疗。

29. 数据库名称:DepMap

网址:https://depmap.org/portal/

是否需要注册:否

所属分类:药物相关数据库

功能

DepMap由Broad Institute和Wellcome Sanger研究所强强联合进行开发,Achilles项目进行基因筛选,CCLE/CCLF进行细胞模型的分子特征描述,PRISM、CTRP的小分子敏感性数据,CDS进行遗传脆弱性计算和预测,从而建立全面系统地识别癌症的遗传和药理依赖性以及预测其生物标记物。网站数据每季度更新一次。DepMap通过分析数百种癌细胞系模型和大规模的药物和遗传平台,获取细胞模型基因组与药物反应与遗传特征的关系,有助于我们更好地了解癌症的易感性和开发的新的药物靶标。

30. 数据库名称:CancerResource

网址:http://data-analysis.charite.de/care/

是否需要注册:否

所属分类:综合数据库

功能

CancerResource通过文献挖掘以及整合多种数据源的方式,整合了来自大规模癌症基因组学实验的48,404种化合物、3,387种癌症相关蛋白靶标、90,744种化合物-靶标相互作用、2,037个细胞系及mRNA表达和突变数据。利用CancerResource中的癌症相关的药物-靶标相互作用、表达和突变数据以及药物敏感性数据等,用户可以进行探索性数据分析。

(0)

相关推荐