公共数据库 ecnu公共数据库
一:[公共数据库]这12个医学公共数据库,你知道几个?
01 NCDB
网址:https://www.facs.org/quality-programs/cancer/ncdb
美国国家癌症数据库(National Cancer Database, NCDB)是经国家认证的,由美国外科医师学会和美国癌症学会联合组建的,它是一个基于医院登记数据的临床肿瘤学数据库,来源于超过1500多个癌症委员会认证的机构。NCDB数据库可用于分析和跟踪恶性肿瘤患者的治疗过程和结局。数据库代表了全美超过70%的新诊断癌症病例和超过三千四百万个历史记录。
02 SEER
网址:https://seer.cancer.gov/
SEER(Surveillance, Epidemiology, and EndResults Program)是美国癌症统计的权威来源。SEER数据库可提供癌症统计信息,以减轻美国人口中的癌症负担。SEER数据库由美国国家癌症研究所(National Cancer Institute,NCI)癌症控制和人口科学部(Division of Cancer Control andPopulation Sciences, DCCPS)的监视研究项目(SurveillanceResearch Program, SRP)提供支持。
03 TCGA
网址:https://cancergenome.nih.gov/
美国癌症基因组图谱(The Cancer Genome Atlas, TCGA)是由美国国家癌症研究所(National Cancer Institute, NCI)和国家人类基因组研究所(NationalHuman Genome Research Institute, NHGRI)合作开发的,目前它包含了33种癌症的数据,每种癌症都涉及关键基因组变化的全面、多维的图谱。TCGA数据库储存有2.5PB的数据,对超过1.1万多名患者的肿瘤组织及配对正常组织进行描述,目前已被广泛应用于研究领域。这些数据已为独立研究人员进行的癌症研究或者TCGA研究网络出版物做出了超过1千多项的贡献。
在TCGA中直接下载数据的方法较为繁琐,但是有多个网站提供TCGA数据(包括表达和临床等)完善的整理,以下是其中整理最为完整和可靠的:
GDAC: http://gdac.broadinstitute.org/
Cancer Browser: https://genome-cancer.ucsc.edu/
cBioportal: http://www.cbioportal.org/index.do
04 METABRIC
网址:http://molonc.bccrc.ca/aparicio-lab/research/metabric/
网址:https://ega-/dacs/EGAC00001000484
国际乳腺癌协会的分子分类数据库(Molecular Taxonomy of Breast Cancer International Consortium, METABRIC) 是一个加拿大-英国联合项目,旨在根据有助于确定最佳治疗过程的分子特征将乳腺肿瘤进一步分类。我们迄今为止已经根据肿瘤的基因指纹将乳腺癌重新分类为10个全新的类别。这些基因可以对乳腺癌生物学提供迫切需要的洞察力,使医生能够预测肿瘤是否会对某种特定的治疗产生反应。肿瘤是否有可能扩散到身体的其他部位,或者治疗后是否有可能复发。
05 GEO
网址:https://www.ncbi.nlm.nih.gov/geo/
基因表达库(Gene Expression Omnibus,GEO) 是一个支持微阵列实验的最小信息(MinimumInformation About a Microarray Experiment, MIAME)兼容数据提交的公共功能基因组数据存储库。可接受基于数组或序列的数据。提供相关工具帮助用户查询和下载实验和管理基因表达谱。
06 WHO Mortality Database
网址:http://www.who.int/healthinfo/mortality_data/en/
世界卫生组织死亡数据库(WHO Mortality Database)是对各个成员国的居民登记系统按照年龄、性别和死因汇编的每年死亡数据。
07 Orphanet
网址:http://www.orpha.net/consor/cgi-bin/index.php?lng=EN
Orphanet数据库是为所有用户提供罕见病和罕见病药物信息的开放门户,目的在于提高罕见病的诊断、护理和治疗效果。
08 DGV
网址:http://dgv.tcag.ca/dgv/app/home
基因组变异数据库(Database of Genomic Variants, DGV)目的是提供人类染色体结构变异的概况信息,数据库记录了一系列基因变异与表型相关的信息,数据库信息持续更新中。
09 DECIPHER
09DECIPHER DECIPHER
网址:https://decipher.sanger.ac.uk/index
利用染色体组分资源建立人类染色体不平衡和表型数据库(Database of Chromosomal Imbalance and Phenotype in Humans using Ensemble Resources, DECIPHER)是目前分子遗传学中最重要的生物信息学数据库之一。用户可以通过检索数据库,发现一系列相关的遗传疾病信息,包括变异位点、临床表型等,提高临床诊断效能。DECIPHER数据库包含了超过200家研究中心上传的超过1万例的案例信息。
10 OMIM
网址:http://www.omim.org/
在线人类孟德尔遗传数据库(Online Mendelian Inheritance in Man, OMIM)是目前分子遗传学中最重要的生物信息学数据库之一。数据库持续更新,主要着眼于可遗传的或遗传性的基因疾病,包括文本信息和相关参考信息、序列纪录、图谱和相关其他数据库。
11 Comparative Toxicogenomics Database
网址:http://ctdbase.org/
比较基因组数据库(Comparative ToxicogenomicsDatabase, CTD)是一个强大的、公开可用的数据库,旨在提高人们对环境暴露如何影响人类健康的了解。它提供了关于化学基因/蛋白质相互作用、化学疾病和基因疾病关系的相关信息。这些数据与功能和路径数据相结合,以帮助验证关于环境影响疾病的机制假设。
12 Kaplan Meier Plotter
网址:http://kmplot.com/analysis/
Kaplan MeierPlotter是一个包含5种癌症(乳腺癌、卵巢癌、肺癌、胃癌、肝癌)的mRNA表达谱芯片公共数据库,从中能够获得基因表达与疾病预后的信息。
二:[公共数据库]图像处理公共数据库下载地址集锦
转 :http://blog.csdn.net/zfdxx369/article/details/7951723
做图像处理+模式识别的童鞋怎么可以没有数据库呢? 但是,如果自己做一个数据库,费时费力费钱先不说,关键是建立的数据库的公信力一般不会高,做出的算法也别人也不好比较,所以呢,下载比较权威的公共数据库还是来得方便、直接、有效。
原先我也收藏了一些公共数据库的下载链接,但是由于近期电脑损坏给搞没了,那个后悔那........ 现在专门收集的这些链接一定要保存好,希望在与大家共同分享的同时,也能收藏些其它新的链接,呵呵。
闲话少说,现在开始:
1, http://www.multitel.be/cantata/
这个网址提供了大量的视频和图像的数据库下载索引,并有相应的介绍,强烈推荐! 大家慢慢去找寻自己的惊喜吧
2,http://www.cvpapers.com/datasets.html
CV Datasets on the web , 主要好像是直立行人检测....
3, http://www.cvc.uab.es/adas/site/?q=node/7
里面又有好几种数据库可以下载:CVC Virtual Pedestrian Dataset、CVC-01 Pedestrian Dataset、CVC-02 Pedestrian Dataset
4, http://www.cis.upenn.edu/~jshi/ped_html/
Database description:This is an image database containing images that are used for pedestrian detection in the experiments reported in[1].
The images are taken from scenes around campus and urban street. The objects we are interested in these images are pedestrians. Each image will have at least one pedestrian in it.
The heights of labeled pedestrians in this database fall into [180,390] pixels. All labeled pedestrians are straight up.
There are 170 images with 345 labeled pedestrians, among which 96 images are taken from around University of Pennsylvania, and other 74 are taken from around Fudan University.
5,http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/
Caltech Pedestrian Detection Benchmark:The Caltech Pedestrian Dataset consists of approximately 10 hours of 640x480 30Hz video taken from a vehicle driving through regular traffic in an urban environment. About 250,000 frames
(in 137 approximately minute long segments) with a total of 350,000 bounding boxes and 2300 unique pedestrians were annotated. The annotation includes temporal correspondence between bounding boxes and detailed occlusion labels. More information can be found
in our PAMI 2011 and CVPR
2009 benchmarking papers.
6, http://www.edgar-seemann.de/pd/datasets.py
Pedestrian Detection
7, http://www.wisdom.weizmann.ac.il/~vision/SpaceTimeActions.html#Database Weizmann 人体行为库
http://www.nada.kth.se/cvap/actions/ KTH人体行为数据库
http://4drepository.inrialpes.fr/public/viewgroup/6 INRIA XMAX多视角视频库
http://vision.eecs.ucf.edu/data.html UCF
Sports 数据库
http://www.di.ens.fr/~laptev/actions/hollywood2/ Hollywood
人体行为库
http://vision.stanford.edu/Datasets/OlympicSports/ Olympic sports dataset
这几个数据库均是基于动作/行为识别的(在第1条网址中也可以找到它们的下载地址),文章《视频中行为识别公开数据库汇总
》对它们的评价比较中肯,可以参看:http://blog.sina.com.cn/s/blog_631a4cc40101138j.html
8, http://homepages.inf.ed.ac.uk/rbf/BEHAVE/
Computer-assisted prescreening of video streams for unusual activities
9, http://www.cc.gatech.edu/cpl/projects/monsoon/PropagationNet/PropagationNet.htm
Propagation Networks for Recognizing Partially Ordered Sequential Activity. Goals:
Represent and fuse human knowledge of daily activities with noisy perceptual featuresDetect and recognize an activityPinpoint components of the activity and detect missing or improperly performed steps
10, http://root.simpleinfo.net/1984DA173065/AreaDatum.aspx
由模式识别国家重点实验室提供的链接,数据量比较大,通常需要签属协议,以光盘形式拿到数据。可以下载的有虹膜库数据、掌纹数据库、步态数据库、中文语言资源库、笔迹数据库、三维人脸数据库、行为分析数据库
11,http://www.datatang.com
这里也提供一些数据库下载,种类比较多,但是需要付费,不是打广告哦,呵呵,建议大家可以从它那里的数据库介绍中找些线索来进行google,然后你就有可能下载到原始且免费的了哦
12,......
三:[公共数据库]公共数据库, SCI怎么发?(二)
上一期向大家介绍了一篇SCI论文,是看它如何利用已发表过的数据,通过再次提出新的问题,并回答问题。本期向大家推荐的一篇SCI文章[1],看它是如何利用文献中发表的结果,提出新的问题、解决问题。 与上一篇相似,本篇文章也是想探索吸烟是如何导致疾病发生的。
这里先给一个吸烟有害健康的Introduction,可能有点长,不过很有用。。。
总所周知,吸烟是一种常见的、有害的行为,能够导致一系列癌症的产生[2]。目前,三分之一的癌症可归因于吸烟,特别是肺癌、口腔癌、胰腺癌、食道癌、膀胱癌、喉癌和肾癌,最为致命的癌症是肺癌和胰腺癌。吸烟能够增加5到10倍肺癌发生的风险;在发达国家,吸烟导致的肺癌占总数的80% [3]。在妇女中,吸烟行为也导致的宫颈癌与卵巢癌的发生风险增加。相比于不吸烟者,吸烟者患宫颈癌的风险提高了4.4倍,而患卵巢癌的风险提高了2.8倍。
根据WHO报道[4]世界范围内每年由于吸烟导致的死亡人数估计达到了600万,其中主要原因是由于吸烟导致癌症产生的死亡。
到目前为止,许多的遗传关联分析研究已经揭示一定数量的遗传突变位点参与吸烟相关的癌症发生中[5-7]。但遗憾的是,目前基于遗传突变的证据还远不能解释吸烟是如何诱导癌症产生的分子机制。
鉴于遗传突变研究现在正处于瓶颈状况,许多的科研工作者将他们的工作重心转移到与吸烟相关的DNA甲基化(DNA methylation)上,希望通过表观遗传修饰这种分子机制来解释吸烟导致癌症的机理。
DNA甲基化是一个可反转的遗传修饰,是最早发现的遗传修饰途径之一。大量研究证据表明,DNA甲基化能够导致DNA构象、DNA稳定性、DNA与蛋白质之间的交互作用方式,以及染色质的结构发生改变,从而能够控制基因表达[8]、调节可变剪切[9],基因组的完整性[10]等等。
据所知,目前仍没有一个系统全面的研究来探索这些与吸烟相关的异常DNA甲基化位点是否参与癌症发生。
在本研究中,作者们提出的假设是这些已发现的与吸烟相关的异常DNA甲基化位点很可能富集在与癌症相关的基因和生物学通路上,而这些富集基因和通路在吸烟相关癌症的发生中发挥重要作用。
所以,本项研究的主要目标是系统全面的富集分析这些与吸烟相关的DNA甲基化位点发现重要基因和通路,并利用TCGA数据库中肺癌数据对其中重要的基因进行验证。
接下来向大家展示一下,作者是如何得到他们所需要的数据的。。。
为了尽可能的找到所有关于吸烟和DNA甲基化关联的研究,作者们从PubMed数据库内总共检索到了1,447个已发表的论文(检索截止时间是2015年6月13日),具体流程详见图1。所使用的关键词包括:“Smoking”、“Smoke”, “Tobacco”、“Nicotine”、“Cigarette” 和 “Methylation”。并对所有检索到的文献摘要进行阅读来寻找到可能符合入选条件的研究。另外,还人工的查询了所有合格研究的参考文献以便找到其它未被PubMed数据库索引的研究。图1 数据收集的流程图
收集好了材料,还要设定严格的入选标准,才能保证后面结果的可靠性。。。
为了尽可能的消除或减小假阳性结果的影响,设定严格入选标准,这里只选择带有与吸烟显著关联的甲基化研究。一旦某项研究达到了入选标准,作者会仔细阅读该研究的全文以确保其结论与内容相符。通过严格系统地筛选,总共有28项甲基化关联研究符合入选条件,其中有26项研究是基于血液样本(N = 17,675)和2项研究是基于口腔组织样本(N = 1,002)。
同时,对于来自血液和口腔样本的两组基因进一步进行筛选以提高研究结果的可靠性。只有基因含有两个或者以上的证据,也即是一个基因上含有两个或者以上的显著差异甲基化位点,或者一个差异甲基化位点被独立验证,才会被纳入下一步分析。
通过设定严格的入选标准,有320个吸烟相关的差异甲基化基因从血液样本中找到。有667个吸烟相关的差异甲基化基因是来自口腔组织。
注意了:这里有个问题是,为什么基于17,675个血液样本只发现了320个基因,而基于1,002个口腔组织样本却发现了667个基因?因为这里入选标准都是一样严格的,所以只能说明基于口腔组织的基因仍有很多假阳性基因存在。所以作者选择了用320个来自血液样本的基因作为发现阶段分析,而口腔组织的基因只是用于验证。这一点的讨论很重要,应该在文章的limitation部分做讨论。不然,reviewers一定会提问的哦。
得到可靠的数据后,就要进行有效地数据分析啦。。。
首先,利用来自血液样本的甲基化基因进行通路分析以发现与吸烟相关的生物学通路。然后,利用同样的方法,对来自口腔样本的基因进行通路富集分析,以验证基于血液样本发现的通路。
这里用到的通路分析软件有三个呢。。。
为了从甲基化修饰的角度全面理解吸烟对癌症产生的影响,作者利用三种生物信息学软件,包括Ingenuity Pathway Analysis (IPA; http://www.ingenuity.com/)[11]、EnrichNet (http://www.enrichnet.org/) 和 Genetrail (http://genetrail.bioinf.uni-sb.de)[12] 权威软件,对从血液和口腔样本中收集到的两组基因进行生物通路富集分析。这里也要注意:尽管该研究使用了三种基于不同数据库的生物信息学软件进行信号通路富集分析,但是主要结果是由IPA软件产生。这一点一定要讨论或者说明一下,不然reviewers会提问,如利用三个不同软件,如何考虑权衡它们之间的结果,有没有重复结果存在,是否有Cherry-picking的可能,等等。
在发现阶段,基于血液样本,作者利用这320个差异甲基化基因进行的通路富集分析。总共找到了90条显著富集的生物学通路(FDR 其中有57条通路是已经报道和癌症发生相关。例如,最显著的生物通路MSP-RON信号通路 (FDR = 2.2 × 10-4; 详见表1) 已经被报道参与巨噬细胞应对炎症刺激的活性调节,与上皮细胞和白细胞致癌作用相关[13]。
表1 血液样本差异甲基化基因富集的吸烟相关的癌症通路 (FDR
富集通路
基因数目
P值
FDR值
MSP-RON 信号通路
8
6.17 × 10- 07
0.00022
RAR activation信号通路
14
2.04 × 10- 06
0.00037
Rac信号通路
10
6.17 × 10- 06
0.00071
Actin cytoskeleton信号通路
14
7.94 × 10- 06
0.00071
Aryl hydrocarbon receptor信号通路
11
1.15 × 10- 05
0.00083
Rho family GTPases信号通路
14
2.51 × 10- 05
0.0015
AMPK信号通路
12
2.951 × 10- 05
0.0016
Renin-angiotensin信号通路
9
6.03 × 10- 05
0.0028
Molecular mechanisms of cancer信号通路
17
7.41 × 10- 05
0.0030
CXCR4信号通路
10
0.00017
0.0058
ERK/MAPK信号通路
11
0.00021
0.0058
HER-2 signaling in breast cancer信号通路
7
0.00021
0.0058
Thrombin信号通路
11
0.00022
0.0058
HGF信号通路
8
0.00027
0.0060
Relaxin信号通路
9
0.00028
0.0060
Role of tissue factor in cancer信号通路
8
0.00033
0.0063
Non-small cell lung cancer信号通路
6
0.00060
0.0096
为了验证基于血液样本发现的通路,作者对来自口腔样本的差异甲基化基因进行了相同的通路富集分析,找到了32条共有通路(p 在这些共有通路中,有11条通路与癌症相关,包括富集通路有RAR activation信号通路、actin cytoskeleton信号通路、aryl hydrocarbon receptor信号通路、rho family GTPases信号通路和 molecular mechanisms of cancer信号通路,表明这些生物通路很有可能参与了吸烟相关癌症的发病机制。
很有趣地是,许多重要的癌症相关基因,如AHRR, CYP1A1, TNF, SMARCA4, CDK6, RARA, RXRB, CDKN1A, RARG, 和NFE2L2,都富集到aryl hydrocarbon receptor信号通路中。该通路中基因的异常甲基化修饰也许触发吸烟相关癌症的发生(详见图2)。图3概况性的展示了主要致癌通路参与吸烟相关癌症发生的分子机制模型。
图2 吸烟作用于aryl hydrocarbon receptor信号通路示意图
图3 吸烟导致癌症产生的主要富集通路的分子机制图
接着,作者们又做了一系列富集分析。。。
类似于通路富集分析,作者也对来自血液和口腔样本的显著差异甲基化基因进行了GO富集分析。在血液样本中,发现了19条GO 功能性条目(FDR 7条显著富集的共有GO功能性条目。
这里分析用到的软件是BiNGO和ReViGO。。。
基于Gene ontology (GO)数据库(http://www.geneontology.org/),利用the Biological Networks Gene Ontology (BiNGO; v2.44)[14] 软件进行GO富集分析。该软件通过超几何检验的方法(the hypergeometric test)[15] 计算用户自定义的基因集与GO条目之间的富集显著性。另外,还利用ReViGO软件[16]在默认参数模式下对BiNGO富集得到的GO条目进行去重复。
为了从病理学角度理解所得到的差异甲基化基因,作者分别对来自血液和口腔样本的基因进行了基于疾病的富集分析。有趣的是,他们发现这些基因最显著富集的疾病是癌症(详见图4)。此结果再次表明所发现的吸烟相关的差异甲基化基因与癌症发生相关。图4 功能性富集分析来自血液和口腔样本的甲基化基因
接下来开始蛋白网络构建了。。。
考虑到所发现的11条共有癌症通路中含有一定数量的重复基因,作者基于它们的生物功能和在通路中出现频率选出48个重要基因,并用它们进行吸烟相关癌症蛋白网络构建。
如图5所示,这48个基因之间存在相互作用,说明所找到的这些基因可能共同作用参与癌症发生。如位于该蛋白-蛋白互作网络的中心位置的基因NOTCH1、CDKN1A、EGR1、AKT3、TNF、MMP9和 SMARCA4已被广泛报道与癌症相关,这一结果进一步说明该蛋白网络可能在吸烟导致癌症发生过程中发挥着重要作用。
图4 基于来自11条共有癌症通路的48个基因构建蛋白-蛋白作用网络
到这里以上所有的结果都是基于健康人的数据分析。。。是不是似曾相识。。。对的,好像有点印象。。。是的,就是上一期的关于“公共数据库, SCI怎么发?(一)”的分析模式。以下是上一期的原话:“因为上面的研究都是基于健康者血液中的基因表达和DNA甲基化差异,来反映吸烟相关疾病发生的分子机制。所以这一部分,作者利用已经发表的基于病人血液样本的数据对以上发现进行验证。这里选用了与吸烟有很强关联的两种疾病:肺癌和冠心病”。
相似地,本文作者为了验证在健康人群中发现的吸烟相关的致癌基因,他们从TCGA大型癌症数据库(http://cancergenome.nih.gov/) [17] 中下载了肺腺癌(LUAD)和肺鳞状细胞癌(LUSC)的DNA甲基化3级数据(JHC_USC HumanMethylation450K)[18, 19] 和RNA表达3级数据(UNC IlluminaHiSeq_RNASeqV2)[18, 19] 进行了相关验证分析。 结果显示在健康人群中发现的甲基化改变,在肺癌病人中也有相似的改变; 并且通过一系列的公共数据挖掘,发现了一些很重要的基因,如DUSP4、AKT3、NOTCH1、SMAD6和SMARCH4,它们可能是很重要的研究吸烟导致癌症发生的分子靶标。
老马小结:
本文通过系统地收集文献报道的吸烟相关的差异甲基化基因,并对这些基因进行严格筛选,这种做法要做到全面性的同时还要考虑可靠性,只有这样才能得到很好的、很有意义的结果。通过血液样本发现、口腔样本验证,作者们发现了11条与吸烟导致癌症发生的富集通路,这些通路包含了48个重要基因,它们构建了一个致病蛋白互作网络。最后作者利用TCGA公共数据库中的肺癌样本数据验证了健康人群中发现的结果。
由于本期篇幅过长的原因,没有继续展开TCGA数据分析的讲解,在以后的推文中我们将会对TCGA数据库进行系列讲解,并重现已发表论文的数据分析过程。敬请期待!!!
参考文献:1.Ma, Y. and M.D. Li, Establishment of a Strong Link Between Smoking and Cancer Pathogenesis through DNA Methylation Analysis. Sci Rep, 2017. 7(1): p. 1811.
2.Vineis, P., et al., Tobacco and cancer: recent epidemiological evidence. J Natl Cancer Inst, 2004. 96(2): p. 99-106.
3.CDC, Racial/Ethnic disparities and geographic differences in lung cancer incidence --- 38 States and the District of Columbia, 1998-2006. MMWR Morb Mortal Wkly Rep, 2010. 59(44): p. 1434-8.
4.WHO, WHO Tobacco Fact sheet N°339 (http://www.who.int/mediacentre/factsheets/fs339/en/). World Health Organization, 2014.
5.Amos, C.I., et al., Genome-wide association scan of tag SNPs identifies a susceptibility locus for lung cancer at 15q25.1. Nat Genet, 2008. 40(5): p. 616-22.
6.Thorgeirsson, T.E., et al., A variant associated with nicotine dependence, lung cancer and peripheral arterial disease. Nature, 2008. 452(7187): p. 638-42.
7.Hung, R.J., et al., A susceptibility locus for lung cancer maps to nicotinic acetylcholine receptor subunit genes on 15q25. Nature, 2008. 452(7187): p. 633-7.
8.Bell, J.T., et al., DNA methylation patterns associate with genetic and gene expression variation in HapMap cell lines. Genome Biol, 2011. 12(1): p. R10.
9.Laurent, L., et al., Dynamic changes in the human methylome during differentiation. Genome Res, 2010. 20(3): p. 320-31.
10.Law, J.A. and S.E. Jacobsen, Establishing, maintaining and modifying DNA methylation patterns in plants and animals. Nat Rev Genet, 2010. 11(3): p. 204-20.
11.Kramer, A., et al., Causal analysis approaches in Ingenuity Pathway Analysis. Bioinformatics, 2014. 30(4): p. 523-30.
12.Backes, C., et al., GeneTrail--advanced gene set enrichment analysis. Nucleic Acids Res, 2007. 35(Web Server issue): p. W186-92.
13Yao, H.P., et al., MSP-RON signalling in cancer: pathogenesis and therapeutic potential. Nat Rev Cancer, 2013. 13(7): p. 466-81.
14.Maere, S., K. Heymans, and M. Kuiper, BiNGO: a Cytoscape plugin to assess overrepresentation of gene ontology categories in biological networks. Bioinformatics, 2005. 21(16): p. 3448-9.
15.Berkopec, A., HyperQuick algorithm for discrete hypergeometric distribution. Journal of Discrete Algorithms, 2007. 5(2): p. 341-347.
16.Supek, F., et al., REVIGO summarizes and visualizes long lists of gene ontology terms. PloS one, 2011. 6(7): p. e21800.
17.Tomczak, K., P. Czerwinska, and M. Wiznerowicz, The Cancer Genome Atlas (TCGA): an immeasurable source of knowledge. Contemp Oncol (Pozn), 2015. 19(1A): p. A68-77.
18.Network, C.G.A.R., Comprehensive genomic characterization of squamous cell lung cancers. Nature, 2012. 489(7417): p. 519-525.
19.Network, C.G.A.R., Comprehensive molecular profiling of lung adenocarcinoma. Nature, 2014. 511(7511): p. 543-550.