肿瘤全面分析数据库:oncomine使用介绍
在做肿瘤研究的时候,我们现在都知道可以提前查一下基因的表达和临床特征有没有相关性 ,这样对我们的下一步实验也是一个预测的方向。经典的我们可以使用TCGA的数据来进行分析,我们之前介绍的GEPIA就可以来进行分析。但是对于测序的结果而言,其检测的结果不管是基于人种或者其他的原因,可能和我们的实验结果有可能存在偏差。这个时候其实多分析几个结果,多看个数据集的结果会更好一些。常用的数据库就是GEO了,但是使用GEO还要一个一个数据集找,这样又很浪费时间。所以有没有简单的方法呢?今天就给大家介绍一个汇总了多个癌种,多个数据集的综合性分析基因表达和临床相关性的数据库:oncomine(https://www.oncomine.org/)。
由于这个数据库还是很重要使用起来也是很简单的,所以这里就从注册账号开始,很详细的介绍一下这个数据库的功能吧。
1. 注册与登陆:
要想顺利使用Oncomine,首先得有个账号,其中免费注册仅限非营利机构邮箱(院校或科研机构)。
点击上图红色方框处Not a user? Register now!进行注册。
根据上图提示,输入相关信息,提交。要注意检查一下自己邮箱,系统会发送账号密码过来,我们使用邮件提供的账号密码登陆oncomine,系统会提示修改密码,按照指示操作即可。注意,修改密码后系统会再次发送一封确认修改密码的验证邮件,其中包含确认链接,我们必须点击链接后才可正常使用。
2. 基因表达谱差异分析
登陆账号后,选择数据集(研究对象):在左边的 “Primary Filter” 中依次选择Analysis Type →Differential Analysis → Cancer vs. Normal Analysis → Gastric Cancer vs. Normal Analysis(7)。页面自动跳转为胃癌及癌旁对照的芯片数据子集。
其中数字7代表该数据库包含7个胃癌相关相关数据集。
此处默认显示的是第一个数据子集的数据表达情况,我们可以通过选择其他数据子集来查看相应数据。详细介绍如上图所示,其中热图的每个格子代表一个样本的表达数据,鼠标置于格子上时,会显示该样本的对应数据信息。
点击研究名称(此处为Chen Gastric(132)),可以查看该研究中的数据情况,如下图。
当然,我们也可以进行多数据集整合检索基因表达差异(Meta分析)。
根据研究目的,选择数据集,比如我们这里想看一下与肠型胃癌相关的差异表达基因。勾选该数据库包含所有肠型胃癌的数据子集后,点击上方Compare按钮。
右侧页面将会显示所选数据集的meta分析结果。其中Median Rank代表中位秩,即秩的中位数。
3. 特定基因表达差异分析
Oncomine支持几乎所有蛋白编码基因,部分研究较多的非编码 RNA也能搜索到。这里我们以编码基因TP53为例,进行后续介绍。在搜索栏中输入TP53,点击搜索按钮,页面如下:
我们可以根据表格上方的筛选条件(p值、变化倍数等)扩大或缩小筛选范围。
Outlier分析是基于肿瘤异质性进行的离群值或异常值的分析,即只在肿瘤的某些亚型或特定群体中异常表达。比如10%胃癌中TP53表达显著升高,但如果是在全部样品中分析TP53的表达差异显著性,不会有显著性差异,但是仅在这10%的样品中有差异,我们可以分析这10%的样品有何共同之处,从而找出影响TP53显著变化的因素。
对于图中的小方格,蓝色代表TP53在对应的肿瘤低表达,红色代表高表达,灰色代表没有数据。其中数字表示符合筛选条件的研究数量。
鼠标置于格子上方,会显示对应的信息。点击小方格可以直接进入该研究的数据页面。比如这里点击胃癌,可以进入TP53在胃癌中的表达数据页面。
Reporter代表探针。一般芯片对同一基因可能会设计多个探针(分别针对基因的不同位置的序列),不同的探针会返回不同的信号值,因此选择不同的探针,分析的结果就会不同,当然,不同的探针的结果不能放在一起进行比较(当成是同一探针)。检索时Oncomine会自动显示P值最小的结果。
页面最下方显示数据来源。如上图中所选择的分析来源是GEO数据库中的GSE13911研究。我们一般要使用这个研究的数据时,除了引用Oncomine之外,还要引用这个分析来源(原始文献)。
当然,我们也可以进行单基因的Meta分析。输入目的基因后,根据研究目的,选择相应数据集,比如我们这里依旧想看一下TP53与肠型胃癌的关系。勾选该数据库包含所有肠型胃癌的数据子集后,点击上方Compare按钮。
Meta分析结果显示TP53在肠型胃癌中的表达情况,P值<0.05。勾选的分析名称前面的数字对应Meta分析结果里的序号。Meta分析的的意义在于整合比较该基因在不同研究和不同分析中的表达情况,结果可以直接用于文章中。
4. 基因表达与临床相关性
说起基因表达,那必须要研究生存呀。这里我们想看TP53在胃癌中的生存情况,输入基因名称后,依次选择左侧栏的筛选条件,页面自动跳转。
由于我们是免费版本,所以这些数据不能下载,要手动摘录样品名称、基因表达、生存状态及生存时间数据后再利用其他软件(SPSS、GraphPad、R等)做生存分析。
数据少的话尚不费力,但碰到巨多样本的时候怎么办?一个个摘录就没意思啦。这里告诉大家一个小窍门,我们上文数次提到数据来源,这个很重要,我们可以根据数据来源来直接下载数据。如下图:根据Pubmed链接可直接链接至该文章,一般在补充材料部分作者会上传该项研究的基因表达及临床相关信息,包括临床病理参数及生存情况。这时候我们下载后便可以进行后续分析啦。当然,有的上传部分或者干脆没有上传的也无可厚非,大家可以先自行找一下。
如果有临床病理参数数据的话,自然也可以进行基因表达与临床病理参数的相关分析,比如肿瘤分期分级、突变、药物敏感性等。操作过程同上,输入目的基因后,选择癌症类型,选择病理亚型。
5. 基因共表达分析
输入目的基因TP53,依次选择左侧筛选框内的筛选条件后,页面跳转如下:
图中显示,与TP53表达相关系数最高为0.753,我们可以进一步检索这些高相关性基因的功能,必要时进行实验验证。
我们要注意的是Oncomine中的共表达不能对多个研究进行比较(Meta分析)。因为不同的研究中,与目标分子共表达的基因大多是不同的,所以在选择研究名称时,尽量选择“cell line”的研究,因为在细胞系中检测,相对于临床组织样本,个体差异更小,干扰更小,后期实验可预期性会更好。
好啦,今天给大家介绍了Oncomine的大部分功能,整体不难,傻瓜式的点点点,具体还有更多更为详尽的功能等着大家去发掘,而不仅限于查看一个基因是否差异表达哟!