平平无奇,8个数据库凑一篇5+纯生信?别犹豫了,赶紧上车!
解螺旋公众号·陪伴你科研的第2562天
零代码复现基因家族分析
今天我为大家带来一篇发表在Frontiers in Oncology杂志上,影响因子为4.848的一篇分析基因家族的生信文章,之前我复现的一篇9分生信文章也是关于基因家族文献,大家可以联系起来学习,总结基因家族的生信文章所有花式凑数据的方法,争取做到把该做的都做了,毕竟酸菜大大和雪球老师都说过如果把挑圈联靠四个维度的数据都做满,文章的影响因子就不会太差啦!
上篇基因家族复现的传送门如下:
绝了!9+纯生信文章,我用15分钟零代码教你复现!老底儿都没了(附详细操作教程)
大家如果手上有合适的基因家族正在做湿实验,看到本篇推文加上几个生信图,发到10分+还是非常有希望的。
今天复现的文章题目是:
题目:结直肠癌中CBX家族成员预后价值及免疫浸润的综合分析
疾病:结直肠癌
数据来源:TCGA
分析策略:基因家族+生信在线工具(表达+预后)+免疫浸润等相关分析
(http://kmplot.com/analysis/index.php?p=background)
(http://gepia.cancer-pku.cn/)
本文共7张大图一张表,现在一切准备就绪,没时间解释了,快上车!跟着我一起开始复现之旅吧!
Figure 1
CBXs在不同癌症中的差异表达
作者为了探讨不同CBXs在结直肠癌患者中的不同表达,采用Oncomine数据库分析mRNA表达。根据Oncomine的数据,CRC组织中CBX1、CBX2、CBX3、CBX4、CBX5、CBX8的转录水平显著升高,而CBX6、CBX7的转录水平较正常组织明显降低
复现步骤:
登陆oncomine数据库
https://www.oncomine.org/resource/main.html
这个网站仅限非盈利机构邮箱可以免费注册,免费功能一般就可满足我们的需要,我们可以看到目前oncomine数据库收录了715个数据集,其中包含了86733个样本的芯片数据,支持几乎所有的蛋白编码基因,部分研究比较多的非编码RNA也能搜索到,如明星的miRNA,let-7等。
1:首先,在【search】这一栏输入CBX1,就会在右边展示CBX1在各个癌种中的表达情况。
2:表格上方可以选择数据筛选条件,包括p值,变化倍数等,不过一般默认就好~但是作者在这里将P值从默认的0.05改成了0.01,大家复现的时候注意一下。
3:数字代表了研究数量,红蓝色代表高低表达。我们可以看到复现出来的结果和原文一模一样,按照同样的步骤,将CBX2-8分别做出来,拼接到一起,即可得到Figure 1
接着,作者在这里列出了全文中唯一一张表,让我们来看一下如何制作这张表吧
Supplemental Table 1
CBXs在不同类型的结直肠癌组织和正常组织中的表达
我们这里依然用CBX1做示范。
复现步骤:
1:在oncomine数据库中输入CBX1
2: 选择【Differential Analysis】再选择其中癌VS癌旁的分析
3: 【Analysis Type】选择Colorectal Cancer VS.Normal Analysis
4:这里P-VALUE根据个人情况选择,作者在这里选择了0.01
5:选择来自TCGA的数据集之后,右边出现了这个数据集具体信息,比如说Fold Change2.308,p为5.78E-04,将这些信息整理成表格即可得到Table1
Figure 2
CBXs 在结直肠癌中的表达
本张图由GEPIA在线数据库(http://gepia.cancer-pku.cn/)得到,GEPIA2于2020年5月份正式开放使用,是GEPIA的升级版。GEPIA2上线了多个GEPIA版本没有的功能,在很大程度上丰富了网站的功能,可以帮助我们做出更多的可视化结果。比如说GEPIA2提供了自定义上传数据分析的功能,为用户提供个性化服务。GEPIA是唯一一个整合了TCGA和GTEx数据的在线工具,解决了TCGA数据库的局限性(很多肿瘤类型的正常匹配样品很少)现在让我们一步一步来复现这张图吧:
复现步骤:
1:打开GEPIA网址,,在【enter gene name】输入CBX1
2:在菜单栏【Expression DIY】中选择【profile】
3:选择文章中研究的COAD癌种,点击plot,即可得到文章中的图
同样的步骤,将CBX2-8用GEPIA画出来,下载拼接即可得到Figure2
Figure1和Figure2是结果一里面的两张图,主要都是为了显示CBX家族在结直肠癌病人中的表达情况。
那研究基因家族在肿瘤中的表达大家不要忘了还有一个神器~
那就是学的永远没有更新快的,地表最强【仙桃工具】啦
现在我们来用仙桃学术看一下如何复现本张图:
这里我们依然用CBX1做示范
1:在高级版中选择【表达差异】,再选择【非配对样本】
2:选择【TCGA-COAD】数据集
3:输入目标基因【CBX1】
4:按需选择可视化方式,这里我们选择默认的【箱式图/柱状图】
5:点击【确认】
即可出图,点击下载图片。同样的对CBX2-8进行分析,拼接起来。现在我们有3种方法可以展示基因在结直肠癌中的表达量,分别是oncomine,GEPIA,仙桃学术工具,很明显,用工具做出来的图形个性化程度更高,也更加好看,小伙伴们学会了吗?当然做表达量分析远不止这3种方法,以后我们再根据文献进行具体介绍。
Figure 3
CBX表达与结直肠癌肿瘤分期的相关性
对于这张图有些小伙伴可能有些觉得不知道作者想表达什么意思,现在让我们先对每个参数都进行讲解,再教大家如何用2种方法进行复现,首先我们还是用CBX1作为示例
1:看Pr值,小于0.05有意义
2:看中心点(白点),代表基因的表达均值
3:可以对COAD进行分期
方法一GEPIA复现:
1:在Gene列中输入【CBX1】
2:【Expression DIY】中选择【Stage plot】
3:【Cancer name】选择【COAD】
4:Plot color按照个人喜好选择,作者这里选了红色
5:点击【plot】出图,然后下载。
这个小提琴图告诉我们,在肿瘤发展的不同时期,该基因表达无明显差异,可以推测,该基因对肿瘤预后意义不大。同样的方法,可以将CBX2-8补齐,拼接成Figure3。
方法二仙桃学术复现:
1:高级版仙桃学术,选择【临床意义(靠)】
2:选择【临床相关性】
3:癌种选择【结肠癌】
4:选择【临床-Pathologic.stage】分成Stage I,Stage II,StageIII,StageIV四组
5:基因输入【CBX1】
6:点击确认。
得到的结果和GEPIA结果类似,证明了在肿瘤发展的不同时期,该基因表达无明显差异。和GEPIA得到结果一致。
Figure 4
结直肠癌中CBXs表达的预后价值
现在,我们来看一下Figure4:作者探究了CBX家族基因和生存之间的关系。
本图依然是由GEPIA在线数据库(http://gepia.cancer-pku.cn/)得到,我们一步一步来复现:这里依然用CBX1为例
方法一GEPIA:
1:菜单栏选择【Survival】
2:Gene输入【CBX1】
3:【Methods】选择【Overall Survival】,或者选择【Disease Free Survical即RFS】就可得到原文中关于CBX1的两张生存图。
3: Datasets Selection输入【COAD】
4:点击【Plot】
Logrank是经典的比较生存曲线差异的算法,一般认为P<0.05有显著差异,这里p=0.85,不显著,说明CBX1和生存无关。
方法二仙桃学术:
1:仙桃学术选择【临床意义(靠)】
2:下拉菜单选择【预后分析】--【KM曲线图】
3:选择【COAD结肠癌】
4:输入基因【CBX1】
5:【预后类型】这里先选择OS,随后选择RFS
5:点击确认,同样的步骤得到CBX2-8拼接起来即可得到Figure4
Figure 5
CBXs在直肠癌中的预后价值
接着,我们来复现Figure5,本图作者依然是为了证明CBX家族和生存之间是否有相关性。
作者用了Kaplan-Meier plotter在线数据库。这个数据库是一个生存分析的在线工具,最初是设计用来对肝癌中的miRNA进行生存分析,后来在此基础上进一步拓展,目前支持21种肿瘤类型,包括miRNA和mRNA的生存分析,用法很简单,我们这里还用CBX1举例,复现步骤具体如下
1:因为Kaplan-Meier plotter分析gene chip只包括【Breast cancer】,【Ovarian cancer】,【Lung cancer】,【gastric cancer】,而作者研究的是COAD,所以需要选择RNA-seq的泛癌数据。
2:Gene symbol输入【CBX1】
3:这里选择【OS】
4:选择癌种【Rectum adenocarcinoma】
5:【Draw Kaplan-Meier plot】即可出图
结果和原文一模一样。至此,我们现在学会了用3种方法做基因生存分析,小伙伴在做自己课题的时候记得每种做生存分析的方法都试一遍,选取自己想要的结果放在文章里。
Figure 6
结直肠癌中CBX的基因突变和表达分析
接下来我们来复现Figure6: 结直肠癌患者CBXs的基因改变、表达和相互作用分析
本张图作者用到了cBioportal分析工具(http://www.cbioportal.org/),String数据库,GeneMANIA数据库,我们先来简单介绍一下cBioportal数据库,这是探索肿瘤的基因组学特征的一个数据库,是在DNA水平进行的,可对机制进一步研究,本数据库不用注册,可免费使用。这个网站目前存储DNA拷贝数数据,mRNA,miRNA表达数据,非同义突变,蛋白质水平和磷蛋白水平数据,DNA甲基化数据和一些有限的临床数据等。
具体复现步骤如下:
A图:
1,2:我们先看一下A图包含了Rectal Adenocarcinoma,Colon Adenocarcinoma,Colorectal Adenocarcinoma三种数据集,所以我们进入cBioportal网站后,选取相对应的数据集,7个数据集加在一起正好1949个samples
3:【Select Molecular Profiles】选取Mutations、Copy number alterations
4: 输入我们文章中的基因家族名称
5:点击【Submit Query】
6:菜单栏中选取【Cancer Types Summary】即可得到A图
B图:
7:菜单栏我们选择【OncoPrint】,即可得到B图,
8:我们来细看一下下图框框里的突变比例,CBX1-8分别为0.6%,1.3%,1%,2.6%,0.8%,1%,1%,1.6%,和原文比较之后发现一模一样,复现非常有操作性。
接着我们来复现Figure6C,利用String数据库分析得到
具体步骤如下:
1:左边菜单栏里选择【Multiple proteins】
2:将需要研究的基因/蛋白输进去
3:Organism选择【Homo sapiens】
4:点击【Search】
5:点击【Continue】即可得到Figure6C
我们现在来看一下Figure6D,该图由GeneMANIA得到。
GeneMANIA(http://www.genemania.org)的开发者来自加拿大的多伦多大学,最开始数据库相关文章(PMID:20576703)于2010.7月发表在Nucleic Acids Research杂志上(IF=11.501),截止到2021.3.12该文章已被引用1042次,之后开发者于2013年和2018年对该数据库进行了两次大更新,每次更新的文章也都发表在了Nucleic Acids Research杂志上。
该数据库用于生成有关基因功能的假设,分析基因列表和为功能分析确定基因的优先级,给定一个查询基因列表,GeneMANIA使用大量的基因组学和蛋白质组学数据发现功能相似的基因。在这种模式下,它根据查询的预测值对每个功能基因组数据集进行加权(以上关于GeneMANIA资料引用自解螺旋—阿波没有罗)
复现步骤:
1:如图所示,我们以网站默认选择物种和网络,基因列表我们输入CBX1-8基因名,点击后面的放大镜进行检索(因为回车是继续输入下一个基因名),
2:点击最右边网页,第一个圈圈标出来的按钮,加载完成就会得到和文章一模一样的结果,即Figure6D。这个数据库功能与string数据库类似,但和string相比,GeneMANIA图更加炫酷好看一些,可能更受审稿人青睐,大家可根据需要自行选择。
Figure 7
差异表达的CBX与免疫细胞浸润之间的相关性
下面我们来复现最后一张图Figure7:在结肠癌患者中,CBX家族的免疫细胞浸润研究。
作者是利用了TIMER数据库分析(http://timer.cistrome.org/)
复现步骤:
1:在最上方菜单栏中选择【Immune】
2:Gene Expression中输入我们需要研究的基因名【CBX1】
3:Immune Infiltrates依次选择【B cell,CD8+T cell, CD4+T cell,Macrophage,Neutrophil,Dendritic Cell】
4:点击【Submit】
5:这时候出来的是泛癌,我们在【Search】栏输入COAD,可以点进去我们想要的图形,拼接起来即可得到Figure7
至此,本文复现结束,本篇文章一个非常大的优势在于复现过程中结果和作者原图结果几乎一致,不像大部分生信文章重复不出来一模一样的结果,很适合新手小白进行复现哦。如果在复现过程有疑惑,欢迎大家一起讨论哦!
这十个R语言包做出医学统计图,CNS都赞不绝口!
中科院预警的4分国人友好SCI,1个月接收,还在大扩刊中
想升级研究思路?那赶快学习下这个机制