解螺旋公众号·陪伴你科研的第2582天

经典的单基因生信研究套路

今天跟大家一起学习一下非常经典的单基因生信研究套路，且如果看到本篇推送的小伙伴是研究乳腺癌的话，那真是幸运的一天呦，为何如此说呢，让我们一起来看一下吧~

文章题目

Bioinformatics analysis of prognostic significance of COL10A1 in breast cancer

要素拆解

题目：COL10A1在乳腺癌中预后意义的生物信息学分析

疾病：BRCA（Breast cancer）

数据来源：TCGA

分析策略：表达差异 + 临床意义 + 交互网络 + 功能聚类

复现之前我们先来聊聊本篇文章的靶基因，为何作者选择了这个基因呢？

小编就随手通过GEPIA网站看一下明星分子COL10A1在各个肿瘤中mRNA的表达情况，我们发现尤其是在BRCA和PAAD两个癌种中表达非常之高，且癌旁的基底表达非常低，简直就是完美的单基因研究对象呀！

然后我们再通过GeneCards或者UniProt等网站浏览一下目标基因的基本介绍，我们得知COL10是结构大分子胶原超家族的一员，由COL10A1基因编码，在大多数肿瘤组织中可观察到COL10A1高表达，并且其可能与肿瘤血管生成有关，其重要性不言而喻。

现在我将带领大家15分钟内复现完COL10A1在乳腺癌中的生信分析，那聪明的小伙伴如果想快速发3分左右文章毕业，且有举一反三能力的话，可以根据这篇文章的模式照下列步骤一试。

第一步：一定已经有人开始做的是在pubmed搜索COL10A1在PAAD中是否已有文章被发表过了，粗略搜索其实没有相关文章的发表，看到这儿的小伙伴快冲呀！（非常快的速度即可复现出来，可以投一下试试）

或者第二步：即便COL10A1在各个癌种中都有相关研究，那我们也可以后退一步，看一下COL家族其他基因在乳腺癌中是否有研究呢？毕竟同属一个基因家族，功能也会有相似之处，万一会有新发现呢？

再不济第三步：结合自己的前期工作基础，看在自己研究的癌种中是否有表达差异，找到一个感兴趣的目的基因肯定没问题。

接下来就是利用生信分析工具发表第一篇属于自己的生信文章啦。

今天让我们一起来学习一下这篇3分杂志经典的生信分析方法吧！

期刊简介

思路框架

复现内容

Figure 1: COL10A1在乳腺癌患者中的表达增加

Figure 2: 乳腺癌患者COL10A1表达与临床指标的关系

Figure 3: COL10A1的高表达与乳腺癌患者不良预后相关

Figure 4: COL10A1和LRRC15在乳腺癌患者中共表达

Figure 5: LRRC15在乳腺癌中的有效性及生存分析

复现工具

◆ 仙桃学术工具

（https://www.xiantao.love/products）

◆ Oncomine数据库

（http://www.oncomine.org）

◆bc-gene expression miner数据库

（http://bcgenex.centregauducheau.fr）

◆ UALCAN数据库

（http://ualcan.path.uab.edu/）

◆ Prognoscan数据库

（http://www.prognoscan.org/）

◆ K-Mplotter数据库

（http://kmplot.com/analysis/index.php?p=background）

◆ GEPIA2数据库

（http://gepia.cancer-pku.cn/）

◆ UCSC Xena

（http://xena.ucsc.edu/）

◆ LinkedOmics dataset数据库

（http://www.linkedomics.orglogin.php）

现在一切准备就绪，跟我一起开始复现之旅吧~

文章复现

Figure 1

COL10A1在乳腺癌患者中的表达增加

首先作者为了证明目标基因COL10A1在乳腺癌中表达是有差异的（大家在进行生信分析的时候首先应该确认的就是表达是否有差异，这是生信分析的前提，虽然这句话说过很多遍了，还是忍不住再强调一遍）作者利用Oncomine数据库分析了COL10A1 mRNA在各种乳腺癌数据集中的表达。我们可以从Figure1看到，在9种乳腺癌数据集中，COL10A1在癌中的表达都是高于在癌旁中的表达的。

复现步骤：

首先登陆oncomine数据库（https://www.oncomine.org/resource/main.html）

这个网站仅限非盈利机构邮箱可以免费注册，免费功能一般就可满足我们的需要，我们可以看到目前oncomine数据库收录了715个数据集，其中包含了86733个样本的芯片数据，支持几乎所有的蛋白编码基因，部分研究比较多的非编码RNA也能搜索到，如明星的miRNA，let-7等。

登陆之后，就出现以下界面，具体步骤如下

1：输入靶基因COL10A1

2:【Analysis Type】中选择【differential Analysis】，然后选择正常VS肿瘤，

3：最后选择【Breast Cancer vs Normal Analysis】

4：这里我们可以进行一些个性化定制，我们可以设置P-value，Fold change, Gene RANK等

5：这里罗列了各种乳腺癌数据集，作者从中选取了9种数据集展示，我们可以根据自己的可以需要，展示数据集

6：当我们在第5步选中一个数据集时，右边即会出现该数据集的箱型图，

7：作者在A图中展示的是male breast carcinoma，我们从TCGA Breast中找到了这个数据集，用红框框住了，点击这个数据集。

8：从右边的箱型图中可以看到数据集的具体详细信息，P-value为2.70E-5，t-Test为23.123，Fold Change为95.255，和Figure 1A一模一样，接下来，同样的步骤将剩余8个数据集都展示出来（intraductal cribriform breast adenocarcinoma，invasive breast carcinoma， invasive lobular breast carcinoma， invasive ductal breast carcinoma， mixed lobular and ductal breast carcinoma， ductal breast carcinoma in situ stroma， invasive ductal breast carcinoma stroma， ductal breast carcinoma）

接下来我们来复现Figure 1的J图

这张图用到了UALCAN数据库（http://ualcan.path.uab.edu/）

Figure A-I 展示了COL10A1在乳腺癌当中mRNA的表达量是显著升高的，接着作者又做了COL10A1在蛋白当中的表达。

复现步骤：

1：打开UALCAN数据库，选择【CPTAC analysis】

2：输入我们的目标基因COL10A1

3: 选择我们的研究癌症【乳腺癌】

4: 点击【Explore】

5：选择【Total-Protein】

6：即可出现COL10A1在乳腺癌中的蛋白表达情况，结果发现癌比癌旁表达要高很多。

总结：作者通过mRNA水平和蛋白水平双重论证了COL10A1在乳腺癌中是高表达的，这个靶基因是值得深入研究的。

Table 1

COL10A1在乳腺癌患者中的表达增加

Table 1就是将Figure1图形数据整理成表格形式，大家肯定都会，我们就不多赘述了，Table格式使得作者想要表达的意思更加清晰明了，这一步也是凑图的好办法哦~

Figure 2

乳腺癌患者COL10A1表达与临床指标的关系

本张图利用了bc-gene expression miner数据库 (http://bcgenex.centregauducheau.fr）

这个数据库可以分析靶基因在乳腺癌患者的临床指标差异，它是基于web的一个工具，包括一个MySQL关系数据库，使用R统计软件和软件包进行生存分析。通过SSPs和SCMs进行分子分型。目前这个数据库于2021.4.8号升级到v4.6版本，用户可在线进行表达量分析，预后分析，相关性分析等，这个网站让我们实现了不会R语言的情况下也能轻松进行数据挖掘。作者Figure 2A-2H 分别做了以下研究:

A：年龄

B：SBR等级

C：ER

D：PR

E：HER2

F：nodal status 节点状态

G：basal-like status 基底样状态

H：triple-negative status 三阴状态

复现步骤：

1：进入首页后，可以看到网站首页中的【Analysis】，点击之后，我们可以看到有3个选项，分别是：expression（表达）, prognostic（预后）和correlation（相关性）

Figure 2 主要用到的是【Expression】这个模块，点击之后有3个选项，分别是Targeted（靶向的，意思一般是选择一个因素进行分析），Exhaustive（详尽的，意思是全部因素加入分析系统）和Customised（定制的，意思是根据自己需求选择几个因素加入分析系统）。

2：点击【Targeted】之后，输入基因名称COL10A1

3：选择作者检测这个基因在某个因素的标准下的表达情况，如我们选择【age】

4：单击submit提交

5：这时出现的是这基因的信息，以及它分析所用的数据的病历资料和来源，将网页拉到底，单击【Start analysis】，就会出来结果了。

6：可以看到，通过对数据库中病历资料进行分析，直接做出来COL10A1在乳腺癌患者的不同年龄段呈现出的表达情况图，即可得到figure2a，然后用同样的步骤将SBR等级，ER，PR， HER2，nodal status 节点状态，basal-like status 基底样状态，triple-negative status 三阴状态图做出来，拼接即可得到Figure 2。

Figure 3

COL10A1的高表达与乳腺癌患者不良预后相关

作者研究了COL10A1表达和生存的关系，作者在这里利用了KM-plotter数据库和bc-gene expression miner这两个数据库进行研究。

复现步骤：

1：打开KM-plotter网站（http://kmplot.com/analysis/index.php?p=service）

然后输入目标基因COL10A1

2：作者在文中列了OS和RFS生存状态，我们先来复现一下OS（Overall survival）

3: 根据自己课题选择ER阳性/PR阳性/HER阳性/或者TNBC三阴性等个性化需求，作者在文中并没有说明自己设定了条件，我们就默认全选。

4：点击【Draw Kaplan-Meier plot】

5：我们发现COL10A1在乳腺癌中的生存并不显著，P值=0.64，

但是值得注意的是，作者原文关于OS 的病人数目远远小于我们复现纳入的人数，所以我推测作者设置了一些条件让P值变得显著了，但是他在原文中没有说，毕竟我们学的是方法，知道如何靠上临床意义即可。

Figure 3B的复现方法和Figure 3A几乎一模一样，只需在第2步中将OS换成RFS即可。

接下来我们来看一下Figure 3C如何复现

本张生存预后图利用了bc-gene expression miner数据库

1：选择【Analysis】菜单栏下的【Prognostic】，然后选择【Targeted】

2：输入目标基因COL10A1

3：本章当中选择了Metastatic relapse free survival，所以我们在第三步中选择【Metabric】

4：下面这一步，只有DMFS，OS，DFS可以选择，我们选择DFS

5：点击【Submit】

6：点击【Start analysis】

7：得到Figure 3C

接着我们来复现Figure 3D

本张图作者是利用KM plotter数据库分析了COL10A在蛋白水平上是否还和生存有关系。

1：首先进入KM-plotter数据库页面，选择第三行【Start KM Plotter for breast protein】数据库，点击进入。

2：输入gene symbol【COL10A1】

3：选择Tang_2018 dataset，然后点击【Draw Kaplan-Meier plot】，

出现和原文中一模一样的Figure 3D

现在我们用作者在文中提到的方法复现了原文，但是说起便捷性，当然还得是我们的仙桃学术工具呀，现在我们用仙桃工具复现一下Figure 3

复现步骤：

1：进入仙桃学术高级版，选择临床意义（靠）模块

2：点击【预后分析】

3：选择【KM 曲线图】

4：选择感兴趣的癌种，我们这里选择TCGA-BRCA

5：输入目标基因Col10A1

6：预后类型我们以OS为例

7：点击确认，即可得到COL10A1表达高低与乳腺癌预后的曲线图

8：我们可以选择保存，或者直接下载PDF，非常省事快捷。

Figure 4

COL10A1和LRRC15在乳腺癌患者中共表达

作者为了进一步研究COL10A1在乳腺癌中的潜在机制，作者首先利用oncomine数据库进行了COL10A1的共表达数据挖掘。

复现步骤：

1：进入oncomie数据库，输入目标基因COL10A1

2：Analysis Type选择【Co expression Analysis】

3：选择乳腺癌，这样得到的是乳腺癌相关基因

4：我们可以看到和原文中一样的结果，LRRC15是和COL10A1最相关的基因。

接着我们来复现Figure 4B，作者说Figure 4B 也是用bc-GenExMiner数据库得到，但是据我所知，这里作者应该是写错了，作者应该是利用GEPIA分析得到COL10A1与LRRC15的正相关性

复现步骤：

1：输入目标基因COL10A1，点击GoPIA

2：选择【correlation】模块

3：输入我们需要研究相关性的两个基因，分别是COL10A1，LRRC15

4：选择【BRCA Tumor】

5：点击【Plot】

6：即可得到COL10A1，LRRC15的相关性图

现在我们来复现Figure 4C

作者这里依然用了bc-GenExMiner数据库

具体复现步骤如下：

1：进入该数据库后，我们选择【Correlation】模块，然后选择【Targeted】

2：输入我们想研究相关性的两个基因【COL10A1】和【LRRC15】

3：点击【Submit】

4：点击【Start analysis】

5：即可得到和文章Figure 4C 一模一样的相关性热图，点击下载，保存备用。

接下来我要给大家介绍第三种表示相关性的方法：仙桃学术工具！

复现步骤：

1：我们首先选择【交互网络（联）】

2：选择【分子相关性分析】

3：选择【散点图】

4：选择【TCGA-BRCA】

5：输入我们感兴趣的目标基因【COL10A1】和【LRRC15】

6：点击【确认】

7：即可得到两个基因的相关性，可以直接点击保存。

接下来我们来复现Figure 4D

作者利用了UCSC Xena数据库（https://xenabrowser.net/heatmap/）

首先说下UCSC，对于生物，医学的研究者来说肯定不陌生。它集分析、可视化、Galaxy与一体的新一代在线数据分析和可视化平台。现有91个队列的1098个公共数据集包括TCGA，ICGC，TARGET,GTEx，CCLE等都进行了标准化处理，因此不同数据集之间可以组合比较。

热图的方式可以进行单基因和多基因的表达、突变、拷贝数变异，样品属性的关联展示等。

大家可能对于这个数据库不太熟悉，但是呢数据库的使用主要要自己多去操作，不要想着一下子就了解数据库的使用方法，找到想要的分析内容，尤其是刚接触的时候，就当看小说，把数据库的每个按钮都点一点，看一下英文解释，熟悉了操作以后慢慢也就学会使用数据库了。

复现步骤：

1：进入UCSC xena以后，第一步在【Study Discovery】选择 I know the study I want to use

2：选择乳腺癌数据集

3：点击Done，即可进入下一个界面

4：在【select data type】选择【Phenotypic】，下一步选择【PAM50】

5：接下来在在【select data type】选择【genomic】，输入【COL10A1】和【LRRC15】。

点击Done，即可得到Figure 4D

Figure 5

LRRC15在乳腺癌中的有效性及生存分析

复现步骤：

1：首先Figure 5A由GEPIA复现得到，我们打开这个网站，输入对于COL10A1相关性最强的基因—LRRC15，然后点击GoPIA

2：在【Expression DIY】模块中选择【Boxplot】

3：输入gene symbol【LRRC15】

4：输入癌种BRCA

5：点击【Plot】

6：可直接下载保存，用在文章中。

接下来我们用仙桃学术复现一下Figure 5a

复现步骤：

1：打开仙桃学术工具高级版，选择【表达差异】模块

2：选择【非配对样本】

3：选择【乳腺癌】

4：输入基因【LRRC15】

5：点击【确认】

6：出图区域直接出图，我们可以直接保存，操作非常便捷，且画出来的图形非常好看。

接下来让我们来复现本文当中的最后一张图形Figure 5B

复现步骤：

1：打开KM plotter 数据库

2：输入LRRC15基因，选择OS，点击Draw，即可查看LRRC15在乳腺癌中的生存表达情况，这个数据库使用方法非常简单，在这里我们就不过多赘述，小伙伴们自行点点点，自然就会了。

现在我们来用仙桃学术复现一下

1：进入仙桃学术高级版，选择临床意义（靠）模块

2：点击【预后分析】，选择【KM 曲线图】

3：选择感兴趣的癌种，我们这里选择TCGA-BRCA

4：输入目标基因LRRC15

5：预后类型我们以OS为例, 点击确认，即可得到LRRC15表达高低与乳腺癌预后的曲线图

6：我们可以选择保存，或者直接下载PDF，非常省事快捷。

至此，本文复现完成，看的再多不如自己完整复现一篇有效果，只有自己能复现出来才说明你真的掌握了，预祝各位小伙伴早日发出自己的SCI！

—END—

撰文丨Rain

排版丨豨莶

养了10天的细胞，一次实验全毁了

快来看看这个自引率为0且接收阴性研究结果的新晋免疫学期刊

Nature子刊发重磅综述介绍肿瘤的诺奖方向（值得收藏）

本周直播预告

领悟科研优人一步

直播主题：做科研时，是实力重要还是关系重要？

直播时间：6月3日晚18点-20点

本次直播将在哔哩哔哩和微信视频号同步播出，同时也会在双平台进行直播抽奖。大家可以去微信视频号进行直播预约，更多直播精彩内容不要错过奥。

戳按钮预约直播

解螺旋期待与你共同成长

这些图表是生信的入门分析，直接看着教程做，简单又好用！成就感soso的！

Figure 1

Table 1

Figure 2

Figure 3

Figure 4

Figure 5

相关推荐