如何利用ICGC数据库来寻找一个突变相关课题

如何利用ICGC数据库来寻找一个突变相关课题

昨天我们介绍了ICGC来浏览PCAWG数据的基本功能。昨天的那样介绍,稍微有一些零散,所以我们可以假设一个例子来使用ICGC数据库分析一下看一看。

以下是随便想的一个课题,如有雷同,纯属巧合。

科研假设

基因突变有很多种类型,其中核苷酸的插入有可能影响基因的蛋白的编码。所以对于基因突变插入的研究是是很重要的。

对于实体肿瘤而言,很多肿瘤都处于一个环境当中,例如消化道的三个肿瘤:食管、胃和肠。对于处于相同环境的肿瘤,其发病机制有可能是相同的。

综上,我们就想研究插入突变对于消化道肿瘤的影响

1. 三个肿瘤基因突变插入的影响

既然要研究三个肿瘤当中插入突变的影响。那首先第一步我们就需要查看不同肿瘤当中对于突变插入的影响。这里我们以食管癌举例:

1.1 查看食管癌当中插入突变的结果

在ICGC的数据库的筛选栏当中,我们在 Donors中的样本类型当中选择食管,在Mutations中的突变类型选择插入。这样就获得食管癌当中和插入突变有关的基因都有哪些。经过筛选,我们发现有17,552个基因和插入突变有关。

1.2 插入突变基因基因特征分析

在知道了和食管癌相关的插入突变的结果之后,我们可以对这些结果先进行一下简单的分析。

首先我们可以通过oncoplot来观察突变的类型。

另外我们可以对这些有插入突变的基因进行富集分析。观察突变的这些基因主要影响什么功能。

在对这个结果进行了简单的分析之后,我们可以保存这个基因集的结果,以便后续进行的交叉分析。

重复以上筛选和分析的步骤,我们就可以分别得到三个癌种当中对于插入突变相关基因的结果了。

2. 多癌种交叉分析

在👆的数据筛选和分析过程当中,我们可以获得三个不同癌种当中和插入突变有关的基因数据集。这个时候,我们可以对这三个数据集进行交叉分析。来寻找和三个癌种都有关系的突变基因。

ICGC提供了交叉分析的入口。我们可以在Data Analysis当中使用Set Operations来进行交叉分析。在这里我们选择Select就可以选择数据集进行交叉了。

Select里面选择我们之后筛选获得的三个数据集。点击Run即可获得结果。

最终我们可以发现有269个基因的插入突变在三个癌当中都有发生。

我们点击结果当中的269即可查看所有的这些269个基因是什么。

3.数据的进一步分析

经过上面的分析,我们发现了有269个基因的插入突变会影响。但是我们研究的话,不能把269个基因都进行研究的。所以要挑选一个来进行研究的。在269个基因当中,有一些是反义链lncRNA。由于lncRNA也算比较火。所以我们就想要看哪个lncRNA的突变对于肿瘤有影响的。

所以我们在基因类型里面选择反义链。最后发现了有13个反义链的lncRNA和三个癌症有关。

进一步,为了说明突变的重要性,我们查看一下这几个基因插入突变对于预后的影响。最后发现DIAPH3-AS1这个lncRNA的插入突变影响肿瘤的预后。

于是,我们就有了一个课题了。这个课题就大致上就可以是:lncRNA DIAPH3-AS1的插入突变对于消化道肿瘤预后的影响

(0)

相关推荐