基因总体预后没意义就真的没意义了嘛
我们在研究基因对于某一个疾病预后是否有影响的时候。最直接的就是单纯的做这个基因对所有患者的预后分析。如果预后有意义,就说明这个基因影响疾病的预后。如果没有意义就说明这个基因不重要的嘛?当然也不是的。疾病的发展是一个多基因多因素相互影响的结果。如果这个基因对于所有患者预后没意义的话,有可能这个基因在某些药物治疗下可能就影响预后了,或者说这个基因和另外一个基因存在相互作用关系。在另外一个基因激活的情况话,这个基因就影响预后了。因此,我们在发现一个基因对于预后没有意义的时候,也不能说这个基因没意义了,可以继续尝试做一些进一步交互性的分析。
在肿瘤分析当中,单纯分析一个基因的预后分析的话,很多网站都可以来实现,例如GEPIA, UALCAN这些经典的数据库都可以做。但是如果要进行这样亚组的分析的话,这些网站就不行了。所以进行就介绍可以进行交互行的预后分析数据库:siGCD([http://sigcd.idrug.net.cn/Home])。这个数据库可以分析基因、细胞以及药物之间相互性的预后分析
基本分析算法
数据库主要是基于RNA-seq的数据来进行后续的预后分析的。
对于基因的分析,就是直接使用目标基因的表达量进行分析即可。而对于细胞浸润以及药物相关的分析,则需要对RNA-seq的数据进行转换一下。
在细胞分析当中,我们需要输入和这个细胞相关的阳性基因和阴性基因。基于这些输入基因的表达量来进行来转换成细胞的表达量。
这里数据库使用的转化公式是:(阳性基因的表达量和-阴性基因表达量的和)/阳性基因和阴性基因的总个数。
而对于药物的评分,主要是通过输入药物的靶标基因来进行转换。具体转换公式则是:药物靶标基因的表达量和/药物靶标基因个数。
背景数据集介绍
siGCD数据库内置的是TCGA数据库当中的RNA-seq的数据。如果是想要分析TCGA的数据的话,可以直接是有数据库来进行分析。同时数据库还提供了自定义数据上传的功能。因此如果有自己的测序数据的话,就可以自己上传数据来进行额外的分析了。具体上传怎么样的数据集。数据库也给了具体的介绍([http://sigcd.idrug.net.cn/CustomData])。
数据库操作
数据输入
在数据库的操作方面,我们只需要基于自己的目的选择不同的分析模块即可。这里我们就是用cell-gene模块进行演示。
在细胞名称方面,数据库里面有一些预先加载的免疫相关的相关基因。如果是做免疫方面的细胞的话,可以在里面搜索一下看看有没有。
如果没有自己想要的,则可以输入自己定义的基因。
另外,我们还需要输入想要分析的基因。这里可以输入多个想要分析的基因。这里我们输入一个基因来进行分析。
最后就是选择分析的数据集,这里可以选择使用TCGA的数据还是自己的数据。同时对于临床的常见风险因子(性别、年龄以及TNM分期)是否要纳入到分析。
在选择完之后,我们点击Submit即可。
结果展示
结果展示部分,首先展示的是目标细胞和分析的基因相关性的分析。这里使用了perason相关。
结果首先通过表格展示了目标细胞和每个基因相关分析的结果,同时点击具体的基因可以在右侧展示具体的散点图。
除了相关分析之后,还展示了在细胞和基因协同性以及不同亚组的预后分析。
在这里有一个Z得分。Z得分为正代表目标细胞和基因对患者生存结局具有协同相互作用,这意味着目标细胞的高值将增加另一个基因的危害。另一方面,Z得分为负的变量对对患者的生存结局具有拮抗作用。例如,例子分析的结果就是负的。代表细胞和IL15存在拮抗作用。
再往下就可以分析目标细胞和目标基因之间的亚组预后分析了。这里提供了细胞基于基因的亚组预后,基因基于细胞的亚组预后,以及两者的联合预后。
由于前两者都差不多,我们这里就说一下基因基于细胞的预后。之前在介绍预后分析的时候,我们提到过如果使用KM方法进行预后的话,首先需要把基因的连续性表达数据分成二分类数据(具体可以看这里:KM分析)。在这个方面,数据库是通过中位值这个最经典的区分方法来进行划分的。
在结果展示部分,数据库首先展示了,基因总体的预后情况。
同时基于细胞表达量的中位值分成了高低两组,然后分别看高低两组之间,基因的预后是否有差异。
上面的例子就是一个很经典的,总体预后没有差异。但是基于某一个基因集的亚组当中预后就有差异的例子。
除了亚组观察预后。还可以把两个因素联合起来观察预后是否有差异。
总的来说
以上就是这个数据库的基本使用了。基本上,如果要研究一个基因的预后。在预后没有意义的情况话,也可以进行额外的挖掘。万一真的能发现这个基在某一个分组当中特别有意义,比如免疫治疗。那说不准真的可以当某一个特定分组的marker呢。