只聚焦一个基因如何进行下一步研究?
前段时间给大家介绍了很多很多的数据库,有时候单纯的数据库介绍的话,可能不清楚要怎么使用。所以这次就基于这个问题来来和大家说一下如何来寻找一个基因的一些基本的靶向指标。
我们要研究一个基因的功能的时候,最常见的就是来做一个这个基因的一个过表达细胞系/敲减(现在可能敲除更流行一些)细胞系,然后和正常表达的细胞系进行比较。通过转录组测序/基因芯片的方式来寻找进行差异基因,这些差异的基因就是收到目标基因影响的基因了。那👆也说了,我啥都没有,只有一个基因名。那肯定是手头没有这种数据的,但是自己手头没有不代表别人没有的。
我们在之前介绍GEO数据库的时候说过,这个数据库储存了很多其他人发表的高通量检测的数据,而这个数据当中也包括一些在发表基础实验文章的时候,自己做的目标基因过表达/敲减后的数据。所以说,可以试着去搜搜看,万一你研究的基因,就有人做过敲减的数据。那我们拿来进行一下分析不就可以直接用了嘛。例如 GSE27870这个基因集,里面就包括了很多基因Knock Down的芯片数据。至于如何进行差异表达分析的话,可以用GEO2R的嘛。这个我们也介绍过的,具体操作可以看这个帖子GEO2R差异表达分析软件
同样的如果我们之前介绍的KnockTF数据库,也是拿敲除的转录因子和没有敲除的进行比较分析获得的结果。所以如果研究的是一个转录因子拿仍然可以在KnockTF数据库试一下有没有结果的: KnockTF:转录因子敲除数据库(一); KnockTF:转录因子敲除数据库(二)
如果说,我们在GEO数据库里面检索了,没有发现和我这个基因相关的过表达/敲减的数据集,那怎么办呢?这个时候就可以通过全基因组的方法来寻找相互作用的基因。高通量测序的好处,在于我们可以一次性获得很多基因在相同样本的表达量。如果说这两个基因存在相互作用关系,那这两个基因的表达趋势就很有可能是一致的,所以通过相互相关分析就可以获得两者基因的相关系数,就能明白目标基因和哪些基因存在相互作用关系了。
由于这个小伙伴研究的是胃癌。癌症就很好说了,可以使用我们昨天推荐的cbioportal数据库来进行基因的共表达分析。为什么不用GEPIA呢,因为GEPIA只能进行制定基因的检索的。
对于共表达结果的筛选的话,记得不能单纯用p或者q值来筛选,对于相关分析而言p值并不能说明这两者的相关很大,所以我们要通过相关系数来进行筛选,筛选的时候记得结合这两个来进行筛选。
另外由于相关分析只能确定两者存在相互作用关系,但是并不能确定说谁是谁的上游。所以说这个结果肯定没有直接检索到过表达的结果好,但是也是一种来进行寻找作用基因的方式。
不过是通过过表达的数据还是全基因组的数据,我们到最后其实会得到很多相关的基因,这个时候要怎么精简了呢?这个时候就需要给予自己的实验目的来了,如果说我们寻找的是lncRNA这种的。那就可以对相互作用的基因进行注释,看哪个基因是lncRNA即可。基因注释的话,推荐可以使用biomart的网页版。这个不需要代码操作。改天可以写一篇相关的帖子介绍一下。
如果没有一个很好的想法的话,那可以先对相互作用目标基因进行富集,看看有没有自己想要的某一个研究方向。如果有的话,在富集结果里面挑选即可。富集的好就可以使用WebSestalt富集分析软件。
合作或转载请后台联系~