GEO数据库可能遇到的问题 (二) / 开普饭

昨天我们介绍了在使用GEO数据可能遇到的一些问题（GEO数据库可能遇到的问题）。由于篇幅的关系，还有一些没有说完，今天就把剩下的问题和大家说一下吧。

为什么GEO2R分析后不显示基因名

有很多表达谱芯片我们在分析之后，都可以在分析结果里面看到相对应的基因名。

但是有时候我们在分析完一些芯片的结果之后，并没有看到基因名。例如下面GSE111762这个数据集。我们分析后是这样的：

结果里面只显示了另外一个ID和序列。

这是因为，我们在使用GEO2R进行分析的时候，其实是分两部分的

基于原始数据ID的差异表达分析。
分析完之后吧ID号和注释文件进行匹配。如果有基因名那就匹配上了。如果没有那就显示其他的芯片。

对于这个数据集，我们如果去看他们的注释文件的话(GPL15314)。会发现里面就是这样显示的:

如果没有基因名怎么办呢？

类似没有基因名的文件，可能是这个芯片在一定时间内有专利保护。人家可以不放出基因名的。这种情况的话~

有可能是GEO注释文件老了。可能这个芯片已经发出新的注释文件了，那这个时候就可以试着去公司网站上找找看。有的话，那最好了。
如果没有，还确实想要分析这个数据的话，可以试着基于序列来进行blast。寻找相对应序列在blast之后对应的基因是什么。这样也是一种自己注释基因的方式。不过呢，一个芯片有60000+条序列，如果只是用ncbi的blast这个网页工具。。。有可能就还没注释完网页就崩了。这个时候还是建议离线的blast工具好一些
如果连基因序列或者每一个探针对应的基因位置信息都没有的话。。。。那还是放弃吧。换别的吧。。。

差异分析后没有差异的结果怎么办

有可能在分析某一个数据集的时候，我们在做完GEO2R差异表达分析之后，然后发现没有差异基因。这个时候其实首先应该考虑的是：

自己的实验分组对不对？是不是自己本身的实验分组就有问题？
GEO2R是基于芯片的矩阵数据来进行分析的，就是下图的这个数据。这个数据也是作者自己上传的，那作者上传的时候有可能就会过滤掉一些数据了。比如说有差异的那些结果。当然见过更厉害的，整个矩阵文件里面就没有数据。。不过毕竟自己的数据嘛，人家怎么做都是应该的。这个时候要是还想分析的话，可以试试下载更加原始的文件，也就是Supplementary file。不过这个东西就不能用GEO2R来分析了，就只能自己去找分析工具了，比如R语言。

甲基化芯片能不能用GEO2R分析

有时候我们在进行甲基化相关数据检索的时候，发现在甲基化数据下面也是有GEO2R的分析选项的。

这个其实也是可以用的，只不过分析的结果是基于某一个cg探针的结果。由于甲基化是是单一cg的影响可能不会那么大，所以都推荐说整体来评估一段区域的的甲基化改变情况。如果我们是为了找某几个cg来当作标志物的实话其实可以这样来做。但是如果是要评估甲基化整体的影响话，推荐还是正规的方法。目前比较推荐的还是R语言当中的CHAMP包来进行一个系列流程的分析。

写在最后

、

GEO数据库可能遇到的问题 (二)

为什么GEO2R分析后不显示基因名

如果没有基因名怎么办呢？

差异分析后没有差异的结果怎么办

甲基化芯片能不能用GEO2R分析

相关推荐