GEO数据库可能遇到的问题

昨天介绍完GEO2R之后其实该和大家说一下富集分析相关的东西了(昨日链接:GEO2R差异表达分析软件)。但是,由于GEO数据库里面的数据种类比较多,所以经常我们用的这个数据集和其他数据集有区别,所以就导致碰到这种这样的问题。这里就简单说一下我们之前碰到的一些问题吧,如果大家还有新的问题,欢迎后台留言提问~

1

这个数据集为什么没有GEO2R分析工具?

有时候我们在找到数据集,然后看了分组之后,觉得这个数据和我们想要的挺符合的。想分析的时候,发现没有GEO2R这个工具。

例如下面这个:

这个就涉及到GEO2R的使用目标了。GEO2R只适用于 表达谱芯片分析。但是GEO数据里面,并不止是包括表达谱芯片数据。还包括一些二代测序的数据。而二代的数据是不能这么简单的分析的,这也是为什么我们在第一次介绍GEO的时候,就说,现在常规的容易入门的数据分析类型还是 表达谱数据

一般我们在GEO检索结果的时候,如果可以用GEO2R分析的,都会显示。

2

GEO2R能进行多组分析嘛?

有时候我们发现一个数据集,里面包括多个不同的分组。而且我们还都感兴趣。那能进行进行多组分析嘛?

这个GEO2R里面是考虑多多组之间的分析的,我们只需要在制定分组的时候,制定自己想要的分组就行了。

只不过呢,在结果当中,我们就看不到类似logFC的计算量了。其实从统计上来说在的话,两组我们用的是非参,两组以上就是方差了。统计方式不对返回的结果就不一样了。所以结果当中会包括一个F值。

3

如果有两个数据集能一起分析嘛?

我们经常在找自己课题相关的数据的时候,经常能找到好多数据集。统计学上说,样本量越大结果越准确嘛。那能融合到一起用GEO2R分析嘛?答案是,不能。。。。

由于GEO2R是基于GEO数据库设计的,所以并没有提供上传数据分析的功能,所以这个时候就不能融合到一起来进行分析了。另外呢,就算我们有别的分析方法,比如知道如果用R语言来进行分析的话,也不能单纯的把数据集下载下来然后融合到一起分析的。因为不同数据集在做检测数据的时候,当时检测的时候温度,环境,机器的状态等因素不同,所以就导致两者之间可能存在一定的整体的偏差。我们称这种叫做批次效应。如果不去掉批次效应就硬融合到一起。那结果往往会出现很大的偏差。

所以也就是因为不能简单的进行硬融合,好多在找到相同数据集的时候,但又不想去进行去批次的操作的时候,都选了去交集的分析方式。这个也算是有一定道理的。毕竟既然两者个数据集之间是又偏差的。但是那我自己数据集内做出来的差异基因,然后再取交集就可以了吧。这也是为什么很多文章里面会有Venn图。

如果确实想融合多个数据集分析,但是又不会处理批次效应的话。那推荐我们这个帖子[数据库介绍]一站式表达谱数据分析。这个数据库可以帮我们去掉批次效应来进行差异分析的。

由于篇幅的关系,还有一些问题就放到明天再和大家说吧!

(0)

相关推荐

  • 如何进行GEO临床数据查询

    推荐两个可以进行GEO临床数据下载的网址 乔治敦癌症数据库(G-DOC)(https://gdoc.georgetown.edu/gdoc/),G-DOC是一个精准医学平台,其中包含来自一万多个患者和 ...

  • 向GEO数据库提交数据-你想知道的都在这

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO.SEER数据挖掘. . 1. GEO数据库是什么? GEO数据库是免费的公共数据库, ...

  • 除了GEO,其实我们还可以挖掘这个数据库

    很多人知道都GEO这个数据库,但是很多人忽略了这个数据库,这个数据库是什么呢?那就是--ArrayExpress ArrayExpress是什么? ArrayExpress是主要科学期刊推荐的存储库之 ...

  • 其实,GEO数据挖掘也很好发文章

    GEO is a public functional genomics data repository supporting MIAME-compliant data submissions. Arr ...

  • 我不相信kmplot这个网页工具的结果(生存分析免费做)

    我们已经多次介绍过生存分析: 集思广益-生存分析可以随心所欲根据表达量分组吗 生存分析时间点问题 寻找生存分析的最佳基因表达分组阈值 apply家族函数和for循环还是有区别的(批量生存分析出图bug ...

  • GEO数据库可能遇到的问题 (二)

    昨天我们介绍了在使用GEO数据可能遇到的一些问题(GEO数据库可能遇到的问题).由于篇幅的关系,还有一些没有说完,今天就把剩下的问题和大家说一下吧. 1 为什么GEO2R分析后不显示基因名 有很多表达 ...

  • 重磅!中文版GEO数据库来了!

    没有样本,没钱测序,如何拿别人的数据来发自己的文章呢? 公共数据库挖掘呀! 众所周知,TCGA和GEO是最著名的两大公共数据库,前者主要存储高通量(二代测序)数据的肿瘤样本数据(TCGA的0代码可视化 ...

  • GEO数据库使用教程及在线数据分析工具

    GEO数据库全称GENE EXPRESSION OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库.它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就 ...

  • 从GEO数据库下载得到表达矩阵 一文就够

    在第一讲我们详细介绍了GEO数据库的基础知识及规律,也了解了如何利用官方R包GEOquery来探索GEO数据库,当然,我的生信菜鸟团博客里面也从很多其它角度解析过它,欢迎大家自行搜索学习.总得来说,从 ...

  • 一万人陪你学习GEO数据库挖掘知识(公益视频听课笔记分享)

    耗费半年的时间精心制作了成套的生物信息学入门视频教程,并且在生信技能树联盟平台发布了这个长达74个小时全套生物信息学入门视频:生信技能树视频课程学习路径,这么好的视频还免费! 在B站看了看,大家学的热 ...

  • GEO数据库中国区镜像横空出世

    接收到太多的粉丝求助,想下载个表达矩阵做一下数据挖掘偏偏第一步就卡在了,数据文件下载半天毫无动静,或者下载到99%就卡死了.如果我恰好在电脑旁,通常会帮忙下载后微云或者百度云传递给粉丝,但这毕竟不是长 ...

  • GEO数据库中国区镜像奔走相告啊

    最近还是大量粉丝留言表示自己因为疫情困在家里,想做数据挖掘混个本科毕业论文,但是看完我的GEO数据挖掘视频后,想下载个数据集,就被卡死了,实在是巧妇难为无米之炊! 这个不怪大家,我给大家的免费的GEO ...

  • 读取GEO数据库的单细胞转录组表达矩阵文本文件的一种方式

    最近在读AUCell包的文档,链接是:http://bioconductor.org/packages/release/bioc/html/AUCell.html,这个包的教程我已经写完了, 在 :使 ...

  • 上传数据到GEO数据库实战笔记

    师兄的文章要送审,编辑让把RNA-seq的数据传到GEO数据库上,今天就在传这个数据. 之前没传过数据,今天就是一边学一边搞这个. 一.注册账号 先注册一个GEO账号 二.准备工作 选择Data ty ...