重磅!中文版GEO数据库来了!

没有样本,没钱测序,如何拿别人的数据来发自己的文章呢?

公共数据库挖掘呀!

众所周知,TCGA和GEO是最著名的两大公共数据库,前者主要存储高通量(二代测序)数据的肿瘤样本数据(TCGA的0代码可视化已被临床生信之家实现)。

后者GEO数据库全称Gene Expression Omnibus database,是由美国NCBI创建并维护的基因表达数据库。它创建于2000年,论文中涉及到的基因表达检测的数据几乎都提交到了这个数据库。

GEO除了二代测序数据,还包含芯片测序、单细胞测序数据,样本数据也不限于肿瘤。不同于TCGA的规整数据,GEO芯片数据由于芯片平台(公司)不同,需要进行ID转换(芯片ID对应基因)、数据标准化、去批次效应后,才能进行数据分析,这也是GEO数据挖掘的难点,很多科研萌新一看到眼花缭乱的数据,瞬间懵逼了。

好在,为“生信分析0代码”而生的临床生信之家,继解决TCGA数据后,1月29日今天上午,终于开始录入GEO数据了,这预示中文版GEO数据库的到来!

从体验看,其有以下特点:

1.所有数据都来之GEO,以上提到的难弄的数据预处理过程均自动完成。

2.临床生信之家一贯的:无需代码基础,鼠标点点点即可完成ID转换,数据标准化,去批次,高清出图,原始数据下载一气呵成!

3.数据集介绍全部实行中英文对照。

这样的“中文版GEO数据库”你爱不爱呢?!

临床生信之家之前发起了一个调查,就是GEO数据库你最想录入的是哪些疾病的数据:

从结果看,心血管,脓毒症,肺损伤,糖尿病,胰腺炎排名前五,我们今天就拿心血管为例,看看如何在临床生信之家上点点点分析geo的心血管数据。

首先选择GEO分析模块,选择数据集筛选,搜索框中直接输入心血管方向的 “高血压”。

右边可以选择是匹配标题还是摘要还是实验设计类型,此处我们选择标题。

点击检索后,就出来匹配到的数据集,根据匹配程度排序,没接触过geo数据库的同学可能有点懵,这里稍微解释下。

1.数据集:在Geo数据库中代表一个实验项目(就是某个作者上传的集合),包括所有样本信息,GSE是数据集的编号开头。

2.芯片平台:不同芯片公司使用不同芯片平台,不同芯片以GPL字母开头,不同芯片平台包含不同的探针和基因ID对应关系,所以芯片数据预处理时,需要将探针ID转换为对应的基因,称为“探针ID转换”。

3.样本:这里直接给出某个数据集的样本量。

然后点开数据集边上的小三角,就展开这个数据集的详细介绍,包括标题,五中,实验类型,概要,实验设计,参考文献,这些信息都是和geo数据库一对一对应的,同时给了中文翻译,默认是灰色,鼠标放上去就会变黑。

比如GSM24752这个数据集,通过浏览,很容易知道这个实验是人原发性高血压患者外周血细胞差异基因表达的微阵列分析,对比的是高血压患者和正常血压作为对照组,如果想更详细了解这个实验,可以直接点击citation里的对应文献查看。

右边看到这个数据集一共6个样本,然后点开样本边上的三角,就显示出各个样本啦。

从样本的名字source name可以看出,前三个HTN是高血压组,后三个样本是NC对照组。

接下里就是分组样本了,直接鼠标单击,多个样本就用excle里经常操作的shift+单击,样本变蓝,就是选中了。

然后就是输入分组的名字,比如高血压组,点击收录,就创建了样本分组,同理设定了正常血压组。此时会发现探针的ID转换就开始自动处理了。样本左边的group已经显示设置的样本名。

这样可以选择多个数据集,进行多个样本分组的设定,所有选择的数据集和样本分组都会在检索区的底部过渡区,此时可以设置项目名,点击收录到位的样本库。就会到主页的左边栏了。

设置好样本之后,就可以开始对geo的芯片数据进行各种分析啦,比如以下这个差异基因,样本一选择高血压组,样本二组选择对照组,此时,数据标准化,去批次效应会自动完成,然后点击plot,差异基因分析完毕。

图片是高清矢量图,包含了标准化后的图和去批次效应的结果图,这2个图发文章的时候可以放在补充材料,说明你做过了。然后就是差异基因经典的火山图,热图和kegg通路富集和go功能富集啦。

其他分析模块此处就略了,和TCGA数据库的分析一样一样的。也同样有高清矢量图,原始数据下载,对应图例,方法学,结果的中英文对照,和参考文献。

但如果你还不能检索到关键词咋办呢?

不要着急,geo数据库数据量是巨大的,后面会自动逐渐录入,稍等几天再试试即可。


欢迎微信关注【非编码RNA研究园地】,我们致力于及时发布医学科研前沿进展,帮助医务工作者开拓思路,从专业角度解答课题基金及SCI相关问题,助力学术成果转化。

(0)

相关推荐

  • GEO+TCGA数据挖掘+收集临床样本的思路

    研究背景: 肺腺癌(LAD)是最普遍的肺癌类型.据报道,UDP-N-乙酰氨基葡糖焦磷酸化酶1(UAP1)的异常表达与癌细胞的许多生物学过程有关,但尚不清楚LAD中UAP1的表达. 研究方法: 生物信息 ...

  • GEO(Gene Expression Omnibus):高通量基因表达数据库

    #GEO是什么? GEO全称Gene Expression Omnibus data base,由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库(通过NCBI首页,All Database ...

  • 在鉴别肺腺癌患者与预后相关 immune signatures

    Systematic profiling of immune signatures identifies prognostic predictors in lung adenocarcinoma 在鉴 ...

  • 一篇最基本生信分析文献解读

    利用一周多的时间,我们把最最基本的生信套路来讲解了一遍.正好前几天一个小伙伴拿了一篇相关文献在咨询问题.这里就拿这篇文献来总结一下我们目前写的这些东西. 这次我们来讲解的这边文献是2019-10-12 ...

  • GEO2R差异表达分析软件

        前两天我们对GEO数据库来了一个大致的介绍GEO数据集详细介绍GEO数据库介绍 (一).我们对于目标数据集,我们做的第一个事情就是差异分析,来寻找有差异的结果.所有的表达芯片做的差异表达分析都 ...

  • 中文版GEO数据库来了!

    没有样本,没钱测序,如何拿别人的数据来发自己的文章呢? 公共数据库挖掘呀! 众所周知,TCGA和GEO是最著名的两大公共数据库,前者主要存储高通量(二代测序)数据的肿瘤样本数据(TCGA的0代码可视化 ...

  • GEO数据库使用教程及在线数据分析工具

    GEO数据库全称GENE EXPRESSION OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库.它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就 ...

  • 从GEO数据库下载得到表达矩阵 一文就够

    在第一讲我们详细介绍了GEO数据库的基础知识及规律,也了解了如何利用官方R包GEOquery来探索GEO数据库,当然,我的生信菜鸟团博客里面也从很多其它角度解析过它,欢迎大家自行搜索学习.总得来说,从 ...

  • 一万人陪你学习GEO数据库挖掘知识(公益视频听课笔记分享)

    耗费半年的时间精心制作了成套的生物信息学入门视频教程,并且在生信技能树联盟平台发布了这个长达74个小时全套生物信息学入门视频:生信技能树视频课程学习路径,这么好的视频还免费! 在B站看了看,大家学的热 ...

  • GEO数据库中国区镜像横空出世

    接收到太多的粉丝求助,想下载个表达矩阵做一下数据挖掘偏偏第一步就卡在了,数据文件下载半天毫无动静,或者下载到99%就卡死了.如果我恰好在电脑旁,通常会帮忙下载后微云或者百度云传递给粉丝,但这毕竟不是长 ...

  • GEO数据库中国区镜像奔走相告啊

    最近还是大量粉丝留言表示自己因为疫情困在家里,想做数据挖掘混个本科毕业论文,但是看完我的GEO数据挖掘视频后,想下载个数据集,就被卡死了,实在是巧妇难为无米之炊! 这个不怪大家,我给大家的免费的GEO ...

  • 读取GEO数据库的单细胞转录组表达矩阵文本文件的一种方式

    最近在读AUCell包的文档,链接是:http://bioconductor.org/packages/release/bioc/html/AUCell.html,这个包的教程我已经写完了, 在 :使 ...

  • 上传数据到GEO数据库实战笔记

    师兄的文章要送审,编辑让把RNA-seq的数据传到GEO数据库上,今天就在传这个数据. 之前没传过数据,今天就是一边学一边搞这个. 一.注册账号 先注册一个GEO账号 二.准备工作 选择Data ty ...

  • GEO数据库的这个功能你知道吗

    不知不觉在单细胞转录组领域做知识分析也快两年了,很幸运聚集了一些小伙伴携手共进,我们承诺不间断更新5个月,把我们这两年的学习成果全部掏出来给大家,希望大家都能有所收获!当然也欢迎大家加入我们,勇于分享 ...