GEO数据库的这个功能你知道吗 / 开普饭

不知不觉在单细胞转录组领域做知识分析也快两年了，很幸运聚集了一些小伙伴携手共进，我们承诺不间断更新5个月，把我们这两年的学习成果全部掏出来给大家，希望大家都能有所收获！当然也欢迎大家加入我们，勇于分享。

你现在看到的是随机投稿栏目!

大家都想学单细胞转录组数据处理，可是如果你不会R语言，没玩过GEO数据库挖掘，没有这些背景知识点，你会学的很辛苦，所以这里接受大家的投稿带领大家一起学习R及bioconductor技能！！！

首先来一个简单的GEO数据库挖掘吧！

前言

今天在技能树学徒班听了一节关于GEO数据库的课，GEO是什么，又是一头雾水，强迫基因受环境影响出现短暂的表达，赶紧搜索了解下，GEO（Gene Expression Omnibus database）是由NCBI负责维护的一个数据库，设计初衷是为了收集整理各种表达芯片数据，但是后来也加入了甲基化芯片，lncRNA，miRNA，CNV芯片等各种芯片，甚至高通量测序数据，从文章拿到了GSE的study ID号，登录GEO网站，输入GSE的study ID，就可以看到关于该study的所以描述信息，是用的什么测序平台，测了多少个样本，数据分析等等（GEO的解释摘自于生信菜鸟团的整理：http://www.bio-info-trainee.com/tag/geo）

GEO2R分析

但是有些GSE序列在GEO网站没有提供GEO2R分析（如GSE111229）。

利用GEO数据库的GEO2R工具分析一个GSE的study ID，操作如下：

登录GEO官网
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?
输入study ID号
GSE24673 点击“Go”
用GEO2R分析，翻到最底页，就会看到有蓝色图标“Analyze with GEO2R”点击运行。
分组，这里分两组，输入英文名字后，按enter键
分别命两个组的名字，自己命名如“tumor”，“normal”
选中3个GSM序列放到tumor里，归为第一组。
选中4个GSM序列放到normal里，归为第二组
点击运行，翻到页底，点击“top 250”运行。
运行中，这过程有点慢，需要耐心等待...
查看结果1，运行好之后会主动展现一些结果。
查看结果2，根据自己想要查看的结果，可以输出（保存）已分析好的结果。
也可根据自己的需求查看其它运行的代码，比如查看R脚本，而且可以复制。如果在操作上有不懂的，可以看GEO官网上的视频，视频里有整个过程的详细讲解，点击“YouTube”。