GEO数据库的这个功能你知道吗
不知不觉在单细胞转录组领域做知识分析也快两年了,很幸运聚集了一些小伙伴携手共进,我们承诺不间断更新5个月,把我们这两年的学习成果全部掏出来给大家,希望大家都能有所收获!当然也欢迎大家加入我们,勇于分享。
你现在看到的是随机投稿栏目!
大家都想学单细胞转录组数据处理,可是如果你不会R语言,没玩过GEO数据库挖掘,没有这些背景知识点,你会学的很辛苦,所以这里接受大家的投稿带领大家一起学习R及bioconductor技能!!!
首先来一个简单的GEO数据库挖掘吧!
前言
今天在技能树学徒班听了一节关于GEO数据库的课,GEO是什么,又是一头雾水,强迫基因受环境影响出现短暂的表达,赶紧搜索了解下,GEO(Gene Expression Omnibus database)是由NCBI负责维护的一个数据库,设计初衷是为了收集整理各种表达芯片数据,但是后来也加入了甲基化芯片,lncRNA,miRNA,CNV芯片等各种芯片,甚至高通量测序数据,从文章拿到了GSE的study ID号,登录GEO网站,输入GSE的study ID,就可以看到关于该study的所以描述信息,是用的什么测序平台,测了多少个样本,数据分析等等(GEO的解释摘自于生信菜鸟团的整理:http://www.bio-info-trainee.com/tag/geo)
GEO2R分析
但是有些GSE序列在GEO网站没有提供GEO2R分析(如GSE111229)。
利用GEO数据库的GEO2R工具分析一个GSE的study ID,操作如下:
登录GEO官网
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?输入study ID号
GSE24673 点击“Go”用GEO2R分析,翻到最底页,就会看到有蓝色图标“Analyze with GEO2R”点击运行。
分组,这里分两组,输入英文名字后,按enter键
分别命两个组的名字,自己命名如“tumor”,“normal”
选中3个GSM序列放到tumor里,归为第一组。
选中4个GSM序列放到normal里,归为第二组
点击运行,翻到页底,点击“top 250”运行。
运行中,这过程有点慢,需要耐心等待...
查看结果1,运行好之后会主动展现一些结果。
查看结果2,根据自己想要查看的结果,可以输出(保存)已分析好的结果。
也可根据自己的需求查看其它运行的代码,比如查看R脚本,而且可以复制。如果在操作上有不懂的,可以看GEO官网上的视频,视频里有整个过程的详细讲解,点击“YouTube”。
结语
今天感谢生信技能树齐老师的授课与指导。
同时如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程