中文版GEO数据库来了!
没有样本,没钱测序,如何拿别人的数据来发自己的文章呢?
公共数据库挖掘呀!
众所周知,TCGA和GEO是最著名的两大公共数据库,前者主要存储高通量(二代测序)数据的肿瘤样本数据(TCGA的0代码可视化已被临床生信之家实现)。
后者GEO数据库全称Gene Expression Omnibus database,是由美国NCBI创建并维护的基因表达数据库。它创建于2000年,论文中涉及到的基因表达检测的数据几乎都提交到了这个数据库。
GEO除了二代测序数据,还包含芯片测序、单细胞测序数据,样本数据也不限于肿瘤。不同于TCGA的规整数据,GEO芯片数据由于芯片平台(公司)不同,需要进行ID转换(芯片ID对应基因)、数据标准化、去批次效应后,才能进行数据分析,这也是GEO数据挖掘的难点,很多科研萌新一看到眼花缭乱的数据,瞬间懵逼了。
好在,为“生信分析0代码”而生的临床生信之家,继解决TCGA数据后,1月29日今天上午,终于开始录入GEO数据了,这预示中文版GEO数据库的到来!
从体验看,其有以下特点:
1.所有数据都来之GEO,以上提到的难弄的数据预处理过程均自动完成。
2.临床生信之家一贯的:无需代码基础,鼠标点点点即可完成ID转换,数据标准化,去批次,高清出图,原始数据下载一气呵成!
3.数据集介绍全部实行中英文对照。
这样的“中文版GEO数据库”你爱不爱呢?!
临床生信之家之前发起了一个调查,就是GEO数据库你最想录入的是哪些疾病的数据:
从结果看,心血管,脓毒症,肺损伤,糖尿病,胰腺炎排名前五,我们今天就拿心血管为例,看看如何在临床生信之家上点点点分析geo的心血管数据。
首先选择GEO分析模块,选择数据集筛选,搜索框中直接输入心血管方向的 “高血压”。
右边可以选择是匹配标题还是摘要还是实验设计类型,此处我们选择标题。
临床生信之家官网
点击检索后,就出来匹配到的数据集,根据匹配程度排序,没接触过geo数据库的同学可能有点懵,这里稍微解释下,1.数据集:在Geo数据库中代表一个实验项目(就是某个作者上传的集合),包括所有样本信息,GSE是数据集的编号开头。 2.芯片平台:不同芯片公司使用不同芯片平台,不同芯片以GPL字母开头,不同芯片平台包含不同的探针和基因ID对应关系,所以芯片数据预处理时,需要将探针ID转换为对应的基因,称为“探针ID转换”。3.样本,这里直接给出某个数据集的样本量。
然后点开数据集边上的小三角,就展开这个数据集的详细介绍,包括标题,五中,实验类型,概要,实验设计,参考文献,这些信息都是和geo数据库一对一对应的,同时给了中文翻译,默认是灰色,鼠标放上去就会变黑。
比如GSM24752这个数据集,通过浏览,很容易知道这个实验是人原发性高血压患者外周血细胞差异基因表达的微阵列分析,对比的是高血压患者和正常血压作为对照组,如果想更详细了解这个实验,可以直接点击citation里的对应文献查看。
右边看到这个数据集一共6个样本,然后点开样本边上的三角,就显示出各个样本啦。
从样本的名字source name可以看出,前三个HTN是高血压组,后三个样本是NC对照组。
接下里就是分组样本了,直接鼠标单击,多个样本就用excle里经常操作的shift+单击,样本变蓝,就是选中了。
然后就是输入分组的名字,比如高血压组,点击收录,就创建了样本分组,同理设定了正常血压组。此时会发现探针的ID转换就开始自动处理了。样本左边的group已经显示设置的样本名。
这样可以选择多个数据集,进行多个样本分组的设定,所有选择的数据集和样本分组都会在检索区的底部过渡区,此时可以设置项目名,点击收录到位的样本库。就会到主页的左边栏了。
设置好样本之后,就可以开始对geo的芯片数据进行各种分析啦,比如以下这个差异基因,样本一选择高血压组,样本二组选择对照组,此时,数据标准化,去批次效应会自动完成,然后点击plot,差异基因分析完毕。
图片是高清矢量图,包含了标准化后的图和去批次效应的结果图,这2个图发文章的时候可以放在补充材料,说明你做过了。然后就是差异基因经典的火山图,热图和kegg通路富集和go功能富集啦。
其他分析模块此处就略了,和TCGA数据库的分析一样一样的。也同样有高清矢量图,原始数据下载,对应图例,方法学,结果的中英文对照,和参考文献。
但如果你还不能检索到关键词咋办呢?
不要着急,geo数据库数据量是巨大的,后面会自动逐渐录入,稍等几天再试试即可。
还是不懂?那看下面的视频讲解吧...