【生信笔记】查找GEO数据集

A

什么是GEO数据库?

GEO数据库全称Gene Expression Omnibus database,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年,录了世界各国研究机构提交的大多数高通量基因表达数据,GEO除了二代测序数据,还包含芯片测序、单细胞测序数据。

B

GEO数据库数据类型

GEO数据库里的数据是免费的,可以直接在线下载。但是,在下载数据之前要了解GEO数据库的4个概念和4个数据存放类型:GSE数据编号(Series)、GPL数据编号(GEO platforms)、GSM数据编号(Samples)、GDS数据编号(Datasets)
一篇文章可以有一个或者多个GSE(Series)数据集,一个GSE里面可以有一个或者多个GSM(Samples)样本,而每个数据集都有着自己对应的芯片平台,就是GPL(GEO platforms)。GSE编号一般为作者提交时生成的原始数据编号,后续NCBI中的工作人员会根据研究目的、样品类型等信息归纳整合为一个GDS(Datasets),整理后的数据还会有GEO profile数据,也就是基因在这次实验中的表达数据。GDS里面的数据往往对应相同的平台具有可比性,另外,不是所有的GSE数据都能被整理,所以,有的GSE数据里面没有GDS数据也是正常。

详细信息见:https://www.ncbi.nlm.nih.gov/geo/info/overview.html

C

GEO数据库使用方法

进入GEO数据库官方网站:https://www.ncbi.nlm.nih.gov/geo/。
一、已知GEO数据库的GSE数据编号
通过阅读文献,我们可以知道作者提交GEO数据库后产生的GSE数据编号,例如GSE40839,在搜索框输入GSE40839并点击Search
然后就可以得到相应的数据信息:
通过阅读基本信息可以了解样本的数据格式、研究设计信息等
其中不同类型的数据解释如表所示,一般情况下我们可以直接使用样品表达矩阵或者下载芯片原始数据进行分析,如何去处理这些数据,我们在后面的内容中会详细介绍。
数据类型
描述
数据解释
SOFT
SOFT formatted family file(s)
平台信息芯片中探针与基因的对应关系注释文件,样品单独的表达量,所有信息文件
MINiML
MINiML formatted family file(s)
XML格式的所有数据(同SOFT文件单格式不同)
TXT
Series Matrix File(s)
所有样品表达矩阵数据文件
TAR (of CEL)
GSE40839_RAW.tar
芯片原始数据(cel)文件
二、搜索感兴趣的GSE数据集
许多情况下我们可能是出于研究目的想要搜索某个领域的数据集,这时在未知数据集编号的情况下,如何进行查找呢?
我们可以点击主页Search for Studies at GEO DataSets
搜索相关的内容后,可以看到GEO数据库界面主要包括检索框、检索结果列表、检索结果限定选项、检索记录信息等
通常为了更加精确的找到数据,我们需要对数据类型与测序平台等信息进行限定。一般情况下数据类型我们选Series。GEO包含的测序平台类型非常多样,比如DNA、mRNA、SNP、甲基化等等,在检索时结合自己的实验设计选择相应的检测类型。
当在检索结果中找到感兴趣的数据集时,直接点击标题
接下来的界面就如同我们已知数据编号GSE175626一样了。
接下来的推送中,我们将向大家介绍如何进行数据下载与差异基因分析。
*部分内容摘抄于网络。
(0)

相关推荐