除了套路分析你还可以这样发生信文章!
All of gene expression (AOE): An integrated index for public gene expression databases全基因表达(AOE):公共基因表达数据库的集成索引
一、研究背景
基因表达数据已作为微阵列和RNA-seq数据集存档在Gene Expression Omnibus (GEO) 、ArrayExpress (AE)、Genomic Expression Archive(GEA)等公共数据库中,然而,这些基因表达数据库却彼此单独运作,用户往往需要搜索多个数据库才能得到较为完整的公共基因表达数据,此外,这些数据库可能缺乏转录组测序数据(RNA-seq)。因此,作者通过开发一个全基因表达数据库索引来整合这些数据库的基因表达数据,使用户搜索方便易行。
二、研究思路
三、结果解析
1. 基因表达数据库的现状
由于GEO数据库在2017年以前连续导入AE数据库,故全基因表达(AOE)最初只针对AE数据库进行索引。在此之后,作者通过匹配GEO系列ID来研究这两个数据库中数据序列条目的差别,以GEO中的GSE52334对应于AE中的E-GEOD-52334为例,比较后发现两个数据库均有不同数量的数据条目的缺失,故为了让AOE数据库可以搜索到所有公共基因表达数据,作者索引了GEO数据库和其他公共转录组数据,包括DDBJ基因组表达档案(GEA)。
图1 EBI阵列表达与NCBI基因表达组合的比较
2. 来自元数据的基因表达数据序列索引
AOE的层次1:只包含AE的数据,即只包含AE的ID、从GEO导入的条目包含BioProject和GEO的ID;
AOE的层次2:作者直接利用DBCLS SRA应用程序编程接口(API)导入GEO数据并减去AE中已存在的GEO数据,即包含BioProject和GEO的ID,但不包含AE的ID;
AOE的层次3:仅包含BioProject的ID,即那些不包含在AE和GEO数据库中,但在SRA中登记为转录组测序数据的数据集。
以上三个层次的数据集为AOE索引提供了完善的数据流,所构建的数据已存档DOI:10.18908/lsdba.nbdc00467-000 (https://doi.org/10.18908/lsdba.nbdc00467-000),AOE可通过https://github.com/dbcls/AOE/访问并使用。
图2 创建AOE索引的过程
3.图形化网页界面
AOE提供一个交互式web接口 (https://aoe.dbcls.jp/)来检索数据。在首页,用户可以看到AOE存储数据的总体统计情况,通过点击技术名称来创建链接和筛选数据。用户可通过生物和基因表达的定量方法过滤数据,以搜素关键字“hypoxia”为例,目前AOE报告了524个项目,按年份、有机体、定量方法划分为三个直方图,拖动直方图中的条带可筛选数据,并根据选定数据重建直方图,如图3-D中拖动”Homo sapiens“处的条带;此外,用户还能定量地拖动条带以筛选数据,如图3-E中拖动”Illumina“处的条带。单击”Retrieve“按钮可检索选定数据,在检索结果中可下载ID并通过其链接到原数据。用户还可通过单击已命名的物种图标和”Retrieve“键快捷检索特定生物体列表。
具体如何使用AOE网络接口可在教程视频 https://doi.org/10.7875/togotv.2018.146 (或在TogoTV https://togotv.dbcls.jp/en/、 YouTube https://youtube.com/togotv/)中查阅。
图3 AOE网络界面
4. 应用程序编程接口
用户还可以通过API检索AOE,AOE提供一个简单的Representational State Transfer (REST) API,自动化执行客户端程序,JSON格式输出中的检索结果可以通过以下URL检索:
https://aoe.dbcls.jp/api/search?fulltext=KEYWORD[Technology=TECHNOLOGY&Organisms=ORGANISM&page=OFFSET&size=SIZE]
KEYWORD: 检索关键词
TECHNOLOGY: 检测表达的技术 (sequencing, microarray, Affymetrix, Agilent, Illumina, etc.)
ORGANISM: 物种,如人类的‘homo%20sapiens’, 小鼠的‘mus%20musculus’等等
OFFSET: 页码
SIZE: 一页中的结果数
AOE API的精确描述可从AOE网站或直接从DBCLS AOE Github网站https://github.com/dbcls/AOE/blob/master/API_documentation.md中获得。
小结
作者利用AE数据库与NCBI数据库(含GEO)获取元数据,并筛选整合成三个不同层次的数据集后合并为AOE的数据流,并通过Python 3 、Java使数据可视化,从而创建了一个较为全面方便的基因表达数据的集成索引。作者还开发了人和小鼠的参考表达数据集(RefEx),并计划通过使用AOE检索为其他生物体创建RefEx。未来,作者还将使用量化的表达数据,可根据基因表达谱的相似性搜索数据,将使用FASTQ程序的质量监控结果来筛选RNA-seq。AOE的网络接口简单、用户友好、数据全面,本文为不熟悉数据库搜索的生物学家和专业人员们提供了一个为特定生物构建参考表达数据集的检索途径。