PanglaoDB数据库:细胞分群注释marker数据库
# 背景介绍
单细胞相关的研究数据常常以原始数据的形式存储,由于需要使用复杂的计算流程进行数据处理,生物研究人员很难访问这种格式的数据。虽然目前已经有一些数据库收集、管理和整合scRNA-seq数据和生物信息工作流到易于访问的平台,例如scRNASeqDB和SCPortalen,但是没有一个数据库可提供预计算的生物信息分析和从用户角度进行高级可视化。而PanglaoDB数据库,可以通过基于web的接口来探索scRNA seq数据,就显得十分重要了。
PanglaoDB数据库和功能概述
PanglaoDB数据库,这是2019年年初发布的一个单细胞转录组数据库包含了超过1000个单细胞实验的预处理和预计算分析,涵盖了大多数主要的单细胞平台和分析流程,基于来自各种组织和器官的超过400万个细胞。它包含了6000多个marker基因,可用于细胞分群注释的marker数据库,数据主要源于已经公开发表的单细胞转录组数据。
PanglaoDB数据库收录一览
PanglaoDB可以让用户查询和探索细胞类型、遗传途径和调控网络。它是由瑞典和美国的研究人员共同开发的,致力于探索人类和小鼠的单细胞转录组数据,该数据库的优点是适合零基础的人使用、探索和挖掘,无论你是做人类研究还是小鼠研究,都能用的到。
PanglaoDB
https://panglaodb.se/index.html
PanglaoDB主页
一起来看看PanglaoDB能做什么吧。
01
Search
――查看某基因在细胞的表达情况
以输入CD4基因为例,并根据需要选择物种(人或小鼠)、是否包括肿瘤组织以及未成熟组织,(本次选择Mouse、Include non-adult and non-primary samples (embryo, fetal, post-natal development, cell lines)),点击“Search”,呈现结果如下:
基因在那些细胞亚群中的表达情况
可见,在“T memory cells”亚群中表达的次数最多,这个网站使用表达使用的定义是:如果在一个“cluster”(细胞类型)中基因的中位数>0,就认为这个基因在这个细胞类型中有表达,所以有表达并不一定说明在这个细胞亚群中表达量高。
这个表格详细说明了CD4基因有表达的”的组织来源和细胞亚群,”Rank”代表这个基因表达量在这个亚群中的排名。点击图标中的透视表小图标,会出现聚类图。采用的是单细胞测序最常用的展示方法:t-SNE。这个图是一个交互式的图片。点击图中的细胞群,就会出现相对于该群的介绍,包括特征标志基因,表达的转录因子等。
02
Datasets
--想看某个感兴趣的组织都有哪些细胞亚群
添加限制条件:物种、测序平台或表头顺序,得到搜索列表。
点击“view”可查看数据集的基本信息和该数据集的细胞聚类图,使用t-SNE/UMAP进行降维可视化,不同颜色代表不同的簇。
--查看某个细胞亚群的标志性marker
点击“Datasets”,选择“Cell type markers”,选择你感兴趣的细胞类型之后就可以获得一个标志基因列表,绿色的行就代表着该亚群最经典的标志基因,大家可以用这些基因对该亚群进行鉴定,具体如下:
数据也可以下载,用户可在Bulk data download页面批量下载数据。
03
Tools
用户还可以使用部署在数据库上的alona工具进行自有数据的分析。
单细胞测序技术是近几年来非常热门的话题。通过外部单细胞数据进行自身数据的验证也是今后单细胞数据分析的一个重要趋势。这一领域目前也是如火如荼的开展着针对各类疾病的研究,如果能够掌握PanglaoDB数据库,出结果写论文也会相对顺利,今天就介绍到这里啦。