sc-RNA-seq Key issues guide
前言
单细胞技术(single-cell technologies )越来越被生命科学家广泛地应用在不同物种、不同器官的研究上。在2019年之前基于单细胞测序技术,特别是单细胞转录组技术得到的数据,做细胞定义(Define Cell Type)还没有好的解决方案。这个挑战在2019年得到了初步解决,细胞定义,一些数据库和工具被开发出来,主要有三种模式:
marker gene:看某个亚群的marker gene和数据库中那种细胞类型的marker gene一致。
表达谱相似性:需要鉴定细胞类型的表达谱与一些已知细胞类型的表达谱做相关性,哪一类相关性高即认为是这类细胞。如R包:SingleR、celaref
机器学习构建分类器:我们用已知细胞类型的表达谱作为训练集来构建分类器,输入每一个细胞基因表达量(特征向量)对我们的细胞来分类。如:SuperCT: a supervised-learning framework for enhanced characterization of single-cell transcriptomic profiles
(https://academic.oup.com/nar/article/47/8/e48/5364134),
Moana: A robust and scalable cell type classification framework for single-cell RNA-Seq data
(https://www.biorxiv.org/content/10.1101/456129v1.full)
marker gene和表达谱相似性大部分是基于分群结果的,所以定义出来是每个群是哪种细胞类型,分类器可以对每个细胞来定义,灵敏度要高一些,但是也取决于分类器质量。一个细胞被定义出来是B细胞那么它是血浆 B 细胞、记忆 B 细胞、调节性 B (Breg) 细胞、滤泡 (FO) B 细胞、边缘区 (MZ) B 细胞、B1 细胞,如此精细的定义目前恐怕还是要借助其他手段(如,通过流式细胞仪分析 B 细胞免疫分型),除非已经有这些细胞类型的精确的先验知识,才能用数学手段定义。
细胞定义是一种监督式的知识习得过程,没有足够的先验知识,无法习得相关技能。
可见,细胞类型的定义依然是一种挑战。下文来自Opinion: How to Define Cell Type(https://www.the-scientist.com/opinion/opinion-how-to-define-cell-type-30668)对细胞定义的一些思考。精华的部分是原作者的,蹩脚的地方是小编我的水平不足。
正文
单细胞技术的进步揭示了曾经被认为属于同一类别的细胞之间的巨大差异,这让我们首先对如何定义细胞类型产生了疑问。
研究人员现在认识到,在一种特定的细胞类型内,其异质性(heterogeneity )比以前认识到的要大得多,这一点在脑细胞中表现的更为明显。但是,随着新技术揭示了细胞基因组、表观基因组和转录组的差异,我们现在必须解决如何定义细胞类型的问题。
See : Advancing Techniques Reveal the Brain’s Impressive Diversity(https://www.the-scientist.com/cover-story/advancing-techniques-reveal-the-brains-impressive-diversity-30197)
以前的细胞类型识别方法是基于识别一小组已知标记(known markers)的存在。另一方面,目前的高通量单细胞测序方法能够在几乎没有或几乎没有先验知识的情况下对细胞类型进行量化分类,从而揭示出许多组织类型中先前未识别的细胞表型(phenotypes )变异。但是,考虑到细胞不能完美地聚集成不同的类群(cluster) ,这种异质性的哪一部分真正定义了一种新的细胞类型,哪一部分可以归因于细胞状态(cell state)的变化或来自方法上的人为因素?
在实践中,这些单细胞实验分析了数千个细胞,通常包含40,000多个遗传预测因子(genetic predictors);因此,不断地分层(perform stratification after stratification )识别新的细胞类型是一种诱人的做法,其结果是分组远远超出“类型”,可能会分出功能上不相干和任意的类别。为了使研究人员更加严谨,应该商定一个框架,告知将使用什么标准来进行细胞类型识别。
形态与功能(Form versus function)
有人可能会说,对细胞类型的生物学定义应该基于细胞的发育起源和当前功能的结合。与细胞类型相反,细胞状态可以被认为是当细胞改变其任何外部变量时发生的表型,例如位置、形态或细胞周期的阶段,同时保持定义其特定细胞类型的核心特征。例如,一个成纤维细胞在分裂时仍然是一个成纤维细胞,一个神经元在放电时仍然是一个神经元,但干细胞在分化成神经元时不再是一个干细胞。
不幸的是,功能不容易以高通量的方式进行评估。然而,由于转录组和表观基因组与细胞的发育起源、类型和状态高度相关,单细胞测序方法可以作为间接检测细胞功能的一种方案。为了将测序结果与生物学定义联系起来,我们可以把细胞类型的分子标记看作是一组基因,它们在所有功能相同的细胞中表达相似,并且在所有状态下都是一致的。相反,细胞状态标记在给定的细胞类型中是暂时的,可以在通过类似细胞状态转换的不同细胞类型中表达。
这样,单细胞测序提供了一个概念框架,通过它来评估细胞类型。事实上,关于如何使用单细胞测序来重现性地定义细胞类型,已经提出了许多模型。它们都有一个基本的概念,即摆脱对一小组标记基因的依赖,转而在一组细胞中积累统一基因签名(accumulated representation of a unified gene signature)的表示形式。模型不同,细胞的聚类结果不同。
一旦我们开始考虑所有细微的细胞间变异,细胞类型的数量就会比我们想象的多得多。
例如,一些模型建议在完成聚类过程后,纯粹根据距离来对细胞分类。基于某一特定研究中出现的分子特征聚类细胞在任何单个实验中都是有用的,但不能在所有研究中统一结果。也有一些模型完全废除了细胞类型的使用,取而代之的是促进产生一个所有细胞都存在的连续体。从概念上讲,连续体可能是最接近现实的。然而,在实践中很难实现,这个连续轴在每一个研究中也是需要定义的呀,如何生成这些轴需要更为复杂的降维方法,可能会导致信息丢失。
第三个选择是细胞类型的分级分类学定义,这在其他学科中已被证明是有用的,比如物种鉴别。这种方法对于许多早期的细胞类型识别论文都很有用,因为它支持跨多个层对可以定义细胞类型。
例如,在大脑中,第一层细胞类型可以区分神经元细胞和非神经元细胞;第二层为GABAergic神经元和glutamatergic神经元;第三层是特定的gabar能细胞类型,比如parvalbumin和生长抑素神经元。重要的是,在这样的层次模型中,可以通过向树中添加另一个分支轻松地处理细胞的状态。这些子类型可以根据研究人员的判断加以区分,然后可以累积所得到的定义,从而为细胞类型识别创建一个可重复的、包罗一切的框架。这个层次模型可以承受基于后续功能研究和识别新信息的重组,因为我们要在整个人体中定义细胞类型。成人身体细胞类型列表(https://zh.wikipedia.org/wiki/%E6%88%90%E4%BA%BA%E8%BA%AB%E4%BD%93%E7%BB%86%E8%83%9E%E7%B1%BB%E5%9E%8B%E5%88%97%E8%A1%A8)
思考模式的转移
传统上,细胞是由其所属的组织及其特殊的功能角色或形态来定义的。研究人员将这一分类方案归因于几十年,因为当时还没有完善细胞定义的工具。直到最近才有探测单细胞基因组的技术,以及分析大型多维数据集的统计方法,达到了我们可以开始收集有关单个细胞的大量信息的程度。
这些指标的使用揭示了相同传统类型细胞间的显著异质性。细胞以不同程度的成熟、活化、可塑性和形态存在。一旦我们开始考虑所有细微的细胞间变异,细胞类型的数量就会比我们想象的多得多。所以那些与目前的数据匹配不上的细胞类型,也就是一些unknown的cell type 也许才是更加值得探索的处女地。
理解这些细胞类型的未来很大程度上取决于我们如何定义它们。但细胞类型的概念将继续被细化,因为技术允许对单个细胞进行更大的遗传和功能评估,并对高维数据进行更好的分析。因此,随着评估细胞异质性的工具不断发展,关于如何定义我们能够识别的子类型的讨论也将不断发展。
Sara B. Linker and Tracy A. Bedrosian are postdoctoral research fellows in the Laboratory of Genetics at the Salk Institute for Biological Studies, where Fred H. Gage is a professor and Vi and John Adler Chair for Research on Age-Related Neurodegenerative Disease. Read their feature on heterogeneity within the brain, “Advancing Techniques Reveal the Brain’s Impressive Diversity.”