单细胞数据科学的十一个重大挑战 / 开普饭

男，

一个长大了才会遇到的帅哥，

稳健，潇洒，大方，靠谱。

一段生信缘，一棵技能树，

一枚大型测序工厂的螺丝钉，

一个随机森林中提灯觅食的津门旅客。

随着单细胞技术的成熟，人们得以在单细胞水平观摩生命现象了，在这波技术浪潮中似乎要把自人类基因组积累的生命科学技术都在单细胞水平上应用一遍，其中最常见的就是测序技术。

获得单个细胞
观察以记录数据
数据解读

这是单细胞数据分析的大框架，要说难点都难，今天我们就来谈谈目前单细胞数据解读（挖掘）的一些挑战。主要参考文章：

Eleven grand challenges in single-cell
data science ,Lähnemann et al. Genome Biology (2020) 21:31

原文：https://doi.org/10.1186/s13059-020-1926-6

高通量技术是伴随着人类信息化进程而来的，当我们把镜头聚集到单个细胞的水平，我们得到精度的同时也得到了大量的数据。在同时代背景下，人类社会的数据精度也在扩展，随之而生的是大数据以及数据科学的概念，于是，我们不难联想到：单细胞数据科学（single-cell data science ，SCDS）。

大数据的四大特点几乎都在单细胞数据中体现了：

1、海量性
2、多样性
3、高速性
4、易变性

单细胞的海量性不仅体现在单次捕获的细胞数和基因数上，而是每天不同的实验室产生对单细胞不同的刻画，不同器官，不同物种，不同技术层面。。

多样性翻译到单细胞这就是不同的模态：

它的数据多样性不仅有表征丰度的矩阵数据，还有空间数据（空间转录组等），结构数据。多样性更体现在对细胞类型的刻画上，到目前为止，我们知道的细胞类型远小我们更够测出来的细胞类型，导致我们从一个侧面观察到他了（通常是RNA），但是无法窥探全貌，所以往往不能再我们现有的细胞图谱上找到它的位置。高速和易变就不多说了，目前有不少文章发出来就是一个数据库，往往有一个新的技术头号玩家完了，二号基本没机会了。

目前大部分单细胞转录组技术是拿一个barcode来标记细胞，再拿一段小的序列标记mRNA（UMI）。如果只是测RNA这样确实可以，但是如果想要同时测蛋白呢，就需要另一套序列来标记蛋白，不同的蛋白簇标记可能不一样。这就有了这样一套技术需求:

先说单细胞转录组的。

Challenge I: Handling sparsity in single-cell RNA sequencing

数据稀疏对大部分数据科学家来说都不是陌生的问题，只要测的对象（细胞）较多，而每个对象的属性（转录本）又较多，这个现象总会存在。在单细胞中通常和dropout联系在一起。这个单词说的就是测不准。在表示丰度（转录本，基因，探针等）的矩阵中，对象和属性都很多，每增加一个只有少量属性值的对象，就会带来大量的零值。而零值是不好解释的：

可能是真的没有，袋子里就没有红球，没抓到
可能是袋子里是有的，人类的手气不够好

所以，零值该如何处理呢？这是挑战之一。

第一反应应该是填补它：基因是相互调控的，所以我根据其他基因的表达情况来填补。这仍是在发展中的技术。

Challenge II: Defining flexible statistical frameworks for discovering complex differential patterns in gene expression

大部分的科学家都在找差异。最简单的方法是两个数据的时候大小比较就可以了，两组数据假设检验，基于假设检验可以做三组的（方差分析）。当然，基于当代数据科学的发展找出数据之间的差异的方法是很多了，在Rna数据中最经典的差异基因计算方法要数 edger了。但是，单细胞的差异如何刻画?样本不同，组织不同，细胞类型不同，这些只看表达量可以衡量与否以及如何衡量。

其实找差异，换句话说是如何稳健地描述细胞间的异质性？在目前的大部分文章是给一张细胞图谱（tsne/umap），言下之意分群即差异：

Challenge III: Mapping single cells to a reference atlas

我们测了一堆barcode，到底是什么细胞呢？我们需要鉴定它，这就像我们在动物园看到一朵花，很好奇这是什么花一样。自然的想法就是看看花的字典中有没有和这个一样的，能查到我们就认识了。

目前常见的查字典的方法是这样的：

说到底是根据细胞中基因向量的表达模式匹配到一起。这个问题应该分两个方面来看：

数据集之间的mapping算法
reference 怎么样

其中mapping算法是目前学术主要的工作内容，用各种算法来学习reference 的特征以把它映射到新的数据集中。这样结果就分为两个：

映射的上
映射不上

首先的是，我们希望尽可能的映射的上，因为人类惧怕未知（unkown）。但是，我提醒大家尽可能关注未知，那里也许有更大的世界。

为了和已知世界构建联系，目前大部分还是用已知的细胞类型的marker来mapping：

在这里，我更愿意提醒在坐的各位，注意构建良好的reference，我们现在看到的格式有：

表达谱
特征基因表达谱
特征基因
数学模型
可视化的数据库

这些reference忽略了一个关键的信息：细胞的分化过程。

这个图很容易让人想起，宏基因的生物层级结构：

我认为如果我们的细胞图谱不能够反应细胞分化层级关系，至少是不完整的。一张张umap图，反应的只是数量关系，而且往往有没有说明它的分辨率水平(resolution)。

Challenge IV: Generalizing trajectory inference

紧承上文，在单细胞转录是数据分析中有一个新颖的分析点：trajectory inference （TI）。这便是人类在单细胞水平上试图刻画细胞分化关系的努力。2019年出现了不少于60种TI的方法，数量之多也反映了人类在这方面的苍白以及后浪们的巨大空间：

大部分的TI算法是基于概率模型以及图空间的，说到底不过是一种排序过程。遗憾的是排序这个概念在单细胞数据分析中还很少提及。在上个世纪的生态学中，学者为了刻画某一地方的物种分布情况，开发出来一套排序方法。单个细胞在人体的分布和演化，未尝不可以类比回生态学中。生态学已经发展出一套表述物种

层级，进化与分化
多样性，异质性

的方法。一块森林单个物种的的检测，物种间的演化关系，物种的多样性，如此等等的概念，使得任何一个读发育和肿瘤异质性的人都会产生联想。

大部分的排序是基于丰度的，也有基于RNA速率和SNP变化的，可以得到如下的关系：

但是不同的TI方法得的结果之间还有很大的gap，令人沮丧的是，有时候甚至是相反的。

奇怪的是，现在的人们似乎没有把inference的TI刻画清楚，导致两者往往是分开执行的，结果也会有出入。

结合以上两个挑战，我认为单细胞数据分析需要是一个包含层级结构的/稳定的inference数据库。

Challenge V: Finding patterns in spatially resolved measurements

人类对空间并不陌生，大到以光年计的宇宙空间，小到电子围绕质子运动的原子。医学院的老师应该不会对空间单细胞技术感到陌生，特别是医学影像已经快要独立成新的一门学科的现在。但是，当我们给每个细胞一个空间坐标的时候，想要描绘它，除了看图，也更加复杂了。

我们知道，对一个细胞来讲最重要的就三条：

位置
位置
位置

在多细胞发育的早期，位置决定了它们将来成为那些组织器官，在后来的岁月中，位置决定它们的形状与功能。不对啊，不应该是基因的差异化表达决定的吗？那么，我问：基因为什么会差异化表达？是不是因为转录调控？而是什么导致的调控？是不是外界的响应？而又是说明决定了它对外界的感知？是不是它所在的位置？

明显的例子，免疫细胞：

就像我们说一个人的位置，不是仅仅指它的经纬度一样，当我们说细胞的空间信息的时候，也不仅仅指它的XY轴坐标。

空间会开发我们的想象力，而星辰和大海都是需要船票的，而这张船票就是数据科学。

接下来，我们说说单细胞基因组方面的挑战吧。

对一个生物体来讲，每个细胞都有全能性的啊，基因组不都是一样的吗？没有了差异还分析什么？哪还有什么数据分析的挑战呢？

但是，有机体的每一次细胞分裂，基因组都可以通过突变事件改变，从点突变，短插入和缺失，到大规模的拷贝数变异和复杂的结构变异。这些往往是要命的。

Challenge VI: Dealing with errors and missing data in the identification of variation from single-cell DNA sequencing data

与转录组定量不同，基因组的分析往往是结构方面，而这本身就是一种挑战。

我们可以区分三种情况:

(i)等位基因比例不平衡，即。，包含杂合突变的基因座，其中两个等位基因之一的优先放大导致读数失真;
(ii)等位基因缺失，即，包含杂合突变的基因座，其中只有一个等位基因被扩增和测序;
(iii)位点丢失，位点丢失是指等位基因在一个位点的扩增完全失败，导致对基因组的某个位置没有任何观察。

主要的挑战是在单细胞水平上：

检测
识别
描述
比较

拿CVN来说吧，如果有CNV事件，你不一定检测到，检测到了，不一定能够识别出来，识别出来了，不一定能描述它的影响，知道了它的影响，在不同时间组织中同样的CNV事件，不一定能够很好地比较它们。

Challenge VII: Scaling phylogenetic models to many cells and many sites

即使有完美的数据，肿瘤进化的系统发育模型仍然面临计算的挑战，这主要是由：

在癌症研究中被测序的细胞数量不断增加
每个基因组可查询的位点越来越多

Challenge VIII: Integrating multiple types of variation into phylogenetic models

下游的分析——如描述瘤内异质性和推断其进化历史——受到单细胞中不可靠的变异检测的影响。然而，变异calling的质量越高，在肿瘤演化的数学模型中对所有类型的可用信号建模就越重要:从snv(相对于较小的插入和缺失)到大的结构变异和CNVs。反过来，这应该增加结果树的分辨率和可靠性。

对于CNVs的系统发育推断，主要的挑战是:

(i)确定正确的突变谱
(ii)计算这些谱之间的现实转移概率。

Challenge IX: Inferring population genetic parameters of tumor heterogeneity by model integration

肿瘤异质性是肿瘤细胞群体在时间和空间上进化的结果。微环境因素，如进入血管系统、免疫细胞浸润等，在原发肿瘤的区域、主肿瘤与转移灶之间以及不同的时间点都有很大差异。这对不同的肿瘤细胞施加了不同的选择性压力，推动了肿瘤亚克隆的形成，从而决定了疾病进展(包括转移潜力)、患者预后和对治疗的敏感性。然而，甚至关于结果动力的基本问题仍然没有答案。

定量描述肿瘤相互演化过程和评估不同的可能模式(如转移性播种方式)，需要估计个体变异和突变组合,以及变异,细胞出生,和细胞死亡在生命过程的积累。这些参数决定了个体细胞在其微环境中潜在的适应性景观，进而决定了癌症进展的进化动力学。

一个主要的挑战将是将这与从其他测量中获得的单细胞的空间位置相结合。这将有助于确定来自同一亚克隆的细胞是否位于同一位置，转移是否经常由同一亚克隆发生，单个转移是由单个亚克隆发生还是由多个亚克隆发生。利用来自同一肿瘤和远处转移的多个区域样本的研究已经为研究这些问题铺平了道路。然而，只有单细胞空间分辨率才能在特定位置识别特定的个体基因型，并得出精确的结论。

单细胞将有可能更详细地确定特定于亚克隆的模型参数及其变异性。例如，增殖率、突变率和死亡率可以通过测量每个亚克隆的有丝分裂和凋亡细胞的数量，或者通过整合不同时间点的亚克隆丰度谱来获得。对这些基本参数的良好估计将极大地有利于癌症中阳性和阴性选择的检测，并提高亚克隆适应度估计对亚克隆耐药性的预测(从而提高预期的治疗成功)。

Challenge X: Integration of single-cell data across samples, experiments, and types of measurement

生物过程是复杂和动态的，在细胞和生物体之间各不相同。为了综合分析这些过程，需要从多个实验中获得不同类型的测量值并进行整合。根据实际的研究问题，这些实验可以是不同的时间点、组织或有机体。对于它们的集成，我们需要灵活但严格的统计和计算框架

（i)取决于研究问题的不同的分辨率水平
(ii)任何测量的不确定度，以及在分析期间如何量化它们
（iii)将单细胞方法扩展为同时测量更多的细胞和更多的特征

所有这些进一步加剧了单细胞数据集成中最重要的挑战:以一种生物学上有意义并支持预期分析的方式连接来自不同来源的数据。描述不同来源的数据如何关联的mapping将随着样本数量、时间点和测量类型的增加而增加复杂性。

无论哪种测量类型的组合可用，大多数测量所需要的物质的数量都将是微小的，这取决于单个细胞的数量以及特定细胞群中可用的有限数量的细胞。这意味着一个总体的主题将会持续存在:像训练模型或相互映射数量这样的分析将会因为缺少整个视图(样本、时间点或度量类型)而受到影响。因此，跨实验和不同测量类型的数据集成将进一步加剧缺失数据的挑战。

Challenge XI: Validating and benchmarking analysis tools for single-cell measurements

随着sc-seq和其他单细胞技术的进步，越来越多的分析工具可供研究人员使用，更多的工具正在开发中，并将在不久的将来发布。因此，对数据集和方法的需求，支持系统的基准和评估这些工具变得越来越紧迫。

为了有用和可靠，算法和管道应该能够通过以下质量控制测试:

(i)它们应该产生高质量的预期结果(例如，重建系统发育，DE ，或聚类数据)，并且超过现有方法(如果现有方法存在的话)
(ii)它们应该能够稳健地应对高水平的测序噪音和技术偏差，包括PCR偏差、等位基因丢失和嵌合信号。
此外，应根据已建立的建议，有系统地进行工具评估。

评估工具的性能需要基准数据集与已知的真相。这些数据应该包括已知基因组组成和群体结构的细胞群，换句话说，克隆和等位基因的频率是已知的。

(i)模拟数据集并验证它们捕获真实数据的重要特征
(ii)为真实数据集拟合基础模型
(iii)商定综合评价指标。

理想情况下，这样的基准框架在最初的发布之后仍然是动态的——允许在提出新方法时对方法进行持续的比较，并且可以轻松地将其扩展到方法开发的全新领域。

单细胞数据科学的十一个重大挑战