说清楚你的单细胞转录组课题多少个样品，测序数据量如何 / 开普饭

现在发布一个优秀学员根据我的视频教程写的10个笔记，连载，希望可以从某种程度上面帮助你更好的学习我的7个小时34集的单细胞转录组数据处理视频。当然了，如果你确实没有时间学习数据处理细节，也可以委托生信工程师团队去处理：单细胞转录组数据分析大放价（疫情期间不打烊），也就是两千块钱左右一个10X的单细胞转录组样本收费。

上一讲：单细胞转录组数据处理之上游分析流程

以下是正文

因为单细胞目前比较贵，单个10x样本还是在3万左右的费用，大多数课题组就是想尝个鲜，不会测太多样本。如果你看完目前的近1000篇10x单细胞转录组文章就很容易发现规律，从2017到2020，样本量要求是越来越多了，而且想发CNS级别文章，样本数量也得上的去。

scRNA-seq技术到目前为止也有一百多个了，但主流的可以大致分为以下几种：

Droplet-based: 10X Genomics, inDrop, Drop-seq
Plate-based with unique molecular identifiers (UMIs): CEL-seq, MARS-seq
Plate-based with reads: Smart-seq2
Other: sci-RNA-seq, Seq-Well

实际上你需要理解的就是10x数据和Smart-seq2技术啦，最常用而且最常见！上游分析前面讲解了：

样本量多少都可以发

但凡看过单细胞转录组相关文献的都知道，样本量跟文章所发的杂志影响因子是正相关的。样本数量多少都可以发的，不同数量的样本，能讲好的生物学故事不一样，自然发表的水平不一样咯。

我在单细胞天地分享过，不同数量样本的单细胞项目文章：

在教程：使用seurat3的merge功能整合8个10X单细胞转录组样本和 seurat3的merge功能和cellranger的aggr整合多个10X单细胞转录组对比其实就指出来了，样本数量再多也可以分析。

补充材料里面对样本量和数据量描述得很清楚

单个样本的单细胞转录组很少见了，现在以2个样本项目居多，一个对照一个处理，如果是常规转录组，两个分组的话每个组通常是3个样本，但是我们说了嘛，单细胞还是很贵，单个10x样本还是在3万左右的费用，大多数课题组就是想尝个鲜，而且学术界也承认单细胞的确很贵大家hold不住，所以2个样本项目也可以发出去的啦。

下面就是一个典型的2个样本项目样本量描述：

如果样本量比较多，复杂的实验设计，不同生物学假设的分组，可以用示意图发方式，如下；

单个病人取样示意图

关于测序数据量

测序数据量，其实就是文库大小，每个细胞的reads的总数。

上面截图的10x的单细胞转录组的两个样本的课题，就写清楚了，每个样本是3500左右细胞，每个细胞是8万的reads数量。

实际上10x单细胞转录组每个样本可以是3000到10000的细胞数量都可以，取决于实验设计。每个细胞平均可以是1到10万的reads，都没有问题。

如果是Smart-seq2技术呢，每个样本细胞数量通常是96的倍数，500个左右就很厉害了，然后每个细胞的reads就可以很多，百万级别都没有问题。

记住这些关键数量即可，如果想知道具体原理，多看几个综述即可！

测序数据量和捕获细胞数量对结果的影响

10X官方有PBMC单细胞测试数据，4000K细胞，每个细胞平均是50K的reads。然后取，500, 1k, 2,5k, 5k, 7.5k, 10k, 15k, 25k的随机抽样子集，同样的，取100，200，400，600，500，1，2，3，4K的随机抽样子集。

发现平均每个细胞的0.5K和86K的reads测序量，检测到细胞数量都有4000，而且极低深度测序，仍然是可以比较清晰可见的区分细胞亚型，哪怕在每个细胞的0.5K这样的reads数量情况下每个细胞仅仅是能检测到160个左右的基因。

当然了，这样的探索，仅仅是计算层面的指导，其实你肯定是在公司测序，那么公司的人一定会推荐你每个样本是3~8K细胞，平均每个细胞15-50K的reads，这样的测序策略。

说清楚你的单细胞转录组课题多少个样品，测序数据量如何

样本量多少都可以发

补充材料里面对样本量和数据量描述得很清楚

关于测序数据量

测序数据量和捕获细胞数量对结果的影响

相关推荐