我的课题只有一个10x样本肿么办?

前面我们介绍过,如果只有两个10x单细胞转录组样本的数据, 该如何分析,见:两个样品的10x单细胞转录组数据分析策略 ,实际上这个分析策略的文章里面并不是把单细胞转录组数据当做是重点,分析也是很草率,之所以加上单细胞转录组数据,纯粹是为了锦上添花罢了!

什么情况下,我们会用尽全身力气来分析我们的10x单细胞转录组样本的数据呢,最有可能的场合是,我们只有一个样本,有可能是样本本身非常稀有,又或者我们的经费确实有限,那我们就来看一下具体一点的例子吧。

分享的文章是发在"大名鼎鼎"的Medicine杂志,题目是:Single-cell transcriptional profiling reveals the
heterogenicity in colorectal cancer 文章仅仅是取了一个CRC病人的样品去做了10x单细胞转录组测序,主要的分析其实就是我的全网第一个单细胞课程(基础)满一千份销量就停止发售 内容,使用我介绍5个R包就可以分析的比原文更好,分别是: scater,monocle,Seurat,scran,M3Drop 需要熟练掌握它们的对象,:一些单细胞转录组R包的对象 ,分析流程也大同小异:

  • step1: 创建对象

  • step2: 质量控制

  • step3: 表达量的标准化和归一化

  • step4: 去除干扰因素(多个样本整合)

  • step5: 判断重要的基因

  • step6: 多种降维算法

  • step7: 可视化降维结果

  • step8: 多种聚类算法

  • step9: 聚类后找每个细胞亚群的标志基因

  • step10: 继续分类

数据质控

仅仅是一个样本的10x单细胞转录组测序,经过质控,剩下2824个细胞,如图:

降维分群

图片质量有点糟糕,可能是杂志本身不咋地,所以要求低,如下:

把近三千的细胞分成5群后,全文就主要集中在讨论不同亚群细胞的生物学功能了。

亚群特异性基因

通常是小提琴图咯,再加上tSNE的散点图,还有热图,都是单细胞R包的主要流程化出图,作者就直接拿过去放在文章里面了。

还是那句评价,图片质量有点糟糕,可能是杂志本身不咋地,所以要求低,如下:

这些亚群特异性基因就可以拿去做GO/KEGG数据库注释来说明它们不同亚群的生物学差异以及可能对病人治疗的帮助。

拟时序分析

其实让我很意外的,因为前面的分析,作者只需要走10X数据标准cellranger流程,然后走seurat流程,我们在单细胞天地多次分享过流程笔记,如下:

就可以完成全部图表啦,但是后面这个拟时序分析,他们需要多学一个monocle的用法,出图如下:

很容易理解,pseudotime是monocle软件,给每个细胞的一个新的属性,可以在二维坐标画出散点图,然后可以加上我们前面seurat聚类分群的属性,就可以看到不同的细胞亚群属于不同的pseudotime状态,这里可以很清晰的看到3个pseudotime状态,描述如下:

  • cluster 2 to 5 presents in state 1;

  • cluster 1, 2, and 4 presents in state 2;

  • cluster 2, 4, and 5 presents in state 3.

当然了,也有部分细胞亚群分散在不同的pseudotime状态,实际上在R里面可以出一个类似于机器学习的混淆矩阵的 table 表格,就可以看到不同的pseudotime状态和不同的细胞亚群的overlap情况啦,不过作者没有提供他们的10x原始数据或者表达矩阵,所以我也没办法去重新分析它。当然了,还是我前面的评价,这样的杂志也不会要求这些。

后记

实际上多个单细胞转录组数据的整合分析才是主流,所以我在生信技能树的多个单细胞转录组样本的数据整合之CCA-Seurat包 是非常值得大家细看的,而且使用scran包的MNN算法来去除多个单细胞转录组数据批次效应 也展现了一个很好的例子。

我昨天堵车在路上写的单细胞可以跟bulk转录组结合起来 就是两个病人,其中一个病人是 baseline, remission and relapse的3个样品,另外一个病人是baseline and relapse的两个样品,总共是5个样本。

(0)

相关推荐