使用monocle做拟时序分析（单细胞谱系发育）

2024-07-30 12:07:30

我们在单细胞天地发布的全网第一个单细胞转录组课程，精炼了常规单细胞转录组数据分析主线，就是5大R包， scater,monocle,Seurat,scran,M3Drop，然后10个步骤：

step1: 创建对象

step2: 质量控制

step3: 表达量的标准化和归一化

step4: 去除干扰因素(多个样本整合)

step5: 判断重要的基因

step6: 多种降维算法

step7: 可视化降维结果

step8: 多种聚类算法

step9: 聚类后找每个细胞亚群的标志基因

step10: 继续分类

因为是第一个课程，所以并没有提到单细胞转录组的部分新颖分析要点，比如构建细胞谱系发育，虽然我其实在课程里面也稍微提到过一点，不过怕大家印象不深刻，所以还是有必要单独拿出来讲解一下。

而构建细胞谱系发育，就不得不提Monocle了，值得注意的是有两个版本，我们选择讲解V2，它的官网在：

版本2：https://cole-trapnell-lab.github.io/monocle-release/docs/#installing-monocle
版本3：https://cole-trapnell-lab.github.io/monocle3/monocle3_docs/

构建细胞谱系发育，也就是pseudotime（拟时序分析），主要是判断不同细胞表达量之间的关系，不同亚群之间表达量过渡的变化就是一条轨迹，类比于随着时间的发育过程的基因表达变化，但并不是真正的时间上的变化，因此我们叫它”拟时序“，而不是”真时间分析“。所以多个细胞亚群可以有多个起点，多条轨迹哦。

同样我们首先拿scRNAseq包的表达矩阵测试

这个包内置的是 Pollen et al. 2014 数据集，人类单细胞细胞，分成4类，分别是 pluripotent stem cells 分化而成的 neural progenitor cells (“NPC”) ，还有 “GW16” and “GW21” ，“GW21+3” 这种孕期细胞，理解这些需要一定的生物学背景知识，如果不感兴趣，可以略过。这个R包大小是50.6 MB，下载需要一点点时间，先安装加载它们。

这个数据集很出名，截止2019年1月已经有近400的引用了，后面的人开发R包算法都会在其上面做测试，比如 SinQC 这篇文章就提到：We applied SinQC to a highly heterogeneous scRNA-seq dataset containing 301 cells (mixture of 11 different cell types) (Pollen et al., 2014).

不过本例子只使用了数据集的4种细胞类型而已，因为 scRNAseq 这个R包就提供了这些，完整的数据是 23730 features， 301 samples, 地址为https://hemberg-lab.github.io/scRNA.seq.datasets/human/tissues/ ，这个网站非常值得推荐，简直是一个宝藏。

这里面的表达矩阵是由 RSEM (Li and Dewey 2011) 软件根据 hg38 RefSeq transcriptome 得到的，总是130个文库，每个细胞测了两次，测序深度不一样。

首先拿到表达矩阵和表型信息

这里仅仅是挑选65个高深度的单细胞文库，代码如下：

library(monocle) library(scRNAseq) ## ----- Load Example Data ----- data(fluidigm) ct <- floor(assays(fluidigm)$rsem_counts) ct[1:4,1:4] sample_ann <- as.data.frame(colData(fluidigm)) table(sample_ann$Coverage_Type) table(sample_ann$Biological_Condition) kp=sample_ann$Coverage_Type=='High' ct=ct[,kp] sample_ann=sample_ann[kp,]

然后构建monocle需要的对象

构建Monocle后续分析的所用对象，主要是根据包的说明书，仔细探索其需要的构建对象的必备元素，需要的phenotype data 和 feature data 以及表达矩阵,

注意点: 因为表达矩阵是counts值，所以注意 expressionFamily 参数

gene_ann <- data.frame( gene_short_name = row.names(ct), row.names = row.names(ct) )


pd <- new("AnnotatedDataFrame",

 data=sample_ann)

fd <- new("AnnotatedDataFrame",

 data=gene_ann)

sc_cds <- newCellDataSet( ct, phenoData = pd, featureData =fd, expressionFamily = negbinomial.size(), lowerDetectionLimit=1) sc_cds

下面是monocle对新构建的CellDataSet 对象的标准操作, 注意estimateDispersions这步的时间和电脑配置密切相关，甚至如果电脑内存不够，还会报错！

sc_cds <- estimateSizeFactors(sc_cds) sc_cds <- estimateDispersions(sc_cds)

轨迹分析需要指定基因

这些基因可以是细胞亚群直接的差异基因集。

if(F){ disp_table <- dispersionTable(cds) unsup_clustering_genes <- subset(disp_table, mean_expression >= 0.1) cds <- setOrderingFilter(cds, unsup_clustering_genes$gene_id) dim(cds) diff_test_res <- differentialGeneTest(cds, fullModelFormulaStr = "~Biological_Condition") # 哪怕仅仅是65个单细胞，monocle的这个differentialGeneTest函数运行也不快。 ordering_genes <- row.names (subset(diff_test_res, qval < 0.01)) save(ordering_genes,file = 'ordering_genes_by_Biological_Condition_high.Rdata') } load(file = 'ordering_genes_by_Biological_Condition_high.Rdata')

使用官网代码构建谱系发育

cds <- setOrderingFilter(cds, ordering_genes) plot_ordering_genes(cds) # 然后降维 cds <- reduceDimension(cds, max_components = 2, method = 'DDRTree') # 降维是为了更好的展示数据。 # 降维有很多种方法, 不同方法的最后展示的图都不太一样, 其中“DDRTree”是Monocle2使用的默认方法 # 接着对细胞进行排序 cds <- orderCells(cds) ## 最后两个可视化函数 plot_cell_trajectory(cds, color_by = "Biological_Condition") # 可以很明显看到细胞的发育轨迹 # 还有几个其它可视化函数，我们明天介绍 plot_cell_trajectory(cds, color_by = "State") plot_cell_trajectory(cds, color_by = "Pseudotime") plot_cell_trajectory(cds, color_by = "State") + facet_wrap(~State, nrow = 1)

因为NPC细胞跟另外3种细胞从生理上就不一样，所以是单独的发育轨迹，而 “GW16” and “GW21” ，“GW21+3” 这种孕期细胞，就可以很清晰的看到时间被反映在我们的拟时序分析结果了。

选择错误的基因集去做轨迹分析会怎么样呢？

比如我因为嫌弃monocle的这个differentialGeneTest函数运行太慢，为了简单写教程，就直接直接挑选top2000的MAD基因。

# 加入为了方便起见，直接挑选top2000的MAD基因。 ordering_genes=names(tail(sort(apply(cds@assayData$exprs,1,mad)),2000))

使用这2000个基因去跑拟时序分析，得到的单细胞发育谱系如下：

是不是很有趣！
当然了，出这样的图还只是万里长征第一步啦！

下一讲：有了发育轨迹之后呢？

敬请期待！

科研 | Nature：单细胞转录组揭示3D培养的人类原肠前胚胎的发育情况(国人佳作)

编译:不二,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读详细研究人类原肠前胚胎发育(包括空间自发组装和细胞类型个体发育)仍然受到现有二维(2D)平台的限制,这些平台无法模拟体内条件.在这里, ...
科研 | 国人Nature论著：单细胞技术解析人巨噬细胞的发育

编译:刘娟,编辑:夏甘草.江舜尧. 原创微文,欢迎转发转载. 导读巨噬细胞是胚胎发育过程中出现的新生免疫系统中最早的细胞.在小鼠身上,胚胎巨噬细胞浸润正在发育的器官并在这些器官内向组织驻留巨噬细胞( ...
综述 | Development：从单细胞的角度理解胰腺β细胞的生成和再生（国人作品）

编译:夕夕,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读了解β细胞生成和再生的背后机制是治疗糖尿病的关键.然而,传统的基于细胞群的研究方法在定义β细胞分化和反分化过程及相关的调节机制方面存在 ...
科研| Molecular plant：利用单细胞RNA测序研究气孔谱系细胞发育的分子动态

编译:夕夕,编辑:夏甘草.江舜尧. 原创微文,欢迎转发转载. 导读气孔谱系细胞发育的调控已被广泛研究.然而,基于单细胞转录组研究这一生物学过程还尚未报道.本文,作者主要对拟南芥5日龄的12844个单 ...
科研 | Nature Communications：单细胞RNA序列揭示复发性胶质母细胞瘤的一般神经发育层次

编译:怀瑾,编辑:夏甘草.江舜尧. 原创微文,欢迎转发转载. 导读癌症干细胞对于癌症的发生.发展和耐药性至关重要,但目前对于这些过程及其与胶质母细胞瘤异质性相关性的理解有限.因此,本研究对成年胶质母 ...
新生儿到底需不需要喂水？做错会影响身体发育，你做对了吗

刚出生的新生儿最需要的唯一食物就是母乳. 但在养育新生儿的时候,很多家长都会进入一个盲区,到底该不该给孩子喂水?有人认为该给孩子喂水,因为水是我们人体最需要的物质,让孩子喝水才能帮助孩子创造良好的肠胃 ...
科研 | PLOS Genetics：抗病基因PRH1接收生长素信号，调控拟南芥侧根发育（国人作品）

编译:Yong-qin,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读植物根系结构和侧根的密度与分支程度有关.侧根的发育始于中柱鞘细胞且受生长素调控,生长素信号由ARF7/19蛋白调控(IAA ...
PaperRSS文献速递| 糖信号诱导拟南芥分生组织发育过程中的动态变化

植物地上部分来源于茎尖分生组织(SAM)中的多能细胞.这种干细胞群体通过一个涉及WUSCHEL (WUS)和CLAVATA3稳定表达的负反馈回路来维持. SAM的大小是动态的,在过渡到生殖生长时经历超 ...
蓝江｜拟对象的谱系学：数字对象理论的序曲

拟对象的谱系学:数字对象理论的序曲内容摘要:如何思考对象问题一直是哲学领域的核心问题.从启蒙早期开始,人们已经基于自然和社会的二分来思考对象,而这种二分体制下的对象实际上导致了某种特殊的" ...
Cancer Cell | 单细胞谱系追踪揭示癌症转移动力学

Cancer Cell | 单细胞谱系追踪揭示癌症转移动力学
拟时序分析的10个步骤

最近刷了刷植物领域单细胞文献,有一个蛮早期的拟南芥根部单细胞研究:<High-Throughput Single-Cell Transcriptome Profiling of Plant Ce ...
拟时序分析的热图提取基因问题

昨天我在单细胞天地讲解了使用monocle2进行拟时序分析的方法,基本上跟着我的代码走一波就可以学会了,当然具体参数理解需要自行发力哦,见:使用monocle做拟时序分析(单细胞谱系发育) 用法只是最 ...
拟时序分析后细胞类型按照不同state进行区分

前面我们已经介绍了:使用monocle做拟时序分析(单细胞谱系发育) 然后回答了一个学员的问题: 拟时序分析的热图提取基因问题 , 但是因为大家对monocle包的说明书不熟悉,对R不熟练,以至于无 ...
单细胞谱系分析重建人类肺末梢祖细胞分化过程

当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步.不知不觉在单细胞转录组领域做知识分析也快两年了,通过文献速递这个栏目很幸运聚集了一些小伙伴携手共进,一起成长. 文献速递栏目通过简 ...