单细胞分群后继续分亚群的一些例子

众所周知,单细胞水平的研究,就是为了深入了解异质性,除了可以区分已知的细胞亚型,还可以对亚型进行进一步细分,或者找到全新的细胞亚型。当然了,每个细胞亚型的marker基因需要一些生物学背景。

比如发表在 Nat Med. 2018 Aug; 题目是:Phenotype molding of stromal cells in the lung tumor microenvironment. 共选取5例病人的共19个样本,通过10×genomics单细胞转录组测序探索基质细胞的亚群分类、基因功能(信号通路)、关键marker基因和临床预后。共鉴定出52个基质细胞亚群,反映了肿瘤微环境复杂性。对基质细胞的marker基因做生存曲线,发现这些marker基因可以作为肺癌预后诊断的潜在标志物。

如下所示,就是先初步分群,再细分群

其实就是我一直讲解的单细胞流程,基本上学习5个R包就够用了,分别是: scater,monocle,Seurat,scran,M3Drop 需要熟练掌握它们的对象, 而且分析流程也大同小异:

单细胞R包如过江之卿,入门的话我推荐大家学习5个R包,分别是: scater,monocle,Seurat,scran,M3Drop 需要熟练掌握它们的对象,:一些单细胞转录组R包的对象 而且分析流程也大同小异:

  • step1: 创建对象

  • step2: 质量控制

  • step3: 表达量的标准化和归一化

  • step4: 去除干扰因素(多个样本整合)

  • step5: 判断重要的基因

  • step6: 多种降维算法

  • step7: 可视化降维结果

  • step8: 多种聚类算法

  • step9: 聚类后找每个细胞亚群的标志基因

  • step10: 继续分类

初步分群就用Seurat

比如发表在 PNAS September 24, 2019  的文章The single-cell transcriptomic landscape of early human diabetic nephropathy ,链接 https://doi.org/10.1073/pnas.1908706116

收集了 23,980 single-nucleus transcriptomes from 3 control and 3 early diabetic nephropathy samples.  平均每个细胞有 2,541 genes and 6,894 unique molecular ,使用Seurat就可以初步分群拿到Eleven kidney cell types和four immune cell types

All data can be queried by users and visualized online at http://humphreyslab.com/SingleCell/.(这个网页工具的故事,明天分享)

这些细胞类型全称如下,应该是只有专门研究这个领域的看到这些简称才不会陌生:

  • PCT, proximal convoluted tubule;

  • CFH, complement factor H;

  • LOH, loop of Henle;

  • DCT, distal convoluted tubule;

  • CT, connecting tubule;

  • CD, collecting duct;

  • PC, principal cell;

  • IC, intercalated cell;

  • PODO, podocyte;

  • ENDO, endothelium;

  • MES, mesangial cell;

  • LEUK, leukocyte.

需要有相关生物学背景知识,才知道根据哪些marker基因来对群进行命名,这个图也是单细胞的标配:

可以看到 LEUK, leukocyte.的 marker基因是PTPRC

Coding sequence variants identified in PTPRC (human CD45)

Protein tyrosine phosphatase, receptor type, C also known as PTPRC is an enzyme that, in humans, is encoded by the PTPRC gene.[5] PTPRC is also known as CD45 antigen (CD stands for cluster of differentiation), which was originally called leukocyte common antigen (LCA).[6]

对leukocyte细分亚群

这个就是大家比较熟悉的啦,各种免疫细胞。提取这个leukocyte的表达矩阵,继续跑Seurat流程:

同样的,细分的亚群也是有自己的marker基因,可以看到B细胞和T细胞就很不一样。

如果是10X仪器的单细胞转录组数据走cellranger流程,我们在单细胞天地多次分享过流程笔记:

拿到表达矩阵后再走Seurat流程哦。

最后一个思考题

细胞分群后细胞亚群是无限划分的吗?

另外:预告一下,明天,一个长大了才会遇到的帅哥,周运来会给大家带来一个shiny构建单细胞相关网页工具的推荐教程。

(0)

相关推荐

  • 单细胞Marker基因可示化包Nebulosa

    与传统的转录组测序相比,单细胞测序技术噪声很大,使得单细胞转录组数据包含大量的dropout事件(导致基因表达量为0或接近0),即使是一些标记(Marker)基因也有可能表达量很低.当在使用其对聚类的 ...

  • IF 14 非肿瘤的顶刊单细胞套路,亮点在这里!

    探索生信之美,解构每一篇文章的故事 解读高分文章,揭示生信之美~小伙伴们大家好啊,我是风间琉璃.经历了短暂快乐的春节,大家是不是已经回到实验室或者医院继续开始工作了呢?(反正琉璃已经回到临床默默打工了 ...

  • 单细胞转录组数据处理之细胞亚群继续分群

    前面我们一起学习到了单细胞转录组数据的降维聚类分群,而且拿到的亚群,也可以解释其生物学意义,见:单细胞转录组数据处理之细胞亚群注释 其实理论上细胞亚群是可以无限划分的,因为世界上没有两个一模一样的细胞 ...

  • cytof数据处理难点之细胞亚群继续分群

    前面我们已经完成了cytof数据处理的主要步骤,读入文件,质量控制,降维聚类分群,生物学注释和细胞亚群比例差异分析.目录如下: 1.cytof数据资源介绍(文末有交流群) 2.cytofWorkflo ...

  • 人人都能学会的单细胞聚类分群注释

    作为生物信息学教学队伍的财务一名,我旁观了大量代码实战技巧,也勉强是学会了一下R语言,恰好看到朋友圈单细胞比较火爆,而且群主的CNS图表复现超级容易理解,我也跟着学习了一下,目录如下: CNS图表复现 ...

  • 明码标价之单细胞转录组的质控降维聚类分群和生物学注释

    一般来说,公共数据集都会给出表达量矩阵和具体不同细胞亚群特异性基因,比如 GSE122083 数据集背后的文献,就给出来了这些分群: NK (NKG7 and GNLY), NKT (CD3D and ...

  • 单细胞转录组的质控降维聚类分群和注释哪个步骤最关键

    我们非常强调进入一个领域需要读综述来获取基本认知,尤其是单细胞,我们在<单细胞天地>公众号给大家精选了2017-2020的4篇综述: 2017年7月的 Identifying cell p ...

  • 条条道路通罗马—单细胞分群分析

    课程笔记 粉丝:有单细胞线上课程吗? 小编:什么 ? 我们的单细胞转录组分析线上课程已经上线好久了,你们竟然都不知道吗,每篇推文后面的课程推荐没人看的吗,小编已哭晕在厕所 好了,戏演完了,下面郑重介绍 ...

  • 你的单细胞分群数量太少可能就是因为你测的细胞数量不够

    数据库构建也是生物信息学领域一个大方向,尤其是现在大热的单细胞领域,应该是不少团队在为单细胞数据库资源网页在踌躇满志了,不过单细胞数据之大,绝大部分实验室课题组是hold不住这个方向的数据这里的,最近 ...

  • 单细胞转录组数据处理之降维聚类分群

    前面我们一起学习了单细胞转录组数据的上游分析,而且了解了自己的项目的样本数量和测序量,还过滤了不合格的细胞和基因, 系列教程目录如下: 01. 上游分析流程 02.课题多少个样品,测序数据量如何 03 ...

  • CNS图表复现04—单细胞聚类分群的resolution参数问题

    回顾 我们的CNS图表复现之旅已经开始,前面3讲是: CNS图表复现01-读入csv文件的表达矩阵构建Seurat对象 CNS图表复现02-Seurat标准流程之聚类分群 CNS图表复现03-单细胞区 ...