单细胞转录组数据的个性化分析汇总

都介绍到单细胞转录组数据处理之细胞亚群比例比较部分了,10讲就告一段落了,大家可以回看仔细品读。后面的分析其实都是个性化的了,取决于课题设计,假说,生物学背景知识,而且需要学习大量的R包。
既然是个性化分析,理论上就是无穷无尽的,而且我在 有一种生意双方都觉得亏 提到过,专业的工程师觉得为客户学习一个R包收费2000合情合理,但是委托者觉得一个项目全套分析收2000才合理。也就是说大部分情况下,大家自己的课题的个性化需求,是很难找到合适的合作者来代替你完成的,不得不学习多种多样的R包算法,而且通常是找不到交流者。
我们就以中山大学的最新研究《一个人的15个器官单细胞测序数据 》,链接是:https://www.biorxiv.org/content/10.1101/2020.03.18.996975v1.full.pdf  为例子,看看多少种个性化分析吧。
拟时序分析
通常是monocle流程,也可以是diffusion map等等,我们以前其实分享过很多教程了。
monocle流程的拟时序分析
在文章里面主要是figures4F,图例是:
F. Pseudo-time trajectory analysis of all myeloid cells with high variable genes.
  • Each dot represents a single cell and is colored according to their clustering in A.
  • The inlet t-SNE plot at each plot shows each cell with a pseudo-time score from dark blue to yellow, indicating early and terminal states, respectively.
如下:
monocle流程的拟时序分析结果展示
GO和KEGG等生物学数据库注释
主要是在figures5D-E,图例是:D, E. Gene Ontology enrichment analysis results of each epithelial cell cluster in digestive organs (D) and non-digestive organs (E). Cell clustered as numbered below were colored according to their -log10P values. Only the top 20 significant terms (p-value < 0.05) were shown.
GO和KEGG等生物学数据库注释
这个虽然是个性化分析,但是在常规转录组里面已经烂大街了,需要注意的是GO和KEGG等生物学数据库条目非常多,如果生物学背景不够,大部分情况下是出图后就无动于衷。
比如这篇文章就是有偏向的关注 GO Biological Processes ,而不是CC或者MF,甚至也不是KEGG数据库。
GO和KEGG等生物学数据库注释的方法描述
细胞通讯CellphoneDB
该工具算法正式发表于26 February 2020 ,链接是:https://www.nature.com/articles/s41596-020-0292-x ,代码在 https://github.com/Teichlab/cellphonedb ,流行程度尚可,所以写关于它教程的很多。
CellphoneDB的方法描述
重要就是给11种主要的细胞亚群,进行关系配对的计算。
  • CD4, CD4+ T cells;
  • CD8, CD8+ T cells
  • B, B cells
  • Plasma, plasma cells
  • Myeloid, myeloid cells
  • NK, NK cells
  • Epi, epithelial cells
  • Fib, fibroblasts
  • Smo, smooth muscle cells
  • FibSmo, FibSmo cells
  • Endo, endothelial cells)
Numbers in red indicate the counts of ligand-receptor pairs for each intercellular link.
CellphoneDB的结果展示
使用SCENIC进行转录因子调控分析
SCENIC发表要早于前面的CellphoneDB,是2017年的Nature methods文章,链接: https://www.nature.com/articles/nmeth.4463  主要是根据表达矩阵来计算每个细胞可能的调控基因。
SCENIC进行转录因子调控分析方法描述
图例是:F. Heatmap of the active scores of epithelial cell subtypes as numbered on top, of which expression was regulated by transcription factors (TFs), as estimated using SCENIC analysis.
Shown are the top 10 TFs having the highest difference in expression regulation estimates between each cluster and all other cells, tested with a Wilcoxon rank-sum test.
SCENIC进行转录因子调控分析结果
另外一个关于  myeloid cell subtype  的SCENIC分析结果如下:
image-20200322153931367
解锁更多分析
如果你看的单细胞转录组数据分析文章足够多, 就可以把把分析点收集齐全,通常也只有科研服务公司的单细胞研发团队才会做这样的努力。
比如我们生信菜鸟团分享的:Cell | 单细胞技术揭示人肝细胞图谱 提到的10372个人正常细胞、1052个类器官细胞、1282个肝癌细胞和311个移植后小鼠细胞项目。使用的是RaceID3(FateID包)进行后续分析;并标准化,使用的是destiny包做伪时间分析和自组织映射
再比如2020年3月25日,郭国骥团队在Nature杂志 上发表文章 Construction of a Human Cell Landscape at Single-cell Level对60种人体组织样品和7种细胞培养样品进行了Microwell-seq高通量单细胞测序分析,系统性地绘制了跨越胚胎和成年两个时期,涵盖八大系统的人类细胞图谱。建立了70多万个单细胞的转录组数据库,鉴定了人体100余种细胞大类和800余种细胞亚类。基于该数据库,团队开发了scHCL单细胞比对系统用于人体细胞类型的识别,并搭建了人类细胞蓝图网站http://bis.zju.edu.cn/HCL/(国家基因库镜像https://db.cngb.org/HCL/)。
通常是细胞图谱类文章涉及到的新工具比较多。

第二期单细胞视频笔记汇总

免疫治疗
发育
单细胞基因组
其它R包及笔记

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
生信技能树知识库
每周文献分享
https://www.yuque.com/biotrainee/weeklypaper
肿瘤外显子分析指南
https://www.yuque.com/biotrainee/wes
生物统计从理论到实践
https://www.yuque.com/biotrainee/biostat
(0)

相关推荐