单细胞数据处理细节决定成败
挖掘到了一个段子手学徒,总是给我惊喜。把枯燥无味的知识点讲解的让人捧腹大笑!
序 —— 基础不牢,地动山摇!
文献背景:
Categorization of lung mesenchymal cells in development and fibrosis
doi: 10.1016/j.isci.2021.102551
文章对肺部细胞从胚胎期向成熟期分化,并且进一步纤维化的发育过程的各个阶段进行了单细胞测序,厘定了其中各阶段的细胞类型和对应的 marker-gene ,本次分析只是其中的一个小鼠的数据集。
分析过程
首先是常规的质控,看看数据集的质量分布情况:
第一反应居然是大喜!全都没了,连过滤都不用了,然后继续走流程,接下来就是降维聚类和注释的结果,然后更为反常的结果出现了:
根据注释结果显示,有个占比很大的0号亚群,没有注释信息,查遍所有的文章给出的Mark基因都没有对应的显著表达基因,最后做了一个 FindAllMarks() 来做热图
好家伙,这个亚群的高变基因居然是Hb开头的,在曾老师的检查后发现这些东西居然是红细胞,破案了,小丑竟是我自己!
反思
基础不牢,地动山摇!
实际上在分析流程的一开始就是过滤线粒体高表达细胞和红细胞,但是对于后面的生物学意义都比较模糊,现在遭报应了,就要反思一下:
(1) 线粒体高表达细胞:凋亡或者裂解状态的细胞会呈现高线粒体基因表达,在分析过程中为了避免这些细胞的影响,所以会在分析起始就直接过滤掉一些,通常设定的阈值为线粒体基因的表达效率小于15%,即:
selected_mito <- WhichCells(sce.all.filt, expression = percent_mito < 15)
那么为什么会出现我这种乐极生悲的情况呢,因为
小鼠的基因名是首字母大写,人的基因名是全大写!!!
小鼠的基因名是首字母大写,人的基因名是全大写!!!
小鼠的基因名是首字母大写,人的基因名是全大写!!!
请后来者以我为鉴,唉 ......
(2) 红细胞
查到的信息总结一下就是,这个东西没啥用,数量还很大,很占计算资源,但确实没用。
红细胞是没有细胞核的,本身仅携带少量的基因信息,但是和疾病发育、组织发育没有太大的相关性,起码目前遇到的这几个病症和组织都没有,所以直接剔除就行。
番外总结
这次的分析练习失败的主要原因归结起来还是对生物学背景了解太少,所以对一些常识性的错误没有足够的敏感性,才会造成这样的结果,所以后续会使用正确的结果来继续分析和学习。其次是这篇文献涉及到的大量的单细胞数据集,包含了大量的单细胞数据的基础分析,其中还有普通肺细胞和纤维化细胞的差异比较分析,后续会利用这篇文献的数据扩展练习。
文末友情推荐
做教学我们是认真的,如果你对我们的马拉松授课(直播一个月互动教学)有疑问,可以看完我们从2000多个提问互动交流里面精选的200个问答!
与十万人一起学生信,你值得拥有下面的学习班: