10X单细胞转录组数据的动态阈值过滤
总是有粉丝在我们的各个公众号教程下面留言关于单细胞数据处理的细节问题,比如为什么我们过滤线粒体基因表达量超15%的细胞啊,为什么看核糖体基因表达量占比啊等等。
其实看一下基础10讲:
01. 上游分析流程 02.课题多少个样品,测序数据量如何 03. 过滤不合格细胞和基因(数据质控很重要) 04. 过滤线粒体核糖体基因 05. 去除细胞效应和基因效应 06.单细胞转录组数据的降维聚类分群 07.单细胞转录组数据处理之细胞亚群注释 08.把拿到的亚群进行更细致的分群 09.单细胞转录组数据处理之细胞亚群比例比较
就明白了, 问怎么过滤以及犹豫不决那些过滤标准的,往往是统计学背景知识不足,或者单细胞项目经验不足,所以自己没有把握去一定程度的随心所欲的改变阈值。
这个时候,推荐大家看一下动态阈值过滤,统计学是sigma法则:
对于正态分布的x,x取值在(mean-3sd,mean+3sd)范围内的概率是0.9973002,这个概率外的事情基本上不可能发生。
比如于2021年3月发表在《Nature Communications》杂志的文章, 标题是:《Time-resolved single-cell analysis of Brca1 associated mammary tumourigenesis reveals aberrant differentiation of luminal progenitors》,链接是:https://www.nature.com/articles/s41467-021-21783-3
就是采用了动态阈值过滤,如下所示:
这个时候会有同学问了,为什么这个文章采用的是MAD指标而不是SD指标呢?我只能说,统计学深似海啊!同志们,加油!
统计学是一块的难啃的骨头,所以我们整理了技能树往年笔记,以及一些优秀同行的分享分享给大家,每一篇都值得细细品读!
如果不学统计学,那么你就不可能看懂下面这图,生物信息学领域耳熟能详的生存分析,主成分分析,差异分析你都无法理解。
StatQuest生物统计学专题 - RPKM,FPKM,TPM
StatQuest生物统计学专题 - library normalization进阶之DESeq2的标准化方法
StatQuest生物统计学专题 - library normalization进阶之edgeR的标准化方法
StatQuest生物统计学 - Independent Filtering
StatQuest生物统计学 - FDR及Benjamini-Hochberg方法
StatQuest生物统计学专题 - PCA的奇异值分解过程
StatQuest生物统计学专题 - 随机森林(1) 构建与评价
StatQuest生物统计学专题 - 随机森林(2) R实例
待续,持续更新
StatQuest学习笔记05-线性模型
StatQuest学习笔记06-分位数及其应用
StatQuest学习笔记10-t检验(视频中是真人讲解,没有课件)
StatQuest学习笔记26-RNA-seq中的技术重复问题
第 1 章 高屋建瓴看统计
第 2 章 算术平均数与正态分布
第 3 章 t 检验:两组平均数的比较
第 4 章 方差分析(ANOVA):多组平均数的比较
多因素 ANOVA=好几个单因素 ANOVA?可没这么简单!
第 5 章 线性回归:统计建模初步
线性模型生病了,你懂得怎样诊断吗?
「脱离群众」的数据点,是「春风化雨」还是「秋风扫落叶」
第 6 章 广义线性模型:统计建模进阶
逻辑回归的袅娜曲线,你是否会过目难忘?
自检
番外篇
Points of Significance: Association, correlation and causati
Points of Significance: Analyzing outliers: influential or n
这个NGSHotpot机器深度学习生信公众号负责人已经各奔东西,创始人也去了华为,估计是不会再更新了,大家以后学生物信息学只能看我们生信技能树啦,持续输入五年,领域内没有对手!
如果你不想错过我们的精彩教程,请置顶我们:没看到通知?是不是五行缺星?