10X单细胞转录组数据的动态阈值过滤

总是有粉丝在我们的各个公众号教程下面留言关于单细胞数据处理的细节问题,比如为什么我们过滤线粒体基因表达量超15%的细胞啊,为什么看核糖体基因表达量占比啊等等。

其实看一下基础10讲:

就明白了, 问怎么过滤以及犹豫不决那些过滤标准的,往往是统计学背景知识不足,或者单细胞项目经验不足,所以自己没有把握去一定程度的随心所欲的改变阈值。

这个时候,推荐大家看一下动态阈值过滤,统计学是sigma法则:

对于正态分布的x,x取值在(mean-3sd,mean+3sd)范围内的概率是0.9973002,这个概率外的事情基本上不可能发生。

比如于2021年3月发表在《Nature Communications》杂志的文章, 标题是:《Time-resolved single-cell analysis of Brca1 associated mammary tumourigenesis reveals aberrant differentiation of luminal progenitors》,链接是:https://www.nature.com/articles/s41467-021-21783-3

就是采用了动态阈值过滤,如下所示:

动态阈值过滤指标

这个时候会有同学问了,为什么这个文章采用的是MAD指标而不是SD指标呢?我只能说,统计学深似海啊!同志们,加油!

统计学是一块的难啃的骨头,所以我们整理了技能树往年笔记,以及一些优秀同行的分享分享给大家,每一篇都值得细细品读!

如果不学统计学,那么你就不可能看懂下面这图,生物信息学领域耳熟能详的生存分析,主成分分析,差异分析你都无法理解。

首先是statquest学习小组长笔记

StatQuest生物统计学专题 - 基础概念

StatQuest生物统计学专题 - p值

StatQuest生物统计学专题 - 生物重复和技术重复

StatQuest生物统计学专题 - RPKM,FPKM,TPM

StatQuest生物统计学专题 - library normalization进阶之DESeq2的标准化方法

StatQuest生物统计学专题 - library normalization进阶之edgeR的标准化方法

StatQuest生物统计学 - Independent Filtering

StatQuest生物统计学 - FDR及Benjamini-Hochberg方法

StatQuest生物统计学 - 拟合基础

StatQuest生物统计学 - 线性拟合的R2和p值

StatQuest生物统计学专题 - 分位数及其应用

StatQuest生物统计学专题 - 极大似然估计

StatQuest生物统计学专题 - PCA

StatQuest生物统计学专题 - PCA的奇异值分解过程

StatQuest生物统计学专题 - LDA

StatQuest生物统计学专题 - MDS

StatQuest生物统计学专题 - tSNE的基础概念

StatQuest生物统计学专题 - 聚类及其算法(1)

StatQuest生物统计学专题 - 聚类及其算法(2)

StatQuest生物统计学专题 - K近邻算法

StatQuest生物统计学专题 - 决策树(1)

StatQuest生物统计学专题 - 决策树(2)

StatQuest生物统计学专题 - 随机森林(1) 构建与评价

StatQuest生物统计学专题 - 随机森林(2) R实例

待续,持续更新

然后是小组最优秀成员Rvdsd的笔记列表:

StatQuest学习笔记01-统计学分布及抽样

StatQuest学习笔记02-样本量与重复

StatQuest学习笔记03-标准差、标准与置信区间

StatQuest学习笔记04-拟合

StatQuest学习笔记05-线性模型

StatQuest学习笔记06-分位数及其应用

StatQuest学习笔记07-最大似然法详解

StatQuest学习笔记08-比数与比数比

StatQuest学习笔记09-Fisher精确检验

StatQuest学习笔记10-t检验(视频中是真人讲解,没有课件)

StatQuest学习笔记11-p值详解

StatQuest学习笔记12-FDR及实现

StatQuest学习笔记13-LDA

StatQuest学习笔记14-PCA

StatQuest学习笔记15-MDS

StatQuest学习笔记16-tSNE

StatQuest学习笔记17-聚类

StatQuest学习笔记18-K邻近算法

StatQuest学习笔记19-决策树

StatQuest学习笔记20-随机森林

StatQuest学习笔记21-逻辑回归

StatQuest学习笔记22-交叉验证

StatQuest学习笔记23-RNA-seq简介

StatQuest学习笔记24-RPKM FPKM TPM

StatQuest学习笔记25-差异表达分析

StatQuest学习笔记26-RNA-seq中的技术重复问题

接着是协和八统计干货

第 1 章  高屋建瓴看统计

你真的懂p值吗?

做统计,多少数据才算够?(上)

做统计,多少数据才算够?(下)

提升统计功效,让评审心服口服!

你的科研成果都是真的吗?

见识数据分析的「独孤九剑」

贝叶斯 vs 频率派:武功到底哪家强?

第 2 章  算术平均数与正态分布

数据到手了,第一件事先干啥?

算术平均数:简单背后有乾坤

正态分布到底是怎么来的?

第 3 章  t 检验:两组平均数的比较

想玩转 t 检验?你得从这一篇看起

就是要实用!t 检验的七十二变

不是正态分布,t 检验还能用吗?

只有 15 个标本,也能指望 t 检验吗?

样本分布不正态?数据变换来救场!

数据变换的万能钥匙:Box-Cox 变换

t 检验用不了?别慌,还有神奇的非参数检验

只讲 p 值,不讲效应大小,都是耍流氓!

找出 t 检验的效应大小,对耍流氓 say no!

用置信区间,就是这么(不)自信!

如何确定 t 检验的置信区间

优雅秀出你的 t 检验,提升 Paper 逼格!

要做 t 检验,这两口毒奶可喝不得!

第 4 章  方差分析(ANOVA):多组平均数的比较

要比较三组数据,t 检验还能用吗?

ANOVA 在手,多组比较不犯愁

ANOVA 的基本招式你掌握了吗?

ANOVA 做出了显著性?事儿还没完呢!

听说,成对t检验还有 ANOVA 进阶版?

重复测量 ANOVA:你要知道的事儿都在这里啦

没听说过多因素 ANOVA ?那你就可就 OUT 了!

多因素 ANOVA=好几个单因素 ANOVA?可没这么简单!

两个因素相互影响,ANOVA 结果该如何判读?

ANOVA 还能搞三四五因素?等等,我头有点儿晕

要做 ANOVA,样本量多大才够用

第 5 章  线性回归:统计建模初步

车模航模你玩过,统计学模型你会玩吗?

如果只能学习一种统计方法,我选择线性回归

回归线三千,我只取这一条

三千回归线里选中了你,你靠谱吗?

自变量不止一个,线性回归该怎么做?

找出「交互效应」,让线性模型更万能

天啦噜!没考虑到混杂因素,后果会这么严重?

回归系数不显著?也许是打开方式不对!

评价线性模型,R 平方是个好裁判吗?

如果R平方是砒霜,本文教你三种解药!

线性模型生病了,你懂得怎样诊断吗?

「脱离群众」的数据点,是「春风化雨」还是「秋风扫落叶」

第 6 章  广义线性模型:统计建模进阶

你在 或者不在 需要逻辑回归来算

逻辑回归的袅娜曲线,你是否会过目难忘?

逻辑回归的统计检验,原来招数辣么多?

线性回归能玩多变量,逻辑回归当然也能!

喂,你的逻辑回归模型该做个体检啦

逻辑回归能摆平二分类因变量,那……不止二分类呢?

让人眼花缭乱的多项逻辑回归,原来是这么用的

只问方向,无问远近,定序回归的执念你懂吗?

包教包会:定序回归实战

「数」风流人物,还靠泊松回归

广义线性模型到底是个什么鬼?

自检

妈妈说答对的童鞋才能中奖

统计学的十个误区,你答对了吗?

番外篇

说人话的统计学:一份迟来的邀请

最后还有已经停更的NGSHotpot机器深度学习生信
  1. Importance of being uncertain

  2. Points of Significance: Error bars

  3. Points of Significance: Significance, P values and t-tests

  4. Points of Significance: Power and sample size

  5. Points of Significance: Visualizing samples with box plots

  6. Points of Significance: Comparing samples – part I

  7. Points of Significance: multiple-testing correction

  8. Points of Significance: 非参数检验

  9. Points of Significance: 对照实验设计

  10. Points of View: Analysis of variance and blocking

  11. Points of Significance: 贝叶斯公式

  12. Points of Significance: 贝叶斯统计

  13. Points of Significance: 贝叶斯网络

  14. Points of Significance: Association, correlation and causati

  15. Points of Significance: 一元线性回归

  16. Points of Significance: 多元线性回归

  17. Points of Significance: Analyzing outliers: influential or n

  18. Points of Significance: Regression diagnostics

这个NGSHotpot机器深度学习生信公众号负责人已经各奔东西,创始人也去了华为,估计是不会再更新了,大家以后学生物信息学只能看我们生信技能树啦,持续输入五年,领域内没有对手!

如果你不想错过我们的精彩教程,请置顶我们:没看到通知?是不是五行缺星?

(0)

相关推荐

  • 集中/离散趋势

    集中趋势: 正态分布,算数平均数 偏态分布,中位数 倍增分布,几何平均数 离散趋势: 正态分布,标准差 偏态分布,四分位数间距 相差悬殊,变异系数 抽样误差,标准误 

  • 统计学临界值是如何计算

    在独立性检验中,临界值(又叫做阈值)的确定是根据实验的实际结果而定.只有当相关系数R的绝对值大于临界值时,才能用直线近似表示两个变量之间的关系.临界值是指物体从一种物理状态转变到另外一种物理状态时,某 ...

  • 干货!统计学7种数据分析方法,超级实用

    研究员在图书馆档案中搜索计算机数据库 Hi~盆友们! 今天的内容非常干货,大家一定要看呀~~ 做数据分析,就一定会涉及到统计学的知识.我之前还推了一些统计学相关的基础知识.今天,我会分享7个我们很可能 ...

  • 10X单细胞转录组数据都分析那么多了,实验过程要不要了解一下

    我的课题只有一个10x样本肿么办? 两个样品的10x单细胞转录组数据分析策略 三个10X单细胞转录组样本CCA整合 多个单细胞转录组样本的数据整合之CCA-Seurat包 在教程:使用seurat3的 ...

  • 10X单细胞转录组的测序数据量这么少是为什么

    最近读到发表在nature medicine杂志的文章<Immune profiling of human tumors identifies CD73 as a combinatorial t ...

  • 专门分析10x genomic公司的单细胞转录组数据的软件套件

    10x Genomics方法巧妙使用了Barcoding(条形码)和Microfluidics(微流体)技术,在单细胞分离.扩增原理上具有明显的优势,能帮助研究人员实现对细胞群体的划分与细胞群体间基因 ...

  • 10x的单细胞转录组数据就应该这样处理

    未知的东西总是让人害怕,即使是花时间看他人做过一遍也好过踟蹰不前,请看好: 首先需要10x仪器出来的fastq数据 这个可以看前面的教程:10X genomics单细胞数据集探索 列出了非常多的官网教 ...

  • 科研 | NC:使用iDEA方法对单细胞转录组数据进行差异表达和基因富集分析

    编译:夕夕,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读 差异表达分析(DE)和基因富集分析(GSE)常用于单细胞转录组研究中.本研究中,作者开发了一种集成且可扩展的方法--iDEA,可通过分 ...

  • 用Expedition来分析单细胞转录组数据的可变剪切

    了解我的应该都知道我最近几个月都在奋战一个陌生的领域,单细胞转录组数据处理.真的很有挑战性,笔记累积了一大堆了,但是没有太值得分享的,大多是利用bulk转录组数据处理的经验而已,但是下面这个是单细胞转 ...

  • 比较不同的对单细胞转录组数据聚类的方法

    背景介绍 聚类之前必须要对表达矩阵进行normalization,而且要去除一些批次效应等外部因素.通过对表达矩阵的聚类,可以把细胞群体分成不同的状态,解释为什么会有不同的群体.不过从计算的角度来说, ...

  • 比较不同的对单细胞转录组数据normalization方法

    使用CPM去除文库大小影响 之所以需要normalization,就是因为测序的各个细胞样品的总量不一样,所以测序数据量不一样,就是文库大小不同,这个因素是肯定需要去除.最简单的就是counts pe ...

  • 比较不同的对单细胞转录组数据寻找差异基因的方法

    背景介绍 如果是bulk RNA-seq,那么现在最流行的就是DESeq2 和 edgeR啦,而且有很多经过了RT-qPCR 验证过的真实测序数据可以来评价不同的差异基因算法的表现. 对单细胞测序数据 ...