学习使用各种单细胞R包来处理数据

号外:中秋节广州3天入门课程报名马上截止:(中秋节一起来学习!)全国巡讲第16站-广州(生信入门课加量不加价)

单细胞R包如过江之卿,这里只考讲解5个R包,分别是: scater,monocle,Seurat,scran,M3Drop ,需要督促或者提醒大家赶紧学完基础课程!全网第一个单细胞课程(基础)满一千份销量就停止发售 我明天会出配套习题!

根据大家对NGS数据处理上游分析的掌握或需求,自行选择是否学习linux,但是需要完全理解我们的单细胞转录组表达矩阵是如何得到的,以及其生物学意义,每个基因比对到的reads数量的counts矩阵,以及去除了每个细胞测序数据量(文库大小)差异后的 rpm 矩阵,以及去除了基因长度效应的 rpkm矩阵,以及最近比较流行的 tpm 矩阵。基础知识教学视频,都是免费在b站给到大家的:

表达矩阵是单细胞转录组课程的开始!

主要数据分析要点分类

完整工具,分析要点的表单见:https://omictools.com/single-cell-rna-seq-category  我还在生信技能树写过推文介绍如何爬去工具列表,并且制作成为思维导图!

normalization

Linnorm,NODES, SAMstrt, SCnorm, scran, DESeq and TMM

feature Selection

  • Detecting highly variable genes

  • correlated gene pairs

  • cell cycle phase

  • tissue specific gene signatures

Dimension Reduction

MDS,PCA,t-SNE

clustering

  • K-means clustering

  • Mixture models

  • Hierarchical clustering

DEG analysis methods

monocle,MAST,SCDE, BASiCS, NODES, SAMstrt, Seurat and DESeq2

Pseudotime

  • Monocle / Monocle 2 / Census

  • Wanderlust / Cycler / Wishbone

  • SCUBA

  • Slingshot

由于课程时间限制,以及我们所介绍的文章的数据限制,这里只能挑选最出名的3个R包来介绍, 它们这些R包或多或少涵盖了上面提到的部分分析内容。

值得注意的是:这里并不是说其它R包就不重要, 其实我在单细胞天地公众号也介绍过不少实用R包,请自行搜索学习,比如 SC3, pcaReduce,SINCERA,M3Drop

学习下面的R包,需要掌握一些对象:一些单细胞转录组R包的对象

关于测试数据

这里我们选择的是scRNAseq R包中的数据集

这个包内置的是 Pollen et al. 2014 数据集,人类单细胞细胞,分成4类,分别是 pluripotent stem cells 分化而成的 neural progenitor cells (“NPC”) ,还有 “GW16” and “GW21” ,“GW21+3” 这3种孕期细胞。

首先我写了一个探索这个数据集的教程:study_scRNAseq.html,链接:http://bio-info-trainee.com/tmp/scRNA/study_scRNAseq.html

关于seurat

学习seurat用法,当然是以官网为主,不过看英文笔记有挑战,简略带领大家一起学习咯:https://satijalab.org/seurat/get_started.html    主要学习:https://satijalab.org/seurat/pbmc3k_tutorial.html

我这里主要演示使用 seurat包来处理 scRNAseq 这个R包内置的是 Pollen et al. 2014 单细胞转录组数据集 。

教程见:study_seurat.html

  • counts矩阵进来后被包装为对象,方便操作。

  • 然后一定要经过 NormalizeDataScaleData 的操作

  • 函数 FindVariableGenes 可以挑选适合进行下游分析的基因集。

  • 函数 RunPCARunTSNE 进行降维

  • 函数 FindClusters 直接就分群了,非常方便 函数 FindAllMarkers 可以对分群后各个亚群找标志基因。

  • 函数 FeaturePlot 可以展示不同基因在所有细胞的表达量

  • 函数 VlnPlot 可以展示不同基因在不同分群的表达量差异情况 函数 DoHeatmap 可以选定基因集后绘制热图

关于scater

学习scater用法,当然是以官网为主,不过看英文笔记有挑战,简略带领大家一起学习咯:https://bioconductor.org/packages/release/bioc/html/scater.html

值得提醒的是 2017年 11 月 这个 scater 包经过了重大变革,所以如果大家看到比较旧的教程需要注意一下,通常是无法成功的。

其GitHub的教程:http://hemberg-lab.github.io/scRNA.seq.course/

我这里主要演示使用 scater 包来处理 scRNAseq 这个R包内置的是 Pollen et al. 2014 单细胞转录组数据集 。

教程见:study_scater.html

关于monocle

学习monocle用法,当然是以官网为主,不过看英文笔记有挑战,简略带领大家一起学习咯:http://cole-trapnell-lab.github.io/monocle-release/monocle3/

我这里主要演示使用 monocle 包来处理 scRNAseq 这个R包内置的是 Pollen et al. 2014 单细胞转录组数据集 。

教程见:study_monocle.html

最后把学习的4个R包应用到文章的数据

(0)

相关推荐

  • 仅3个单细胞测序样本怎么撑起6分的文章?

    导语 今天和大家分享的是2020年1月份发表在SCIENTIFIC DATA杂志上的一篇文章(IF=5.929)"Single-cell RNA sequencing of human ki ...

  • 单细胞RNA

    一.单细胞single cell RNA-seq简介 1.Bulk RNA-seq(大量RNA-seq) Measures the average expression level for each ...

  • 单细胞转录组3大R包之scater

    scater 这个R包很强大,是McCarthy et al. 2017 发表的,包含的功能有: Automated computation of QC metrics Transcript quan ...

  • 单细胞转录组3大R包之Seurat

    牛津大学的Rahul Satija等开发的Seurat,最早公布在Nature biotechnology, 2015,文章是: Spatial reconstruction of single-ce ...

  • 单细胞转录组3大R包之monocle2

    主要是针对单细胞转录组测序数据开发的,用来找不同细胞类型或者不同细胞状态的差异表达基因.分析起始是表达矩阵,作者推荐用比较老旧的Tophat+Cufflinks流程,或者RSEM, eXpress,S ...

  • 一些单细胞转录组R包的对象

    对象应该是很重要的,至少是在R语言里面 ExpressionSet Bioconductor的ExpressionSet是基石,多次讲解过,GEO数据库在R里面下载的就是这个对象. 通常不需要自己从头 ...

  • 在Ubuntu下安装单细胞3大R包

    查看Ubuntu系统以及R版本 cat /etc/issue 通常来说,很多R包的安装对R版本是有要求的,比如BiocManager需要 R (≥ 3.5.0),但是并不需要最新版R语言. R到3.5 ...

  • 学习scRNAseq这个R包

    课程笔记 目录 单细胞转录组学习笔记-1 单细胞转录组学习笔记-2 单细胞转录组上游分析之shell回顾 获取Github代码包以及准备工作 常说的表达矩阵,那得到之后呢? 由表达矩阵看内部异质性 重 ...

  • 不仅仅是新的单细胞相关R包层出不穷,旧的R包也会更新用法

    两年前我们介绍的用米氏方程解决单细胞转录组dropout现象的文章提出的那个算法,被包装到了R包,是:M3Drop  , 文章最开始 2017年发表在biorxiv,是:Modelling dropo ...

  • 学习微生物组数据比较成熟的R包microbiome

    learning_microbiome_2 这两个包的安装比较麻烦 无法下载得到github包,或者无法安装后,将github包手动下载下来,解压之后定位文件夹名称后安装 这部分用来学习微生物组成的操 ...

  • 该整理代码封个R包了-来自复兴号的学习笔记

    本次基于扩增子的培训代码全部的环境在terminal中.这将在无论是个体电脑还是服务器上都可以顺利布置,更加高效,灵活,把握核心内容.我目前的习惯还是基于rstudio的Rmd.我考虑到的是可视化工作 ...