单细胞进阶数据分析技巧一网打尽
单细胞转录组表达矩阵的聚类分群这样的教程流程分析相信大家都已经掌握的不错了,各种技巧及细节我就不赘述了,看我在《单细胞天地》的单细胞基础10讲:
01. 上游分析流程 02.课题多少个样品,测序数据量如何 03. 过滤不合格细胞和基因(数据质控很重要) 04. 过滤线粒体核糖体基因 05. 去除细胞效应和基因效应 06.单细胞转录组数据的降维聚类分群 07.单细胞转录组数据处理之细胞亚群注释 08.把拿到的亚群进行更细致的分群 09.单细胞转录组数据处理之细胞亚群比例比较
以及《单细胞天地》日更的各式各样的个性化汇总教程,差不多就明白了。
但是,单细胞转录组这样的分析,只能说达到学徒任务水准做图表复现而已,打基础。更多的时候,你会发现,单细胞转录组CNS文章有着大量难用的R包以及python包,要多个操作系统环境切换,多次数据库文件下载。基本上每个进阶数据分析条目,都可以是一天的课程。《生信会客厅》联合《单细胞天地》公众号分享过进阶数据分析合辑,目录如下:
单细胞转录组高级分析一:多样本合并与批次校正 单细胞转录组高级分析二:转录调控网络分析 单细胞转录组高级分析三:细胞通讯分析 单细胞转录组高级分析四:scRNA数据推断CNV 单细胞转录组高级分析五:GSEA与GSVA分析 单细胞转录组高级分析六:TCGA生存分析 单细胞转录组高级分析七:整合scATAC数据 单细胞转录组高级分析八:整合V(D)J数据
但,时间不等人,很多人都是因为要分析手头的单细胞项目而学习生信。大家普遍存在以下情况:
对Linux系统不熟,R语言的基础不够扎实; 跟着教程跑示例数据还可以,分析自己的数据时就懵了; 安装或运行一些软件时频频报错,自己解决起来困难重重; 对软件的原理和参数不熟悉,不能准确选择适用的方法和参数; 分析效果没有达到预期时,没有备选分析方案。
既然每一个分析环节,都需要消耗大量的探索时间,而且软件工具层出不穷。最大可能性是一年时间过去了,你的单细胞转录组数据还没有开始分析,因为你仍然是在学习的路上:
一个可能的解决方案
那就是云服务器+docker,它不仅仅是帮你安装软件,还打包好测试数据,运行的示例,配套数据库,甚至还赠送你一个操作系统!
比如 docker 安装 too-many-cells,一句话解决战斗:docker pull gregoryschwartz/too-many-cells:0.2.2.0 然后就可以运行 too-many-cells啦。我们在单细胞天地分享过:一文了解TooManyCells ,该算法有 2 种包装形式,一种是 too-many-cells
软件,一种是 TooManyCellsR
R 包,安装起来非常费劲。但是docker 安装 too-many-cells,就超级简单了。
当然了,需要一些docker的基础知识才能理解,为什么一句话就可以完成之前好几天的环境配置。我在生信技能树上面写过部分docker教程, 目录如下:
用集成了anaconda的docker快速布置生信分析平台 我学会docker啦!希望你也可以学会 跟着jimmy学docker系列之第2讲:一个软件一个容器 跟着jimmy学docker系列之第3讲:为何不创建自己的docker容器呢? 跟着jimmy学docker系列之第4讲:docker容器资源调度问题(MAC版本) 使用阿里云+Docker分析RNA-Seq与ChIP-Seq Docker应用之一键化安装Wordpress(无需代码基础) 如何从看不懂Dockerfile到创建自己的镜像
感兴趣的可以简单浏览,如果要完全掌握,仍然是推荐大家看文档,多练习。比如gistic2就有docker镜像,一句话解决战斗:
docker pull cheungatm/gistic2:v2
你完全不用耗费心神就解决各个软件那些错综复杂的依赖关系。
现在,《生信会客厅》公众号创始人吴晓琦奋战多日,精心制作了一份单细胞进阶数据分析的docker镜像,而且授权我们《生信技能树》联盟进行代理教学,包括使用该docker镜进行拟时分析、差异分析、细胞通讯分析、VDJ分析和转录因子分析等分析。