想分析单细胞RNA的动态变化?
当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步。不知不觉在单细胞转录组领域做知识分析也快两年了,通过文献速递这个栏目很幸运聚集了一些小伙伴携手共进,一起成长。
文献速递栏目通过简短介绍,扩充知识面,每天关注,希望你也能有所收获!
大牛文章中提出的idea看起来总是棒棒的,如何应用到自己的数据分析中才是最关键的一步(当然,这里往往是n步……)
小老板很早就和我说,嗯,我们也用这个来分析下我们的数据。在拖延症大法已经拖无可拖以后,我终于开始研究如何对10x genomics的数据进行分析。
查资料
先去Velocyto官网(http://velocyto.org/),发现可以使用velocyto的python和R版本进行分析。在后续深入的阅读发现,一般是使用velocyto的python版本得到.loom文件,再使用velocyto的R版本导入.loom文件结合pagoda2进行分析。
官网给出的对10x的数据分析比较重要的两个网站为:
https://velocyto.org/velocyto.py/,这个网站是Python的教程,给出了非常详细的步骤和例子
http://pklab.med.harvard.edu/velocyto/notebooks/R/SCG71.nb.html 这个网站是得到了loom文件以后,如何使用RNA velocyto.R和pagoda2 (https://github.com/hms-dbmi/pagoda2 给出了如何安装pagoda2)进行分析,得到最后的分析结果
获得 loom文件
那么如何从跑完10x的CellRanger得到loom文件呢?
其实,很简单,只需要1行命令:
velocyto run10x -mrepeat_msk.gtf mypath/sample01somepath/refdata-cellranger-mm10-1.2.0/genes/genes.gtf
但是,里面有一些坑,
Repeat_msk.gft 需要从UCSA网站下载得到:hg38_rmsk.gtf;
mypath/sample01 ,习惯了使用Seurat分析,我下意识的使用了filtered_gene_bc_matrices中的文件夹(只包含barcodes.tsv.gz, features.tsv.gz, matrix.mtx.gz),但是仔细阅读以后发现,此处的文件夹是cell ranger运行以后的得到的样本文件夹;
velocyto includes a shortcut to run the counting directlyon one or more cellrangeroutput folders (e.g. this is the folder containing thesubfolder: outs, outs/analys and outs/filtered_gene_bc_matrices)
在你的outs文件夹,有一个文件名是possorted_genome_bam.bam,这是进行分析的基础,包含了splicing 相关的信息。我一直很好奇,10x的数据的矩阵如何进行RNA velocity分析,看到这个文件后我就明白了。这里需要注意的是,有的时候,这个文件会被重命名为样本名_possorted_genome_bam.bam,这里需要使用mv进行改名possorted_genome_bam.bam
另一个可能会发生错误的是你的cellranger的gtf文件,一定要和你的cellranger的结果的版本相匹配;
还需要注意的是,这个分析是依赖于samtools 1.6版本以上,由于我是在实验室的服务器上,我需要load:
这样直接运行velocyto run10x -m repeat_msk.gtf mypath/sample01somepath/refdata-cellranger-mm10-1.2.0/genes/genes.gtf 就可以啦!
这个分析真的是很慢很慢,python tutorial 官网说,需要大约3个小时,我今天一个约8000个细胞的样本,大概跑了2个多小时,下面的数据供参考:
等跑完数据以后,就可以去下载loom文件进行下一步分析,loom文件被保存在cellranger的sample文件下velocyto文件夹中啦~~~
敬请期待
下一期,我们来说,怎么在R中导入loom文件,进行炫酷的RNA velocity分析了。