单细胞转录组聚类后的细胞类群如何查找数据库来定义
不知不觉在单细胞转录组领域做知识分析也快两年了,很幸运聚集了五个小伙伴携手共进,我们承诺不间断更新5个月,把我们这两年的学习成果全部掏出来给大家,包括5个栏目:
文献速递(简短介绍,扩充知识面)
文献详解(图文并茂带来大家系统性学习)
R与bioconductor技巧(书籍翻译,妙招共享)
scRNAseq的GitHub书籍翻译(原汁原味的名校教程)
全网第一个单细胞转录组视频教程学习笔记分享
希望大家能有所收获!!!
你现在看到的是读者投稿(随机栏目)
Every cell is unique—it occupies an exclusive position in space, carries distinct errors in its copied genome and is subject to programmed and induced changes in gene expression. Yet most DNA and RNA sequencing is performed on tissue samples or cell populations, in which biological differences between cells can be obscured by averaging or mistaken for technical noise.
---Nature Method
2009年,英国剑桥大学Gurdon研究所M. Azim Surani实验室的Tang发表了第一篇单细胞转录组研究的文章。随着测序成本的不断降低和通量的不断提高以及数据分析流程的标准化开源化,单细胞测序已经在生物学各研究领域得到了广泛的应用,单细胞测序的特点使得科学家们看待事物的角度发生了革命性的改变,倾向于在全局的角度发现细胞异质性,倾向于研究发现细胞分化发展的动态变化过程。像是监堂的老师,除了自己的肉眼外,又多了几个高分辨率的监控画面,极大地推动了生物学各领域的研究。
单细胞测序技术目前主要应用于肿瘤、干细胞、发育生物学、神经生物学、药物研发等方面(排名不分先后)。10x Genomics商业平台进驻市场后,单细胞测开始变得越来越普遍,毕竟大家都是'弄潮儿’。通常一个样本就可以达到好几千的细胞,所以一次10个样本的实验,拿到数万个细胞的数据实属正常。
通常我们将心爱的样本送给公司建库并测序后拿到初步处理(Cellranger)后的数据,再经过各种一站式单细胞转录组处理工具(monocle, seurat, scater 等)分析后,终于自己辛辛苦苦(拿时间和钱砸出来的)获得了'小可爱们’(降维分群的结果),这里我们直接瞄一眼结果:
对这部分流程感兴趣的童鞋公众号搜索下这几个包的名字就能找到更加详细的说明(没办法,就是这么贴心)
官方回答:生物学中最基本的问题之一就是哪种类型的细胞以功能协调的方式形成不同的组织和器官,单细胞转录组分析依据算法得到的不同细胞群体,需要赋予其相应的生物学意义。通常是根据Marker gene来定义每一个细胞类群,可以是通过GO/KEGG数据库进行功能富集。这样得到的结果会比较粗糙,但对于类群不多,差异非常大的情形还是适用的。BUT上面例子的细胞类群太多,你们需要另择他路。
几乎每个做单细胞的小伙伴都会思考:如果有其他全面的可以参考的数据库(必须有!别急),就再好不过了。下图就是根据整理好的Marker gene数据库,做出的映射,各细胞类群及其初步的比例或相互关系一目了然,是不是很棒~
看着结果一阵叹息,跟着大佬们的教程一步步走到这里,却不知道,所谓的生物学意义究竟在哪儿!!!细胞类群的确定便是揭示细胞间特征,并进行后续深入生物学问题研究的首要任务,然而面对每种细胞类群成百上千个的Marker genes,你是否会感到彷徨...
七步之内必有福利,以下细胞Marker数据库供君参考:
CellMarker数据库
这是哈尔滨医科大学 Yun Xiao
老师等在2019年1月份发表于核酸研究 (Nucleic Acids Research)数据库专刊的工作,访问地址: http://biocc.hrbmu.edu.cn/CellMarker
该团队通过梳理100,000+
发表的文献,梳理出人的158
个组织 (亚组织)的467
个细胞类型的13,605
个Marker基因,和鼠的81
个组织 (亚组织)的389
个细胞类型的9, 148
个Marker基因。
主页提供人和鼠的全局视图:1. 通过单击嵌入在网络图像中的超链接“人体或小鼠细胞的解剖位置”,快速探索细胞标记; 2. 单击右上角的图标可以切换至小鼠模式; 3. 通过人和小鼠的解剖位置,可以方便快速浏览所列细胞类型的细胞标记,单击组织图标可以显示更详细的细胞类型;4. 单击细胞类型时,它将跳转到与细胞类型相关的细胞标记基因的相应搜索结果。
浏览界面也很简洁,页面呈现细胞和组织的分层分类,包括人和小鼠两个物种,从组织到细胞类型,逻辑很清晰。 1. 用户可以通过单击人(或鼠)的不同组织中的细胞类型来浏览细胞标记基因,并且可以返回匹配的细胞标记条目的完整列表。 例如,要浏览与人体脂肪组织相关的条目,您可以:2. 单击“人体”,选择“脂肪组织”;3. 找到感兴趣的细胞类型,例如“脂肪来源的干细胞”;4. 相关的细胞标记将显示在右侧面板上,包括细胞类型的细胞标记和来自不同来源的条目的统计图。检索到的标志物,标志物的醒目程度反映了文献支持数的多少(好喜欢这个细节)!
另外,在结果部分还展示了这些cell type的来源(单细胞测序、实验、综述、公司等),非常方便大家寻找相应的来源并取舍,CellMarker不只是单细胞数据明确细胞类型联系生物学意义的时候可以用,有些内容对于湿实验的小伙伴来说更具有参考价值。除此之外,用户还可以:1. 通过输入基因名称,基因ID或蛋白质名称来搜索任何感兴趣的基因,以查询特定基因可以作为细胞标记的哪些组织的细胞类型;2~3. 点击“提交”按钮后,搜索引擎将返回一个交互式气泡图和一个显示细胞标记综合信息的表格。 交互式气泡图显示了感兴趣的基因在不同组织的不同细胞中用作细胞标记的频率
Details点进去则是相关基因的信息,下方还链接了相关的支持文献:
感兴趣的小伙伴们可以登录网站先行体验一下,帮助里还有更详细的的小Tips!
Mouse Cell Atlas
奉上重量级文章《Mapping the Mouse Cell Atlas by Microwell-Seq》链接:https://www.ncbi.nlm.nih.gov/pubmed/29474909
Mouse Cell Atlas通过对Microwell-seq对40多种组织器官和40W+的单细胞进行了测序并分析得到各组织器官的细胞分类及其相应的细胞类型,同样这里也提供了方便读者的网页可视化搜索(http://bis.zju.edu.cn/MCA/gallery.html),用户可以根据器官和基因名在数据库中搜索得到自己想要的结果。例如我们通过分析测序数据得到了一系列的细胞类型,往往这些细胞类型被分成了诸多亚型,此时则可在特定组织器官的数据库下对比相应的marker gene来确定自己的细胞类型并对其进行归一或细分。下图显示的是小鼠的不同组织器官,用户可根据自己感兴趣的方向点进去就会显示该组织单细胞测序的tSNE图及其相应的分群和细胞类型marker。这个数据库最大的优点就是所涵盖的小鼠组织器官特别全面(虽然没有涵盖所有的研究领域),相信绝大部分做小鼠的小伙伴都不会错过
为了满足大家的求知欲,减轻服务器的负担,scMCA还在github放了R包https://github.com/ggjlab/scMCA,感兴趣的小伙伴可以自行安装体验一下:
可能会有小伙伴们发现自己的单细胞数据分析结果和数据库中的Marker会有偏差,不要惊慌!小编有个习惯就是在使用一个数据库的时候先看一下背景介绍和帮助,非常有助于大家正确地学习使用数据库,拿此数据库为例,大家仔细看一下数据库的背景就可以发现数据库并不是完美的(成本太高啊!),建库方法和分析流程也会产生一定得误差。但是,对于研究小鼠的(特别是发育研究)客官们来说,这绝对是目前最好用的小鼠单细胞转录组数据库之一了!
八卦放在最后,郭国骥教授在中国原创音乐基地有很多原创歌曲,底下评论说,是被科研耽误的原创歌手哦。https://www.sohu.com/a/224004856_503422
PanglaoDB
PanglaoDB的定位是对小鼠和人类scRNA-seq感兴趣的科学界的数据库(https://panglaodb.se),该数据库收集并整合来自多个研究的数据(来自小鼠的170种组织954个样本近400W细胞和来自人的68种组织279个样本100w+细胞),并通过统一的框架呈现它们。例如在搜索细胞类型Markers的时候,用户可以根据细胞或组织类型来进行的筛选,选定后就可以呈现出相应的Marker了
当搜索单个基因时,可根据数据库主页的介绍和使用(都写得很清晰),点击search就可以愉快地探索了:
signatureDB
来源于文章:Genetics and Pathogenesis of Diffuse Large B-Cell Lymphoma. 发表2018新英格兰杂志。
https://www.ncbi.nlm.nih.gov/pubmed/29641966
数据以表格的形式进行展示,链接放在下面,大家可以自行下载研究:
SignatureDB (Excel)
SignatureDB annotation (Excel)
最后在此提醒大家最好是在详细了解明确各大数据库的优缺点,明确所检索到的Marker的相关文献及研究背景后(例如:转录组层面的Marker在表达量和时间空间上并不一定完全和蛋白质组学对应;参考文献是否可靠等),再结合自己的课题斟酌着对自己的'小可爱们'下定义,数据库只是作为一种参考。随着测序技术的持续发展和成本的不断降低,多组学的合并研究(转录组、蛋白质组、表观组等)和单分子成像技术(MERFISH、SeqFISH、RNAScope和DNA FISH等)的推广,相信各大数据库们会越来越完善。关于各数据库的其他细节就不再剧透了,大家自行探索研究吧!
如何你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程
单细胞天地欢迎你
最后,再次感谢南方医的小伙伴分享自己的学习心得,也希望读者受感染和鼓舞加入我们创作分享队伍。