scRNA-seq课程第一单元-背景介绍
序
前情提要&课程介绍
写在课程前:
14年高考没考好,阴差阳错读了某二本的生物信息学专业,是我们学校生物信息学专业的第一届(xiao)学(bai)生(shu),记得刚进校门整个班的同学围着老师问生物信息学到底是干啥的,出来能干什么样的工作。但是老师们至今也没回答出个所以然来。因此大学浑浑噩噩过了两年,混社团混学生会,想着毕业之后去当个销售了事。
大二下学期竞选学生会主席团失败,于是“解甲归田”,宿舍的小床成了我最长停留的地方。
有一天游戏玩腻了,电视也追完了,躺在床上发呆的我不知咋的脑海里突然响起院长天天给我们安利的那句“感受编程之美”,萦绕耳畔,久久不能自拔。于是在这一天,我觉得自己应该干点什么,生信也许并不像我们想象的那样不堪。而且总觉得冥冥之中,高考失常->调剂专业->竞选失败->现在,似乎有种无形的东西在引导我——————认识生信技能树。
于是阴差阳错从16年左右开始关注生信技能树:
从生信技能树论坛(http://www.biotrainee.com/)到生信菜鸟团博客(http://www.bio-info-trainee.com/)
生信技能树微信公众号到学习园地(https://vip.biotrainee.com/t/learning)
生信技能树知识星球(https://wx.zsxq.com/dweb/#/index/142581522152)到生信技能树知乎文献分享(https://zhuanlan.zhihu.com/c_1024966446748618752)
以及生信技能树简书(https://www.jianshu.com/u/d645f768d2d5)再到生信技能树B站(https://space.bilibili.com/338686099?from=search&seid=15869965163249857143)
之后就是最近大热的单细胞测序专题:
单细胞转录组
课程会在2019年9月底之前录制完毕并上线:
课程说明在:https://mp.weixin.qq.com/s/AV2uTbsvJGBRq_zv7yDmNg
所有代码在:https://github.com/jmzeng1314/scRNA_smart_seq2
观看链接 :http://jm.grazy.cn/index/mulitcourse/detail.html?cid=53
手机微信观看(推荐):http://jm.grazy.cn/wechat/course/detail?cid=53
新入门的旁友们可以按照健明大大的学习路线光速入门,此次的单细胞转录组课程需要掌握linux,r,转录组的相关知识,需要加强巩固的旁友们可以按照学习路线重新温习一下基础知识。
正文
背景介绍
single-cell RNA-seq & bulk RNA-seq
第一单元概括性的介绍了一下单细胞转录组近10年的发展历程,以及两大主流技术smart-seq2(力求检测到单个细胞的基因数量)和10x(追求检测到的细胞数量)的介绍,最后对一篇单细胞转录组文献进行了深入解读。
在学习之前,我们要理解为什么做单细胞转录组,单细胞转录组和bulk转录组分析有什么区别
为什么做单细胞转录组
生物体内广泛存在着细胞异质性,即使是同一个病人体内,表达水平也会呈现持续的动态变化,在不同时期或肿瘤组织的不同部位,很可能有着很大的差异。
单细胞转录组和bulk转录组分析有什么区别
常规转录组测序尽管方便快捷,但毕竟是建立在异质混合物的基础上,是一种“平均数数据”
这种总体上的平均值可能在很大程度上掩盖了不少稀有、微量样本的作用以及在生命体内广泛存在的随机行为,细胞异质性的研究更使得群体研究倍受争议。
因此单细胞转录组测序应运而生
2009年开发出了第一个单细胞转录组测序方法(汤富酬),经过这么多年的进步与发展如今的scRNA-seq流程一般都分为六步:
1.单细胞(核)的分离和裂解
2.反转录
3.cDNA扩增
4.测序文库制备
5.高通量测序
6.单细胞转录组分析
单细胞转录组分析又分为:
质控
数据归一化
降维
差异基因/关键基因/marker基因
细胞分类
单细胞测序策略选择主要有两个方向 :
测足够多的细胞
测足够多的基因
所以总结一下:
单细胞转录组测序
主要解决的问题
异质性(heterogeneity)
鉴定某些因为含量(比例)较低而在常规RNA测序检测时被“掩盖”的细胞亚群
检测细胞群体中不同的个体细胞:比如表达不同TCR的T细胞,胚胎发育早期的各个细胞等
追踪某群细胞内细胞间的谱系(lineage)或发育关系
获得基因表达、剪接等信息以及根据这些信息构建的调控关系
主要依赖的方法
SMART-seq2技术
可用于单细胞mRNA测序,对RNA质量要求高,RNA降解会引起5'端信息丢失,能够获得RNA全长扩增cDNA产物,打断后全部用于文库构建及测序7
10xgenomics技术
可用于单细胞mRNA测序,对RNA质量要求高,RNA降解会引起5’端信息丢失,其一次性能够分离500-1000个细胞,并能够将分离的单个细胞中的微量mRNA通过高效扩增后再进行测序,只能测3'端一小段序列
拿到测序结果之后进行差异分析
对bulk RNA-seq做差异分析主要是DESeq2和edgeR
对单细胞测序数据来说,通常需要先聚类之后把细胞群体进行分组,然后来比较不同的组的差异表达情况。当然,也有不少单细胞测序实验设计本身就有时间点,不同个体来源,不同培养条件这样的分组!
同时还有不少方法是不需要预先分类的,因为分类本身就会引入偏差。
跟bulk RNA-seq不一样的地方是,scRNA-seq通常涉及到的样本数量更多。这时候可以使用非参检验算法,比如Kolmogorov-Smirnov test (KS-test)等等。
不同算法比较(https://mp.weixin.qq.com/s/acKQ0fNB15OImugCpVTZuQ)
文献解读
课程中以单细胞转录组探索CAFs的功能和空间异质性(https://vip.biotrainee.com/d/883-49-cafs)为例讲解单细胞转录组基本概念和应用
肿瘤相关成纤维细胞(CAFs)
Cancer-Associated Fibroblasts:Perspectives in Cancer Therapy. Trends in Cancer, 2016, 2:277-279(https://www.ncbi.nlm.nih.gov/pubmed/28741524)
Cancer-Associated Fibroblasts:Their Characteristics and Their Roles in Tumor Growth. Cancer. 2015, 7(4):2443-2458.(https://www.ncbi.nlm.nih.gov/pubmed/26690480)
Pharmacological targeting of the protein synthesis mTOR/4E-BP1 pathway in cancer-associated fibroblasts abrogates pancreatic tumour chemoresistance.EMBO Mol. Med, 2015, 7: 735-753.(https://www.ncbi.nlm.nih.gov/pubmed/?term=pharmacological+targeting+of+the+protein+synthesis+mtor%2F4e-bp1+pathway+in+cancer+associated+fibroblasts+abrogates+pancreatic+tumor+chemoresistance)
肿瘤相关成纤维细胞是一类具有高度异质性的细胞群,不同的细胞亚群可能起源于不同的前体细胞,如固有成纤维细胞、肿瘤上皮细胞、肿瘤内皮细胞、骨髓来源细胞、其他间充质细胞等。
CAF功能
一系列证据提示CAF通过多种途径在肿瘤发生、进展、转移等过程中起重要作用:
CAF可积极重塑纤维间质中的细胞外基质;
细胞外基质蛋白与非肿瘤细胞(如免疫细胞)上整合素受体结合,将细胞外基质蛋白募集到肿瘤细胞处并发生相互作用,继而诱导肿瘤细胞发生转移侵袭;
高密度细胞外基质会增加组织间隙液压,阻碍药物的传递和吸收,致使低浓度化疗药到达肿瘤部位,这是肿瘤治疗失败的原因之一;
CAF以细胞因子和生长因子的形式分泌致瘤信号,促进肿瘤细胞生长、增强肿瘤细胞的增殖和迁移,维持肿瘤进展和转移,近来发现,转录调节热休克因子1(HSF1)在CAF中上调,进而生成TGF-β和SDF-1α,促使肿瘤恶化;
此外,CAF通过分泌HGF和白介素-6(Interleukin-6,IL-6)促进肿瘤对化疗和酪氨酸激酶抑制剂产生耐药性。
细胞外基质
细胞外基质(extracellular matrix,ECM)是由大分子构成的错综复杂的网络。为细胞的生存及活动提供适宜的场所,并通过信号转导系统影响细胞的形状、代谢、功能、迁移、增殖和分化。
细胞外基质的成分
构成细胞外基质的大分子种类繁多,可大致归纳为四大类:
胶原
非胶原糖蛋白
氨基聚糖与蛋白聚糖
以及弹性蛋白
上皮组织、肌组织及脑与脊髓中的ECM含量较少,而结缔组织中ECM含量较高。细胞外基质的组分及组装形式由所产生的细胞决定,并与组织的特殊功能需要相适应。例如,角膜的细胞外基质为透明柔软的片层,肌腱的则坚韧如绳索。细胞外基质不仅静态的发挥支持、连接、保水、保护等物理作用,而且动态的对细胞产生全方位影响。
上皮间质转化
EMT(epithelial-to-mesenchymal transition )(文中作为marker)
胚胎发育与癌症发展中的细胞可塑性变化有着惊人的相似性,而这种可塑性变化受到上皮间质转化epithelial-mesenchymal transition(EMT)过程的调节。胚胎发育时期,上皮状态和间充质状态的细胞能够自由转化。上皮间质转化(EMT)使得细胞具备转移和浸润特性。其反向过程,间质上皮转化mesenchymal-epithelialtransition (MET)赋予了细胞极性变化并失去移动能力。EMT会促发癌细胞从病灶分离,转移到其它部位,而MET导致癌细胞停留,并在停留处引起新的肿瘤。
MMTV-PyMT mouse model
研究乳腺癌的经典模型
自发性肿瘤模型小鼠 —乳腺癌MMTV-PyMT转基因小鼠是一种通过遗传育种而保留下来的一类自发性乳腺癌动物模型, 这种自发性肿瘤模型的优点:
从肿瘤发生来看, 与人类乳腺癌很相似, 实验结果更利于日后作为临床研究的依据;
对影响肿瘤发生、发展的原因更有可能被发现;
其客观性、重复性、公认性均较好。
流式细胞仪
A negative selection fluorescence-activated cell sorting (FACS) strategy
用于活细胞的荧光激活细胞分选术(FACS) 根据荧光标记将一个细胞群分为多个亚群。在流式细胞仪中,这种分选的机制相比非分选分析更为复杂。根据所染荧光团的类型,可将荧光团偶联抗体染色细胞彼此分离。例如,表达一种细胞标记物的细胞可通过识别该标记物的FITC-偶联抗体进行检测,而表达另一种细胞标记物的细胞则可使用特异性识别该标记物的PE-偶联抗体进行检测。这是流式细胞仪的基本功能。
(O)ERCC
技术分享 | 单细胞RNA测序的实验设计参考(https://mp.weixin.qq.com/s/qea0GwPI5AOMj6MrbKsCSg)
External RNA Controls Consortium (ERCC) Spike-In Control
ERCC:外部RNA控制联盟,就是一套RNA-seq,基因表达检测过程中的控制系统,使得结果具有可重复性。
另外,在评估技术差异的时候常用的两种策略是“Spike-in”和“UMI”,两者的定义:
Spike-in:
A molecule or a set of molecules introduced to the sample in order tocalibrate** measurements and account for technical variation; commonly used examples include external RNA control consortium (ERCC) controls (Ambion/Thermo Fisher Scientific) and Spike-in RNA variant control mixes (SIRVs, Lexogen);
spike-in control是常用的评估技术差异的方法, Lun et al.的研究发现spike-in control 在确定测序过程中的empty Wells和的dead cells有重要作用,因为高的ERCC含量与低质量数据相关,并且通常是排除的标准。
Spike-in:A molecule or a set of molecules introduced to the sample in order to calibrate measurements and account for technical variation; commonly used examples include external RNA control consortium (ERCC) controls (Ambion/Thermo Fisher Scientific) and Spike-in RNA variant control mixes。
UMI(Unique molecular identifier):
A variation of barcoding, in which the RNA molecules to be amplified are tagged with random n-mer oligonucleotides. The number of distinct tags is designed to significantly exceed the number of copies of each transcript species to be amplified, resulting in uniquely tagged molecules, and allowing control for amplification biases.
UMI是反转录过程中添加到每个cDNA的5'或3'端,长度为4-10bp的barcodes(Islam et al., 2014)。
它的作用是将reads分配给每个反转录事件,区分哪些reads是来自于同一个原始的cDNA分子,然后估算原始分子数量(Islam et al., 2014; Kivioja et al., 2011)。
一个分子或一组分子引入到样品中以校准测量并解释技术变化;常用的例子包括外部RNA控制联合体(Ercc)和spike-in RNA变体控制混合物。
降维
投影(Projection)(主要使用PCA)
流行学习(Manifold learning)
瑞士卷(Swiss roll)是二维流形的例子,它可以在高维空间中弯曲。更一般地,一个d维流形在n维空间弯曲(其中d<n)。在瑞士卷的情况下,D=2和n=3。基于流行数据进行建模的降维算法称为流形学习(Manifold Learning)。它假设大多数现实世界的高维数据集接近于一个低维流形。
流行假设通常隐含着另一个假设:通过流形在低维空间中表达,任务(例如分类或回归)应该变得简单。如下图第一行,Swiss roll分为两类,在3D的空间看起来很复杂,但通过流行假设到2D就能变得简单。但是这个假设并不总是能成立。
t-SNE(http://lvdmaaten.github.io/tsne/)
t-distributed Stochastic Neighbor Embedding(t-SNE)(https://www.analyticsvidhya.com/blog/2017/01/t-sne-implementation-r-python/)
一种Manifold Learning方法
t-SNE(TSNE)将数据点之间的相似度转换为概率。原始空间中的相似度由高斯联合概率表示,嵌入空间的相似度由“学生t分布”表示。
虽然Isomap,LLE和variants等数据降维和可视化方法,更适合展开单个连续的低维的manifold。但如果要准确的可视化样本间的相似度关系,如对于下图所示的S曲线(不同颜色的图像表示不同类别的数据),t-SNE表现更好。因为t-SNE主要是关注数据的局部结构。
通过原始空间和嵌入空间的联合概率的Kullback-Leibler(KL)散度来评估可视化效果的好坏,也就是说用有关KL散度的函数作为loss函数,然后通过梯度下降最小化loss函数,最终获得收敛结果。注意,该loss不是凸函数,即具有不同初始值的多次运行将收敛于KL散度函数的局部最小值中,以致获得不同的结果。因此,尝试不同的随机数种子(Python中可以通过设置seed来获得不同的随机分布)有时候是有用的,并选择具有最低KL散度值的结果。
[PAM50]
微阵列50(PAM50) 是一种50基因测试可识别真正的乳腺癌亚型(导管A型、导管B型、HER2丰富型与基底细胞样型),除了生成复发风险(ROR)评分外还可用于预测绝经后激素受体阳性乳腺癌女性的预后。
PAM50 signature can provide prognostic information from the lymph node metastases of ABC patients。When considering all sites of metastasis, only PAM50 was statistically significant in Kaplan–Meier analysis (Log-rank P = 0.008 and 0.008 for long- and short-term postrelapse breast cancer–specific survival, respectively).
Tobin N P, Lundberg A, Lindstrã¶M L S, et al. PAM50 provides prognostic information when applied to the lymph node metastases of advanced breast cancer patients[J]. Clinical Cancer Research, 2017, 23(23):7225.(https://www.ncbi.nlm.nih.gov/pubmed/?term=PAM50%20provides%20prognostic%20information%20when%20applied%20to%20the%20lymph%20node%20metastases%20of%20advanced%20breast%20cancer%20patients)