Genome Biology | SCRABBLE: 利用未细分的转录组测序数据作为限制对单细胞转录组测序进行估算
推荐:江舜尧
编译:多儿
编辑:马莉
费城儿童医院学者Kai Tan等人于2019年5月7日在《Genome Biology》上发表题目为《SCRABBLE: single-cell RNA-seq imputation constrained by bulk RNA-seq data》的文章。该文章介绍了SCRABBLE算法,该算法以未细分的转录组测序数据(所有的细胞类型没有细分到单个类型)作为约束条件,对单细胞转录组测序数据进行了估算。比起单独使用单细胞数据,这些转录组测序数据使SCRABBLE能够更准确地估计细胞间的基因表达分布。
文章摘要
单细胞转录组测序数据包含很大一部分表达是0或者接近0的基因。这种事件称之为dropout事件,这种事件的发生是多种类型数据分析的一个基础的挑战。这里,此研究发明了SCRABBLE算法来解决这个问题。SCRABBLE利用未细分的数据作为限制条件,减少了估算过程中对基因表达不必要的偏倚。通过模拟数据和几种类型的实验数据,发现SCRABBLE算法在恢复dropout事件,捕获细胞间基因表达的真实分布以及保持数据中基因-基因关系和细胞-细胞关系等方面都优于现有的方法。
文中主要图片说明
图1 | SCRABBLE算法原理图概述。算法主要有三项组成。第一项是原始单细胞转录组测序数据矩阵和优化矩阵之间的差异。第二项是优化矩阵的秩。第三项是单细胞转录组聚合输入数据与未细分的RNA-seq数据之间的差异。
图2 | 使用综合数据进行性能评估。a. 用1000个细胞和800个基因模拟数据的代表性结果。数据的模拟方法是Splatter。Dropout发生率是83%。b.代表性结果的t-SNE图。c. 代表性结果的MA图。d-f. 数据的dropout百分比不同时,不同方法的错误率。
图3 | 使用降采样未细分的转录组测序数据进行性能评估。a. 模拟方法的原理概述。数据矩阵包含三种细胞类型:T1细胞,T2细胞,T3细胞,是分别从不同的细胞类型的原始数据重采样得到的。b. 使用模拟数据得到的有代表性的结果。Dropout事件发生率为72%。c. 代表性结果的t-SNE图。d. 代表性结果的MA图。e-f. 当数据的dropout发生率为60%,72%,77%时的错误率。每个箱线代表100次模拟数据集的结果。
图4 | SCRABBLE估算的基因表达的分布与金标准一致性很好。a. 两个代表性基因在真实的(SCRB-Seq),dropout发生(Drop-Seq)和估算数据中的基因表达分布。b. 真实数据与估算数据(以Drop-Seq作为输入数据)基因表达分布一致性的箱线图。c. 两个代表性基因在单分子RNA荧光原位杂交数据和估算数据中基因表达的分布。d. 单分子RNA荧光原位杂交数据和估算数据基因表达分布一致性的箱线图。
图5 | SCRABBLE能更好保持数据中真实的细胞-细胞和基因-基因关系。a. 使用真实数据,dropout数据和估算数据时代表性的细胞与细胞之间的相关矩阵。b. 基于真实和dropout/估算数据的细胞与细胞之间相关矩阵的皮尔逊相关。c. 使用真实数据,dropout数据和估算数据时代表性的基因与基因之间的相关矩阵。 d. 基于真实和dropout/估算数据的基因与基因之间相关矩阵的皮尔逊相关。
图6 | 使用估算数据,提高了通路基因间的两两表达相关性。通路基因相关评分(PGCS)评估的是与一组随机选择的个数相同的基因相比,通路基因之间表达相关性的增加程度。a. 人类h1胚胎干细胞数据(H1). b 人滋养细胞(TB)样细胞数据。c. 人包皮成纤维细胞 (HFF)。
图7 | SCRABBLE 改善了聚类分析。a. 使用未估算和各种方法估算数据的聚类结果。b. 使用Dunn指数对聚类结果进行量化。