Nature 子刊 | 新cfDNA分解方法——CelFiE,可基于甲基化状态准确估计cfDNA来源...

循环细胞游离DNA(cfDNA)在由细胞死亡后释放到血液中,是一种很有前途的候选生物标志物。在健康个体中,血液中的cfDNA来源于正常的细胞更新,而在患有癌症、自身免疫性疾病、移植反应和创伤患者中cfDNA水平升高。

DNA甲基化具有细胞类型特异性。目前,有大量研究尝试利用cfDNA甲基化模式来分解cfDNA的起源组织。然而,已有的甲基化芯片覆盖率高,噪声相对较低,而cfDNA仅少量存在于血液中,必须从患者身上提取大量血液才能获得甲基化芯片所需的输入DNA量,因此,这无法适用于临床。此外,cfDNA分解方法还会受到DNA甲基化位点(CpGs,)选择和参考细胞类型等的限制。

近日,加州大学洛杉矶分校Noah Zaitlen研究团队在Nature Communications上发表了题为“Comprehensive cell type decomposition of circulating cell-free DNA with CelFiE”的研究文章。为了解导致cfDNA在疾病患者中增加的原因,研究团队使用全基因组亚硫酸氢盐测序(WGBS)评估了cfDNA甲基化状态,并结合有效的期望最大化(EM)算法:CelFiE,能够准确地估计释放cfDNA的细胞类型和组织的相对丰度。与已有的分解方法不同,CelFiE适应低覆盖率的数据,不需要CpG位点筛选,也能够检测出仅占总cfDNA一小部分的罕见细胞类型。

文章发表于Nature Communications

研究人员在模拟真实测序条件下,利用cfDNA混合物将CelFiE和其他方法进行了比较,包括最小二乘回归优化方法、“投影法”、优化的“投影法”和已发表的cfDNA分解工具MethAtas。

MethAtlas由25种组织和细胞类型组成,超过~6000个CpG位点。为了确保公平比较,研究人员模拟了25种细胞类型和6000个CpGs与参考数据大小相匹配的数据。每个CpG的真实甲基化比例是从均匀分布中独立得出的,甲基化比例在0%到100%之间。对于CelFiE和投影法,是根据泊松分布模拟每个CpG的cfDNA读取深度,然后根据cfDNA混合物的细胞类型比例向量,将每个CpG的读取分配为一种细胞类型。

研究人员对CelFiE和所有比较方法进行了50次独立的模拟。在较低的读取深度下,CelFiE的表现优于MethAtlas和线性最小二乘回归(图1)。CelFiE和投影优化方法在该条件下表现相似。与CelFiE不同,投影优化方法的主要限制是,不能估计缺失的细胞类型。

图1 .CelFiE(A)和MethAtlas(B)对模拟cfDNA混合物的分解。来源:Nature Communications

为进一步描述CelFiE的特性,研究人员改变了CpGs的数量(100、1000和10000),代表具有不同细胞类型信息量,并模拟了10种细胞类型,其中一种细胞类型是固定的,其余9个细胞类型比例是从一个独立的均匀分布,通过归一化,所有比例总和为1。结果发现,随着位点数量的增加,CelFiE分解cfDNA混合物的准确能力提高,尤其是对于数量较少的细胞类型。随着测序深度的增加,固定细胞类型的估计甲基化比例与真实甲基化比例之间的相关性增加。(图2)

图2.CelFiE在模拟混合物上的性能。来源:Nature Communications

为评估CelFiE估计罕见细胞类型的能力,研究人员绘制了cfDNA混合物具有和不具有特定罕见细胞类型个体的CelFiE估计值(图3a-d)。结果发现,随着深度和细胞类型比例的增加,CelFiE区分罕见细胞类型的能力提高。在深度为5×时, CelFiE只能区分最丰富的固定细胞类型(5%),当继续增加深度时,CelFiE能够检测到两组之间任意微小的差异。表明当读取深度较高时,CelFiE可以准确地估计相对罕见丰度的细胞类型。

图3.具有罕见细胞类型n=5(深蓝色)和不具有该细胞类型n=5的个体(浅蓝色)的细胞类型比例估计。来源:Nature Communications

同时,研究团队对CelFiE在估计未知细胞类型的能力进行了评估。通过模拟t=10个细胞类型,其中一种未知细胞类型被排除在参考数据之外,从均匀分布中提取已知细胞类型的剩余细胞类型比例,并将所有比例归一化总和为1。研究团队模拟了10个、50个、100个、500个和1000个个体的cfDNA读数。随着分解中人数的增加,CelFiE的性能得到了改善。当添加额外的未知细胞类型时,需要更多的个体来准确估计。(图4)

图4.参考文献中缺失细胞类型的50个独立模拟的cfDNA混合物的分解结果。来源:Nature Communications

最后,研究人员利用了10个WGBS数据集(小肠、胰腺、单核细胞、胃、胫神经、巨噬细胞、记忆B细胞、脂肪、中性粒细胞和CD4+T细胞),评估了CelFiE对WGBS真实数据生成的模拟混合物的分解能力。结果显示,CelFiE在WGBS样品上表现良好(图5a)。

此外,研究人员分析了CelFiE对含有大量未知成分的混合物的估计能力。首先,研究人员从参考样本中屏蔽了最丰富的细胞类型,即CD4+T细胞样本,对100人进行了50次模拟(图5b)。随后,从参考组中屏蔽了两个参考样品,CD4+ T细胞和小肠。结果发现,当有两种细胞类型缺失时,CelFiE分解复杂混合物的能力下降,但估计的WGBS甲基化值与实际值的相关性仍然很高(图5c)。

图5.CelFiE对模拟实验中随机选择的50个个体在真实WGBS cfDNA的细胞类型比例估计。来源:Nature Communications
(0)

相关推荐