Nat Rev Genet | 解码疾病:从基因组到网络再到表型
撰文:楠烟不可言
IF=53.242
推荐度:⭐⭐⭐⭐⭐
亮点:
本文讨论了用于基因组解释和与疾病相关的细胞、组织和器官的综合分子级建模的机器学习算法的最新进展,强调了识别特定致病遗传变异并将它们与分子途径以及最终与疾病表型联系起来的现有方法和关键挑战和机遇。
近日由普林斯顿普林斯顿大学Olga G. Troyanskaya研究组在《Nature Reviews Genetics》杂志上发表了一篇名为“Decoding disease: from genomes to networks to phenotypes”的综述。解释遗传变异的影响是了解个体对疾病的易感性和设计个性化治疗方法的关键。现代实验技术能够生成大量人类基因组序列数据和相关分子和表型特征的数据集合,以及基因组规模表达、表观基因组学和其他功能基因组数据。综合计算模型可以利用这些数据来了解变异的影响,阐明失调基因对特定疾病和组织环境中生物途径的影响,并解释超出单独实验可行范围的疾病风险。在这篇综述中,研究人员讨论了用于基因组解释和与疾病相关的细胞、组织和器官的综合分子级建模的机器学习算法的最新进展。这篇综述还强调了识别特定致病遗传变异并将它们与分子途径以及最终与疾病表型联系起来的现有方法和关键挑战和机遇。
了解人类疾病需要对基因组进行全面解释,包括表征任何变异对基因功能和调节的影响。从广义上讲,这意味着对于 DNA 中的任何碱基的变化都必须精确识别其对生化特性(例如蛋白质结构、剪接和表达水平)的影响,然后根据其表型结果来解释这些影响。在过去十年中,研究从基因组测序中获得了大量数据,分析了正常的遗传变异和疾病相关的突变。同时,分析各种细胞和组织的表观基因组景观的功能实验使得控制基因表达的位置和时间的调节信号成为了可能。在这篇综述中,作者讨论了使用组学数据来解释与疾病相关的遗传变异的挑战和进展。文章涵盖了遗传变异的主要来源和预测非编码突变调节效应的最新方法学进展——包括生化、基因表达和致病影响。最后,作者讨论了将组学数据整合到组织特异性系统级模型中的方法,这些模型随后可用于识别与特定疾病相关的基因和失调的生物过程。
表征遗传变异:技术的进步以及相关成本的降低使对数十万人的基因组进行测序成为可能,并且已经启动了旨在对数百万参与者的完整基因组进行测序的项目。可用基因组数据的增长使得在破译人类表型变异和疾病特征的遗传基础方面取得了巨大进展。与此同时,了解特定遗传变化的功能影响仍然具有挑战性,特别是对于基因组非编码区域改变的探索。序列变体可以在几个不同的分辨率级别进行分析。单核苷酸多态性 (SNP) 阵列可用于对整个基因组的多态性位置进行基因分型,可分析超过一百万个 SNP。此外,GWAS 可以识别与性状相关的连锁不平衡中的多个位置,在这种情况下,需要通过精细定位进一步研究相关的 SNP,以查明与性状相关的等位基因。遗传变异也可以通过基因组测序来识别,它可以覆盖有限的区域或几乎整个基因组。可以对特定基因组进行测序,以测试患者已知或怀疑与疾病有关的外显子突变。基因面板检测现在已在临床实践中常规使用,例如用于预测乳腺癌风险。发现突变的功能影响并将这些影响归因于疾病因果关系是一项重大挑战。大规模测序数据已被用于根据观察到的与预期的变异模式来识别可能与疾病相关的基因组区域。对于基于人群的研究,尽管大数据分析将越来越多的基因座与疾病联系起来,但对于复杂的、高度多基因的疾病,需要大量样本(数千万个体)来解开大多数相关位点的因果关系,每个位点可能单独对易感性产生很小的影响。此外,许多可能的突变从未被观察到,要么是因为它们没有出现在给定的样本中,要么是因为它们在出生前是致命的。因此,需要不依赖于观察群体变化的方法来补充基于观察的研究,以便理清基因组序列和疾病特征之间的关系(图1)。
编码突变的解析:用于评估基因组编码部分遗传改变影响的计算框架,用于解释非编码变异的方法来说相对成熟。多种类型的证据,例如蛋白质序列的改变类型(错义、无义或移码)、参考和取代氨基酸之间的相似程度、改变位置的进化保守性以及对蛋白质的预测生物物理影响结构有助于理解基因组编码部分变化的可能影响。目前已经开发了大量方法来利用这些因素来预测编码突变的影响:一类方法主要依靠序列保守性来预测变异效应,另一类则用于关键特征涉及蛋白质结构的预测。用于理解编码遗传变异影响的模型在识别导致人类疾病的等位基因方面发挥了关键作用。这些方法的优势在于它们的输出通常易于解释。然而,用于理解编码变异影响的大多数方法都是高度定制的,以利用基因组蛋白质编码部分的特性。需要根本不同的计算方法来阐明非编码变体的影响。
模拟转录效应:由于人类基因组中只有一小部分基因是编码蛋白质的,然而大多数变异位于基因组的非编码部分,因此开发能够解决理解非编码变异影响问题的方法是一项重大挑战。模拟非编码序列与影响基因调控的特性(例如染色质修饰、DNA 可及性和转录因子结合)之间关系的方法可用于预测基因组非编码部分变异的影响。可解释模型的开发至关重要,因为它们可以带来生物学洞察力,但由于深度学习框架由多层变换组成,并且实际上将输入数据进行复杂的数学变换,因此通常很难追踪输入特征对最终预测的贡献。向更广泛的生物医学界提供深度学习模型和资源是加速研究人员开发和采用的关键(图2)。
模拟转录后效应:改变基因转录后特性的变体,例如与 RNA 结合蛋白的相互作用或剪接,也可能导致疾病。基于序列的深度学习模型可用于预测特定变异的精确转录后效应,包括同义突变的调控效应。
破译致病性变异效应:为了破译变异在导致疾病过程中的重要性,超越生化效应并了解疾病影响以及最终的临床后果至关重要。几个数据资源汇总了有关变体影响的数据。例如,ClinVar 数据库是来自美国国立卫生研究院 (NIH) 的公共资源,迄今为止,该数据库已汇编了超过 800,000 种遗传变异的信息,这些变异被注释为多种疾病并具有不同程度的临床意义。通过综合和提供有关致病变异的当前知识状态,此类数据库为解释遗传数据提供了宝贵的资源。
综合网络模型:尽管序列模型可以预测突变的分子效应,包括对组织特异性基因表达的影响,但解释这些改变如何导致疾病表型需要了解失调的途径和过程。最近的研究提供了即使是具有微弱影响的常见变异仍然可以增加疾病易感性的理论提出了一种“全基因模型”,其中在疾病相关组织中表达的任何基因都可以通过在过程、途径和途径中共同发挥作用的基因之间的相互作用来影响核心疾病基因。这种模型需要捕获跨细胞类型和生理条件的共享和独特过程。需要复杂的计算技术来从原始数据集中提取特定的生物关系。
大量遗传学数据的网络分析:基于网络的机器学习方法可用于利用先前的实验知识并改进对大规模定量遗传学研究或个体靶向、特定疾病研究的解释。直观地说,这些方法使用有关在这些网络中编码的通路的功能基因组信息来增加遗传学研究中的信噪比。非编码调控变异可以与推定的靶基因相关联,然后这些靶基因可以进行基于网络的分析(图3)。
疾病的分子结构:大量方法旨在基于总结大型组学数据集合的分子网络来识别候选疾病基因。这些方法分析网络中已知疾病基因(来自文献、GWAS 等)的连接模式,并识别具有相似模式的新候选基因。重要的是,用于疾病基因预测的分子网络对于准确和相关的预测至关重要,特别是因为疾病背后的失调基因经常参与组织特异性和背景特异性过程。网络分析提供了一种强大的方法来分析和可视化基因或基因组之间的关系,例如识别阐明疾病相关基因之间功能主题的分组。这些预测疾病关联的方法的前景在很大程度上取决于可用分子网络的质量和覆盖范围。重要的是,集成网络模型可以适应新组学数据(例如,代谢组学、脂质组学和蛋白质组学)和测序(组织内和跨疾病的单细胞类型)不断增长的广度和规模(图4)。
总而言之,理解人类疾病过程的另一个关键方向是在与疾病相关的生物学背景下开发网络和途径模型,包括特定的细胞类型、发育阶段和环境条件。确定与特定疾病最相关的基因、模块和途径,以及阐明网络干扰和失调如何导致疾病,是研究的一个重要方向。通过考虑网络布线中的组织差异,可以提高此类模型的准确性和疾病相关性,其中包括理解特定细胞类型和器官系统中疾病过程的关键差异。
教授介绍
Olga G. Troyanskaya,计算机科学和 Lewis Sigler 综合基因组学研究所教授,主要研究兴趣和研究领域为生物信息学,分析大规模生物数据集(基因组学、基因表达、蛋白质组学、生物网络),以及用于集成来自多个数据源的数据的算法;生物数据的可视化;生物信息学中的机器学习方法。
参考文献
1、Aaron K. Wong, Rachel S. G. Sealfon, Chandra L. Theesfeld et al. Decodingdisease: from genomes to networks to phenotypes (2021).https://www.nature.com/articles/s41576-021-00389-x