Genome Biology | 新型机器学习神经网络ChINN,可基于DNA序列预测染色质相互作用...
研究背景
染色质是在多种蛋白(例如核小体)的组织下,将DNA层层折叠构造而成。通常在染色质开放区域(没有核小体折叠DNA的地方),控制基因表达的蛋白(如RNA聚合酶Ⅱ)结合在启动子区域,以启动基因的表达。在染色质其它的一些开放位置,同样具有影响基因表达的元件(例如增强子)。在某些蛋白的作用下,染色质上相隔一定距离的开放区域,在空间位置上相互靠近,将增强子与启动子连接起来,影响基因表达。上述过程称之为染色质互作。
染色质互作在基因的表达过程中起重要的调节作用,已有研究证明在细胞内微空间位置上该现象的重要性[2]。目前已经开发出高通量测序技术,用于在个体水平绘制出探究染色体互作图谱有high-throughput chromosome conformation capture (Hi-C)[3]技术和chromatin interaction analysis with paired-end tags (ChIA-PET)[4]技术。这些技术极大的促进了人们对染色质互作及其在转录调控中的作用的理解。由于成本高昂、技术限制较多,这些方法尚未广泛应用于大量细胞系或临床样本,使得我们对不同患者样本中染色质互作的了解仍非常有限。
近期,来自新加坡国立大学癌症科学研究所的梅丽莎·J·福尔伍德教授在Genome Biology在线发表题为“Chromatin interaction neural network (ChINN): a machine learning-based method for predicting chromatin interactions from DNA sequences”的研究文章,介绍了染色质互作神经网络——ChINN,这是一种基于卷积神经网络的机器学习方法,可基于DNA序列预测染色质相互作用。
文章发表在Genome Biology 上
梅丽莎·J·福尔伍德的个人简介
研究团队使用机器学习神经网络ChINN对Hi-C和ChIA-PET的测序数据进行深度学习,以求达到利用机器学习方法在DNA序列的基础上,直接预测出染色质互作,增强人们对基因组组织的理解。
研究亮点
1.开发染色体互作分析生信工具ChINN
目前,已知的可以预测染色质互作的方法有Akita[6]、DeepTACT[7]、SEPT[8]和DeepC[9]等。其中Akita和DeepTACT是基于卷积神经网络架构;SEPT和DeepC则是基于迁移学习(Transfer learning)架构,都可以从DNA序列数据中预测染色体互作信息。但这些方法都有使用限制:1.Akita和DeepC只能对有限的序列区域进行预测。例如,Akita的预测能力上限是1Mb,无法对较远距离的染色体互作进行预测,更不必说预测全基因组染色质互相作用;2.不能确定这些方法是否可以预测ChIA-PET数据。DeepTACT是用于预测启动子捕获Hi-C数据,但Akita、DeepC和SEPT受限于使用Hi-C数据;3.这些方法目前都没有在患者癌症样本中预测过染色质相互作用的实例。
该研究所开发的ChINN方法,则克服了以上的问题。ChINN是使用ChIA-PET染色体互作数据和Hi-C染色体互作数据进行训练开发的,克服了以往在数据输入方面的限制。此外,ChINN能够以全基因组的方式识别开放的染色质相互作用,克服了已知方法使用仅限于特定基因组区域的局限性。经验证,ChINN能够识别CTCF motif、AP-1转录家族成员(如FOS)和其他转录因子(如MYC),它们在染色质相互作用中具有代表性。最重要的是,研究人员在实验中验证了ChINN处理临床样本数据的预测能力,同时发现了在患者样本中染色质互作存在广泛的患者异质性。
上述染色质预测方法各有所长,除SEPT外,其他三种机器学习方法在数据使用上都与ChINN有很大不同。目前尚没有统一的明确标准比较不同方法的预测性能。
研究人员总结了具有不同需求的用户的决策指导(图2)。例如,分析Hi-C数据预测的一般染色质相互作用,或从ChIA-PET数据预测的RNA Pol II和CTCF染色质相互作用,应选择ChINN方法。ChINN是目前唯一可用于从序列中预测Hi-C和ChIA-PET 染色质相互作用的机器学习方法。
2. ChINN可从DNA序列中预测染色质互作
基于卷积神经网络,研究团队设计了ChINN机器学习架构(图3),用于直接从DNA序列中预测染色质互作。
图3.ChINN方法的架构。来源:Genome biology[5]
使用ChINN模型,研究人员在GM12878 CTCF、GM12878 RNA Pol II、HelaS3 CTCF、K562 RNA Pol II 和 MCF-7 RNA Pol II 数据集上分别进行训练。
结果显示,在使用ChIA-PET产生的CTCF数据训练ChINN机器学习方法后,ChINN比直接使用功能基因组数据预测更为精准。使用ChIA-PET产生的RNA Pol II数据对ChINN方法进行训练后,ChINN的预测精准度相对较差(图4a和4b)。
ChINN方法在分别学习CTCF和RNA Pol II数据时,构建出的模型通用性较差(图4c)。这提示,ChINN方法在学习ChIA-PET产生的不同类型数据时,需要针对不同类型的数据分别学习并建模,而后进行预测。
图4.基于功能基因组预测(a)和基于ChINN方法(b)预测ChIA-PET数据的结果。来源:Genome biology[5]
此外,研究团队同样使用Hi-C数据对ChINN方法进行了训练建模。结果显示,对于多种类型的Hi-C数据,ChINN表现较好且结果一致(图5a和5b)。将这些模型进行跨样本测试后,发现ChINN方法对Hi-C数据具有较好的样本间通用性(图5c和5d)。表明针对Hi-C数据,ChINN可以一次建模多次使用,不会因数据类型差异而影响结果。
图5.ChINN方法基于Hi-C数据的预测结果。来源:Genome biology[5]
研究团队经过机器学习算法构建,利用不同数据的训练学习和模型针对DNA序列进行预测分析等操作。结果显示,ChINN可以在使用一维数据(DNA序列)的条件下,较好的预测出染色质相互作用。
3.染色质互作在患者癌症样本中存在广泛的患者异质性。
在探索ChINN用于患者样本的染色质互作预测实验中,研究团队使用训练好的模型对84个慢性淋巴细胞白血病(CLL)样本进行预测,发现在 84 个 CLL 样本中,34个为uCLL(IGHV未突变)型,50个为mCLL(IGHV突变)型(图6a)。IGHV 突变状态是CLL 的重要预后生物标志物,mCLL的侵袭性较低。
研究人员使用ChIA-PET数据训练的ChINN模型进行预测,基于所有样本的开放染色质区域,预测了48443个CTCF相关的开放染色质相互作用和23,633个RNA Pol II相关的开放染色质相互作用(图6a)。与CTCF相关的染色质相互作用相比,CLL样品中的RNA Pol II相关染色质相互作用更保守(图6b和6c)。
图6.ChINN方法基于ChIA-PET数据的预测癌症样本的结果。来源:Genome biology[5]
随后,研究人员使用Hi-C数据训练的ChINN模型进行预测,共获得758,407个Hi-C相关的开放染色质相互作用(图7a)。利用Hi-C模型预测576,587个mCLL样本和656,625个uCLL样本的开放染色质相互作用。结果发现,跨CLL样本的染色质相互作用和CLL样本中的基于Hi-C数据分析出的染色体相互作用不如RNA Pol II那样保守(图7 b和7c)。
图7.ChINN方法基于Hi-C数据预测癌症样本的结果。来源:Genome biology[5]
总结
癌症样本中广泛的患者异质性的观察,强调了对精准医学的需求以及了解个体患者样本中染色质相互作用的必要性。机器学习为我们提供了一种以经济高效的方式预测染色质相互作用的方法。研究结果表明,ChINN方法能够使用DNA序列作为特征,预测来自人类基因组中开放染色质区域的染色质相互作用。ChINN方法可应用于其他细胞系或临床样本,使其在生物材料有限无法进行大规模功能基因组学分析时,成为探索染色质相互作用的有用工具。ChINN方法在未来可能有助于人们理解大量临床样本中的染色质相互作用。