【营养研究新趋势】Nature Food:机器学习和大数据为复杂化学成分研究带来变革

Nature Food观点:
我们饮食中未知的化学成分
推荐|张大川(中国科学院上海营养与健康研究所)
我们对饮食如何影响健康的了解仅限于美国农业部和其他国家数据库跟踪和编目的150种关键营养成分。虽然这已经变革了卫生科学知识,帮助揭示卡路里、糖、脂肪、维生素和其他营养因素在常见疾病中的作用,然而在我们的食物中的26000多种化学成分里,这些营养成分只占一小部分。尽管人们已经发现这些化学成分中有不少对健康产生影响,但仍未进行系统的量化。
利用机器学习等新技术,这些化学物质的高分辨率文库可以使我们对饮食的整个生化光谱进行系统研究,为了解我们所吃食物的成分及其对健康和疾病的影响开辟新的途径。
Jean Anthelme Brillat-Savarin1826年提出的格言“didites -moi que vous mangez and je vais vous vous etes”—“ 人如其食”(指饮食可反映一个人性格与生活环境)在在现代医学时代仍然适用。事实上,几十年的营养流行病学研究充分证明了饮食在人体健康中的特殊作用,揭示了营养和其他饮食因素在心血管疾病、肥胖、2型糖尿病(T2DM)和其他常见疾病中的作用。
然而,我们目前对食品影响健康的方式的大部分理解是基于美国农业部(USDA)和其他国家数据库追踪的150种营养成分,这些营养成分只是食品中可定义的生物化学物质总量的一个子集。
1 The dark matter of nutrition
以大蒜为例,它是地中海饮食的重要组成部分:美国农业部对生大蒜中的67种营养成分进行了量化,表明这种球状植物富含锰、维生素B6和硒。然而,一瓣大蒜含有超过2306种不同化学成分,例如蒜辣素(一种有机硫化合物)和木犀草素(一种据报道对心血管疾病有保护作用的黄酮类化合物) ,这些数据列在FooDB数据库中,该数据库代表了整合专业数据库和实验数据的最全面的努力。到2019年8月,FooDB记录了食品中的26625种不同的生物化学物质,预计这个数字在不久的将来还会增加。这种特殊的化学多样性可以被看作是营养的dark matter,因为大多数这些化学物质在流行病学研究和广大公众中基本上是看不见的。
这种非凡的化学多样性从何而来?生物体需要大量的生物化学物质才能在有限的环境中生长和生存,远远超出了我们人类饮食中所需要的营养成分。从进化的角度来看,植物的化学成分特别丰富,这主要是因为它们无法逃脱捕食者的追捕;它们的防御有时是机械的(例如,通过长出尖刺),但主要是化学的,通过嗅觉、味觉和外观来进行。这些化学防御需要广泛的次生代谢,产生广泛的类黄酮、萜类和生物碱。多酚一组被高度研究的次生代谢产物,对茶和其他植物的健康影响起着重要作用。次生代谢物的数量估计超过了49,000种化合物,这表明目前食品中的26,000种化学物质代表了对食品成分真实复杂性的不完整评估。从光到土壤湿度、肥力和盐度等多种环境因素都会影响这些次生代谢物的生物合成和积累。人类和其他能够寻找必要食物来源的动物,没有能力合成我们新陈代谢所需的许多分子,比如抗坏血酸或α-亚麻酸,从而需要这些必需营养素的来源。
总的来说,对USDA和FooDB数据的分析证实,植物作为一个群体具有最高的化学多样性,在大多数样本中检测到大约2000种化学物质。然而,85%的这些化学物质仍未被量化,这意味着虽然它们的存在已被检测或推断,但它们在特定食品成分中的浓度仍然未知。以大蒜为例,FooDB中报告的含量的只有146种化学物质,其余2160种化学物质没有被量化。因此,我们提出了这样一个问题:除了目前由食品数据库汇编的信息外,这些科学文献是否还包含有关食品成分的有价值的信息。事实上,每天都有针对特定食品和食源性化学品的实验和分析项目发表,其中只有一小部分被收录在数据库中。为了揭示这一潜在的隐藏知识,我们开发了一个试点项目,FoodMine,它使用自然语言处理来挖掘完整的科学文献,以全面扩展关于食物中生化成分的所有科学数据。
基于机器学习的抗癌研究
FoodMine从PubMed网站上找到了5676篇关于大蒜化学成分详细信息的论文。在使用机器学习过滤这个列表之后,我们手工评估了299篇论文,其中77篇报告了关于大蒜化学成分的1426个单独的化学测量值。我们的项目获得了比美国农业部和食品与药物管理局、FooDB更独特的量化化合物。例如,众所周知,二烯丙基二硫有助于大蒜的气味和味道,并与大蒜的健康益处以及大蒜过敏有关。虽然FoodMine发现有许多出版物报道了大蒜中的这种化合物的浓度,但目前的数据库并没有提供这种化合物的量化信息。此外,FoodMine还从美国农业部或FooDB数据库中找到了170种以前与大蒜没有关联的化合物的信息。综合起来,我们发现有丰富的关于食品成分的异常详细的信息分散在多个文献来源中。现有的食品成分数据库目前覆盖的不完全,不是因为对这些化学物质缺乏兴趣,也不是因为没有努力检测这些食品的化学组成部分。相反,它反映了缺乏系统深入的努力来识别和编目分散在多个科学界和文献来源的数据。正如我们下面所讨论的,在过去几年中出现了扫描科学文献并克服这些限制所需的高通量工具。动员它们可以为深入和系统地了解我们的食品影响健康的方式奠定基础。
1 Health implications
鉴于盐、糖、蛋白质和脂肪在健康和疾病中所起的重要作用,将重点放在相对有限的一组营养成分上是合理的。然而,许多记录在案的健康影响可能与未追踪的化学物质有关,例如氧化三甲胺(TMAO)。最近的研究发现,如果患有稳定型冠心病的患者血液中TMAO水平较高,那么在随后的五年内,他们死于任何原因的风险将增加四倍。
虽然氧化三甲胺及其前体三甲胺(TMA)自然存在于鱼和牛奶中,但西方饮食中氧化三甲胺的重要来源是左卡尼汀和胆碱,它们都存在于红肉中。这些分子被肠道细菌代谢成TMA,然后在肝脏转化为TMAO。地中海饮食习惯经常把红肉和新鲜大蒜搭配在一起,其已知的一些健康益处来自大蒜素。大蒜素能阻止肠道中产生氧化三甲胺,最终降低血浆中氧化三甲胺的浓度。综上所述,我们的饮食中至少有六种不同的化学成分与氧化三甲胺途径有关:左旋肉碱、胆碱、氧化三甲胺、氧化三甲胺、蒜素和3,3-二甲基丁醇(DMB)。然而,其中只有胆碱在营养数据库中被跟踪和定量。其余五种尽管在健康方面起着关键作用,但实际上属于“营养暗物质“。
Fig. 1 未追踪的生化药品及其对健康的影响。
动物制品含有左旋肉碱、胆碱和促胆碱化合物。这些分子被肠道细菌代谢成三甲胺(TMA),在肝脏中转换成三甲胺- n -氧化亚胺(TMAO),这是一种与冠心病有关的化合物。大蒜、特级初榨橄榄油和红酒是地中海饮食的主要成分,它们通过大蒜素和3,3-二甲基丁烷-1-醇(DMB)减少氧化三甲胺的产生,DMB是阻止肠道细菌产生TMA的化合物。在这一途径所涉及的六种化学成分中,只有一种,即胆碱,在美国农业部的食品中被追踪到。其他化合物是营养暗物质的一部分(红色部分)。
总体而言,根据比较毒物基因组学数据库(CTD),大蒜的37种营养成分可能与疾病有关。事实上,大蒜含有维生素B1、B6和C,以及锰、铜、硒和钙等矿物质营养素,这些营养素的缺乏或过量与糖尿病、帕金森氏症和心肌病等疾病有关。这些联系证实了目前所追踪的营养素在健康方面的重要作用。同时,CTD显示,目前大蒜中未定量的485种化学物质也可能与多种治疗效果有关,如上文讨论的大蒜素对心血管疾病的保护作用。
在前基因组生物学和我们目前对饮食健康影响的理解之间存在着显著的相似之处。事实上,在20世纪80年代,人类基因组计划的批评者坚持认为,只有占人类DNA中所有碱基对1.4%的编码区域值得解码,剩下的98.6%被贴上了“垃圾DNA”的标签。然而据估计,目前66%的携带疾病的变异实际上存在于这些非编码区域。同样地,今天在食品成分表中追踪到的150种营养成分大约占食品中记录的26625种化合物的0.5%。这些营养成分对健康的影响得到了很好的研究。然而,超过99%的存在于食品中的化学,其中许多在健康和疾病中扮演着重要的角色,却没有被国家数据库追踪,而这种基本上未被探索的营养暗物质对健康的影响,在很大程度上仍然是未知的。这些未追踪的化学成分信息的缺乏,可能导致发表结果的不一致性和不可重复,以及对健康影响的缺失,还可能产生无法通过meta分析复制的虚假关联。
网络医学(network medicine),一门强调综合分子相互作用(包括分子相互作用网络或相互作用体)在疾病预防和治疗中的作用的后基因组学科可以帮助我们系统地揭示我们饮食中广泛存在的分子的机制作用。例如,多酚(-)-表没食子儿茶素3- o -没食子酸酯(EGCG),绿茶中丰富的生化化合物,对2型糖尿病有潜在的治疗作用。基于网络的指标揭示了52个EGCG蛋白靶点与83个T2DM相关的蛋白之间的相似性。这提供了多种机制途径来解释饮用绿茶与绿茶对健康和疾病风险的影响之间的关系,并通过体内外模型观察其降血糖作用。揭示营养暗物质可以为发现食品影响健康的广泛分子机制开辟新的战略,帮助我们了解如何使用食品作为治疗,并帮助鉴定具有直接治疗作用的食品生物化学物质。
食物通过多种分子机制影响我们的健康:一些化学物质作为人类新陈代谢的直接中间体来源,而另一些,如多酚,则起调节作用。然而,许多食物分子也为我们肠道内的微生物提供养分,这些微生物将这些化合物代谢成其他物种,这些物种可以通过哺乳动物的新陈代谢进一步转化(如TMA和TMAO)。如果我们希望更好地了解微生物群落对我们饮食的多样性做出反应的多种方式,以及为了治疗目的如何最好地改变微生物群落,那么追踪特定成分的全部化学成分是不可避免的。
1 Mapping out the foodome
目前对食物不完全的化学分析提出了许多基本的科学和方法学挑战,限制了我们系统地探索饮食对健康影响的能力。然而,营养的多重“known unknowns”为解决这些问题提供了一个潜在的路线图。对我们所食用食物的全部化学成分进行系统的测绘虽然成本高昂,但却是可行的,而且可能会因大数据和人工智能的最新进展而大大加快。
例如,在USDA、FooDB、Frida、PhenolExplorer和eBasis等数据库背后引人注目的政府和社区努力已经产生了丰富的食品成分信息。代谢重建和生化建模的快速进展使我们能够从基因组中推断出特定的途径,通过机器学习,我们可以将代谢途径信息与现有的食品成分数据库系统地结合起来,从而有可能阐明丢失的化学物质。事实上,这两种成分在系统发育树上越接近,它们预期的代谢途径结构和生化成分就越相似。机器学习非常适合于将从不同分类学分支中选择的食物成分的已知化学成分与序列生物中的同源酶列表相结合; 然后,通过学习生物体之间的适当距离,以及聚类相关的通路组和生化物质,可以阐明缺失的化学信息。这样的努力,充分利用现有的知识,可以提供关于缺失的化学物质及其浓度的预测。
然而, 一部分挑战在于实验验证。费时,低通量,结构化学工具(光谱方法、核磁共振、质谱等),可能需要从根本上重新设计成高通量的方法,能够以足够的化学分辨率和灵敏度扫描食物,帮助对食品供应中大量目前无法量化的化合物的存在和浓度进行编目。这些努力得到了“foodomics”的补充,这是一项旨在将组学技术应用于食品系统探索的运动。
烹饪和食品加工改变了食品的化学成分,增加了原料中不存在的化学物质,并使其他物质发生变化,从乳化剂到新的脂质。其中一些变化对健康的影响已得到充分证明,如油炸、烘焙食品和咖啡中含有丙烯酰胺(一种致癌化合物)。虽然食品加工对基本营养成分的影响得到了很好的研究,但对加工对营养暗物质中发现的数千种化学物质的影响却知之甚少。同样重要的是,我们必须考虑到在烹调、保存和包装过程中或根据环境生产条件在食品中积累的大量毒素及其对健康的影响,例如有充分记录的高度反应性醛类或持久性有机污染物的毒性。
在准确性、范围和影响上与遗传学竞争,我们必须组织饮食模式的信息,以适应大数据平台,这个平台推动了生物医学数字化时代的进步。事实上,我们的饮食模式是数字化的——我们每个人都消费了在食物供应中发现的化学物质的一个加权子集。每个人接触到的化学物质的精确子集定义了这个人的个人营养化学“条形码”,或者他或她的“食物组”。从食物供应到个人选择,这种个人饮食的决定因素是复杂的,并受地理、文化和社会经济地位的调节。确保食品可追溯性的努力,使我们能够追踪进入食物链的原材料的来源和生产,以及调节个别食品组的环境和加工条件,也将大大加强这一领域今后的应用。我们能够追踪每个个体的营养化学条形码,并将其与个体遗传变异和健康历史联系起来,这将有助于将营养与一个精确的数字和统计平台相结合,就像当年推动基因组学取得惊人进展的平台一样。这样一个平台可以帮助我们系统地扫描新的因果突变-化学-健康关联,这些关联在当前由假设驱动的营养学研究中基本上是看不见的。
Fig. 2 将饮食与基因、疾病相联系。
我们的日常饮食模式定义了一个独特的生化条形码,代表了一个高分辨率的描述,每个人的个人生化暴露通过他或她的饮食,或个人的食物。要以一种可靠的方式评估单个食物组,我们可以利用智能手机革命,通过图像捕捉收集每日食物日记。与基因组学和疾病史相结合,获得这种完整的生化调色板可以帮助我们扩展广泛使用的基因组广泛关联研究工具,以解释我们饮食模式的生化成分,并系统地揭示特定食品生物化学物质、基因组变异和健康之间的联系。
为了更深入地定量了解营养暗物质的转化潜能,我们必须认识到,我们对特定表型和病理表型的遗传倾向可以被这些以食物为基础的分子所改变。事实上,虽然我们目前无法改变疾病的遗传基础,但我们经常通过我们所吃的食物来调节我们的亚细胞网络的活动,从而减少一些突变的影响。这种亚细胞网络的差异调节解释了为什么那些有很强的心脏病遗传倾向的人,如果选择适当的生活方式,患心脏病的几率可以降低70%。这一发现意味着,通过我们的饮食,准确地绘制出我们接触到的全部化学物质的地图,可以得到改善健康状况的可操作信息。营养研究的最新趋势,旨在探索构成食品的整个矩阵之间的协同、竞争和相互作用,越来越认识到这个问题的复杂性,以及需要新的工具来解决它。我们必须接受这种不可减少的复杂性,以便能够整合食物供应的变化、微生物组的作用和个性化的饮食模式,以便我们最终能够为疾病预防和寿命优化提供个性化的基于食物的治疗和适当的生活方式选择。
原文链接
Barabási, A., Menichetti, G. & Loscalzo, J. The unmapped chemical complexity of our diet. Nat Food 1, 33–37 (2020). https://doi.org/10.1038/s43016-019-0005-1
(0)

相关推荐