Nature Communications:基因对人类连接组中hub连接的影响
1.摘要
脑网络hubs间高度连接且其内部也高度连接,为连通神经动力形成了一个重要的通信主干。但是,对该机制的研究很少。本文使用双胞胎的弥散加权磁共振成像数据,确定了基因的主要作用,表明它们优先影响人类连接组的网络hubs间的连接强度。使用转录图谱数据,结果表明连接的hubs表现出与细胞结构相似和代谢相关的转录活动的紧密耦合。最后,通过比较13个网络的生成模型,本文发现仅靠随机过程不能解释hubs的精确分布模式,另外,可以通过引入基因约束来提高模型性能。本文的研究结果表明,基因在形成hubs间的连接中起重要而优先的作用,这些连接具有功能性价值且代谢成本高。
2.引言
神经系统是复杂的连接网络,具有复杂的分布模式,这些模式既不是完全随机的,也不是完全有序的。大量研究表明这种组织在一定程度上归因于神经元素间的异质分布,大部分网络连接集中在小部分的网络节点上,即称为hubs。这些hubs间连接紧密,形成一个rich-club,其拓扑定位是整合功能多样的神经系统,并调节大部分区域间通信。
在人类皮层中,hubs主要分布在跨膜态边缘旁和联合区,是连接体中代谢消耗最多的成分之一,hubs间的rich-club连接说明了轴突分布不匀。有研究表明,多样联系的hubs的快速扩张及它们间的rich-club连接,是人类较其他物种相比,认知能力增强的基础。
什么会影响hubs的连接方式?网络hubs的快速进化扩展,和大量脑组织的遗传学研究证实了基因的重要作用。在发育的大脑中,神经元可以通过遵循基因调控分子进行精确的目标定位。然而,目前并不清楚基因是否优先对特定类别(如网络hubs间功能上具有重要作用的连接)的连接产生影响。对双胞胎的研究表明,hub功能连接的某些特性具有很强的遗传性。有研究证实了hub连接和与代谢功能有关的特定转录特征相关。大量发现表明网络hubs的出现可能不需要精确的基因控制,而可能是由基因的物理和/或功能特性形成的随机过程造成的。
本文使用一个多方面策略来描述基因对人类皮质连接体的hub连接的影响。使用一个connectome-wideheritability analysis(图1A,B),展示了基因对连接强度表型变异的影响不是均匀分布在整个大脑上,而是优先集中在网络hubs间的连接上。然后,展示了人脑中连接的hubs对表现出与这些区域的代谢需求和细胞结构相似性相关的紧密耦合的基因表达(图1C)。最后,使用计算机建模证实随机网络分布模式确实可以生成具有类似大脑特性的网络,但无法捕捉hub区域的空间分布,进而无法捕捉连接hub区域的精确分布模式。另外,对模型添加基因约束可以提高模型性能。总的来说,这些发现证明了分子功能和人类连接体的大规模网络组织间的直接联系,并强调了基因在形成网络hubs间连接(在功能上具有重要作用的连接)的重要作用。
图1 用于描述基因对hub连接的影响的工作流程。A. 连接体示意图,显示了大脑中不同的连接类型。红色的点表示hub节点,灰色的点表示nonhub节点,可分为三类连接:rich links—两个红色节点间连接(红色线);feeder links—一个红色节点和一个灰色节点间连接(黄色线);peripheral links—两个灰色节点间连接(蓝色线)。B. 连接体遗传学分析。使用结构方程模型将经典的ACTE生物特征模型拟合到大脑中的每个连接,从而估计基因和环境对每个连接的影响。C. 转录偶联分析。(Ⅰ)将Allen Human Brain Atlas(AHBA)中的每一个组织样本(一共3702个)都映射到大脑分区中的给定区域。(Ⅱ)对表达值进行质量控制和一般处理流程,来构建表达值的regiongene矩阵。(Ⅲ)估计每对脑区间的相关基因表达(CGE)作为特定区域基因表达谱间的皮尔逊相关。(Ⅳ)通过指数距离趋势回归,对表达数据的空间自相关进行区域内CGE校正。D. 如何给定跨连接每条边上的值的示意图。比较了所有可能hub-defining阈值(水平轴)上rich、feeder和peripheral links的边水平均值遗传力和CGE。因此,如果对rich links的给定效应更大,预测pairwise估计值将随k增大,与feeder和peripheral links相比,rich links增加幅度尤其大。
3.结果
使用通过人类连接组项目(HCP)获得的972名受试者的弥散加权成像(DWI)数据,生成一个具有代表性的组水平连接矩阵,其中包含360个脑区(基于HCPMMP1图谱)间的12924个连接。该网络包含一系列高度连接的区域,使用节点degree(k)对其进行量化,包含网络hubs和跨运动感觉运动、旁中枢、扣带回中部(k>105)、岛叶、后扣带回、侧顶叶和背外侧前额叶皮质(k>145)(图2A)。
3.1基因对大脑连接的影响集中在rich club
为了研究基因是否优先影响人脑中某些类别的连接,本文对双胞胎数据(来源于HCP)进行了connectome-wideheritability analysis。对234对单卵(MZ)双胞胎及他们69对非双胞胎兄弟姐妹,和120对双卵(DZ)双胞胎及他们48对非双胞胎兄弟姐妹,使用DWI重建大尺度皮质连接体。
对代表组连接体的每个连接,使用经典ACTE模型来估计连接强度的方差比例(narrow-senseheritability,记为h2)。使用每个连接纤维束的平均分数各向异性(FA)来量化连接强度,连接间存在遗传力估计,范围从0~0.99。对大多数连接,使用ACTE模型的A成分来量化non-trivial基因影响,AE模型显示与86.7%的边存在最好拟合,ACTE为4.3%,ACE为1.3%。只有7.7%的连接仅受环境影响(CE模型为6.8%,E模型为0.9%)。为了探究基因影响是否优先作用于特定类型的区域内连接,区分了hub和nonhub区域,得到三种连接类型:rich(hub-to-hub)、feeder(betweena hub and nonhub)和peripheral(nonhub-to-nonhub)links。本文发现从最佳拟合的生物特征模型得到的平均遗传力,在几乎所有k值中,rich组最高,feeder组中等,peripheral组最低(图2B,C)。richlinks的增加是hub-defining阈值k的函数,表示在基因对高度连接脑区间的连接影响更大。
与richlinks(between hubs)相比,peripherallinks(between nonhubs)的表型差异主要受特定环境的影响(通过模型参数E对其进行量化,图2D),虽然所有连接类型都受共同环境的影响较低。
为了研究基因是否会影响大脑某些特定功能系统,本文根据它们连接的主要功能功能网络对边进行分类(基于HCPMMP1图谱,图2E)。图2F显示了每个功能网络中degree>k的节点比例。大多网络都存在high-degree节点k120,且主要存在于跨膜态边缘旁和联合区中;也就是额顶、带状盖、默认模式网络。
在所有12个功能网络中,网络内和网络间的richlinks表现出较其它连接类型更高的遗传力(图2G-Ⅰ,one-sidedWelch’s t-test, rich vs feeder和rich vsperipheral,allp<1.9-12),表明hub节点和任何特定功能网络间的联系不能说明基因对richlinks的影响高。不同的连接距离上,rich links的遗传力更强,表明不能用简单的hubs间的平均距离长来解释hub连接的优先受基因影响。
总之,这些发现表明,基因对连接强度表型变异的影响并不是均匀分布在整个大脑中,也不局限于特定的功能网络或长短距离连接。相反,主要集中在网络hubs间的连接上。这些hubs分布在整个皮层,跨膜态网络是最高度连接的区域。
图2 基因优先影响rich-club连接上的连接强度。A. 在不同k值情况下定义的hubs的解剖位置。B. 代表性组水平连接体的度分布。基因(C)和特定环境(D)对rich、feeder、peripheral links的影响。黑色虚线为所有网络连接上相应测量值的平均值。阴影区域对应于平均值的标准误差,圆圈表示与网络其余部分相比,给定连接类型的测量值在统计上显著增加(one-sided Welch’s t-test,uncorrected p<0.05)。E. 用颜色填充功能网络模块的区域分配。F. 每个功能网络模块中degree>k的节点比例,为k的函数。G. 功能定义网络中边的遗传力估计的分布。VIS1—初级视觉;VIS2—辅助视觉;SM—躯体运动;CO—带状盖;DAN—背侧注意;LAN—语言;FPN—额顶;AUD—听觉;DMN—默认模式;PM—后多模态;VM—腹侧多模态;OA—orbito-affective。每个模块中的rich links用黑点表示,定义为k>105。当k>105时,网络内(H)和网络间(I)的边在rich、feeder和peripheral links类型中的遗传力分布。
3.2连接的hubs间的转录偶联提高
使用AHBA中的数据来探究hub连接的转录相关性,主要包括左半球180个皮层区域内通过质量控制的10027个基因的表达谱。通过评估所有基因的CGE,来量化大脑的整体表达模式,而不需要将分析局限于预定基因类别。本文还对某些类别的基因进行了二次检测。使用空间校正的相关基因表达(CGE)来量化不同脑区间的转录耦合(图1C),使用binary group-representation矩阵来定义区域间连接。有研究表明,尽管连接的hubs对间的平均解剖距离比其他神经元长,但它们仍存在最高的CGE。
图3A,B表明CEG在rich links中最高,feeder links中适中,在peripheral links中最低。和遗传力一样(图2C),大脑中的high-degree节点间连接存在更高的CGE(图3C)。hubs的连接对在定义的功能网络模式内(图3D)和网络模式间(图3E)都表现出更高的CGE(one-sided Welch’s t-test,比较richvs feeder和richvs peripheral links间的CGE,allp<0.02)。
AHBA中的表达值是从大量组织样本中提取的,因此聚集了许多不同细胞类型的转录信息。因此,区域间CGE可能与区域细胞组成的相似性有关。因此对七种典型细胞类型的细胞特异性表达基因数据(兴奋性和抑制性神经元、少突胶质前体细胞、星形胶质细胞、内皮细胞、小胶质细胞和少突胶质细胞)进行了CGE分析。
研究发现所有类型的基因中的rich links较peripheral links都表现出CGE增加,与其他所有基因相比,少突胶质细胞相关基因对连接的hubs间的CGE升高的贡献显著增强(one-sided Welch’s t-test,p=2-11,图3F)。这些发现表明,连接的hubs可能比其他区域对具有更高的细胞结构相似性。考虑到特定细胞基因的CGE是细胞结构的一个间接标记物,本文使用BigBrain图谱来验证连接的hubs具有更相似的细胞结构这一假设。估计了16个等体积表面的强度分布,并计算了区域间的微结构分布协方差(MPC),用于量化细胞结构相似性。与遗传力和CGE结果一致,与feeder和peripherallinks相比,rich links表现出MPC提高(图3H)。这些结果表明连接的hubs较其他区域对更具细胞结构相似性。
图3 连接的脑网络hubs的转录偶联提高。A. 左半球大脑区域的组水平连接体的degree分布,degree是从全脑连接中计算出来的。B. 对rich、feeder、peripheral links的平均相关基因表达(CGE)是degree阈值k的函数。黑色虚线表示所有网络连接的平均CGE。C. 图2E中功能定义网络的CGE。黑点代表rich links的CGE值。不同连接类型在左半球的功能网络模式内(D)和网络模式间(E)的CGE值。在网络模式内,rich links较peripheral links表现出更高的CGE(p=1.2-4),但与feeder links不存在显著性差异(p=0.5)。F. 特定细胞基因组的基因贡献评分统计值(GCSt-stat),量化单个基因相对于peripheral links对rich links的CGE的贡献。蓝色为神经元基因组(excitatory—兴奋神经元;inhibitory—抑制性神经元);绿色为胶质基因组(OPC—少突胶质前体细胞,astroglia—星形胶质细胞,endothelia—内皮细胞,microglia—小胶质细胞,oligodenrocytes—少突胶质细胞);其他所有基因的值为浅橙色。与其他所有基因相比,少突胶质细胞相关基因的GCC显著增加(one-sided Welch’s t-test,p=2-11)。G. 组水平皮质连接体的degree分布。H. rich、feeder、peripheral links的平均MPC是degree阈值k的函数。黑色虚线为所有网络连接的MPC。
最后对hubs间CGE升高相关的基因组进行的geneset enrichment分析确定了48个GO类别的显著enrichment,特别是嘌呤代谢、ATP生物合成和代谢以及线粒体功能相关的基因。这些结果表明hub连接和代谢功能之间存在密切联系。
3.3大脑分布的随机模型不能捕捉到degree的空间分布
随机过程可能会产生hub连接的基本二元拓扑结构,连接强度的变化会受到基因因素的影响。为了研究随机过程在形成hub连接中的作用,将13种不同的网络分布生成模型与HCP数据相结合。对每个模型,使用概率分布规则生成整合连接体。13个模型中的每一个都不一样。指数和是自由参数,据数据(degree、clustering和betweenness的节点分布以及连接距离的边水平分布)而定,以最佳匹配实际人类连接体的拓扑特性。
本文发现,根据空间(wiring cost)和拓扑规则形成连接的模型比仅基于wiring cost的模型更适合经验网络属性的分布(如,“sptl”模型),如图4A所示。最佳拟合模型“deg-avg”根据节点对(具有高的平均degree)间的连接来调控wiring cost,并能很好地拟合到数据上(kolmogorov-Smirnov统计量的所有拟合指数均为KS<0.21)。
虽然结果与人类连接体的四个关键网络特性差不多(图4B-E),但本文发现在经验网络和模型网络中的节点degree仍存在不同的空间分布。如图4F所示,经验数据中的hubs分布在整个大脑中,而网络中的hubs主要分布在颞叶皮层。结果表明经验网络和模型网络的degree序列间的相关性非常低(,图4G)。这种低相关性在所有模型中都是一致的(图4H),甚至通过拟合模型参数来优化经验和模型degree序列间的相关性,结果也是如此。在26000次模型运行中,二者的相关性从不超过。
总之,这些发现表明,尽管大脑网络分布的随机模型可以捕捉连接体的统计特性(节点水平和边水平分布),但它们不能捕捉这些特性的空间分布,因此不能准确给出连接体hubs间的分布模式。
图4 生成的脑网络模型不能再现脑网络hubs的空间分布。A. 每个分布表示模型拟合的估计值,由模型优化程序产生的前100个(一共1000个网络)网络的最大KS值对其进行量化。每个框的颜色表示相关的模型,由模型中使用的特定拓扑度量确定(表2)。红色表示节点对间同质分布的模型,橙色表示聚类的模型,浅蓝色表示基于degree的模型,深蓝色表示仅考虑wiring cost的空间模型。B. 为节点degree(k)的累计分布;C. 为betweenness中心性(b)的累计分布;D. 为聚类系数(c)的累计分布;E. 为边长(d)的累计分布,深色表示经验连接体,浅色表示基于最佳拟合模型(deg-avg)的100次运行结果。F. 不同阈值k下的半球hubs的解剖位置,经验数据(top)和运行了10000次的优化“deg-avg”生成模型(bottom)。G. 经验数据和最佳拟合生成模型的degree序列间的相关性(Spearman’s ,)。H. 相关值的分布量化了经验数据和合成网络的左半球degree序列间的关系,合成网络使用13个生成模型中的前100个最佳拟合参数组合生成。
3.4基因约束模型为连接体的拓扑结构提高拟合效力
本文根据随机模型的局限性和基因对hub连接的影响,认为包含基因信息的模型是否比仅基于cost和/或拓扑的模型表现出更好的性能。因此,本文研究最佳拟合cost-topology模型(“deg-avg”)并探究其相对于模型变量(包括在具有高CGE的区域对间形成连接的偏差)的性能。
图5比较了原始“deg-avg”模型(图5A中记为“ST”)和仅根据CGE(“记为G”)、仅根据wiring cost(记为“S”)、结合CGE和wiring cost(记为“SG”)、结合CGE和拓扑约束(记为“TG”)形成连接的模型间的模型拟合统计数据。结果表明,结合拓扑和基因信息的模型(“TG”模型)具有最佳拟合度,超过了“deg-avg”模型(“ST”)。
此外,与原始“deg-avg”模型相比,最佳拟合的“TG”模型网络中的hubs的空间分布在整个大脑上更分散(图5F),从而经验网络和模式网络的degree序列间具有更高的相关性(图5G)。与不包括CGE的模型相比,包括拓扑和CGE或仅包括CGE的模型具有更强的degree序列正相关(图5H)。
图5 在生成模型中添加基因约束可以提高对网络拓扑的拟合效力。A. 每个分布表示对模型拟合的估计。绿色表示具有相似基因表达的区域间连接的模型,浅蓝色表示基于degree和wiring cost的模型,深蓝色表示仅考虑wiring cost的空间模型。B. 为节点degree(k)的累计分布;C. 为betweenness中心性(b)的累计分布;D. 为聚类系数(c)的累计分布;E. 为边长(d)的累计分布,深色表示经验连接体,浅色表示基于最佳拟合模型(TG)的100次运行结果。F. 不同阈值k下的半球hubs的解剖位置,经验数据(top)和运行了10000次的优化“TG”生成模型(bottom),受基因表达限制包含177区域,而图4F包含180个区域。G. 经验数据和最佳拟合生成模型的degree序列间的相关性(Spearman’s ,-5)。H. 相关值的分布量化了经验数据和合成网络的左半球degree序列间的关系,合成网络使用6个生成模型中的前100个最佳拟合参数组合生成。
4.讨论
在不同物种中,hubs中的rich-club连接是连接体中最重要且拓扑上最核心的连接,因此在确定如何在一个给定神经网络内cost-value trade-offs时,起着重要作用。本文将多方面的基因分析与数学建模相结合,来探究形成hub连接的机制。本文发现:(ⅰ)基因因素对连接强度的表型变异的影响主要集中在hubs间的richlinks上;(ⅱ)连接的hubs具有高度相关的基因表达模式,与区域细胞结构和能量代谢的相似性有关;(ⅲ)网络生成的随机模型不能捕捉hubs的空间分布;(ⅳ)对模型添加基因约束可以提高性能。总之,这些发现表明基因在塑造大脑rich-club组织中起重要作用。
本文证明了大脑的非均匀分布,即基因对nonhubs间的peripheral links的影响较弱,对hubs和nonhubs间的feederlinks的影响适中,对hubs间的rich links的影响最强。重要的是,这种特性不受连接距离或网络特性影响,表明对位于整个大脑的hubs有一定程度的特异性。连接最紧密的hubs位于跨膜态边缘旁和联合区中。与rich-club links相比,nonhubs间的peripheral links的表型变异主要受特定环境影响。Peripheral links的调整可能由活动依赖机制驱使,导致连接强度的表型变异更易受到环境影响。
本文研究表明,基因在形成hub连接的表型变异中起重要作用。与保守程度更高的特性相比,非保守网络产生更大的表型变异和更高的特性遗传力。
除了具有高遗传力外,成对的hubs连接还表现出最高水平的转录偶联。对特定细胞的基因研究表明,因为七种不同类型的基因标志物的rich links的CGE提高,说明网络hubs能增强区域细胞结构的相似性。本文的结果和皮质连接的结构模型一致,即具有相似细胞结构的区域更可能相互连接,甚至长距离也如此。也就是说,本文研究结果表明,hub区域在其细胞组成中最相似,这种相似性可能在基因如何优先塑造hubs间的长距离互连中起重要作用。
本文还表明网络生成的随机模型虽然能捕获连接体的重要统计网络特性,但不能给出网络hubs的空间分布。实际上,虽然actual hubs在大脑中广泛分布,但在最佳拟合模型(“deg-avg”)中主要位于中心区域。这些发现表明,大脑在wiring cost和拓扑复杂性中实现最佳平衡,hub连接在决定如何实现这种平衡中起重要作用。
本文发现对模型添加基因约束项可以提高再现网络拓扑和hubs的空间拓扑的能力。事实上,一些模型表明,连接的随机生成,再加上大脑几何结构变化和跨区域连接形成的异时性,可以产生具有真实特征的大脑类似网络,包括具有相似细胞结构的区域间的连接。虽然基因可能会影响异时发育,但是未来展开对此模型的研究非常重要,它们可以直接在人类的经验数据上验证,并考虑哪些基因与形成网络分布最相关,这有助于探究基因、环境、随机过程的精确作用,及形成连接体结构的物理机制。