全脑基因表达和神经影像数据关联指南

2024-06-22 21:07:51

人类影像遗传学作为理解大脑神经表型的分子基础的重要方法，一般流程是通过候选基因研究，在全基因组水平研究一个或多个等位基因变异与一种或多种影像表型（IDP）变化的相关性。这项工作的假设普遍是与IDP相关的变异会影响基因表达或蛋白质丰度，进而改变细胞功能并最终影响所研究的IDP。但是，多种环境因素和其他因素会影响基因活性，同时许多与IDP相关的指标影响表型变异的机制尚不清楚。此外，许多基因的表达水平在大脑区域之间存在很大差异，而这些空间变化不能仅从DNA测序中推断出来。

基因表达测定提供了基因功能更直接的量度，其中艾伦人类大脑数据集（AHBA）提供了整个大脑的高分辨率覆盖，包括从3702个空间不同的组织样本中提取的20,000个以上的基因的表达量。至关重要的是，样本已映射到标准空间中，从而使研究人员可以将基因表达与IDP中的空间变化直接相关。

这种将分子功能与宏观大脑组织联系起来的空前能力已经引起了影像转录组学的新生领域。影像数据和基因表达数据在分析之前都要经过大量处理，数据处理方法的选择对神经影像分析结果具有极大的影响，目前尚未对可影响转录组图谱及其与IDP关系的分析的许多处理方法进行比较。在本文中，我们为处理AHBA基因表达数据的一些关键步骤提供了参考，并研究了每个步骤可用的方法选择的潜在影响。本文发表在NeuroImage杂志。（可添加微信号siyingyxf或18983979082获取原文及补充材料）

注：Allen脑图谱（https://human.brain-map.org/）是目前进行全基因组和脑影像数据关联分析的最优选择，除了人脑数据以外，还有小鼠全脑的全基因组数据。目前，使用该图谱做的相关研究都发表在高质量期刊中，我们曾解读过使用该图谱和影像数据进行关联分析的研究，如：

溶酶体神经轻链基因表达的皮质网络与口吃皮质网络相交

基因表达定量

在AHBA中，已经使用基因芯片测量了转录活性，该芯片通过测量组织样品中cRNA（Cy3标记的RNA）与芯片上特定位置的杂交来一次量化数千个基因的表达水平。芯片通常在大块组织样品上进行，并且样品的细胞组成会强烈影响其基因表达谱。结果，具有不同细胞类型的不同密度的两个样品可能仅仅由于它们的细胞组成不同而显示出转录差异。当比较从大脑不同部位采集的样本获取的数据时，不同细胞类型的密度变化可能产生基因表达的差异。此外，组织样本的采集和处理方式，死亡年龄，性别等差异均会影响基因表达指标。艾伦研究所（Allen Institute）已采取了一系列步骤，以尽可能减轻这种差异。

处理全脑转录组数据的一般工作流程

AHBA数据集包含来自六个成人大脑的3702个不同空间样本中的基因芯片数据。样本分布在每个大脑的皮质，皮质下，脑干和小脑区域，并量化了20,000多个基因的表达水平。AHBA还提供：

（1）给定基因表达值是否超过背景水平阈值，可用于质量控制；

（2）其中两个大脑中每个组织样本的RNA-seq数据，可进一步交叉验证；

（3）核磁共振影像，包括所有六个大脑的T1加权像，T2加权像，T2加权梯度回波成像和FLAIR序列，以及两个大脑的扩散加权成像。图1显示了六个大脑分析覆盖范围的基因表达差异。

图1 AHBA代表基因CLRN1在六个大脑样品的表达数据示意图。

为了减少批次效应对分析的影响，需要将表达数据在单个大脑内以及两个大脑之间进行归一化处理，以最大程度地减少非生物偏差的影响，同时保持生物学相关的差异。尽管这样，我们仍发现基因表达之间仍存在较大的个体差异，与其他大脑的样本相比，来自同一大脑的样本具有更多相似的基因表达。当结合所有六个大脑的数据进行分析时，必须考虑这些差异。

除了艾伦研究所采用的处理步骤外，还需要执行许多其他步骤来结合基因表达量和神经影像数据。在这里，我们整理成七个主要步骤，在以下各节中，我们概述了可以在每个步骤中方法选择，并考虑了其对分析的影响，并在结论部分总结了一些建议。

图2 结合AHBA和神经影像数据的一般工作流程主要步骤示意图。

如果您对脑影像数据处理感兴趣，欢迎浏览思影科技课程及服务（可添加微信号siyingyxf或18983979082进行咨询）：

第十一届磁共振脑影像结构班（南京，1.12-17)

第十五届DTI数据处理班（南京，12.26-31）

第三十六届脑影像基础班（南京，2021.1.6-11）

第三十八届脑影像基础班（南京，2.23-28）

第十九届磁共振脑网络班（南京，1.18-23)

第八届任务态功能磁共振数据处理班（南京，3.2-7）

第一届任务态功能磁共振提高班（南京，3.9-14）

第七届任务态fMRI专题班(重庆，1.14-19）

第三十七届脑影像基础班（重庆，1.23-28）

第二十届磁共振脑网络数据处理班（重庆，2月27-3月4日）

第十六届DTI数据处理班（重庆，3.5-10）

第十四届脑影像机器学习班（重庆，3.12-17）

思影科技功能磁共振(fMRI)数据处理业务

思影科技弥散加权成像（DWI/dMRI）数据处理

思影科技脑结构磁共振成像数据处理业务（T1)

思影科技啮齿类动物（大小鼠）神经影像数据处理业务

思影数据处理业务三：ASL数据处理

思影科技脑影像机器学习数据处理业务介绍

目镜式功能磁共振刺激系统介绍

步骤1.探针重新注释到基因

尽管AHBA提供了将探针映射到基因的注释表，但随着每次测序数据库的更新，此信息已过时。准确的注释对于获得生物学上有意义的发现至关重要。因此，有必要使用最新的可用信息将探针重新分配给基因。可以使用多种方法和工具箱进行重新注释，我们使用Re-annotator工具包，通过所有可用的60 bp的AHBA探针序列，我们发现45821个探针（占78％）被唯一地注释到一个基因，并且能关联到NCBI entrez ID；共有19％的探针未定位到一个基因，只有不到3％的探针被定位到多个基因，不能被明确注释。在没有明确注释基因的探针中，有3438个（75％）注释与AHBA提供的注释有所不同：1287个探针被重新注释为新基因，而2151个探针先前未分配给任何基因。此外，初始AHBA数据集中的6211个（约10％）探针的基因名称，ID或信息不一致。下面所有分析均使用重新注释的45821探针，对应于20232个单一基因。

步骤2.数据过滤

芯片实验容易产生背景噪音，通常可以通过删除固定百分比的最低强度探针或仅使用与背景相比在统计学上具有显着差异的探针来解决。使用基于t检验的AHBA标准定义的指标IBF对每个样本中的每个探针进行分析，用于指示表达信号是否超出背景水平，我们排除了在至少50％的皮质和皮质下样本中表达量不超过背景的探针，则排除了30％的探针。

为了进一步研究IBF的影响，我们研究了过滤对由多个探针同一基因定量的表达值之间的平均相关性的影响。应用IBF过滤后，共除去6579个基因，同一基因探针间相关性提高，这与基因表达信号增强一致。应用IBF过滤也可以提高在相同大脑中芯片获得的基因表达和RNA测序的平均相关性，这表明芯片测量数据的有效性提高了，具有远超背景噪声的探针显示出与RNA-seq表达量的更高相关性和差异稳定性。基因得分重采样（GSR）分析能够识别过表达的基因集，结果表明IBF过滤掉与大脑特定的细胞、免疫和代谢过程无关的基因。我们的结果表明，IBF能够有效提高芯片表达量的准确性。

图3 基于信号强度的过滤（IBF）与真实表达增加一致，增加了单个基因的探针间平均相关性。

步骤3.探针选择

使用多个探针来测量单个基因在不同外显子上的表达水平，可以提高检测的可靠性。我们希望测量同一基因表达的探针应显示出一致的表达模式，但并非总是如此。我们发现，即使在IBF之后，对于超过20％的基因，测量同一基因表达水平的探针之间的相关性也是ρ<0.3。

为了评估在不同的探针选择方法对基因表达量结果的影响，我们使用多个方法估计了每个多探针基因的表达量。然后，针对每种方法计算了它们之间的Spearman秩相关系数。

图4A显示了使用不同方法的表达量之间的平均相关性，这些表达量值是由多个探针分析的17769个基因的平均值。不同方法之间的平均相关系数在0.5 <ρ<0.98之间，这表明探针筛选方法可能会对表达估计产生重大影响。

现在缺少合适的标准对不同的探针之间进行选择，其中一种方法是使用RNA-seq数据作为参考，选择与RNA-seq相关性最高的探针，从而提供了一种额外的质量控制通过交叉验证进行探针的选择。考虑到芯片数据中20232个基因中的17609个具有RNA-seq数据，我们首先评估去除其中没有RNA-seq数据的基因是否会过滤与大脑相关的基因。我们使用ORA验证了去除的基因并未富集脑特异性功能，而是与septin蛋白的组装以及RNA剪接的负调控等。然后，我们检查了112个脑区芯片和RNA-seq共有的17609个基因的相关性。大多数相关性很低，只有23％的基因显示出较高的相关性。使用GSR分析，我们发现芯片与RNA-seq之间具有较高相关性的基因富集在神经元连通与通信相关的过程。该分析表明，RNA-seq数据可以用作筛选与大脑相关且可靠的基因的参考。

与其他探针选择方法相比，RNA-seq与DS(细胞膜荧光探针的一种)显示出最高的相关性。鉴于RNA-seq数据仅适用于有限的基因，并且仅来自AHBA的六个供体大脑中的两个，DS可能是AHBA的合理的探针筛选方法。

图4 不同探针选择方法对最终的基因表达分析有很大的影响。

（A）不同探针选择方法之间的相关性，（B）探针与RNA-seq平均相关性分布，（C）不同探针选择方法与RNA-seq的相关性。

步骤4.将芯片样本映射到脑区空间

AHBA为多个空间定位的组织样本提供了基因表达数据。当将这样的数据与IDP相关联时，必须在每个组织样本的空间位置映射到IDP的空间单元。AHBA提供了包括每个样本的MNI坐标（和体素坐标），以及每个大脑样品的MRI数据。每个组织样本还与解剖结构ID相关联，从而可以在不同的分辨率下识别大脑结构。

现有研究已使用多种方法将组织样本映射到ROI。其中一种方法是根据给定的解剖样本名称与结构匹配，使用AHBA提供的解剖结构名称，但这些区域并不直接对应于影像分析中通常使用的体素，因此很难与影像数据精确对应。另一种方法是使用每个样本的MNI（或体素）坐标，可以将样本分配到标准空间中定义的脑区，或者根据每个AHBA大脑区域将样本映射到脑区。不同大脑的这些差异将影响标准化的准确性，而样本数据处理过程中发生的组织变形差异也会加剧这种差异。

为了克服这些问题，可以使用不同的分割方案应用于每个单独的大脑。该方法可以更准确地处理解剖学上的个体差异，但是需要在原始空间和MNI空间之间生成适当的转换以进行准确的分割。对于皮层，通过对表面进行分割和归一化可以大大提高准确性，而非皮质区域的分割需要体积归一化。在我们自己的工作中，我们已经能够以合理的准确度（通过视觉检查评估）对六个AHBA大脑的皮质表面进行分割，并且我们使用FreeSurfer向每个大脑提供了四个以不同分辨率映射的不同体积体素。将组织样本映射到分割的最近区域，样本与区域之间的距离通常估计为3D空间中的欧几里得距离。在将样本映射到脑区的过程中，如果未针对（i）解剖位置（皮质，皮质下，小脑等）（ii）左右半脑进行映射，则可能会发生错误。为避免潜在的错误，应去除映射错误的样品。第二个考虑因素是设置将样本分配的距离阈值，以确保不会分配到距离较远的位置。在分割过程中样本分配到距离体素不超过2毫米的比例提高到几乎90％，而距离阈值继续增加只会使分配的样本数量产生较小的收益。因此，我们在分析中使用2mm作为距离阈值。此外，还有一个重要考虑因素，六个大脑中只有两个大脑是从两个半脑中采样的，而四个大脑中只有左侧是采样的，合并数据时应仔细考虑这种稀疏抽样。可以根据数据模型推断缺失的表达值。例如，使用最近样本的加权线性组合建立了高斯过程回归模型，以推断特定位置的缺失表达值。

图5 将局部组织样本映射到脑区的方法受到（A）样本区域距离的定义、（B）样本解剖注释的使用以及（C）使用的距离阈值的影响。

步骤5.消除个体差异的影响

AHBA通常用于表示成人大脑的一般转录组概况。但是，它包含了来自不同年龄，不同种族，性别等人的数据，其中许多因素都会影响基因表达。解决此特定于大脑的差异的方法之一是在每个大脑中分别进行分析。但是，AHBA中不同大脑区域的空间覆盖因人而异，整合所有大脑的样本以得到具有最大空间覆盖范围的基因表达谱。在这种情况下，需要对特异性转录组模式进行适当的校正。艾伦研究所应用了一系列数据标准化程序来消除批次效应和个体差异。尽管如此，仍存在剩余的个体差异影响，必须考虑才能进行有效的数据汇总。

解决供体特异性效应的方法有留一法分析或者数据标准化。大多数使用AHBA的研究都使用z分数归一化，而大脑样本中的基因表达分布通常是非对称的，并且可能包含异常值，这可能会使数据产生偏差。我们关注Fulcher和Fornito使用的SRS归一化方法，这种方法基于S型函数对基因表达值进行归一化，此归一化对异常值具有鲁棒性，并使每个人的表达值具有相同的缩放比例。消除供体特异性影响的其他策略包括使用应用于交叉组合个体数据的线性模型，并使用R limma包通过线性建模将其去除。尽管此方法消除了基因表达之间的个体差异，但线性模型对异常值敏感。此校正之后可以进行SRS归一化，可以最大程度地减少离群值的影响。为了解释潜在的样本间基因表达差异，在对所有样本进行归一化处理之前，可以应用样本内交叉验证归一化来量化给定样本内基因的相对表达水平，从而将这些影响降至最低。

图6 适当的标准化可以消除个体特异性基因表达的差异。

（A）未归一化，（B）z分数，（C）SRS归一化，（D）limma + SRS归一化后的PCA结果。（E）z分数与SRS归一化后ZZZ3基因表达相关性。

另外一个考虑因素是，AHBA中各个大脑之间的组织样本的空间分布不均匀。这样，不同的大脑可以为任何给定的大脑区域贡献不同数量的样本。鉴于这种差异，我们推荐在样本间分析前先进行样本内脑区平均，可确保每个供体对均值做出均等的贡献，前提是所有基因均已标准化至相同规模。

步骤7.考虑空间影响

前六步产生了转录水平的脑区×基因矩阵，可用于进一步分析，我们试图了解脑区之间相关基因表达（CGE）的空间变化与IDP的空间变化之间的关系。其中一个需要考虑的因素是相邻皮质区域可能有相似的基因表达模式。不同的空间距离定义方式对结果有很大影响，使用欧几里得距离作为空间距离，我们检查了基因表达相关的空间效应。CGE随着皮层区域之间的空间距离的增加而急剧衰减，说明CGE对距离的相关性可以近似为指数关系。将这种关系扩展到整个大脑（包括皮层和皮层下的样本），会因皮层和皮层下基因表达之间的强烈反相关而变得复杂。因此，可以应用分别针对皮层和皮层下区域进行分析，并对不同类型的区域对进行校正。

图7 不同空间定义方式及其在样本内的分布。

图8 基因表达数据相关性与空间距离的关系为指数关系。

在CGE分析中，处理基因空间关系可能更具挑战性，解决此问题的方法可以将结果与适当的空模型进行比较。尽管已发表了一些有效的方法，但是对这些空模型的全面评估是未来工作的重要途径。虽然距离可能是在表达分析中考虑校正的最明显影响，但其他因素（如细胞结构和细胞密度差异）也是相关考虑因素。

结论

影像转录组学为揭示大规模大脑组织的分子基础提供了前所未有的机会。由于该领域的快速发展及其对公开数据的严重依赖，迫切需要标准化的数据处理流程，以促进各研究结果之间的比较。我们的分析描述了基本工作流程的七个核心步骤，并演示了每个步骤的方法选择如何影响最终表达结果，并总结了一些最佳的实践建议。这是目前少有的全基因组和脑影像指标关联研究的实践性指导文章，对于发展相关领域具有重要意义。

Nature Reviews Genetics | 空间转录学时代的到来（一区，IF=43.704）

编译:艾奥里亚,编辑:十九.江舜尧. 原创微文,欢迎转发转载. Nature Reviews Genetics杂志社Darren J. Burgess于2019年4月12日在Nature Review ...
吐血整理！一文带你解锁各类核酸互作

蛋白核酸互作是指蛋白和DNA或者RNA之间的相互作用.主要的互作类型有蛋白和蛋白.蛋白和DNA.蛋白和RNA.RNA和小RNA之间的互作模式.作为中心法则的三大成员,他们之间的互作关系以及调控关系是后 ...
肿瘤miRNA靶点预测数据库

miRNA作为ncRNA的一类.其主要发挥功能的主要方式是通过和基因形成双向互补链进而来影响基因的表达.因此通过miRNA和基因序列是否互补就可以遇到miRNA可能的靶基因了.这个基本上就是经典的预测 ...
一文带你学会如何通过多维度的分析来论证同一个假设

Multi-dimensional omics characterization in glioblastoma identifies the purity-associated pattern an ...
不要总想着挖掘表达芯片数据

RNA-seq这样的测序数据也可以的啊! 比如这篇Published: 12 March 2019的文章:Identification of Key Long Non-Coding RNAs in t ...
同一细胞中转录组和染色质高通量测序联合分析

文献详解栏目每个人的时间精力有限,必须优先阅读相关文献,开设这个栏目也是希望为大家推荐高质量的单细胞相关文献.如果大家对单细胞转录组感兴趣可以关注一下,哪怕每天只学一点点,积土成山,积水成渊. 当然 ...
表观调控13张图之五chip-seq数据直接的相关性

表观调控13张图之一证明基因干扰有效性表观调控13张图之二相关性热图看不同样本相关性表观调控13张图之三转录组非标准分析之MA图,logFC散点图,韦恩图表观调控13张图之四peaks区域注释分 ...
Nature communications | 多样本同时分析法可提高转录本组装的准确性

编译:月中霜,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 美国巴尔的摩的约翰·霍普金斯大学麦克库克-纳森基因医学研究所Liliana Florea团队于2019年11月1日在Nature子刊Nat ...
纯生信4+人核受体基因家族表达谱与泛癌预后

Pan-cancer analyses of human nuclear receptors reveal transcriptome diversity and prognostic value a ...
天价早教成标配？在家早教指南，父母跟着做，一样能开发宝宝全脑

作者/诺妈首发:诺妈家有男宝(aihuagushi) 在豆瓣上看到一组讨论:养孩子真的太费钱了!!! 原来瓣主以为只是生了一个孩子,却没料到自己生了一台碎钞机:奶粉贵.衣服贵.辅食贵--样样贵. 有 ...
Nature Neuroscience：全脑蛋白质组关联研究揭示抑郁症发病机制中的多种关键蛋白

抑郁症是一种常见疾病,但目前的治疗方法仅对一部分人有效. 蛋白质是基因表达的最终产物,是细胞和生物学过程的主要功能成分,且大多数的药物靶标和生物标志物是蛋白质,因此检测脑部蛋白质尤为重要.然而很多抑郁 ...
右美托咪定通过阻断TLR-4/nf-κb通路抑制炎症反应对大鼠短暂性全脑缺血/再灌注损伤具有神经保护作用

关注本公众号每天分享一篇最新一期Anesthesia & Analgesia等SCI杂志的摘要翻译,敬请关注并提出宝贵意见 Dexmedetomidine confers neuropro ...
QSM研究：帕金森病的全脑磁化扰动模式

尽管铁离子介导的氧化应激被认为是帕金森氏病的潜在发病机制,但目前研究对帕金森氏病中铁沉积的全脑分布还不明确.该研究使用了新的磁共振成像对比技术,即定量磁敏感图(QSM,quantitati ...
中医经络穴位全脑速记：督脉穴位的记忆

中医经络穴位全脑速记：督脉穴位的记忆
中医经络穴位全脑速记——十二正经（三）足阳明胃经

#腰臀腿穴 #鼻炎养肺穴 #健身打卡:八段锦 #十二经脉足阳明胃经,单侧45穴,巧记,你记住几个了呢?三角雀 #四白 #人迎 #不容 #梁门 #滑肉门 #天枢 #髀关 #伏兔 ...
中医经络穴位全脑速记——十二正经（二）手阳明大肠经

#腰臀腿穴 #鼻炎养肺穴 #健身打卡:八段锦 #十二经脉手阳明大肠经,单侧20穴,你记住几个了呢?好物推荐 #商阳 #三间 #合谷 #下廉 #手三里 #曲池 #臂臑 ...
全脑速记巧记法：十二正经（一）手太阴肺的11个穴位名称

#腰臀腿穴 #鼻炎养肺穴 #健身打卡:八段锦 #十二经脉手太阴肺经,单侧11穴,利用这个巧记方法,你记住几个了呢? #少商 #鱼际 #太渊 #经渠 #列缺 #孔最 #尺泽 ...
这些“开放式”玩具才是最好的“全脑”开发玩具

美国心理生物学家斯佩里博士(Roger Wolcott Sperry,1913.8.20-1994.4.17)通过著名的割裂脑实验,证实了大脑不对称性的"左右脑分工理论",并因此荣 ...

全脑基因表达和神经影像数据关联指南

相关推荐