Nat Commun:使用多基因风险评分识别阿尔茨海默病高风险个体

多基因风险评分(PRS)为识别AD高风险和低风险个体提供了可能性。然而,对于使用什么方法计算遗传风险评分、如何模拟APOE(载脂蛋白E)影响、如何选择SNP(单核苷酸多态性)最佳P值阈值 (pT)以及如何比较两者之间的评分等问题,目前还没有达成一致的研究方法。

最近,来自英国和比利时的学者在《Nat Commun》展示了他们的最新研究成果,他们通过模拟发现使用两个预测因子APOE和PRS(不包括APOE区域)的模型可以实现预测AD风险的最佳预测精度展现了PRS作为评估个体 AD 风险的最佳策略。

AD风险评分研究现状

AD是一种起病隐匿的、进行性发展的神经系统退行性病变,临床特征在确诊前多年就逐渐发展。因此,在发病前对AD风险进行预测极为重要,也对临床实验中依据AD风险对参与者进行分层有重要意义。

35%的AD风险因素可以通过教育、营养以及健康管理等方式改变,有效地管理这些风险因素可以推迟AD的发病年龄。临床试验中有一点需要注意的是,患者和健康对照的年龄需要匹配。因为随着寿命的延长,AD患病率不断上升,如果对照组比患者年轻,那么他们虽然现在没有发病但随着年龄的增长有一定的可能发展为AD。

PRS作为全球广泛应用的风险评分,可包括任意数量的SNP。尽管许多基因与疾病的发展和进展有关,但AD是多基因疾病还是寡基因疾病尚无定论。同时对于AD应该使用何种PRS预测,该领域尚未达成共识。因此,作者研究了AD风险预测的各种方法和SNP选择方法,为预测处于极高或极低风险水平的个体做出可靠的判断

结果

1.最佳p值阈值的选择

表1:PRS模型的模型描述

在该团队早期关于AD的PRS工作中发现,对于不包括APOE区域的PRS(PRS.AD )比APOE区域建模为完整PRS一部分预测精度更高。作者结合了ADNI、ROSMAP、MSBB 和 MAYO 数据集,观察到PRS的最佳P值阈值取决于APOE效应的解释方式。

最好的预测精度(AUC = 74.1%)和解释的最高方差(R20.24)是通过 PRS.AD模型实现的,其中PRS.no.APOE与APOE(ε2 ε4)相结合,使用pT≤0.1。但是,PRS.full模型的结果显示出一种矛盾的趋势,即当包括更多风险SNP时(放宽 pT 阈值),预测准确性会降低。

表2:使用不同P值阈值和APOE建模方法的AD病例对照数据集的PRS预测精度

为探究相同数据中得出这种相互矛盾结论的现象,作者进行了多分型模拟研究发现ε4等位基因频率随着年龄的增长而降低,ε3频率增加,而ε2频率保持大致相同(见图1)。APOE和ORS可作为为更年轻个体的AD风险预测因子,但本质是由特定年龄的APOE等位基因频率分布导致

图 1 APOE 等位基因频率和年龄对遗传风险评分的影响

2. PRS计算方法的比较

作者使用PRS(C T)方法来计算PRS。PRSice软件可以自动实现PRS(C T)方法,并对该软件实现PRS(C T)的结果与其他6种不同的PRS计算方法的ORS和PRS的预测结果进行对比,结果相似(见图2)。与之前的结论一致,APOE单独建模并随后添加到PRS时,两个预测指标(AUC、R2)都更好

图 2 不同PRS方法(PRS(C T)、PRSice、LDpred-Inf、PRS-CS、LDAK 和 SBayesR)对 ORS.full、ORS.no.APOE、PRS.full、PRS.no 的预测精度

3. 基于人群的标准化

欧洲人群两个UKBB (N=364,236)和1000 Genomes (N=503)数据集的PRS(C T)分布,这两个分布在pT≤5e-8、1e-5和0.1的P值阈值下非常相似,但前者SD较后者小。出于易于使用的考虑,作者决定在之后的研究中使用1000 Genomes数据集,发现人群的标准化增加了病例对照样本的变异,导致更多病例和对照分别高于和低于预定义的 PRS

4. 处于PRS分布极端个体评估方法

在病例对照数据集中,当PRS针对总体进行标准化时,正负极端的数量大于样本内的数量。PRS.AD观察到的OR和预测准确度最高(OR=124,AUC=88.2),ORS最低(OR = 10,AUC=74.6)。还使用不包括APOE评分展示了APOE-ε3纯合子中极端选择的结果,极端的数量排除APOE时较低,但使用 PRS.no.APOE 时准确度仍然很高(OR=95,AUC=95.7)。因此,寡基因模型对于区分这些数据中的ε33病例和对照组没有用处

作者探究了ORS和PRS中不同 PRS方法中极端个体是否相同,发现共享极值的最大数量是在PRS(C T)和PRSice之间,SBayesR和其他方法之间的共享标识数最少。同时,在所有方法中,ORS识别出的负面极值都比PRS少,作者分析认为ORS 主要由 APOE-ε4 驱动,因此ORS不擅长识别负极端。

表3:标准化数据集中ORS/PRS极端值的数量(1000 Genomes欧洲人群)

综上所述,识别具有高和低多基因风险的个体对于进一步了解遗传风险如何转化为疾病机制非常重要, 也与针对疾病机制的药物研发工作息息相关。
PRS分数可用于选择小样本人群,在大规模药物试验前针对性评估药物疗效。这项研究证实,与尝试对数据集中的所有个体进行分类相比,基于PRS高于/低于某个阈值的识别提供了更好的预测准确性,同时提供了有关使用PRS稳定识别 AD风险个体的最佳研究策略的建议

参考文献

Leonenko G, Baker E, Stevenson-Hoare J, Sierksma A, Fiers M, Williams J, de Strooper B, Escott-Price V. Identifying individuals with high risk of Alzheimer's disease using polygenic risk scores. Nat Commun. 2021 Jul 23;12(1):4506. doi: 10.1038/s41467-021-24082-z. PMID: 34301930.

编译作者:  悟空 (Brainnews创作团队)

校审: Charlie Brown (Brainnews编辑部)

(0)

相关推荐