Nat Commun:使用多基因风险评分识别阿尔茨海默病高风险个体
多基因风险评分(PRS)为识别AD高风险和低风险个体提供了可能性。然而,对于使用什么方法计算遗传风险评分、如何模拟APOE(载脂蛋白E)影响、如何选择SNP(单核苷酸多态性)最佳P值阈值 (pT)以及如何比较两者之间的评分等问题,目前还没有达成一致的研究方法。
最近,来自英国和比利时的学者在《Nat Commun》展示了他们的最新研究成果,他们通过模拟发现使用两个预测因子APOE和PRS(不包括APOE区域)的模型可以实现预测AD风险的最佳预测精度,展现了PRS作为评估个体 AD 风险的最佳策略。
AD风险评分研究现状
AD是一种起病隐匿的、进行性发展的神经系统退行性病变,临床特征在确诊前多年就逐渐发展。因此,在发病前对AD风险进行预测极为重要,也对临床实验中依据AD风险对参与者进行分层有重要意义。
35%的AD风险因素可以通过教育、营养以及健康管理等方式改变,有效地管理这些风险因素可以推迟AD的发病年龄。临床试验中有一点需要注意的是,患者和健康对照的年龄需要匹配。因为随着寿命的延长,AD患病率不断上升,如果对照组比患者年轻,那么他们虽然现在没有发病但随着年龄的增长有一定的可能发展为AD。
PRS作为全球广泛应用的风险评分,可包括任意数量的SNP。尽管许多基因与疾病的发展和进展有关,但AD是多基因疾病还是寡基因疾病尚无定论。同时对于AD应该使用何种PRS预测,该领域尚未达成共识。因此,作者研究了AD风险预测的各种方法和SNP选择方法,为预测处于极高或极低风险水平的个体做出可靠的判断。
结果
1.最佳p值阈值的选择
表1:PRS模型的模型描述
在该团队早期关于AD的PRS工作中发现,对于不包括APOE区域的PRS(PRS.AD )比APOE区域建模为完整PRS一部分预测精度更高。作者结合了ADNI、ROSMAP、MSBB 和 MAYO 数据集,观察到PRS的最佳P值阈值取决于APOE效应的解释方式。
最好的预测精度(AUC = 74.1%)和解释的最高方差(R20.24)是通过 PRS.AD模型实现的,其中PRS.no.APOE与APOE(ε2 ε4)相结合,使用pT≤0.1。但是,PRS.full模型的结果显示出一种矛盾的趋势,即当包括更多风险SNP时(放宽 pT 阈值),预测准确性会降低。
表2:使用不同P值阈值和APOE建模方法的AD病例对照数据集的PRS预测精度
为探究相同数据中得出这种相互矛盾结论的现象,作者进行了多分型模拟研究发现ε4等位基因频率随着年龄的增长而降低,ε3频率增加,而ε2频率保持大致相同(见图1)。APOE和ORS可作为为更年轻个体的AD风险预测因子,但本质是由特定年龄的APOE等位基因频率分布导致。
图 1 APOE 等位基因频率和年龄对遗传风险评分的影响
2. PRS计算方法的比较
作者使用PRS(C T)方法来计算PRS。PRSice软件可以自动实现PRS(C T)方法,并对该软件实现PRS(C T)的结果与其他6种不同的PRS计算方法的ORS和PRS的预测结果进行对比,结果相似(见图2)。与之前的结论一致,当APOE单独建模并随后添加到PRS时,两个预测指标(AUC、R2)都更好。
图 2 不同PRS方法(PRS(C T)、PRSice、LDpred-Inf、PRS-CS、LDAK 和 SBayesR)对 ORS.full、ORS.no.APOE、PRS.full、PRS.no 的预测精度
3. 基于人群的标准化
欧洲人群两个UKBB (N=364,236)和1000 Genomes (N=503)数据集的PRS(C T)分布,这两个分布在pT≤5e-8、1e-5和0.1的P值阈值下非常相似,但前者SD较后者小。出于易于使用的考虑,作者决定在之后的研究中使用1000 Genomes数据集,发现人群的标准化增加了病例对照样本的变异,导致更多病例和对照分别高于和低于预定义的 PRS。
4. 处于PRS分布极端个体评估方法
在病例对照数据集中,当PRS针对总体进行标准化时,正负极端的数量大于样本内的数量。PRS.AD观察到的OR和预测准确度最高(OR=124,AUC=88.2),ORS最低(OR = 10,AUC=74.6)。还使用不包括APOE评分展示了APOE-ε3纯合子中极端选择的结果,极端的数量排除APOE时较低,但使用 PRS.no.APOE 时准确度仍然很高(OR=95,AUC=95.7)。因此,寡基因模型对于区分这些数据中的ε33病例和对照组没有用处。
作者探究了ORS和PRS中不同 PRS方法中极端个体是否相同,发现共享极值的最大数量是在PRS(C T)和PRSice之间,SBayesR和其他方法之间的共享标识数最少。同时,在所有方法中,ORS识别出的负面极值都比PRS少,作者分析认为ORS 主要由 APOE-ε4 驱动,因此ORS不擅长识别负极端。
表3:标准化数据集中ORS/PRS极端值的数量(1000 Genomes欧洲人群)
参考文献
Leonenko G, Baker E, Stevenson-Hoare J, Sierksma A, Fiers M, Williams J, de Strooper B, Escott-Price V. Identifying individuals with high risk of Alzheimer's disease using polygenic risk scores. Nat Commun. 2021 Jul 23;12(1):4506. doi: 10.1038/s41467-021-24082-z. PMID: 34301930.
编译作者: 悟空 (Brainnews创作团队)
校审: Charlie Brown (Brainnews编辑部)