非肿瘤生信:阿尔茨海默症的单基因联合自噬分析

昨晚的送书活动今晚24点结束哦!今天该来学习新知识啦!咱们看看19年11月发表在Aging (Albany NY)(IF:5.515)上这一篇文章,“Identification of molecular correlations of RBM8A with autophagy in Alzheimer's disease”,作者利用GEO数据库中阿尔茨海默症数据集,差异分析得出与RMB8A相关的DEGs,通过WCGNA的方法以及构建LASSO回归模型的方法,研究RBM8A在阿尔茨海默症中的作用。

Identification of molecular correlations of RBM8A with autophagy in Alzheimer's disease

阿尔兹海默症中RBM8A与自噬分子的相关性研究

一. 研究背景

阿尔兹海默症(Alzheimer's disease,AD)也称作老年痴呆症,是一种常在老年群体中发生的神经退行性疾病。有研究表明,一些RNA结合蛋白与神经退行性疾病的发生有强烈的关系,比如外显子连接复合体EJC被发现在神经发育过程中起重要作用。在作者之前的研究当中,发现组成EJC的核心蛋白之一RBM8A,参与调控很多与神经退行性和神经精神疾病相关的基因,但是其在AD进展过程中的作用仍然不清楚。

二. 文章思路

三. 结果解读

1.识别AD中差异表达的基因

作者探索RBM8A在AD中的作用使用的是GSE33000数据集,样本为310AD患者 VS 157 norm,用limma包进行差异分析

  • A:箱线图展示RBM8A在AD患者和正常样本中的表达量。作者在AD vs norm的差异分析结果中发现RBM8A在AD中表达量显著降低(p=1.620e-19,logFC=-0.078)。之后根据AD患者RBPM8A表达量的中位数分为高低表达组。

  • B:AD vs norm的差异分析火山图

  • C:PBM8A高低表达组间的差异分析火山图。结合B中的结果取交集,得到共同的9186个差异表达基因(DEGs)

  • D:热图展示在AD中表达量上调/下调的DEGs中差异最显著的前25个DEGs在各样本中的表达量

图1. 分析AD中的差异表达基因

2. WGCNA分析AD相关的调控模块
  • A:根据结果一中分析出的9186个与RBM8A相关的AD相关的基因,进行WGCNA(基因加权共表达网络分析),共得到10个模块

  • B:10个共表达模块与临床表型进行关联性分析。可以看到棕色模块与AD的发生呈显著正相关(r=0.69,p=3e-67);青绿色模块与AD的发生呈显著的负相关(r=-0.69,p=3e-66)(两者都正相关/负相关模块中|r|最大的)

  • C:分析上述两个模块中关键基因子集,并用相关图展示他们表达量之间的相关系数。一共识别出包含RBM8A在内的15个关键基因(GS>0.7,GS即基因与AD间的相关性;MM>0.9,MM即基因的模块成员度,即各基因表达量与相应模块特征基因的相关性)。图中可以看出,有12个基因与RBM8A的表达量呈显著正相关

上述分析按照WGCNA包的流程进行

图2. 对DEGs进行WGCNA的结果

  • D-E:针对一些模块中的基因分别进行GO:BP分析(B)以及KEGG分析(E),用的是clusterProfiler这个包。图中右侧条形图表示各个条目富集的基因个数以及表达上调还是下调的比例。作者在结果中侧重于对棕色模块以及青绿色模块中基因功能富集分析结果的解读

图3.对各模块中的基因进行功能富集分析

3. GSEA分析验证AD中GO:BP以及关键通路

通过GSEA分析对结果2中的功能富集分析结果进行验证,基因集分别来自MsigDB数据库中的GO:BP以及KEGG基因集

  • A-C:在AD和对照组之间展开GSEA分析,选出的在AD中显著富集的功能基因集(A)和通路基因集(C)

  • B-D:在RBM8A低高表达组间展开GSEA分析,选出在RBM8A低表达组中显著富集的功能基因集(B)和通路基因集(D)

图4.GSEA分析结果

  • E:作者发现RBM8A的低表达会影响许多自噬通路相关的基因((FIP200,Beclin 1,NRBF2,VPS15,ATG12),并给出了相关机制图。蓝色表示在AD中表达下调的基因,红色表示在AD中表达上调的基因

图5.RBMBA影响细胞自噬机制图

4. 构建LASSO模型识别AD患者

作者提取各样本15个核心基因的基因表达谱,以7:3的比例将样本分为训练集和测试集,用glmmet包进行LASSO回归。另外以GSE5281(87AD  VS 74norm)和GSE483350(80AD VS 173norm)数据集为验证集

  • A:LASSO回归模型构建过程中的CV统计图,作者在构建模型时λ值选择是lambda.min(左侧虚线),大小为0.0401,此时对应的预测基因有8个。作者构建的8基因AD预测模型公式如下:

    index=RBM8A(-2.38668779488564)+RHBDF2(2.00115481990953)+TNFRSF10B(0.817520478917702)+ACP1(-3.41028393841058)+ANKRD39(-0.279104767589027)+CA10(-0.988480656766608)+CBLN4(-0.70290303609009) + PPEF1(-1.67911758870231)

  • B:ROC曲线展示上述预测模型在训练集中的预测效果,AUC=0.948(越接近1表示模型预测效果越好)

  • C:ROC曲线预测上述模型在测试集中的预测效果,AUC=0.947(左);ROC曲线预测上述模型在验证集中的预测效果,AUC=0.948

  • D:RBM8A在GSE5281数据集的AD患者中低表达

  • E:RBM8A在GSE48350数据集的AD患者的一些脑区中低表达(横坐标表示不同大脑组织)

图6.AD预测模型的构建以及验证

小结

文章以RBM8A为主变量,利用GEO数据库中的三个AD数据集为数据来源(一个为探索数据集,两个为验证集),分析了AD中与RBM8A相关的DEGs,通过WCGNA法寻找其中的共表达模块,提取核心基因,以此建立LASSO回归模型预测AD的发生,并用ROC法在训练集,测试集,验证集中检验模型能力。此外通过基因功能富集分析和GSEA分析寻找与AD以及RBM8A有关的功能通路改变,并分析RBM8A与自噬相关基因在表达量上的关系给出机制图。虽然是非肿瘤生信数据挖掘文章,但其实套路与肿瘤类文章相似,值得我们学习。

(0)

相关推荐