值得学习!热门通路核心基因筛选,分析简单还发了4+分!
Identifcation of key genes controlling breast cancer stem cell characteristics via stemness indices analysis通过干细胞指数分析鉴定控制乳腺癌干细胞特性的关键基因
一、研究背景
由于缺乏敏感的标志物和有效的治疗手段,大多数首次确诊为乳腺癌的人往往处于晚期,因此发现有价值的生物标志物来诊断或预测临床预后至关重要。肿瘤干细胞(CSCs)表现出高度的可塑性,导致不同的细胞表型、功能和代谢特征。BCSCs与乳腺癌的发生、肿瘤的生存、转移和抗肿瘤治疗有关。尽管近年来国内外对BCSCs的研究不断,但BCSCs在BRCA发病机制和进展中的作用尚不清楚,迫切需要确定BCSCs从静止状态到恶性状态的关键因素或生命途径。
之前的研究采用机器学习算法提取了正常组织来源的多能干细胞的转录组学和表观遗传学特征,如此,得到了干细胞特征以及量化了干细胞指数(包含转录组和甲基化信息的多成分分析)。
本研究提出了干细胞指数mRNAsi,通过生物信息学分析,将BRCA中的mRNAsi结合到TCGA中,以识别与BRCA干细胞相关的关键基因和途径。
二、分析流程
三、结果解读
1、mRNAsi以及根据BRCA临床特点校正的mRNAsi
图1 BRCA患者mRNAsi/校正mRNAsi与临床特征的相关性研究
mRNAsi是一个CSCs的标志物。与正常组织相比,mRNAsi在BRCA组织中显著上调。mRNAsi在BRCA的不同阶段体现出明显的不同,当临床特征和肿瘤阶段侵袭性增加,mRNAsi评分呈逐渐增加趋势(图1a-c)。由于肿瘤组织由数千种不同的细胞组成,包括肿瘤细胞和其他类型的细胞,提示肿瘤的纯度是影响mRNAsi评估临床特征的干扰因素。于是,作者采用评估肿瘤纯度的方法(ESTIMATE 评分),使用了校正mRNAsi指数(mRNAsi/肿瘤纯度),以解决肿瘤纯度带来的干扰。校正后,mRNAsi明显高于对照组且明显高于校正前(图1d)。临床特征与校正mRNAsi的相关性和mRNAsi的相似。(图1 e&f)
随后作者探究了mRNAsi与患者预后的相关性。mRNAsi指数较高患者比mRNAsi指数较低患者预后差,但不具有统计学意义(p>0.05);而与校正mRNAsi值较低的患者相比,mRNAsi校正值较高的患者预后较差(p<0.05)(图1 g&h)。这符合既往的研究,CSCs介导肿瘤转移和耐药,导致患者预后差。
以上结果反映,BRCA中mRNAsi或校正mRNAsi与CSCs的临床特征密切相关,且校正mRNAsi的结果更明显,表现出CSCs和BRCA之间更准确的关系。
2、WGCNA:mRNAsi相关模块和基因的鉴定
图2 BRCA中DEGs和干细胞相关基因关键模块的识别
由于BRCA中mRNAsi更高,作者猜测BRCA中有差异基因调节肿瘤组织的干细胞。作者对来自TCGA的原始表达数据用log2转换,使用limma包验证差异表达基因。共发现了4575个DEG,其中2698个上调,1877个下调。作者使用火山图进行可视化(图2a)。
应用WGCNA构建DEG共表达网络,根据 average linkage hierarchical clustering将所有DEG分类为生物基因模块,并进一步识别与BRCA干性紧密相关的基因。作者选择β=7(无尺度 R2=0.95)作为软阈值来建立无尺度网络,最终获得10个基因模块供下一步分析。为了探讨基因模块与mRNAsi之间的关系,作者将MS定义为某个模块的整体基因表达水平,以便后续分析。每个模块第一行为R2值,表明基因表达与mRNAsi的相关性程度。每个模块的第二行为p值,p<0.01具有统计学意义。(图2b)。可以看出蓝绿色、绿色以及棕色模块颜色较深,且R2接近1,猜测它们与mRNAsi相关性强。
蓝绿色模块(R2=0.79,p=8.0e−226)(图2d)、绿色模块(R2=−0.67,p=6.0e−141)(图2e)和棕色模块(R2=−0.69,p=3.0e−153)(图2f),它们都体现了高R2值和较低的p值。蓝绿色模块R2值最高,证明该模块与mRNAsi即BRCA干细胞相关性越强。
图3 关键基因的表达及功能注释
作者选择蓝绿色模块深入研究。首先筛选mRNAsi的关键基因,选择标准定义为cor.MM>0.8,cor GS>0.5,共筛选出32个基因。图3a为筛选出的32个基因的热图。图3b为它们表达情况的箱线图,这些关键基因在BRCA组织中过表达。
3、基因功能注释与通路分析
图4 关键基因GO和KEGG富集分析
筛选出DEGs后,作者采用GO和KEGG富集分析,以将这些关键基因映射到通路中,从而判断它们的功能。蓝绿色模块主要生物学过程:细胞器分裂、核分裂和染色体分离(与细胞周期有关);绿色模块主要生物学过程:细胞外结构组织构建;棕色模块主要生物学过程:阿米巴样细胞迁移。补充图中有表明这些模块主要集中在细胞周期和PI3K-AKT信号通路上。这些结果有助于指导进一步的深入细致的实验研究。
考虑到细胞周期决定了细胞的命运和自我更新,作者选择蓝绿色模块进行下一步分析。对该模块32个关键基因进行GO和KEGG富集分析(图4)。关键基因的主要功能是染色体分离、有丝分裂和微管骨架组织,这些功能主要与细胞周期途径有关。可能的原因是,BCSCs被认为处于静止状态,这是细胞周期失调的直接后果。本结果提示多能状态的控制可能与细胞周期密切相关。
5、转录关键基因与蛋白质水平的相关性
图5 转录水平上关键基因间的相关性
作者利用相关性分析(Pearson相关)和STRING-online工具确定了关键基因与其蛋白产物之间的相互关系。KIF2C与CDCA8的相关性最高,为0.86;BUB1和AURKB或SGO1和CDC20的相关性最低,为0.58。其中相关性高的两个基因的蛋白质可能倾向于拥有相似的功能,有利于对未知蛋白的功能注释。
图6 关键基因的蛋白质相互作用 作者利用STRING分析了关键基因间的蛋白表达产物的相互作用关系,结果显示了关键基因间广泛而强的相互作用关系,即PPI网络(图6a)。随后,作者分析了PPI网络中每个节点基因的Edge数,结果表明每个基因的Edge数几乎相等,说明这些关键基因构成了一个相当密集的相互作用网络。这一步有利于后续获得PPI网络中的关键节点,进而发现更重要的基因或基因模块,以注释生物学功能。
6、关键基因表达的验证与分析
图7 关键基因表达验证
为了系统地了解这些关键基因的表达水平,作者使用了Oncomine和GEPIA两个数据库,验证其在多种癌症中的表达。通过Oncomine验证,作者发现除了BRCA外,所有的关键基因在一种以上的癌症类型中都有明显的上调,并且都在数据集相对较多的DEGs中排名前10%。同时,GEPIA数据集验证,结果显示关键基因均上调(图7b),该结果与Oncomine验证结果一致,也与上文鉴定结果一致。
图8 关键基因在GEO数据库中的表达,其中GSE29431数据集包括正常组织和BRCA组织
为了验证BRCA中关键基因的表达,作者选择了GEO数据库。GSE29431数据集表明,31个关键基因在BRCA中明显高表达(图8a)。
由于BRCA是一种异质性肿瘤,不同的亚型导致不同的临床结果。因此,作者评估了不同亚型中关键基因的表达。GSE65194数据集表明,与正常组织相比,31个关键基因在TNBC中明显高表达(图8b)。与管腔A型BRCA相比,29个关键基因,不包括CENPA,ORC1和RAD54L,在管腔B型BRCA具有较高的表达(图8c)。
GSE10797数据集:只有8个基因(AURKB、BUB1、CENPA、KIF4A、KIFC1、NCAPG、PLK1和RAD54L)在基质细胞和上皮细胞中具有不同的表达水平(图8d),这意味着两种细胞在干细胞特征上可能没有明显的差异,原因可能是两种细胞的转移能力不足以介导远端转移。
图9 与预后有关的关键基因
32个关键基因中有12个基因对BRCA患者的预后有影响。这一结果对未来治疗靶点的选择有意义。
小结
作者通过研究干细胞指数mRNAsi与BRCA临床特征的相关性,探索了BRCA中干细胞相关的差异基因。通过构建WGCNA,获得基因模块。通过模块的富集分析,找到模块特征的关键基因。随后,作者对关键基因进行GO和KEGG富集分析,构建PPI网络。最后作者使用Oncomine、GEPIA和GEO数据库对关键基因的表达进行了验证,分析了与预后有关的关键基因。有32个基因与BRCA干细胞特性密切相关,其中12个基因对BRCA患者具有预后导向作用。BRCA中与干细胞有关的最重要的信号通路是细胞周期通路,猜测多能状态的控制可能与细胞周期密切相关。
局限性:本文的生物信息学研究需要下一步的实验研究来验证。