你也可以学会的简单生信分析+免疫组化发2分+SCI
Elevated TOP2A and UBE2C expressions correlate with poor prognosis in patients with surgically resected lung adenocarcinoma: a study based on immunohistochemical analysis and bioinformaticsTOP2A和UBE2C表达升高与肺腺癌手术切除患者预后不良有关:一项基于免疫组化分析和生信的研究
一、研究背景
肺癌是发病率和死亡率最高的癌症,其中非小细胞型肺癌的研究最为广泛,而关于肺腺癌(LUAD)预后标志物的研究仍较少。可靠的预后标志物对高风险病人接受手术后治疗有重要意义。因此,本篇文章聚焦于筛选LUAD的预后标志物。
二、分析流程
三、结果解读
1.筛选DEGs
作者在GSE10072,GSE2514,GSE43458,GSE32863和TCGA的5个数据集中筛选出430个显著差异表达的DEGs ,其中128个基因上调,302个基因显著下调。(图1)
图1.筛选差异表达基因
2.DEGs的功能富集分析
作者用GO分析和KEGG通路富集分析研究了430个DEGs的功能和机制。GO分析表明,DEGs主要富集于生物学途径(BP)。KEGG富集分析表明。DEGs主要在13个通路中富集。(图2)
图2.DEGs的GO和KEGG富集分析
3.构建PPI网络鉴定hub基因
作者在STRING数据库中分析了DEGs的相互作用,并用Cytoscape可视化PPI网络。如图3所示,构建的PPI网络中含154个节点和529个edges。基于连接度≥24筛选出9个hub基因:CDK1,UBE2C,CCNB1,TOP2A,KIF11,AURKB,CD20,CCNB2,CCNA2。这9个hub基因在LUAD中均表达上调,并共同构成一个功能模块。
图3.DEGs构建的PPI网络
4.GEPIA数据库:9个hub基因的生存分析
为了研究上述hub基因的预后价值,作者对GEPIA数据库中478个肺腺癌样本进行OS分析,发现9个hub基因的高表达均与不良OS有关。
根据四个数据集的平均fold change,作者发现TOP2A和UBE2C在9个hub基因中变异最丰富,且以往没有大规模队列研究TOP2A和UBE2C的预后价值。因此,作者聚焦于这2个基因进行研究。基因表达分析表明,GEPIA数据库的33个肿瘤类型中,TOP2A和UBE2C分别在25个和28个肿瘤类型中显著高表达(红色)(图4AB)。且这2个基因间呈显著相关。(图4C)
图4.GEPIA数据库33类癌症中分析UBE2C和TOP2A表达
5.TCGA验证集:UBE2C和TOP2A表达和临床特征的相关性
为了研究hub基因表达和临床特征的关系,作者在TCGA数据框中研究了hub基因和年龄、性别、人种、吸烟史、N期及病理分期的关系。结果表明,LUAD患者中UBE2C和TOP2A表达均高于正常组织,但与上述临床特征无显著相关。
6.TCGA数据库:UBE2C和TOP2A共表达生存分析、多变量分析及突变相关性分析
然后作者在TCGA数据库中研究了TOP2A和UBE2C的共表达对预后的影响,首先根据两个基因的相对表达水平将TCGA患者分为4组:均高表达组,均低表达组,以及一高一低表达的两组。结果显示四组患者的OS具有显著差异,TOP2A UBE2C均高表达组OS最低。进一步将TCGA患者分为“共表达组“和”非共表达组“,发现共表达组OS低于其他组。为了排除其他预后因子的影响,作者又进一步结合TNM分期进行多变量分析,证实UBE2C和TOP2A是多变量Cox模型的独立预后因子。(图5)
图5.TCGA LUAD OS的多变量Cox回归分析
此外,作者还分析了UBE2C、TOP2A表达和关键驱动基因突变的关系(图6)。发现UBE2C在EGFR-WT患者中显著高表达,TOP2A在ALK突变患者中显著高表达。而它们在KRAS突变和BRAF突变中表达无显著变化。
图6.TOP2A、UBE2C表达和EGFR、KRAS、ALK、BRAF状态的关系
7.CPTAC数据库:UBE2C和TOP2A的蛋白分析
为了进一步从蛋白水平证实这两个基因的表达,作者抽取了111例LUAD和正常匹配组织的质谱数据进行分析。与正常配对样本相比,UBE2C和TOP2A均在肿瘤组织中显著高表达。生存分析与TCGA数据集一致,即TOP2A/BUE2C均高表达组预后较差。相关性分析也表明,两基因在蛋白水平也呈显著相关。
8.NCC验证集:UBE2C和TOP2A表达和临床特征的相关性
作者开始建立独立的验证集,从648个临床LUAD患者中筛选出578个患者组成独立的NCC验证集(排除了接受手术前化疗/放疗、数据不完整和丢失随访的患者)。进一步用免疫组化染色比较LUAD和匹配的正常组织中TOP2A和UBE2C的表达。与GEO和TCGA的结果一致,TOP2A和UBE2C均高表达于肿瘤中(图7)。且TOP2A和UBE2C的表达与性别、吸烟、肿瘤长度、T期、N期、TNM分期等显著关联。
图7.LUAD TMA切片的代表性显微照片
9.NCC验证集:TOP2A和UBE2C表达的生存分析
作者最后在NCC验证集中用Cox比例风险回归和KM曲线证实TCGA分析的结果。单变量和多变量分析中(图8),TOP2A和UBE2C均与OS显著关联,表明TOP2A和UBE2C是独立的预后因子。
图8.NCC验证集中OS的单变量和多变量分析
小结
肿瘤的高度异质性和比较高通量数据所产生的假阳性结果是筛选关键预后标志物的主要障碍。而在独立的队列中整合不同的数据集在一定程度上可以降低假阳性率。本篇文章中,为了避免假阳性,作者用4个GEO数据集和TCGA数据集筛选预后标志物,然后用1个独立的样本量较大的LUAD数据集作为验证集验证。因此,最后多个数据集中筛选出的TOP2A和UBE2C是可靠的预后标志物,且TOP2A/UBE2C在LUAD中共表达,与更差的预后相关。