胃癌的肿瘤微环境特征识别预后和免疫治疗的相关基因标记物
原文题目:Tumor microenvironment characterization in gastric cancer identifies prognostic and immunotherapeutically relevant gene signatures
本文作者为南方医院肿瘤内科廖旺军教授
摘要:
肿瘤微环境(TME)细胞是肿瘤组织的重要组成部分。越来越多的证据阐明了它们在预测预后和治疗效果方面的临床病理意义。尽管如此,还没有研究报道对肿瘤微环境中细胞相互作用的系统分析。
在本研究中,我们综合估计了1524名胃癌患者的TME浸润模式,并使用两种提出的计算算法系统地将TME表型与胃癌基因组特征和临床病理特征进行了关联。定义了三种TME表型,并利用主成分分析算法构建了TMEscore。高TMEscore亚型的特征是对病毒和干扰素的免疫激活和反应。此外,在低TMEscore亚型中观察到转化生长因子β、上皮间充质转变和血管生成途径的激活,这被认为是T细胞抑制的表现,可能导致了胃癌预后的明显恶化(HR为 0.42; 95%置信区间为 0.33-0.54; P < 0.001)。此外,多因素分析显示TMEscore是一种独立的预后生物标志物,其预测免疫治疗结果的价值也得到了证实IMvigor210队列:HR为0.63;95%置信区间为0.46 - 0.89;P = 0.008; GSE78220队列: HR,为0.25; 95%置信区间为0.07 -0.89;P = 0.021)。
因此,全面描述胃癌TME特征有助于解释胃癌对免疫治疗的反应,并为癌症的治疗提供新的策略。
背景介绍:
基因组分析一直是国际上用于发现胃癌新生物靶点的主要方法,尽管这种方法没有成功发现不同机制。然而,一些研究揭示了肿瘤相关结构以及肿瘤微环境(TME)信号通路上调的重要性,表明在单细胞水平上细胞间关系比基因组因素更重要。此外,越来越多的研究表明,TME在肿瘤进展和治疗中起到重要作用。
由于胃癌与感染因子显著相关,最显著的是幽门螺杆菌和eb病毒(EBV),因此可以预测免疫检查点阻断反应的生物标志物正在被广泛研究,以进一步提高免疫治疗的准确性(15)。此外,利用计算方法可以估计TME中免疫细胞和其他细胞的丰度(16-18)。虽然使用这些方法的一些研究已经探索了TME浸润剂的临床应用(7,19),尽管有一些机制与TME的免疫应答作用有关,目前为止,细胞浸润TME的整体情况尚未阐明。
本研究基于胃癌基因表达谱的临床注释,采用两种计算算法估计22种免疫细胞类型和癌相关成纤维细胞的比例。我们对1524例胃癌患者的TME浸润模式进行了估计,并将TME表型与胃癌的基因组特征、临床和病理特征进行了系统的关联。因此,我们建立了一种定量TME渗透模式(TMEscore)的方法。TMEscore被发现是一个可靠的预后生物标志物和免疫检查点抑制剂反应的预测因子。
材料与途径:
1.胃癌数据集及预处理
ACRG/GSE62254, GSE57303, GSE84437, GSE15459, GSE26253, GSE29272 和TCGA-STAD。
从GEO数据库下载以上的raw data
在Affy软件包中,使用RMA算法对Affymetrix数据集的原始数据进行背景调整;Illumina的原始数据是使用lumi软件包处理的。
使用UCSC Xena browser (GDC hub)下载TCGA数据,将对于TCGA数据集,将RNA测序数据(FPKM值)转换为每千碱基百万(TPM)的转录本。
使用R及bioconductor包分析数据。
2.收集临床数据
对于GEO数据:直接下载;下载文献的补充文件;使用GEOquery包
对于TCGA数据:使用TCGAbiolinks包
3.TME细胞浸润的推断
为了量化胃癌样本中免疫细胞的比例,我们使用CIBERSORT算法和LM22基因标记
使用标准注释文件编写基因表达谱,并将数据上传到CIBERSORT web网站(http://cibersort.stanford.edu/),运行LM22标记和1000排列。利用微环境细胞群计数法估计基质细胞的比例,该方法可以从转录组数据中稳健地量化异质组织中8个免疫细胞群和2个基质细胞群的绝对丰度。
4.TME浸润细胞的一致性聚类
定性不同TME细胞浸润模式的肿瘤采用分级凝聚聚类(基于Euclidean distance and Ward's linkage)进行分组。采用数据集分析的无监督聚类方法(K-means)识别TME patterns,对患者进行分类,进行进一步分析。采用一致聚类算法确定meta-dataset和ACRG队列中的聚类数量,以评估发现的聚类的稳定性。
这一过程使用ConsensuClusterPlus包来完成,并重复了一千次(为了保证分类的稳定性)。
5.与TME表型相关的差异表达基因
我们将病人分为TMEcluster-A, TMEcluster-B和TMEcluster-C三类,使用limma包寻找DEGs(adj-P value < 0.05)。
6.TME基因特征的降维与生成
首先,在ACRG队列的所有样本中对TMEcluster-ABC中的每个DEG进行标准化。采用无监督聚类方法(K-means)(27)对DEGs进行分析,将患者分为三组进行进一步分析。
然后利用随机森林分类算法进行降维,以减少冗余基因。
接下来,使用clusterProfiler R package对基因patterns进行注释。
采用协商一致聚类算法(28)定义基因簇,并进行主成分分析(PCA)。
提取主成分1作为基因特征评分。在获得每个基因特征评分的预后价值后,我们采用类似于GGI(33)的方法来定义每个患者的TMEscore:
TMEscore = Σ PC1i – ΣPC1j
7.功能和通路富集分析
采用clusterProfiler R包对TME特征基因进行基因注释富集分析。GO术语的严格截断率为P < 0.01,假发现率(FDR)小于0.05。我们还通过对所有转录本调整后的表达数据进行基因集富集分析(GSEA),确定了TME基因簇A和C之间针对特定的TME表型上调和下调的通路。基因组从Broad Institute的MSigDB数据库下载。
8.带有免疫检查点封锁的基因组和临床数据集
9.数据分析
使用Shapiro-Wilk normality test检验变量的正态性。对于两组比较的检验,使用unpaired Student t tests评估正态分布变量,使用Wilcoxon rank-sum test评估非正态分布变量;对于两组以上的比较,分别采用Kruskal-Wallis检验和单向方差分析作为非参数方法和参数方法。通过斯皮尔曼和距离相关分析计算相关系数。双侧Fisher 's精确检验用于分析列联表。使用survminer包,根据每个单独数据集中患者总体生存期和TMEscore之间的关联,评估每个数据集的切点值。使用R package MaxStat对所有可能的切点进行迭代测试,寻找达到最大秩统计量的切点,将TMEscore进行二分,将患者分为低TMEscore亚型和高TMEscore亚型。为了识别差异基因分析中的重要基因,我们采用benjamin - hochberg方法将P值转换为FDRs。采用Kaplan-Meier法对各数据集的子组进行生存曲线生成,采用Log-rank (Mantel-Cox)检验确定差异的统计学意义。采用单变量Cox比例风险回归模型计算单变量分析的风险比。采用多变量Cox回归模型确定独立预后因素。采用R package pROC(42)绘制并可视化接收机工作特性(ROC)曲线,计算曲线下面积(AUC)和置信区间,评价TMB、TMEscore及其联合诊断的准确性。为了比较AUCs,我们使用了两条相关ROC曲线的似然比检验。所有统计分析均采用R (https://www.r-project.org/)或SPSS软件(version 25.0)进行,P值为双侧。P值小于0.05为差异有统计学意义。
结果:
参考来源:生信技能树
友情链接:
课程分享
生信技能树全球公益巡讲
(https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g)
B站公益74小时生信工程师教学视频合辑
(https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw)
招学徒:
(https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw)
欢迎关注公众号:青岛生信菜鸟团