老瓶新装:TCGA+GEO分子分型发5+分

Heterogeneity of MSI-H gastric cancer identifies a subtype with worse survival通过MSI-H胃癌的异质性识别生存期较差的亚型

一、研究背景

胃腺癌(STAD)是全球第四大常见癌症,复发率和死亡率都较高。在15年发表于Nat Med的一篇文章中STAD被分成4个分子亚类(MSI-H,MSS/TP53+,MSS/TP53-,MSS/EMT),其中MSI-H亚类预后较好。作者查阅文献发现,在结直肠癌中MSI-H样本可被分为两个亚组,且具有不同的基因表达模式和预后,故作者希望在STAD的MSI-H亚类中验证是否有类似的异质性存在。

二、研究流程

三、结果解析

1.MSI-H STAD的分类

因为作者想要验证在MSI-H STAD中是否有类似于结直肠癌中的异质性,所以首先要做的是进行分类。作者使用了随机NMF算法来探究MSI-H STAD是否能被聚类以及能被聚类时的最佳聚类数,如图1A,为选择最佳的factorization rank r,作者将r分别设为2-6的整数并分别运行了NMF,输出的quality factors信息可作为最佳r值的参考,如cophenetic系数开始减小的首个r值,残差平方和(RSS)曲线出现拐点的r值等,另外,还可以直接看consensus matrix判断。综合分析后,作者选择的r为2,即STAD MSI-H可被分为两个独立的亚组。

图1A:TCGA数据进行NMF选择最佳factorization rank

从TCGA数据库STAD数据集中获得的47个已被注释过的MSI-H样本中,有24个被分到MSI-H组1(MSI-H1),有23个被分到MSI-H组2(MSI-H2),比例约为1:1。为了验证将STAD数据分为两种MSI-H亚型的合理性,作者使用了有68个MSI-H样本的GSE62254数据集进行分析(图1B)。与TCGA的数据一致,GSE62254中的亚洲队列也被聚成两类,且比例也约为1:1(图2A)。

图1B:GSE62254数据进行NMF选择最佳factorization rank

图2A:GSE62254数据集聚类结果

为了进一步证明聚类数为2的合理性,作者再对两个不同的数据集做了主成分分析(PCA),结果进一步支持了上述分法(图2C,D)。

图2C,D:TCGA数据和GSE62254数据集PCA结果

2.MSI-H1和MSI-H2的临床特征差异分析

在确定了MSI-H STAD可以被分为两个亚型之后,为探究MSI-H1和MSI-H2之间的差异,作者首先对这两种亚型的临床特征进行了探究(表1),大致情况如下:

  • MSI-H1和MSI-H2之间的年龄分布无显著差异。在两个数据集的亚组中,大多数MSI-H STAD患者年龄在60-75岁( TCGA,MSI-H1:63%/MSI-H2:61%;GSE62254,70%/61%)。

  • 对性别来说,在TCGA和GSE62254数据观测到相反的情况。在TCGA数据中,女性患者占比大(54%/65%),但在GSE62254数据中,男性患者占比大(70%/61%)。

  • 从病变部位来看,病变总体主要位于远端胃窦部(TCGA:65%/68%;GSE62254:68%/77%),而很少位于近端幽门部(TCGA:5%/9%;GSE62254:8%/3%)。

  • 就病理类型而言,大多数MSI-H STAD为管状腺癌,只有少数标本是印戒细胞癌(GSE62254 MSI-H1亚组1个,GSE62254 MSI-H2亚组2个;TCGA MSI-H2亚组1个)。

  • 作者还分析了MSI-H1和MSI-H2亚组在经美国癌症联合委员会肿瘤分期系统分期后的差异,该分期与患者的预后密切相关。值得注意的是,在GSE62254数据集,I / II期占MSI-H1亚组样本的48%,MSI-H2亚组样本的71%;而除MSI-H1亚组中的一名被诊断为IV期的患者外,其余患者被归为III期。在TCGA数据集中,MSI-H1亚组(59%)的I / II期患者比例略高于MSI-H2亚组(39%)。

从临床特征来看,MSI-H1和MSI-H2亚组的组内存在一些趋势,但组间未见有显著差异存在,对于探索二者异质性的研究,这样的结果继续深入探究的价值不大,故作者将目光转向预后。

表1:两个数据集MSI-H1和MSI-H2差异分析

3.MSI-H1与MSI-H2亚组的预后研究

为了探寻MSI-H1与MSI-H2亚组在预后层面可能存在的差异,作者使用KM法和Log-rank法进行生存分析,比较了GSE62254 MSI-H两个亚组的无病生存期(DFS)和总生存期(OS),发现MSI-H1亚组的患者预后显著差于MSI-H2亚组(图2B,C,DFS:HR=0.428,p=0.06;OS:HR=0.4,p=0.04)。作者分析得到MSI-H1和MSI-H2的5年总生存率分别为62%(95%CI,48%-80%)和80%(95%CI,68%-96%)。

图2B,C:MSI-H1和MSI-H2的生存分析结果

值得注意的是,由于TCGA数据集样本量有限,Log-rank法进行生存分析的p值为0.1>0.05,但其数据也展现了与GSE62254数据集相同的趋势,即MSI-H1预后更差。

另外,作者还比较了MSI-H1/2和研究背景提到的文章中预后较差的MSS组之间生存率的差异,发现MSI-H2亚组的患者生存率明显高于MSS组(DFS:p=0.01;OS:p=0.0038),但MSI-H1组和MSS组之间未观察到显著的生存率差异,这也提示我们MSI-H1有更差的预后。

4.MSI-H1亚组中的抑制性免疫signatures

发现了两个亚组在预后方面存在的差异后,为探明MSI-H1亚组预后较差的原因,作者深入分子层面,进行了MSI-H1和MSI-H2亚组之间的差异表达基因(DEG)分析,分别在TCGA和GSE62254数据集中得到了870和449个DEG,两个数据集之间有111个重复DEG。

对DEG数据进行研究后作者发现,在MSI-H1亚组中,免疫负调控因子,如CCL2/CCL3/CCL4/CCL28,PD-L2和IDO1有更高的表达。

发现了免疫负调控因子的表达差异后,为进一步深入研究MSI-H1和MSI-H2亚组的分子signatures,作者使用MSigDB数据库中的hallmark gene sets进行了基因集富集分析(GSEA,图3A),发现MSI-H1与14个hallmark signature呈正相关(FDR q<0.05),其中8个与免疫反应相关,包括:排斥反应,炎症反应,补体,IL6-JAK-STAT3信号通路,IFN-γ反应,TNFA通过NFκb的信号传导,IL2-STAT5信号传导,IFN-α反应。作者在图3B左图中展示了MSI-H1/2亚组对应的基因在IL6-JAK-STAT3信号通路基因集的富集情况。

图3A:MSI-H1和MSI-H2中显著富集的hallmarks

图3B:IL6-JAK-STAT3信号通路与上皮间质转化相关基因的富集情况

此外,在MSI-H1亚组中,也发现有基因在与肿瘤转移和不良预后相关的基因集中富集,如上皮间质转化,缺氧,血管生成,KRAS信号增强。作者在图3B右图中展示了MSI-H1/2亚组对应的基因在上皮间质转化相关基因集中的富集情况。

相比与MSI-H1的14个,只有4个标志性signatures与MSI-H2亚组显著相关:脂肪酸代谢,氧化磷酸化,蛋白质分泌,过氧化物酶体。这些signatures与免疫反应的关系不大。

5.MSI-H1亚组的预后较差可能与抑制性免疫受体和趋化因子的增多有关

从GSEA揭示的MSI-H1与免疫反应hallmark signature相关的结果中,作者受到启发——MSI-H1亚组的预后较差可能与肿瘤免疫有关。因为肿瘤突变负荷(TMB)对与肿瘤免疫相关的新生抗原的丰度和immune landscape有直接影响,所以作者首先比较了TMB在MSI-H1与MSI-H2亚组之间的差异,但结果并不显著(图4A)。

图4A:MSI-H1与MSI-H2 TMB水平的差异分析

因为结果与预期不符,故作者重新作出假设,认为预后差异与抑制性肿瘤免疫微环境(TIME)有关。经过分析作者发现MSI-H1亚组中起免疫抑制作用的免疫检查点分子PD-L1,PD-L2,CTLA-4,TIM3(又称HAVCR2)和TIGIT表达显著高于MSI-H2亚组(图4B)。而IDO1作为癌症治疗中有希望的免疫治疗靶点,在MSI-H1亚组中的表达水平比MSI-H2亚组中高得多((five-fold higher,p=1.761e-06,Wilcoxon检验)。

图4B:MSI-H1与MSI-H2经典免疫检查点阻断靶点表达情况的差异分析

另外,作者发现趋化因子CCL2、CCL5、CCL3和CCL4在MSI-H1中的表达水平也比在MSI-H2中高得多(图4C,p<0.01)。一般认为,肿瘤来源的CCL2和CCL5是早期复发和肿瘤相关巨噬细胞(TAMs)浸润的重要指标,其表达有助于癌细胞增殖,炎性微环境的形成,免疫逃逸以及血管生成,这个结果进一步支持了TIME可能对MSI-H1亚组预后产生不良影响的假设。

图4C:MSI-H1与MSI-H2 CCLs表达的差异分析

在MSI-H1亚组中,使用网页工具CIBERSORT推断的TAM浸润程度显著高于MSI-H2亚组(p=0.007,Wilcoxon检验)。同时,TAMs的两个经典标志物CD163和CD206在MSI-H1亚组中的表达水平均显著高于MSI-H2亚组,进一步证实了不良预后与抑制性TIME有关。

考虑到TIME的组成比较复杂,作者还探讨了T细胞耗竭标志物TIM3,TIGHT与CCLs之间的相关性(图4D),发现二者总体上呈正相关,说明肿瘤中出现的T细胞耗竭与CCL分子的上调存在相关。而经典的免疫检查点分子受体PD-L1与IDO1(r=0.64),TIGIT(r=0.55),CTLA4(r=0.51),PD-L2(r=0.5)和TIM3(r=0.5)也观察到了相关性,但稍弱。

值得注意的是,作者观察到TIGIT与某些免疫检查点阻断(ICB)靶点,尤其是CTLA4(r=0.82)和TIM3(r=0.8)之间具有很强的相关性。IDO1与其它ICB靶点也有类似的相关性。

此外,除了CCL3和CCL4之间的高度相关性(r=0.89)外,CCL之间的相关性很弱。有趣的是,CCL5与TIM3(r=0.81)和TIGIT(r=0.76)高度相关,提示可能存在尚未发现的STAD中CCL5与T细胞耗竭之间的关联。

图4D:免疫检查点阻断靶点靶点与CCLs之间的相关分析

至此,我们得以一窥作者的研究思路——作者先从已有的文献中发现了结直肠癌中MSI-H样本可被分类,且具有不同的基因表达模式和预后,于是猜测在STAD中也存在这种异质性。通过生信方法(NMF、PCA),作者将MSI-H STAD分为了两个亚组,然后先从大方面入手,研究亚组之间的临床特征与预后之间的差异,发现后者存在显著差异。为了探究两个亚组预后出现差异的原因,作者先进行DEG分析获得差异表达基因后做了GSEA,结果显示MSI-H1与8个免疫反应hallmark signature正相关。受到GSEA结果启发,作者先比较了与肿瘤免疫密切相关的TMB在两组之间的差异,在发现没有显著差异后改变思路,对TIME中包含的抑制性免疫受体和趋化因子在两个亚组之间的表达进行了差异分析,发现MSI-H1中二者显著高于MSI-H2,提示我们抑制性免疫受体和趋化因子增多可能是导致不良预后的原因。CIBERSORT推断的MSI-H1高TAM浸润程度进一步证实了上述推论。另外,作者还分析了抑制性免疫受体和趋化因子之间的相关性,结果提示二者之间可能存在一些尚未发现的联系。

小结

虽然因研究为回顾性分析,可能存在选择偏倚等问题,但作者通过TCGA和GEO数据库获得原始数据,并使用两种聚类方法(NMF和PCA),对不同的测序平台(TCGA:RNA-seq,GEO:微阵列)获得的不同的患者群体(TCGA:主要为白人,GEO:亚洲人)的数据进行了分析,得到了一致的结果——MSI-H STAD基本上可以分为两个亚型,且由免疫检查点和趋化因子高表达造就的免疫抑制环境导致了MSI-H1肿瘤的不良预后。作者的研究方法一定程度上降低了潜在的偏差,但仍需要更多的数据来提高结果的可靠性。

(0)

相关推荐