科研 | Aging-US:基于单细胞RNA-seq的透明细胞肾细胞癌转移相关预后信号的开发和验证(国人2区作品)

编译:不二,编辑:十九、江舜尧。

原创微文,欢迎转发转载。

导读

最近,很多研究利用单细胞RNA测序(scRNA-seq)来解析包括透明细胞肾细胞癌(ccRCC)在内的所有细胞亚群的肿瘤内异质性。在这里,研究者获取了121个细胞样品的单细胞表达谱,并发现了44个与肿瘤转移相关的标记基因。并在626例包含内部和外部的患者中验证了17个关键转移相关基因(MAGs),并对预测整体存活期(OS)和无进展生存期(PFS)的模型进行了评估。相关性分析表明,MAG与多种临床风险因素显著相关。此外,作者进行了Cox回归分析,将这些独立的临床因素整合到MAGs列线图中,可以在预测过程中拥有更高的精确度。本研究进一步揭示了两个列线图得分组之间的体细胞肿瘤突变负担(TMB)的差异,并观察到TMB也是一种预后标志。MAGs列线图评分高的患者,TMB较高,可能导致较差的预后。较高的MAGs列线图分数与ccRCC中的氧化磷酸化、Wnt信号通路和MAPK信号的上调相关。总之,研究者通过scRNA-seq鉴定了MAG,并在大量患者中进行了验证,这对于预后分级和提供针对转移性ccRCC的潜在靶标具有重要价值。

论文ID

原名:Development and validation of a metastasis-associated prognostic signature based on single-cell RNA-seq in clear cell renal cell carcinoma

译名:基于单细胞RNA-seq的透明细胞肾细胞癌转移相关预后信号的开发和验证

期刊:Aging-US

IF:5.515

发表时间:2019.11

通讯作者:陈露,徐丹枫

通讯作者单位:上海交通大学瑞金医院

DOI号:10.18632/aging.102434

实验设计

数据来源:121个细胞样本的原始转录数据来源于NCBI的GEO数据库(GSE73121),537个ccRCC的表达谱数据来源于肿瘤基因组计划(TCGA),91个患者的表达信息来源于国际癌症基因组联盟(ICGC),同时收集了这些样本的临床信息。

单细胞测序数据的处理:将原始数据比对到人的参考基因组(GRCh38),使用Seurat软件进行分析,并过滤掉低质量细胞。

MAGs的鉴定从scRNA-seq数据中鉴定标记基因。将肾脏透明细胞癌(KIRC)数据分为训练组和检验组。使用LASSO算法鉴定预后相关的中枢基因。构建预后MAGs,生存分析,受试者工作特征(ROC)评估。

开发个性化预测模型:整合MAG和其他临床因素,进行单因素以及多因素分析。

体细胞肿瘤突变负担(TMB)TMB以变异数/外显子总长进行计算。

两个MAG列线图的功能富集分析:以列线图作为表型进行基因集富集分析(GSEA)

结果

单细胞RNA测序和转移相关标记基因的筛选

研究人员从来自患者的mRCC、PDX-mRCC和PDX-pRCC的三个亚群中分离获得了121个高质量的细胞样品。将这121份测序数据合并到一个矩阵中,并根据人类GTF文件转换成基因名称。质控图如图1A所示,其中显示了检测到的基因数量范围和每个细胞的测序计数。排除了线粒体测序百分比大于5%的细胞。此外,如图1B所示,研究人员观察到检测到的基因数量与测序深度之间存在显著的正相关,其中r=0.53。方差分析揭示了所有细胞样品中前10个显著差异表达的基因,包括TCN1、IL-6,RNU2-2P,IGKC和SNORA1B(图1C)。此外,使用主成分分析(PCA)方法筛选了每个成分中显著相关的基因。基于PC_1和PC_2成分将细胞映射到二维图中,并且三个独立的细胞亚群表明PCA分析较好的聚类效率(图1D)。使用P值计算其他成分,选择了显著的成分进行后续分析。除了使用线性降维的方法外,研究者还使用了通常用于高维数据可视化的t-SNE算法,以进一步精确地对细胞群体进行聚类。在此方法中,我们将细胞群体分为由原代细胞和转移细胞组成的两个亚组(图1F)。使用limma软件包进行了差异分析,并鉴定了265个标记基因。选择了拥有两倍差异的44个基因作为中枢MAG。图1G显示了两个细胞类型之间的前20个差异基因表达热图。另外,使用标记基因对每个细胞样品中的细胞类型进行了注释。尽管两个细胞簇中的所有细胞均标注为上皮细胞,但研究人员观察到从原代细胞簇1到转移细胞簇0的显著趋势曲线,表明ccRCC中两个肿瘤亚群之间潜在的转录异质性(图1H)。

图1 121个细胞的单细胞RNA测序和标记基因的筛选。

内部和外部ccRCC群体中MAG的验证

在进行Cox分析之前,首先利用R语言中的合并功能,将44个差异中枢MAG的表达谱和相对应的存活信息整合到了肾脏透明细胞癌(KIRC)的数据中。作者使用套索算法(LASSO),鉴定了训练组中17个显著差异表达的预后基因(图2A,2B和2C)。基于多因素Cox回归分析鉴定的MAG标记基因,用于预测训练组和检验组中的3年存活期(OS),受试者工作特征(ROC)曲线的曲线下面积(AUC)分别为0.763和0.803(图3A和3C)。此外,Kaplan-Meier分析表明,较高MAG评分的患者拥有明显较差的OS(P=2.904e-08),这在检验组中得到了一致的验证(图3B和3D),其中P=1.031e-10。此外,还在独立的ICGC中证明了研究者的发现,并观察到了相似的统计结果(图3E和3F)。总体而言,作者在肾脏透明细胞癌中进一步将MAG标记基因与生存分析相结合,分布图表明,高MAG风险评分与更多的死亡或复发或进展病例相关(图3G,3H和3I)。

图2 预后转移相关基因的鉴定。

图3 MAG的内部和外部的验证来确定其临床预测价值。

MAG与临床因素的相关性分析

为了探究MAGs在ccRCC中的临床显著性,作者研究了MAGs与其他临床因素之间的潜在关系。Kruskal-Wallis检验显示,MAG评分升高与T期增高(P=7.586e-09)、淋巴结阳性率增高(P=0.005)、晚期转移(P=1.572e-06)、不良的病理分期(P=1.699e-08)和肿瘤进展分级(P=1.643e-11)相关。此外,MAG标记基因在预测5年PFS中具有较高的显著性,肾脏透明细胞癌的AUC为0.752(图4F),并且MAG评分高的患者显示出对肿瘤复发或进展具有更大的危险,时序检验P=0(图4G)。此外,作者检验了另一个ICGC中的潜在关系,其中MAG评分仍然与T期(P=4.364e-04)和转移状态(P=3.436e-05)显著相关。

图4 MAG与其他临床变量之间的相关性分析和PFS中MAG的预测效率。

MAG列线图的构建

作者将MAG标记基因与其他独立的临床因素整合在一起,构建用于监测ccRCC进展的综合模型。在超过一半的缺失病例中排除了N期因素,忽略了在多因素Cox回归模型中无统计学意义的变量。最后,作者在模型中选择了四个独立的风险因素,包括年龄、肿瘤分级、病理分期和MAG标记基因(图5A)。利用广义线性模型(GLM)回归算法,构建了包含这四个因素的MAG列线图,如图5B所示。根据MAG列线图得分的中位数将肾脏透明细胞癌分为高组和低组。基于预测的1年或3年进展/复发与实际观察到的结果之间的相关性,绘制了一条校准曲线来描述拟合模型(图5C)。预测1年和3年进展结果MAG列线图的AUC分别达到0.848和0.837(图5D)。生存分析还表明,MAG列线图是ccRCC中PFS的重要预测因素,P=0(图5E)。

图5 预测进展的MAGs列线图的构建和评估。

两个列线图得分水平之间的差异体细胞突变负担情况

在肾脏透明细胞癌中定义并计算了TMB,并与相应的MAG列线图评分相匹配。突变情况表明,高列线图评分组的突变比低列线图评分组的突变更频繁发生。此外,还计算了突变体中的差异突变率,分布在超过5%的样本中。卡方检验显示,SETD2、BAP1和MTOR基因在高风险组比低风险组包含更多的突变体(图6A)。此外,Wilcoxon等级检验表明,高TMB组的MAG列线图风险评分显著高于低TMB组(P=2.875e-05)。此外,作者进一步分析了TMB在ccRCC中的生存显著性,发现更高的TMB水平与进展风险的升高(P=0.01)相关(图6C)和较差的OS(P=0.035)相关(图6D)。因此,作者推测具有高MAG列线图评分的ccRCC患者拥有较高的TMB水平,这也被证明是ccRCC的危险因素。

图6 高和低MAGs列线图水平之间的差异体细胞突变负担的情况。

基因集富集分析(GSEA)

以MAG列线图评分作为参考表型,选择517例ccRCC患者的转录组数据进行基因集富集分析(GSEA)。观察到高风险组中的氧化磷酸化、Wnt信号通路和MAPK信号通路上调。但是,在低风险组中,P53信号通路、系统性红斑狼疮和果糖代谢下调(图7)。所有这些异常信号通路的富集均是恶性肿瘤的标志,其错误发现率(FDR)<0.05。

图7 GSEA结果显示两个列线图得分水平之间显著的生物过程富集。

讨论

恶性肿瘤进展和肿瘤高复发率已使ccRCC成为泌尿系统中最致命的肾癌类型。以前的研究主要集中于筛选在肿瘤和非肿瘤组织之间差异表达的标记基因。但是,在处理整体细胞群的转录组时,可能会丢失许多重要的基因。此外,阐明ccRCC转移和复发相关的潜在机制相对更有意义。在本研究中,作者分析了高质量的121个细胞的scRNA-seq数据,描述原发性和转移性ccRCC之间的基因组特征,在此过程中鉴定了17个关键的MAG。此外,利用内部和独立的外部组来验证MAG标记基因。因此,构建了四个变量的MAG列线图模型,可以高效预测癌症特异性肿瘤的进展。多元组学分析表明,高MAG列线图风险评分与高TMB相关,这被证明是预后的危险因素。在另一方面,这些发现表明,将scRNA-seq方法与人群的验证相结合,是一种强大而敏感的策略,可以在ccRCC中获得具有潜在临床价值的重要标记基因。

在严格的质量控制下进行了细胞的scRNA-seq分析,过滤掉了具有高比例线粒体DNA测序(>5%)的细胞,这是统计结果的一个混杂因素。随后的PCA分析(一种线性降维方法)对ccRCC细胞的三个亚群表现出良好的区分度,表明了所含数据的准确性和可靠性。最终利用t-SNE算法进行了非线性降维,并根据实际的细胞类型成功地将细胞分为原发和转移亚组两类。构建PDX模型来保持相似的病理和遗传异质性,在聚类分析中,患者来源的mRCC和PDX-mRCC细胞亚群之间没有显著差异。基于这些结果,在两个细胞簇之间筛选了标记基因,研究人员最终选择了前44个作为显著标记基因(中枢基因),这些基因与转移密切相关,因此这些基因可能决定ccRCC的总体预后。此外,基于RNA-seq进行了单细胞轨迹分析,该过程以模拟的时间顺序排列细胞,并说明了它们的发展轨迹,包括细胞分化和其他生物学过程。在本研究中,利用标记基因来模拟轨迹图。尽管两个细胞簇的注释都是上皮细胞,但明显的曲线趋势显示从原发性肿瘤到转移性肿瘤的差异基因表达的改变。

17个鉴定的MAG在一些已报道的跨恶性肿瘤的进展中起着重要作用。全基因组关联分析鉴定了12p12.1处的RCC风险等位基因,这是增强子的变异,它上调BHLHE41基因的表达,进而诱导IL-11基因促进肿瘤生长。BNIP3作为促凋亡因子,FoxO-BNIP3轴在调节mTORC1和能量压力下的细胞存活发挥独特作用。CCL20和CXCL1是肿瘤微环境中癌细胞或其他免疫细胞介导的趋化因子,与ccRCC的分化和进展有关。此外,还检测到了涉及能量代谢途径的一系列基因,其中包括MT-ND3、MT-ND4、MT-RNR2和MT2A。以前的研究强调了这些基因在癌症代谢调节中的重要作用。我们观察到这四个基因在转移细胞中均上调,并且所有这些基因的高表达水平与更高的肿瘤进展概率相关,为我们随后的研究提供了另一个方向。

为了进行验证,研究人员使用了另一个ICGC作为外部数据集来进一步测试MAG标记基因,发现MAG在预测OS或PFS中的临床价值。随后的多因素Cox回归分析由于数据不完整、结果冲突或不显著排除了TNM期的三个变量。鉴于MAGs与转移密切相关,研究人员仍在考虑是否可以将M期因素进一步整合到最终的列线图模型中,将来有必要进行大量的样本进行训练。此外,观察到两个MAG列线图风险组中的突变,发现SETD2、BAP1和MTOR在高PFS风险组中表现出更多的突变频率。因此,推测这四个突变体可能促进ccRCC的进展,并且高TMB也证明是与MAG相关的潜在危险因素。TMB或突变揭示了肿瘤中突变积累的过程,证明是对免疫疗法反应的有效预测因子。MAGs是否对药物治疗具有潜在的价值尚不清楚。为了进一步验证MAG的有效性,在几种常见的生物学途径中进行了功能富集分析,包括氧化磷酸化、Wnt信号通路和MAPK信号通路,它们是ccRCC中重要的信号通路。

值得注意的是,研究人员工作的优势之一是在研究中将scRNA-seq和验证结合在一起,进一步对内部和外部数据集进行了分析,来验证鉴定出的MAG标记基因。与ccRCC的传统转录组测序分析相比,scRNA-seq更具有优势,可以找到在传统测序中丢失的潜在中枢标记基因。此外,整合了多组学、大样本分析来验证pRCC向mRCC进化有关的MAG。尽管如此,仍然存在一些缺点,需要进一步优化。首先,细胞或肿瘤组织主要来自美国或欧洲人群,鉴定的MAG是否适合于亚洲种族仍不确定。其次,应该在当地医院中验证我们的发现。尽管标记基因及列线图在大量ccRCC人群中得到了很好的验证,但仍需进行补充性基础实验才能揭示MAGs促进肿瘤发展的具体机制。

评论

总之,这项研究是第一个基于scRNA-seq筛选ccRCC标记基因的研究,并在大量ccRCC样本中进行了验证。研究人员不仅描述了pRCC和mRCC之间的基因组特征和异质性,而且还发现了好几种MAG。这为预后提供了可能的标记基因,并为针对肿瘤转移的药物开发提供了理论基础。


更多推荐

科研 | PNAS:转录组学揭示急性和慢性饮酒对肝脏昼夜新陈代谢有不同的影响

重磅综述 | Cell:非编码RNAs在肿瘤学中的作用(IF=36.216)

(0)

相关推荐