以毛玻璃样结节为特征的肺腺癌单细胞转录组图谱

文章信息

文献标题:Single-cell transcriptome atlas of lung adenocarcinoma featured with ground glass nodules
发表时间:2020.10.06
发表杂志:Cell Discovery(IF=6.255)
原文链接:https://www.nature.com/articles/s41421-020-00200-x

摘要

作为肺腺癌(adenocarcinoma, ADC)早期类型的一种,毛玻璃样结节(ground glass nodule, GGN)被越来越多地发现,目前占肺癌门诊患者的大多数。GGN 预后良好,其特点与实体腺癌(solid adenocarcinoma, SADC)有很大不同。为了更全面地理解GGNs,我们利用单细胞 RNA 测序(single-cell RNA sequencing, scRNA-seq)比较了 GGN-ADC和SADC。我们分别将 5 例来自肺 GGN-ADCs 和 5 例来自 SADCs 术后的肿瘤样本消化成单细胞悬液,并用 10x Genomics scRNA-seq 进行分析。我们获得了 60,459 个细胞,并将其分为 8 种细胞类型,包括癌细胞、内皮细胞、成纤维细胞、T 细胞、B 细胞、自然杀伤细胞(NK)、肥大细胞和髓样细胞。该图谱全面刻画了肿瘤细胞和基质细胞。作者发现,在 GGN-ADC 癌细胞中与增殖相关的信号通路出现下调,而基质细胞中血管生成相关通路被下调,某些胶原蛋白基因在成纤维细胞中低表达,并且免疫细胞更活化。此外,作者通过流式细胞术分离了 12 例 GGN-ADC 样本和等量 SADC 样本的癌细胞和 T 细胞(包括 CD4+ T 和 CD8+ T), 并通过 qRT-PCR 验证了关键分子的表达。通过综合分析 GGNs 中的细胞表型,我们对肺癌的发生提供了深刻的见解,这将有助于肺癌的预防和治疗。

实验设计

临床样本

  • scRNA-seq:5 例 GGN-ADCs、5 例 SADCs
  • qRT-PCR:12 例 GGN-ADCs、12 例 SADCs

测序

10x Genomics Single cell 3′ reagent kit v2

数据分析

  • 参考基因组:10x Genomics 提供的 GRCh38-1.2.0 也就是 Ensembl human reference genome GRCh38.84 (dna.primary_assembly)
  • 上游分析流程:Cell Ranger (v.3.0.0)
  • 表达矩阵质控:得到 60,459 个细胞
    1. 根据每个细胞的 UMI 数和 Gene 数,去除 范围外细胞
    2. 去除线粒体 UMI 比例 > 10 % 的细胞
  • 归一化、标准化、降维及聚类:Seurat 2.3.4
  • 差异表达分析:似然比检验(Likelihood ratio tests)
  • 细胞类型推断:SingleR 包,参考数据集 Human Cell Landscape(http://bis.zju.edu.cn/HCL/index.htmL)
  • 拷贝数变异(CNV)分析:inferCNV
  • 信号通路分析:基因集变异分析(Gene Set Variation Analysis, GSVA)
  • 转录因子分析:SCENIC 包,motif 数据库 RcisTarget 和 GRNboost

主要结果

GGN-ADC 和 SADC 样本的主要临床数据

  • 平均年龄:GGN-ADC(63.8)vs SADC(65.4)
  • 肿瘤大小:GGN-ADC(1.70 cm)vs SADC(2.54 cm)
  • KI-67(细胞增殖相关)免疫组化分析:GGN-ADC(8.4 %)vs SADC(18.0 %)

scRNA-seq 及细胞类型分析

  • 质控后保留的 60,459 个细胞中,有 34,285 个来自 GGN-ADC,26,174 个来自 SADC。
  • 聚类分析得到 13 群细胞。其中,cluster 5 主要来自 GGN-ADC-1,cluster 10 全部来自 SADC-5,而 cluster 11 来自除 SADC-4 以外的样本,其他 10 个聚类中的细胞则来自所有样本。
  • 根据已知的经典 marker genes 注释细胞分群,包括癌细胞(EPCAM: clusters 2, 5, 10, and 11)、成纤维细胞(COL1A1: cluster 7)、内皮细胞(CLDN5: cluster 9)、T 细胞(CD3D: clusters 0 and 3)、B 细胞(CD79A: cluster 12)、NK 细胞(NKG7: cluster 4)、肥大细胞(MS4A2: cluster 8)以及髓样细胞(LYZ: clusters 1 and 6)。

作者继续划分出了 50 个亚聚类,包括 7 个内皮细胞亚群、5 个成纤维细胞亚群、17 个 T 细胞亚群、3个 B 细胞亚群、4 个 NK 细胞亚群、11 个巨噬细胞亚群、3 个肥大细胞亚群和 13 个癌细胞亚群。在随后的结果中,作者分别对各个亚聚类做了详细阐述。

癌细胞亚群分析:GGN-ADC 中增殖相关通路下调

作者首先解释了根据 EPCAM 注释癌细胞的理由。除了已知的参考文献外,作者通过 CNV 分析发现在 SADC 样本 EPCAM 阳性群的 13 号染色体出现大量缺失;和 CNV 正常的细胞相比,两组样本中的 EPCAM 阳性细胞根据不同的 CNV 模式(扩增或缺失)被分为 9 个 group,在 group 2 中 2 号染色体出现明显扩增。综上,作者推断 EPCAM 阳性群更可能是癌细胞。

接下来就是比较常规的分析了:

  • 13 个癌细胞亚群注释:AT1/AT2 细胞(SFTPC, ABCA3, AGER: clusters 0–5, 7–9, and 11–12)、纤毛细胞(CAPS: cluster 6)和 Clara 细胞(SCGB1A1: cluster 10)。
  • GSVA:在 GGN-ADC 来源的癌细胞中,Hedgehog 通路、细胞周期、NF-κB 通路、Toll 样受体(Toll-like receptor, TLR)通路和血管内皮生长因子(vascular endothelial growth factor, VEGF)通路均下调。
  • SCENIC:在 GGN-ADC 组中,肿瘤抑制相关的 KLF6 显著上调,而影响增殖、凋亡、免疫细胞激活和基质降解的 EGR1 相关基因显著下调。
  • 差异表达分析显示,与 GGN-ADC 相比 HSPB2CCL2CXCL14MDKMMP7 等促癌基因在 SADC 中显著上调,提示 SADC 比 GGN-ADC 恶性程度更高。

内皮细胞亚群分析:GGN-ADC 中的血管再生相关通路下调

  • 7 个内皮细胞亚群注释:血管内皮细胞(FLT1: clusters 0–3, 5 and 6)、淋巴管内皮细胞(PDPN: cluster 4)。部分细胞还可注释为肿瘤内皮细胞(HSPG2: clusters 0 and 2–6)和正常内皮细胞(MT2A: clusters 0–6)。
  • 正常内皮细胞(主要来自 cluster 1)在 GGN-ADC 组占了绝大多数。
  • GSVA:PI3K/AKT 通路是 GGN-ADC 组中主要下调的通路,并且其他涉及血管再生的通路诸如 HIF-1 和 VEGF 通路均较 SADC 组下调。此外,氧化磷酸化和代谢相关的通路在 GGN-ADC 中也相对下调。
  • 作者比较了一些血管再生相关基因(VEGFC, MMP2 and HSPG2)和免疫激活相关基因(HLA-E, HLA-DQA2, CCL4 and CXCL2)的表达差异,均提示与SADC 相比 GGN-ADC 组的血管再生受抑制、免疫功能更活跃。话说没有人发现作者的图标反了吗???
  • SCENIC:GGN-ADC 中主要下调 HOXD9 调控的基因,它们和促进癌细胞生长、侵袭和代谢有关。除此之外,免疫细胞激活和分化相关的转录因子诸如 RUNX1 和 SPI1 等调控的基因在 GGN-ADC 中上调。

成纤维细胞亚群分析:GGN-ADC 低表达某些胶原蛋白基因

  • 5 个成纤维细胞亚群未注释)的 marker genes:GPC3, TINAGL1, COL11A1, PTPRC and KYNU
  • 与 SADC 相比,多个胶原蛋白基因(COL1A1, COL1A2, COL3A1, COL5A2, COL6A3, and COL10A1)在 GGN-ADC 组低表达。
  • GSVA:在 GGN-ADC 组中,主要下调了氧化磷酸化通路和 cAMP 信号通路,此外还有 Ras-PI3K-mTOR 通路。
  • SCENIC:GGN-ADC 组主要上调 PPARG(抑制肿瘤进展、代谢和血管再生)而下调 SOX9(促进增殖、抑制凋亡和炎症因子表达)和 EGR3(细胞生长和侵袭)

T 细胞亚群分析:GGN-ADC 来源的 T 细胞激活肿瘤抑制通路

  • 17 个 T 细胞亚群注释:CD8+ T(CD8A: clusters 2, 4, 6 and 9)、CD4+ T(CD4: clusters 0, 2, 3, 5, 8, 10, 11, 14 and 16)和调节性 T(FOXP3: clusters 3, 5, and 11)。部分细胞还可注释为增殖 T (MKI67: cluster 12)和耗竭 T(LAG3: clusters 0–13 and 15)。
  • 差异表达基因:GGN-ADC 组 CD8+ T 细胞下调 KRLB1(抑制细胞毒作用),上调 CD48GZMKLY6EIGLC2(CD8+ T 细胞激活和免疫检查点调节)
  • GSVA:在 GGN-ADC 组中:
    1. CD8+ T 细胞:主要激活代谢、氧化磷酸化通路,同时还激活抗原递呈相关通路;
    2. CD4+ T 细胞:主要抑制 Th17 细胞分化通路,相关的 IL-17 信号通路也下调。另外下调的还有 Th1 和 Th2 细胞分化通路。而 NK 细胞介导的细胞毒作用相关通路则较 SADC 组上调。

B 细胞亚群分析:GGN-ADC 中 B 细胞递呈抗原并触发免疫反应

  • 3 个 B 细胞亚群注释:滤泡 B(MS4A1: cluster 0)、MALT/浆细胞样 B(IGHG1 and JCHAIN: cluster 1-2)。
  • GSVA:GGN-ADC 中主要上调抗原递呈、抗体分泌和 NK 细胞介导细胞毒作用相关的通路。

NK 细胞亚群分析:GGN-ADC 中的 NK 细胞更有稳健性

  • 4 个 NK 细胞亚群未注释)的 marker genes:METRNL, GIMAP1, MT1E and KLRC1
  • GSVA:GGN-ADC 中上调 Rap1 信号通路、PI3K/AKT 通路、氧化磷酸化、抗原递呈和趋化因子通路等。

髓样细胞和肥大细胞亚群分析:GGN-ADC 中巨噬细胞的 M1 极化

  • 11 个髓样细胞亚群注释:巨噬细胞(CD163: clusters 0 and 1)、朗格汉斯细胞(FCER1A: clusters 2, 4 and 5)、交叉递呈树突状细胞(CLEC9A: cluster 9)和粒细胞(S100A12: cluster 6)。部分细胞还可注释为肿瘤相关细胞(IFITM3: clusters 0–10)和肺相关细胞(RGCC: clusters 0–10)。
  • 3 个肥大细胞亚群未注释)的 marker genes:VWA5A, KLRB1 and CYBB
  • GSVA:在 GGN-ADC 组:
    1. 巨噬细胞:主要富集了脂肪消化和吸收相关通路。此外,NF-κB、PI3K/AKT、Notch 信号和 mTOR 信号通路也出现激活,提示巨噬细胞的 M1 极化。
    2. 肥大细胞:主要激活趋化因子通路,此外还有 JAK-STAT、PI3K/AKT、Notch、mTOR 信号通路等。与炎性反应相关的血管再生通路也有富集(Rap1、HIF-1 和 VEGF 信号通路)。
  • 差异基因表达:来自 GGN-ADC 的巨噬细胞高表达 M1 极化标记(HLA-DR)、多种促炎症细胞因子如 IL-1 和 TNF-α,以及趋化因子 CCL4。

qRT-PCR 验证

  • 主要验证了癌细胞和 CD8+ T 细胞在两组间差异表达的基因

总结

本文在单细胞水平上刻画了来自 GGN-ADC 和 SADC 肿瘤微环境全面的细胞图谱,包括癌细胞的不同谱系来源,并揭示了两种肿瘤分型在信号通路和转录因子调控方面的差异。总体而言,与 SADC 相比,GGN-ADC 来源的癌细胞恶性程度较低。此外,GGNs 中的内皮细胞和成纤维细胞对肿瘤进展的促进作用更弱,而免疫细胞的抗肿瘤功能相对更活跃。这些结果为了解癌细胞和 TME 的生物学特性和功能提供了数据基础,有助于理解肺癌的发生发展机制以及探寻有效抑制肿瘤进展的关键。

我的评价

又一篇全是套路的单细胞文章。作者先是无监督聚类分出各个细胞大类,然后对各大类进行再分群,每个大类写一个 result,每个 result 里面几乎雷打不动三板斧(降维聚类、GSVA、SCENIC)。作者在分析方法中提到用 SingleR 来推断细胞类型,但在主要结果里似乎没有充分体现这一点,对亚群做阐述时还是相当灵活的,甚至有些亚群不做注释而仅仅描述 marker genes。有一说一,本文作为图谱类文章,数据分析的工作基本还是比较完备的,能写这么多亚群分析的 results 正好说明作者的数据全面捕捉到了肿瘤微环境中的细胞异质性,可能还有挖掘的价值。

从目前来看,我认为单细胞未来的大方向主要有两个:一是多组学,二是解析疾病。而两者都绕不过一个词:整合分析。多组学整合分析自然不必多说。目前随着人类细胞图谱计划的推进,大量描绘正常人体组织细胞异质性的图谱已经产生,这些图谱理论上可以作为研究疾病发生和进展的有用参照,这势必需要将它们和来自患者的数据进行整合。尽管目前有各种整合分析的生信工具被开发出来,但大多数工具主要解决的都是降维、聚类和细胞注释的问题,对于直接跨数据(如疾病-对照)研究差异表达基因(集)一类的问题尚缺乏广泛认可的范式。比起高维数据的处理,这些问题可能更依赖于在统计学上构建比较和检验的模型,以便于处理不同来源的批次效应。

(0)

相关推荐