为什么这个研究不使用inferCNV来判定细胞恶性与否呢
在教程:CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,我提到过肿瘤单细胞转录组数据的第一次分群规则是 :
immune (CD45+,PTPRC), epithelial/cancer (EpCAM+,EPCAM), stromal (CD10+,MME,fibo or CD31+,PECAM1,endo)
这样挑选到的epithelial/cancer (EpCAM+,EPCAM),细胞然后区分细胞恶性与否,比较复杂,看下面的教程:
但是最近看到于2019年5月发表在cell reports杂志的文章:《Dissecting the Single-Cell Transcriptome Network Underlying Gastric Premalignant Lesions and Early Gastric Cancer》,链接是:https://www.sciencedirect.com/science/article/pii/S221112471930525X 并没有走这个通用规则。
该研究使用的是10X单细胞转录组,实验设计是:
也就是说合起来是9个病人的13个样品 :
3 wild superficial gastritis (NAG) biopsies chronic atrophic gastritis (CAG, 3 biopsies), intestinal metaplasia (IM, 6 biopsies) early gastric cancer (EGC, 1 biopsy).
总计质量好的有32,332细胞,总共是17 main cell clusters,但是仅仅是上皮细胞就有 24,223 个,这些上皮细胞主要是:
EC, endothelial cell; GMC, antral basal gland mucous cell; MSC, metaplastic stem-like cell; PC, proliferative cell; PMC, pit mucous cell; SM cell, smooth muscle cell.
如下:
非上皮细胞很少:
32,332细胞总共是17 main cell clusters,使用的细胞Marker列表如下:
我留意到,研究者在在判定上皮细胞恶性与否的时候,使用的是指定基因的表达量,而不是我前面提到的inferCNV流程。
鉴定到了不到800个恶性的肿瘤细胞,而且可以看到一些癌症相关基因高表达,而且在TCGA数据库的胃癌样品数据验证了。
图例如下:
(A) The t-SNE plot that showed the distribution of the cancer cell cluster (pink, n = 798) in the atlas.
(B) Boxplot for the distribution of expression of the gastrointestinal cancer marker CEACAM6, cell-cycle-related gene CCND2, and apoptosis-related gene BAX in diverse epithelial cell types,
(C) Boxplot of the differential expression for the putative cancer cell-related top six upregulated genes in the GC datasets in TCGA.
我注意到研究者并没有把表达矩阵或者测序数据共享到公共数据库
所以没办法下载后走多个流程验证研究者定义肿瘤恶性细胞的策略的好坏了,不过,可以找到其它公开的胃癌单细胞转录组数据,可以在其它数据集里面验证这个文章的策略是否靠谱。
就作为学徒作业吧,搜索到一个公开的胃癌单细胞转录组数据,走inferCNV流程和指定基因的表达量流程,看看两种策略判定上皮细胞恶性与否的一致性如何!