TCGA的数据还能这么挖!还发了9+分!
Computational staining of pathology images to study the tumor microenvironment in lung cancer针对肺癌肿瘤微环境的病理图像智能识别
一、研究背景
肿瘤组织病理图像可以用于肿瘤分级,分期并提供肿瘤微环境信息。近期研究表明,肿瘤浸润淋巴组织(TIL)的空间组成和结构对肿瘤微环境(TME)有重要影响。
不同类型细胞的空间分布提供了TME的重要信息,揭示细胞生长模式与不同类细胞的空间联系,可用于肿瘤生长与转移预测。
二、分析流程
三、结果解读
1.建立HD (Histology-based Digital)染色模型
从NLST与TCGA-LUAD数据集中获HE染色病理图像,病理医生标记感兴趣区(ROI),然后作者使用 Mask-RCNN架构提取图像块,分别标记图像块中不同类型细胞核。使用CoxPH (Cox Proportional Hazard) 模型提取图像特征,进行预后风险评分,高评分表示病人预后差。
图1.模型建立过程
2.HD染色模型可同时准确地进行细胞核分割与分类
以Mask-RCNN 结构为基础建立深度学习模型,进行细胞核分割与分类。使用Coco预训练模型并进行调整,对图像进行增强与标准化,减少偏差。训练集 batch size = 2, learning rate = 0.01 在500代后减为0.001, momentum = 0.9, 最大迭代数为1000。然后对模型检测覆盖率,分割准确度,分类准确度进行评估,验证集中当epoch=707时损失最小,选择此模型以避免过拟合。结果显示,细胞核共被划分为了六类:肿瘤细胞、基质细胞、淋巴细胞、巨噬细胞、红细胞和核碎裂,对应不同颜色(2A)。肿瘤细胞分类准确率在验证集,测试集分别为88%与 90%,模型整体分类准确率为85%(2B)。为进一步验证模型分类准确率,作者还将分类结果与免疫组化染色结果对比,发现预测的淋巴细胞与CD3染色区域,预测的巨噬细胞与CD86染色区域基本一致,进一步证明模型预测结果较准确。
图2.部分结果展示与模型评估
HD染色模型可以应用于整个数字病理图像,生成细胞空间分布图像,划分肿瘤区域与淋巴浸润区域,有应用于病理诊断的潜能。
图3.HD染色模型应用结果
3.TME细胞核组成与空间分布的预后价值
作者使用 Delaunay 三角图连接被分割的细胞核,统计不同类细胞核间的连接数量,连接长度与每种细胞核的密度,获得TME中细胞分布特征。
作者使用 NLST 数据集训练 CoxPH (Cox Proportional Hazard) 预后模型,使用TCGA-肺腺癌数据集进行验证。提供从图像中提取的TME特征后,预后模型计算出病人的风险评分。根据风险评分是否高于中位数,将病人分为高低风险两组,高风险组预后显著差于低风险组, p = 0.0011,表示模型预测效果较好。
图4.高风险与低风险组生存曲线对比
使用多元CoxPH模型判断高低风险组的预后价值, 排除年龄,性别,吸烟,肿瘤分期等临床变量影响后,高低风险分组可作为病人预后的独立影响因素。
表1.调整潜在混杂因素的预测风险组多因素生存分析
4.图像特征与生物通路转录活动的关联
作者使用斯皮尔曼等级相关性分析TCGA数据集中mRNA表达与图像中TME特征间的关系,对TME特征进行基因富集分析,BH矫正后双尾P<0.05表示基因富集,结果表明TCR与PD-1通路的转录活动与淋巴细胞密度正相关(5A),细胞周期通路中除POLD4表达与肿瘤细胞核密度负相关外,其余都为正相关(5B,5C)。
图5.图像特征与生物通路转录活动的关联
5.可公开访问的细胞核分割与分类模型
为更好的促进HD染色模型的使用,作者开发了线上工具。上传病理图像后,系统为图像指定ID,然后自动生成分割结果与每种细胞核的空间坐标。
图6.线上工具使用流程
小结
作者利用标准HE染色病理图像建立了深度学习模型,对肿瘤组织细胞核进行分割与分类,生成细胞空间分布图像,来描述肿瘤TME特征。这些特征与不同通路的基因表达和病人预后相关,于是作者基于图像中TME特征进一步建立了肺腺癌病人预后模型,并且如果使用其它数据训练,此模型同样适用于其它类型肿瘤。