生信分析要做到什么程度才能发顶刊?
Spatial domain analysis predicts risk of colorectal cancer recurrence and infers associated tumor microenvironment networks
空间域分析预测大肠癌复发风险并推测相关的肿瘤微环境网络
一、研究背景
大肠癌(CRC)是全球第四大常见的癌症,也是癌症相关死亡的第二大病因。目前CRC使用TNM分期,但其中每个阶段的患者预后都有很大差异,比如完全切除肿瘤、没有残留肿瘤负荷和转移迹象的II期患者中,CRC复发率高达30%,而一些分期更高的CRC患者却显示出稳定性甚至可以自行消退。
与其他多因素疾病相似,肿瘤微环境(TME)内不同细胞类型的空间组织及活动状态产生复杂的生物学网络,CRC于此背景下通过上皮细胞克隆选择来发展恶性表型。对TME的更深入理解可能有助于识别与疾病进展及新型治疗策略相关的生物标志物,从而改善CRC预后。本文中作者开发了一个适用于所有实体瘤的空间计算和系统病理学平台(SpAn),来分析TME信号网络中的空间关系,以预测CRC复发风险并识别CRC生物学信息网络。
二、分析流程
三、结果解读
1.组织微阵列的超复合免疫荧光(HxIF)成像
本研究所使用的CRC患者队列:来自Clearview癌症研究所收集的747例肿瘤样本,构建FFPE组织微阵列(TMA)后,排除质量控制未达到标准的样本以及接受化疗的患者,最终纳入432例chemo-naive(在5年以上的随访中未采取辅助治疗)的I-III期CRC患者,以研究未受干扰的原发肿瘤生物学。
GE Healthcare推出的Cell DIVE多重成像技术(MultiOmyx):对TMA进行单细胞分辨率的HxIF成像。Cell DIVE通过对2–3个生物标志物加上DAPI核复染的顺序多重成像,进行label–image–chemical-inactivation的反复循环,可以完成对60多个生物标志物的超复合成像。
本研究使用的55种生物标志物包括:信号通路的代表性标志物,细胞外转运和代谢相关,肿瘤抑制相关,致癌相关,细胞间粘附、细胞和基质结构相关,翻译后修饰相关,细胞类型及其状态相关的标志物。
图1a,b展示了HxIF成像结果,标记55种标志物及DAPI核复染。
图1:SpAn平台工作流程
2.SpAn的空间域分析计算
图1c-f及图2a展示了SpAn基于空间域的生物标志物分析计算。
首先将TMA明确分为上皮区域、基质区域和上皮-基质区域,对TME进行虚拟的三级空间解剖,以研究各区域细胞之间的相互作用:
上皮区域细胞(图1c)使用E-钙粘蛋白和泛细胞角蛋白进行鉴定,单个上皮细胞使用Na+K+ATPase细胞膜标志物、核糖体蛋白S6细胞质标志物以及DAPI核染色进行标记,其余细胞分配到基质区域(图1d)。
使用直径50µm并部分重叠的圆圈对TMA点进行细分,保留其中同时具有E-钙粘蛋白阴性和阳性染色的圆圈,然后将这些圆圈合并形成宽度为100 µm的连续上皮-基质区域(图1e)。
接着分三个域计算样本中55个生物标志物的平均强度值以及55个标志物之间的1485(55*54/2)个Kendall秩相关值,合并为域特异性的生物标志物特征向量f(M = 1540),作为SpAn的数据输入(图2a)。选择非参数的Kendall秩相关作为相关度量,可以在存在测量噪声和小样本量的情况下稳健地捕获生物标志物的关联。
图2:SpAn特定于域的特征选择
3.基于空间域的特征选择及CRC预后模型的建立
SpAn通过LASSO-Cox回归来确定构成CRC 5年复发风险预后模型的最佳空间域特征子集(图2b),然后根据所选特征学习预测复发风险的模型,并且进行了500次bootstrap重抽样以测试所选特征的稳定性,仅保留在90%的运行中保持其系数的特征,图3中黑色柱形即选入的特征。
作者还使用L2范数重新学习包含以上特征的预后模型,以最终确定回归模型中特征的系数。最后SpAn将这些域特定的特征组合成单一递归引导的空间域预测模型:
图3:选定特征的稳定性分析
接下来作者对SpAn的预测功能进行了验证,使用bootstrap重抽样和分层抽样,获得了500次使用独立训练和测试集运行的结果。
ROC曲线以及平均ROC曲线(图4a)显示平均AUC为88.5%(标准误0.1%),灵敏度和特异度的平均值分别为80.3%(标准误0.4%)和85.1%(标准误0.3%)(图4b),且阴性和阳性似然比分别为0.22和7.2,显示出较好的预测性能,并且作者最大化正确指数,确定了ROC曲线上的临床相关操作点,从而最小化总体误诊率。
图4c中蓝色和红色生存曲线分别显示500次运行中SpAn所鉴定的低危和高危患者,可以看到组间存在显著的生存差异。
图4a-c:SpAn预测功能验证
4.SpAn原理的验证
SpAn平台使用虚拟空间解剖然后结合三个特定域的方法,基本原理是TME及其空间组织、上皮和基质域在肿瘤生长和复发中所起的不同作用。作者采用模型比较的方法来验证这一原理预测复发风险的有效性。构建了SpAn null模型、临床模型、生物标志物表达模型、临床+生物标志物表达模型及SpAn+临床模型与SpAn模型进行比较。
SpAn null模型,不对TMA点进行空间解剖,学习过程与SpAn相同。
临床模型输入与年龄、性别和TNM分期相关的临床特征,学习过程基于Cox回归分析。
生物标志物表达模型输入生物标志物表达强度,学习过程与SpAn相同。
图4e显示了每个模型ROC曲线的AUC小提琴图,可以看到SpAn具有较好的预测性能,对其他模型有很好的改进作用。
为了量化此种改进的统计意义,采用非参数Kruskal-Wallis秩和检验进行组间比较,并且进一步采用Dunn法进行多重比较分析。结果见补充表4,可以看到除了红框标记的两组外,在99%置信区间内均具有显著的统计学意义。
以上结果证明了TME相关空间域建模的可行性,除此之外,SpAn及null模型均优于单独的临床特征和生物标志物表达,证明生物标志物表达及其相关性的联合利用也具有好的改进作用,而目前发表的最新进方法,包括Immunoscore,均依靠生物标志物表达。
结果还显示将临床特征纳入SpAn模型在性能改善上无统计学意义(p值0.082)。
图4d:不同模型的AUC小提琴图
补充表4:模型性能差异的两两比较
5.SpAn预测I–III期CRC患者的5年复发
图4e的箱线图显示SpAn在I至III期CRC患者中均具有较优的预测性能,ROC曲线的平均AUC分别为82.1% ,89.4%和88.6%(标准误0.4%,0.2%和0.2%),证明了SpAn具有较好的稳定性,其中I期表现的相对不足可能是由于研究中仅包含10例CRC复发的I期患者。
目前的临床指南中不建议对II期进行常规辅助化疗,作者认为SpAn的应用可以识别高危和低危的II期患者亚群,进而制定个性化的治疗方案以改善患者预后,还可以通过密切随访方案对高危II期患者进行术后监测。
而在III期患者中SpAn可以识别其中具有良好预后的亚群,进行术后监测和辅助化疗方案的调整。
图4e:CRC不同分期的AUC箱线图
6.SpAn的预测性能在5年内保持稳定
多数CRC复发发生在5年内,其中90%发生在4年内,因此作者进一步研究5年间SpAn预测性能随时间的变化,图4f绘制了以年为单位的AUC值变化曲线,黄色区域为500次bootstrap计算出的95%置信区间,可以看到随着时间点的后移,AUC仅小幅度地缓慢下降,表现出较好的预测稳定性。
这一结果可能表明SpAn捕获了原发肿瘤复发的关键性生物学基础。
图4f:时间依赖的AUC值变化曲线
7.SpAn推测CRC复发的空间域网络
由于SpAn显示出的高预测性能,作者希望系统地理解空间域模型背后的生物学基础。
作者使用选定特征的N个生物标志物的Kendall秩相关构建N×N相关矩阵,对每位患者进行偏相关分析,将得到的相关系数按照CRC无证据和CRC复发患者队列分为两组,计算两组之间的Jensen-Shannon散度,由此得到域特异性的信息矩阵(图5a-c)。
然后建立以生物标志物为节点的关联图,以边缘权重来量化CRC复发患者和无复发患者之间生物标志物相关性的差异变化和信息距离,权重越大,距离越大,两组患者的两个指标之间的差异变化越显著,图5d-e为以99百分位作为阈值得到的关联图,作者将此定义为CRC复发最重要的空间域网络。
上皮-基质域网络由三个主要子网络组成,与肿瘤侵袭性T淋巴细胞、DNA错配修复、细胞过程的破坏、癌相关成纤维细胞(CAF)在增生微环境中的作用有关。CAF可促进EMT以及β-catenin和磷酸化MET的差异表达,与上皮及基质空间域网络中的特征一致,并且在CRC共识分子亚型(CMS)中也有应用。
而在上皮域中肿瘤侵袭性T淋巴细胞及DNA错配修复两个子网络的关联可能与促进肿瘤细胞的生长,逃避免疫监视有关。
在基质域中观察到肿瘤相关的巨噬细胞网络,偏向由AKT / PTEN调控的M2型,已知与CRC预后不良有关。
图5:SpAn派生的空间域网络
8.空间域网络的STRING和KEGG富集
最后作者对每个空间域网络进行了STRING蛋白互作网络和KEGG生物途径的富集。图6展示了最终得到的富集网络,对同时与多个空间域相关的通路进行了标识。
多种富集的通路于CMS亚型相关,包括Pi3k-Akt信号传导和细胞周期途径,癌症中的蛋白聚糖,粘着斑和microRNA,表明CMS亚型在CRC进展和复发中的协同作用。
此外还富集了几个已在CRC致癌或抑癌作用中广泛研究,但在CRC复发中尚未深入研究的途径,包括甲状腺激素信号通路,细菌的入侵途径。
网络还富集在HIF-1,HER2和T细胞受体信号传导途径,并且MAPK和PI3K-AKT信号级联与以上讨论的许多途径有关。
图6:STRING和KEGG富集网络
小结
本研究展示了SpAn的新颖概念,对TMA使用Cell DIVE的HxIF成像技术,通过空间域划分、标志物相关性计算,实现统计模型的建立,从而提供实体瘤的高灵敏度和特异度预后模型,并推测其特异性的生物信息网络,具有广阔的应用前景。通过bootstrap重抽样,作者在模型的ROC曲线、生存曲线,与空模型、临床模型等其他模型的比较,CRC不同分期及时间稳定性几个维度对SpAn性能进行了充分验证。作者表示将在后续研究中继续优化SpAn,并将其应用于CRC以外的其他实体瘤。
点击下方的阅读原文,即可获取今天小编为大家精读的文献,本期的分享就到这里,一起期待下期的精彩分享吧~
科研菌学术讨论群,在群内可以用自己的昵称,广告一律踢;其他公众号的宣传也不发,就算是要发,提前和小编商量和确认,不然也是一律踢哈。
欢迎添加小编微信↑↑↑
请大家加我的时候就备注好“学术讨论群”以及自己的“单位+专业+姓名”
编辑:冻鸳鸯
校审:糯米饭