科研 | Nucleic Acids Research:SingleCellSignalR:从单细胞转录组学推断细胞间网络
编译:夕夕,编辑:十九、江舜尧。
原创微文,欢迎转发转载。
单细胞转录组学为推断细胞网络中配体受体(LR)的相互作用提供了前所未有的机会。本文介绍了一种新的LR数据库和一种新的正规化评分来执行这样的推论。本文首次尝试评估预测LR的可信度,并表明本文的正则化评分优于其他评分方案,同时可以控制假阳性。SingleCellSignalR是一个开放访问的R包,用户可访问并且可以从https://github.com/sca-ircm获得它。分析结果有多种标签和图形格式。例如,作者提供了一个独特的网络视图,整合了所有的细胞间相互作用,以及受体与细胞内表达通路之间的功能。对相关工具进行了详细的比较。本文使用小鼠表皮数据证明了单细胞信号,并发现了一个由外到基底层的定向通讯结构。
论文ID
原名:SingleCellSignalR: inference of intercellular networks from single-cell transcriptomics
译名:SingleCellSignalR从单细胞转录组学推断细胞间网络
期刊:Nucleic Acids Research
IF:11.147
发表时间:2020.3
通讯作者:Jacques Colinge
通讯作者单位:Institut de Recherche en Cance ́rologie de Montpellier, Inserm, F-34298 Montpellier, France
DOI号:doi: 10.1093/nar/gkaa183
简介
在多细胞生物中,细胞与相邻或远处的细胞进行大量的相互作用。在健康和患病的情况下,细胞之间相互作用以协调它们从早期发育阶段到成熟组织的发展命运和行为。尽管其他机制也可能发挥作用,例如分泌的囊泡或离子通量,但是细胞间相互作用的重要部分仍通过分泌的配体和细胞表面受体的物理相互作用进行。在特定的肿瘤情况下,癌细胞可以通过分泌因子重编程其微环境,从而将中性或抗肿瘤细胞转变为肿瘤支持因子。单细胞RNA测序(scRNA-seq)技术的出现为研究人员研究哪些细胞组成特定组织提供了方法。样本中存在的不同细胞群可以通过应用无监督聚类来确定。存在进一步的工具来推断细胞内途径的活性,即细胞内部状态。要了解组织中单个细胞的作用,则需要弄清楚细胞之间的相互作用。最近基于scRNA-seq的研究说明了配体-受体(LR)相互作用图谱为组织发育和体内平衡或肿瘤生物学提供更好的见解。例如,Puram等研究头颈部鳞状细胞癌,鉴定出一种LR相互作用,TGFB3- TGFBR2,它参与了处于肿瘤前沿的上皮到间充质转化的癌细胞与癌症相关的成纤维细胞之间的作用。这些结果凸显了研究人员对系统生物学工具的需求,该工具将通过推断可信的假定LR相互作用进行后续验证来协助研究人员描绘细胞网络。
SingleCellSignalR是R中第一个可用的此类工具。它依赖于已知LR交互的综合数据库,作者称之为LRdb。它还引入了新的正规化打分,旨在适应单细胞数据。LRdb是整合和整理现有资源以及手动添加的数据库。据作者所知,它是此类数据库中最大的。新的计分方法的优点是便于在LR交互得分上使用稳定的阈值来控制假阳性(FP),而不仅对LR交互进行排名。SingleSignalR可以从原始读取计数矩阵开始,并在推断细胞群体之间的LR相互作用之前使用集成的数据归一化,聚类细胞类型。或者,这些初步步骤可以用任何其他工具或框架代替,并使用SingleSignalR研究LR的交互作用。为了便于解释LR交互作用,提供了一系列可视化和补充分析工具。LRdb包含人类基因,但研究者可通过将鼠类基因翻译成人类直系同源基因来扩展鼠类数据集。
文章思路
结果
为了推断细胞类型A和B之间的LR相互作用,作者询问LRdb并对每个LR对进行评分,发现在A中平均配体表达l>0,在B中平均受体表达r>0,反之亦然。这样的分数可以对候选LR对进行逐个排名,但是用户没有任何线索来判断可能的FP。因此,分数的计算应伴有确定阈值的程序,低于该阈值则认为分数不可靠。常见的选择是将细胞类型分配多次改组并获得P值。尽管直观且统计上合理,但此解决方案并未解决真正的问题。为了解决这一问题作者引入了正规化评分:
为了估算合适的LRscore阈值并将LRscore与其他评分方案进行比较,作者使用一个临时基准,该基准在评分方案上是无偏差的,并且在生物学上足够准确。作者首先使用了Ramilowski的数据,该数据报告了144种原代细胞类型中许多配体和受体的表达情况(Tref)。作者认为,TPM大于10的基因可被视为保守的基因表达极限。因此,作者设计了一个标准,如果配体和受体TPM均高于10,则LRdb的配体,受体和细胞类型对与Tref中重叠的那些将被认为是正确的。如果低于10则似乎是不正确的。虽然,配体和受体的伴随表达不能保证功能相互作用,但是由于已知配体和受体对于至少一种细胞类型的组合具有相互作用,因此作者认为上述基准足以达到他们的目的。其次,作者使用了蛋白质组学的数据,该蛋白组学研究了处于稳定状态和激活状态的28个主要人类造血细胞群体。即,每个细胞群均一式四份进行测量(Pref)。设置平均光谱技术≥2作为阈值。作者使用ROC曲线比较方法并确定分数阈值为5%FP。
作者将以上两个基准应用于五个数据集,这些数据集涵盖了Tref和Pref中的几种细胞类型。Tref或Pref中的每对细胞类型都会产生ROC曲线(图1A)。图1B中显示了所有数据集以及所有以Tref表示的细胞类型对的曲线下面积。从图中可以看出,LRscore,乘积和平均值获得了最佳的AUC。图1C表示阈值的变化会对FP产生怎样的影响。在图1D中,作者显示了如何确定所有单细胞数据集共有的阈值,在所有五个数据集的所有ROC曲线的75%中强加了<5%FP。作者发现LRscore>0.4。重复蛋白质组学的分析,在图1E和F中得出的结果非常相似。这些结果表明,一些普遍的阈值无法准确确定,但是打分正规化已经是朝着更严格的界限迈出的重要一步。
在打分和应用阈值后,Single-CellSignalR以各种格式输出LR交互。作者采用10X的PBMC的数据输入默认流程,该流程将细胞聚为六类:T-细胞,B-细胞,调节性T细胞,中性粒细胞,细胞毒性细胞和巨噬细胞(图2A)。总结性和弦图,指示每个细胞类群对之前的LR相互作用数(图2B)。中性粒细胞对细胞毒性细胞的旁分泌相互作用(图2C)。表达和分离的t-SNE图,以评估LR相互作用的特异性和患病率(图2D和E)。至少在一个细胞类型对中具有LRscore> 0.5的N个变化最大的LR对的综合表格视图(图2F)。MELANOMA数据患者89细胞间相互作用的集成网络(图2G)。T细胞中细胞内下游CTLA-4信号转导的例子(图2H)。
小鼠滤泡间表皮(IFE)是一种多层的上皮细胞,增殖细胞位于基底层(IFE B),主要调节细胞分裂。它们的子细胞向上进入基上层,同时进一步分化,直到到达最外层(IFE K2)(图3A)。从Joost 等数据中,作者选择了IFE细胞(658个细胞,图3B和C)。作者发现248个LR相互作用的LRscore>0.5,排名最高的主要涉及Psen1。基于新颖性和特定抗体的可用性,作者决定在小鼠表皮中验证Presenilin-1 / CD44的相互作用,这可能与细胞分化和组织组织有关。从图4D中,我们观察到这两种蛋白质在IFE层中的正确定位(左图和中图),Presenilin-1既是细胞质的又是分泌的。使用人类蛋白图谱(HPA)作为系统资源来搜索相应表皮层中的人类直系同源物表达,作者从176个推断出的LR相互作用中确认了158个。作者的ROC曲线分析所得出的FPs是10.2%。据称IFE顶层 K2细胞仅维持基本活性,而这些细胞中发现的有限数量的表达基因支持了这一点(图3E)。图3F为LR整体的相互作用,该图显示了IFE K2层发送的信号最多而接收的信号最少。图4H和I显示了IFE K2和K1之间的LR相互作用,以及IFE K2和D1之间的相互作用。通路分析表明,IFE K2细胞的相互作用主要参与生长和分化。这说明了外层和基底层之间紧密的长距离连接的概念,这可能在理解表皮恒定自我更新的调节中特别有用。
有趣的是,作者注意到参与创面愈合调节的LR对由IFE K2和D1表达(图4I)。这暗示了一种在受伤时快速反应,使K2细胞和D1细胞接触。作者发现了146个与免疫细胞相关的基因,在图4J中显示了具有清晰模式的选定基因,以及所有与免疫相关的基因的平均值。该结果增强了表皮免疫功能的潜力,并且可能对炎性皮肤疾病产生重要影响。
结论
在细胞间网络图谱这个的新兴研究项目中,SingleCellSignalR是一种R软件包,可帮助将复杂数据转换为高阶信息。该软件包附带各种图形表示形式和导出格式,支持用户对数据进行下游分析。特别值得一提的是能够代表完整的细胞间网络并将其导入系统生物学工具(如Cytoscape)中,并通过整合Reactome和KEGG途径探索受体下游信号的能力。
首先,作者讨论了LR相互作用的重要性。作者表明,与其他解决方案相比,SingleCellSignalR正规化打分可以更好地控制FP。假/真阳性率的估计需要依靠RNA-seq和蛋白质组学数据来构建基准。小鼠IFE中获得的结果支持了这些想法。
SingleCellSignalR对其他软件包开放,可以导入其他工具分析的UMI和read count矩阵,也可以使用SingleCellSignalR内置步骤来完成准备步骤。虽然SingleCellSignalR是为scRNA-seq数据设计的,但他可以与新兴的单细胞蛋白质组学技术一起使用。
DATA AVAILABILITY:The R package and LRdb are available from https://github.com/SCA-IRCM under the GPL v3 license; submitted to Bioconductor.
更多推荐
1 科研 | PNAS:转录组学揭示急性和慢性饮酒对肝脏昼夜新陈代谢有不同的影响