这样的lncRNA你觉得现在还能发3+分吗?
大家好,今天和大家分享的是2020年2月发表在OncoTargets and therapy (IF:3.337)上的一篇文章,“Identification of Novel lncRNA Markers in Glioblastoma Multiforme and Their Clinical Significance: A Study Based on Multiple Sequencing Data”,作者使用GTEx及TCGA数据库筛选出多形性胶质母细胞瘤(GBM)的DEGs并进行功能富集分析,构建ceRNA网络。同时作者通过对构建的风险预测模型进行GESA分析及预后预测列线图的绘制,提升GBM患者的临床治疗效果。
Identification of Novel lncRNA Markers in Glioblastoma Multiforme and Their Clinical Significance: A Study Based on Multiple Sequencing Data
多形性胶质母细胞瘤中的新的lncRNA标志物及其临床意义的鉴定:基于多个序列数据的研究
一、研究背景
多形性胶质母细胞瘤(GBM)是人体中最常见的恶性脑部肿瘤,通常患者预后生存率较差。目前关于GBM的发病机制并未被完全认知,亟需挖掘背后的相关机制与分子靶标和分子标志物以提升治疗效果。在已发表的文章中,许多lncRNA已被证实与GBM的发生和进展有关。在这种情况下,作者通过研究和GBM发病机制与预后密切相关的潜在lncRNAs,并对其建立ceRNA网络机制和风险模型,以起到预测OS和提升GBM的治疗水平的作用。
二、研究思路
三、结果解析
1、DEGs的筛选
作者从TCGA和GTEx数据库中获取原始RNA-seq数据与临床数据,对来自TCGA的临床组数据按照具有基本生存信息、且生存时间超过60天的条件,RNA-seq数据按照无重复样本的条件;来自GTEx的RNA-seq数据按照无基本临床信息或是额叶皮质的条件筛选,然后使用limma包和sva包处理获得256个样本(149个来自TCGA的GBM样本和107个来自GTEx的对照样本),及样本内RNA表达谱中55,187个基因的表达水平。 接着作者使用limma包筛选GBM样本与对照样本间的DEGs(FDR<0.05,|Log2FC|>2),共获得2023个DEGs,其中包括1586个mRNA,57个IncRNA和380个其他类型的RNA序列。然后对DEGs绘制火山图,如表S1A所示,图中红色点代表上调基因,蓝色点代表下调基因。
图S1A.GBM和对照样本中lncRNAs的特异性表达
使用火山图中筛选出的基因绘制气泡图,如图S1B,取差异表达最显著的30个基因。
图S1B.lncRNAs中特异性表达前30的气泡图
作者对从气泡图中筛选出的lncRNAs绘制箱线图,如图S1C所示,GBM样本组基因表达量显著高于对照样本,验证了前文结果。
图S1C. 展示了GBM和对照样本中已鉴定的lncRNAs的表达差异的箱线图
2、ceRNA的构建
在得到DEGs后,作者通过miRcode数据库预测lncRNA对应的miRNA,再根据miRNA于miRTarBase, TargetScan, and miRDB数据库中得到对应mRNA,使用Cytoscape构建ceRNA网络,如图2所示。得到的ceRNA网络中包含16个lncRNA, 32个miRNA和99个mRNA,其中网络中的大多数IncRNAs和mRNAs与多个miRNA结合。
图2.基于TCGA和GTEx转录数据获得的DEGs的GBM内的竞争性内源RNA网络(ceRNA)
3、基因本体(GO)和KEGG功能富集分析
为了寻找ceRNA网络中mRNAs的潜在生物学功能和主要信号通路,作者使用R包“clusterProfiler”对ceRNA网络中所有mRNAs进行富集分析。结果表明,作者构建出的ceRNA网络中DEGs在注释的多个通路富集,具体结果如下:
GO分析:细胞周期的正向调节(FDR<0.01)、上皮细胞的增殖(FDR<0.01)、细胞周期G1/S间的转变(FDR<0.01)和细胞黏附(FDR=0.011)等,如图3A。
图3A.在GO,BP,MF层面上所有注释的基因本体富集的条形图
KEGG通路分析:PI3K-Akt 信号通路(FDR<0.01)、细胞衰老(FDR<0.01)和癌症中的MicroRNAs(FDR<0.01)等,如图3B。
图3B.KEGG通路分析条形图
4、生存分析与风险预测模型的建立
作者接着利用基本包和R包“survival”验证lncRNA或mRNAs的差异表达与GBM患者生存结果的相关性,并建立风险预测模型。作者首先对所有具有差异表达的基因进行单因素回归分析,所得的结果如图补表5。 分析所得结果,AGAPW-AS1(P<0.001)、HCG25(P=0.010)、NDUFA6-DT(P=0.012)、DPP10-AS1(P=0.015)、TPT1-AS1(P=0.020)均与预后生存率显著相关,且只有AGAPW-AS1与预后生存率呈负相关(HR>1),其余均与预后生存率呈正相关(HR<1)(图4A)。
补充表5.lncRNAs差异性表达的单因素回归分析
图4A.lncRNAs差异性表达的单因素回归分析
作者从单因素回归分析结果中选取10个lncRNA作为模型的预测因子的候选分子。接着使用LASSO回归分析进一步缩小范围得到5个lncRNAs(图4B),分别为STXBP5-AS1 (95%置信区间 (CI): 1.065–13.013), DPP10-AS1 (95% CI: 0.5123–0.946 ),RNF144A-AS1 (95% CI: 0.970–3.049 ),NDUFA6-DT (95% CI: 0.165–0.857),和AGAP2-AS1 (95% CI: 1.122–1.456)。
图4B.对进行单因素回归后的lncRNAs进行的losso回归分析
然后,再对进行LASSO回归分析后的候选分子进行多因素Cox生存回归,筛选得到5个lncRNAS均可作为独立因子进行预后预测,且STXBP5-AS1(HR= 3.723, P = 0.039)、RNF144A-AS1(HR=1.720,P = 0.063)、AGAP2-AS1(HR=1.279, P <0.001)的表达与OS呈负相关, DPP10-AS1(HR=0.696,P =0.021) 、NDUFA6-DT(HR=0.377,P =0.020)的表达与OS呈正相关。
图4C.对进行lasso回归后还保留的lncRNAs进行多因素回归分析
作者然后根据risk score中位数作为临界值,将GBM患者分为高风险组和低风险组,并对其进行Kaplan-Meier生存分析,从结果上看两组的生存具有统计学显著差异,且低风险组的OS优于高风险组(图4D左侧)。
作者接着绘制了OS预测的ROC曲线,证明了该模型具有良好的预后预测效果(1-3年的AUC值分别为:0.761,0.740,0.714)。
图4D.TCGA风险预测模型的Kaplan-Meier生存曲线(左)和ROC曲线(右)的AUC值
为了验证所得分析的准确性,作者使用qPCR和配对t检验,评估了筛选出的5个lncRNA在GBM和邻近正常组织中的表达水平。实验结果表明,STXBP5−AS1 (P<0.001), DPP10−AS1 (P=0.013),RNF144A−AS1 (P=0.004) 和NDUFA6−DT (P<0.001)在GBM和相邻正常组织中的表达具有差异性,且于GBM的表达显著高于在相邻正常组织中的;AGAP2−AS1在GBM和相邻正常组织中的表达也具有差异性,但于GBM的表达与前面的相反。与之前的结论大致相符。
图4E.STXBP5−AS1, DPP10−AS1, RNF144A−AS1, NDUFA6−DT and AGAP2−AS1在GBM中和对照样本中的表达水平
5、基于KEGG和Reactome通路数据库的GSEA分析
为了寻找风险预测模型中对患者预后具有潜在调节作用的信号通路,作者基于KEGG和Reactome通路数据库进行了GSEA分析,根据构建出的模型的风险值,预测可能在调节患者预后中起重要作用的潜在信号通路。对所得数据分析,
DEGs于细胞黏附与转移相关的通路,如KEGG数据库中的白细胞跨内皮迁移(富集得分(ES)=0.58,FDR=0.026),细胞粘附分子(ES=0.61,FDR=0.030),和Reactome数据库的整合素与细胞表面的交互作用(ES值为 0.73,FDR=0.040)富集。
DEGs在多个肿瘤相关通路,如KEGG数据库中的膀胱癌通路 (ES=0.58,FDR=0.026),和Reactome数据库中的小细胞肺癌通路(ES=0.58, FDR=0.026),在癌症中PI3K的异常构成信号(ES=0.55,FDR=0.083)富集。
图5.当前研究中预测模型风险值的基于KEGG、Reactome通路数据库的GSEA分析
6、预后预测的列线图
作者根据预测模型的风险值将临床数据分成了高风险组和低风险组,然后对各临床特征(年龄、性别、生命状态、种族临床特征)与TCGA中的OS进行Pearson卡方检验,它们与OS均不具有差异;作者又对术后治疗临床特征采用Mann–Whitney U检验,它与OS也不具有差异。
表1.风险预测模型中的两组的临床特征
接着作者使用R包,对预测模型的风险值评分及临床协变量(年龄和术后治疗)建立OS列线图。其中协差指数(C值)为0.774,具有良好的预测性能。
图6.6GBM患者预后(生存概率)预测的列线图
小结
在本研究中,作者对GBM和正常样本进行全基因组lncRNA分析,同时联合多个数据库构建了GBM的ceRNA网络。除此之外,作者还对获得的ceRNA网络中所有mRNA进行功能富集研究分析,构建了包括5个新的预测lncRNAs生物标志物在内的风险预测模型,并对其进行GSEA分析,且据此绘制了可用于临床预测的列线图。 但本研究也具有一定局限性:作者在DEGs的筛选过程中,由于部分DEGs在GBM组中表达程度很低,甚至无表达,在完成Cox生存分析后易被忽略。这部分基因可能会对结果造成一定的偏差。