一根网线和胃癌ceRNA的故事
Cellular Biochemistry(IF:3.448)杂志上的一篇文章,“Identification of downregulated circRNAs from tissue and plasma of patients with gastric cancer and construction of a circRNA‐miRNA‐mRNA network”,作者利用多种公共数据库和在线分析网站识别胃癌患者组织和血浆中下调的circRNA并构建circRNA-miRNA-mRNA网络。
Identification of downregulated circRNAs from tissue and plasma of patients with gastric cancer and construction of a circRNA‐miRNA‐mRNA network胃癌患者组织和血浆中下调circRNA的识别及circRNA-miRNA-mRNA网络的构建
一. 研究背景
对癌组织中circRNA的研究一直很火热,也有很多研究发现circRNA对胃癌(Gastric cancer,GC)的发展起到调控作用。作者想要利用公共数据库挖掘在GC中以及GC患者血浆中差异表达的circRNAs,通过建立胃癌中的ceRNA调控网络来探索胃癌的发生机制,寻找新的胃癌标志分子。作者同时选了血浆样本数据也是为了使结果服务于临床,便于利用GC患者血浆对一些情况做出预测。
二. 研究思路
三. 结果解析
1. 识别DECs即差异表达的circRNAs
图1. 筛选差异表达的circRNAs
GSE89143数据集样本为3个GC组织 vs 3个非癌组织的circRNA表达谱芯片数据;GSE93541是3个GC患者plasma样本 vs 3个正常人plasma样本的circRNA表达谱芯片数据。使用GEO2R网页工具分析,筛选DECs的标准是:|log2FC|>2 ,adjp<0.05。
A:用Venn图取在两个数据集中共同的表达上调的DECs,数量为0。
B:用Venn图取在两个数据集中共同的表达下调的DECs,数量为3个。三个DECs的名称和表达差异分析如表1所示。
表1. 三个表达下调的DECs在两个数据集中的表达差异分析
2. 在细胞系中验证3个DECs的差异表达
图2. 在细胞系中验证3个DECs的表达量
GSE-1是人胃上皮细胞系,MGC-08是胃癌细胞系。qRT-PCR实验检测三个DECs的表达量,结果显示在胃癌细胞系中三者表达量都显著下调。
3. 预测靶miRNAs和靶mRNA
作者使用CircInteractome网站预测3个DECs的靶miRNA,一共有90靶miRNA被发现。为了进一步减少数量,作者指定筛选标准为:miRNA在GC组织中高表达且对GC病人的预后存在负效应。最终符合标准的miRNA有6个。对于mRNA的筛选,作者使用TargetScan网站和miRNet网站预测了6个靶miRNA的靶mRNA,取到共同的519个靶mRNA代表的基因。
图3. 6个靶miRNA在TCGA-STAD数据集中的表达情况
图3:用starBase网站分析的hsa‐miR‐323a‐3p,hsa‐miR‐331‐5p,hsamiR‐377,hsa‐miR‐485‐3p,hsa‐miR‐889和hsa‐miR‐370这6个靶miRNA在TCGA-STAD中的表达情况。红色是胃瘤组织,紫色是正常组织。
图4. GC患者中针对6个靶miRNA的生存分析结果
图4:作者用Kaplan-Meier Plotter网站分析的6个靶miRNA对GC患者总生存时间OS的生存分析结果。可以看到这6个靶miRNA的高表达(红色)预示着GC患者更差的预后水平。
4. 对靶基因进行GO和KEGG通路分析
图5. 靶基因的GO分析结果
图5:作者对前文取到的靶基因用DAVID网站进行GO(Gene ontology)分析,绿色的BP代表生物学事件,红色的CC代表细胞成分,蓝色的MP代表分子功能。靶基因一共在125个GO term中显著富集(p<0.05),这里展示了三个GO分类中靶基因富集最多的前10个GO term。
图6. 靶基因的KEGG通路分析结果
图6:作者同样在DAVID数据库中对靶基因进行KEGG通路分析。靶基因在30条通路中显著富集(p<0.05)。这里展示了靶基因富集最多的前10条通路。
5. 构建ceRNA网络并识别核心基因
图7. circRNA‐miRNA‐hub gene网络
A:作者根据3个DECs,6个靶miRNA和519个靶基因构建了ceRNA网络并用cytoscape可视化。
B:作者使用cytoHubba插件计算ceRNA网络的参数并识别出的前100个核心靶基因。提取后可视化了这100个基因代表的蛋白的PPI网络。
小结:由于ceRNA调节网络的机制,网络中三种分子的关系是circRNAs的低表达伴随着靶miRNA的高表达和靶mRNA的低表达,或circRNAs的高表达伴随着靶miRNA的低表达和靶mRNA的高表达。又因为本文的三个DECs在GC组织中是低表达的,6个靶miRNA在TCGA-STAD中验证是低表达的,所以作者下一步想要在TCGA-STAD中寻找100个核心基因中在GC组织中低表达的基因继续分析。
图8. 8个核心基因在TCGA-STAD数据集中的mRNA表达情况
图8:8个核心基因(CDKN1A,MAP2K2,GADD45A,KLF2,NR3C1,PJA2,G6PC和PPP1CB)在TCGA-STAD样本中的mRNA表达量显著降低。红色代表GC组织,紫色代表正常组织。
图7. C:由3个DECs,6个靶miRNA和8个核心基因构建的ceRNA调控网络
6. 评估核心基因的预后价值
图9. GC患者中针对8个核心基因的生存分析结果
图9:作者用用Kaplan-Meier Plotter网站分析了8个核心基因(CDKN1A,MAP2K2,GADD45A,KLF2,NR3C1,PJA2,G6PC和PPP1CB)的mRNA表达量对GC病人预后的影响。图中黑色表示基因表达量低组,红色表示基因表达量高组。可以看到8个核心基因的低表达预示着GC病人更差的预后状况。
小结
本篇文章也是经典的ceRNA机制套路,作者先利用GEO数据筛选出DECs,再利用CircInteractome预测靶miRNA,TargetScan网站和miRNet网站预测靶mRNA并用细胞实验和在starBase中筛选在GC中有显著差异的分子。之后利用cytoscape对ceRNA网络可视化,并找出核心靶基因在DAVID上进行GO/KEGG分析加上KM plotter对一些分子进行生存分析,是不是一下子就理清了呢?这篇文章没有编程,单利用这么多在线分析网站和数据库就完成了分析,还不把这些网站记下来去试试?