如何获取非模式生物KEGG PATHWAY的基因集并用clusterProfile做GSEA?

学徒和学员已经陆续出师,是时候把生信技能树的舞台交给后辈了!

下面是四川成都大熊猫基地学员原创教程

作者 so_zy, 2020-10-14

写此文档的缘由:在做GSEA分析时,由于研究的是非模式生物,从Broad Institue开发的MSigDB没有找到合适的预设基因集,没办法顺利进行GSEA. 但是KEGG数据库收录有目标物种。几经折腾,终于跑上了GSEA. 写此文档为其他研究非模式生物的人员提供一点借鉴。

以大熊猫为例:

1. 安装并加载R包

正常情况下,大家安装R包应该是都问题不大了。

 #清空当前变量
 rm(list = ls())
 options(stringsAsFactors = F)

#设置镜像
 options("repos"= c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
 options(BioC_mirror="http://mirrors.ustc.edu.cn/bioc/")

#BiocManager安装"KEGGREST",
if (!requireNamespace("BiocManager", quietly = TRUE))
  install.packages("BiocManager")
BiocManager::install("KEGGREST")

#加载"KEGGREST"
library(KEGGREST) #用于提取通路及基因信息

#查看KEGGREST说明书
browseVignettes("KEGGREST")

#加载clusterProfile
library(clusterProfile)#用于GSEA富集分析

#加载stringr,用于字符串处理
if(!require(stringr))install.packages('stringr')
library(stringr)

2.查询大熊猫在KEGG数据库中的缩写

#获取KEGG数据库收录的所有物种的清单
org <- keggList('organism') 
# 在中国大陆地区耗时2-3分钟,在海外耗时一秒钟不到。
head(org) 
# 查询大熊猫在KEGG数据库中的缩写
org[str_detect(org[,3],"panda"),]

当然,也可以网页查询。https://www.genome.jp/kegg/catalog/org_list.html

可以看到,大熊猫在KEGG数据库对应的缩写为“aml

物种的kegg代号

最出名的物种当然是人类了,人类数据分析超级便捷,到处是造好的轮子。

3.获取大熊猫的KEGG通路及基因集

aml_path <- keggLink("pathway","aml") 
#得到字符型向量。元素名为基因id,元素为通路名. 耗时4-5分钟
#查看aml_path的前6个
length(aml_path)
aml_path[1:6] 
length(unique(names(aml_path)))
length(unique(aml_path))

可以看到大熊猫的KEGG通路有333条,涉及到的基因数量是7893个(2020-10-14 查询),跟人类研究不相上下哦。

4.获取用于GSEA的基因集数据框

#数据整理,将向量转变为数据框,作为GSEA的基因集
aml.kegg <- data.frame(term=unname(aml_path),gene=names(aml_path))

#将"gene"列中的“aml:”删掉
aml.kegg$gene <- str_replace_all(aml.kegg$gene,"aml:",'')
aml.kegg[1:6,] #包含两列,一列term为通路名称,一列gene为基因id

如下所示,基本的数据整理能力:

5.利用clusterProfile进行GSEA

(前提是已获得排序好的genelist)

genesets <- aml.kegg 
# 其中这个 genelist 来源于自己的大熊猫转录组数据分析后的基因排序的向量哦。
#富集分析
egmt<- GSEA(genelist, TERM2GENE=genesets, verbose=T,pvalueCutoff = 1)
library(clusterProfiler)
#提取富集结果
kegg_gsea_panda <- as.data.frame(egmt@result)
colnames(kegg_gsea_panda)

#保存结果到当前工作目录
write.table(kegg_gsea_panda,"kegg_gsea_panda.xls",row.names = F,
            sep="\t",quote = F)

PS: genelist 和genesets都用的是gene ID,   因此这里直接用gene ID进行mapping. 没有将ID转换为symbol.

参考网址:

  • https://bioconductor.org/packages/release/bioc/vignettes/KEGGREST/inst/doc/KEGGREST-vignette.html

  • https://www.jianshu.com/p/211b62bbd2bf

感谢生信技能树的《生信入门课程转录组讲师》张娟老师的帮助!

写在后面

上面全部的代码均可复制粘贴运行,但是有一个genelist的变量需要大家自己走大熊猫数据集的差异分析拿到。这个差异分析可以看我3年前的GEO数据挖掘课程你可以听3小时或者3天甚至3个月,免费到B站:

  • 这个课程超级棒,B站免费学习咯:https://m.bilibili.com/video/BV1dy4y1C7jz
  • 配套代码在GitHub哈:https://github.com/jmzeng1314/GSE76275-TNBC
  • TCGA数据库挖掘,代码在:https://github.com/jmzeng1314/TCGA_BRCA
  • GTEx数据库挖掘,代码在:https://github.com/jmzeng1314/gtex_BRCA
  • METABRIC数据库挖掘,代码在:https://github.com/jmzeng1314/METABRIC

然后马上就有了3千多学习量,而且有学员给出来了图文并茂版本万字笔记,让我非常感动!

扫描下面二维码马上就可以学习起来啦,笔记需要至少半个小时来阅读哦!

(0)

相关推荐

  • 非模式作物RNA_seq 完美实战

    一份高度定制化个性化的富集分析教程,将解决你做富集分析的全部问题. 写在前面 上周末两天,加上这几天每天晚上抽出两个小时,我急行军似的开始构建一套转录组分析流程.因为想到转录组已经很多人发教程了,我虽 ...

  • 使用clusterProfiler进行GO、KEGG富集分析(有参情况)

    寻找差异表达的基因并识别它们的功能,是我们进行RNA测序的最主要目的.很明显,这些差异的基因必然与功能改变密切相关,例如,比较患病个体与正常个体的组织表达谱,不难想到这些显著失调的基因参与了生物学过程 ...

  • 生信分析中GSEA分析(GO/KEGG富集分析)的重要性

    各位医学方的朋友,大家好.我是Flyman! 做过下游分析的小伙伴都知道富集分析的重要性,生信类文章大家总会在最后一步针对我们前面筛选出来的差异基因做一下GO/KEGG富集分析,研究一下他们参与到什么 ...

  • 不做测序,如何选择一个circRNA进行后续研究

    随着高通量测序的越来越火,对于一个基础实验而言,往往第一步都是需要做点儿高通量测序,来发现一些新的东西,才能往下做.如果不这么做的话,好像就感觉差人一步似的.尤其是对于新兴的一些RNA.比如circR ...

  • clusterProfiler|GSEA富集分析及可视化

    GSEA(Gene Set EnrichmentAnalysis),即基因集富集分析,无需设定阈值来区分上调下调基因,使用所有的基因进行分析. GO 和 KEGG 可参考:R|clusterProfi ...

  • TCGA单基因免疫相关泛癌分析

    最近写了一段代码,基于肿瘤TCGA数据库进行一系列分析.只要输入基因名,就可以得到以下结果(注意:只能是mRNA的gene symbol) 1 泛癌表达:该基因在33种肿瘤中的表达 2 差异表达:肿瘤 ...

  • 新手教程 | 非模式物种GO/KEGG注释!使用 EggNOG-mapper 快速完成~

    前段时间,毕业转医学的师弟和我讨论了一些基因集合功能富集分析的项目.对于非模式生物来说,麻烦的不仅仅是富集分析,更在于"注释",如Gene Ontology注释和KEGG注释.聊到 ...

  • 获取非空单元格

    本次的练习是:尝试使用一个公式,来消除指定单元格区域中的空单元格,即获得的值中不包括空单元格,如下图所示. 先不看下面的内容,自已试试! 公式思路 先找到非空单元格所在行的行号,获取行号并以行号作为I ...

  • “诺奖得主参与创办公司” 崭露头角,非同生物完成数千万元的Pre-A轮融资

    今日,非同(成都)生物科技有限公司(以下简称:非同生物)宣布完成数千万人民币的 Pre-A 轮融资,由境成资本独家投资完成.该公司专注于肿瘤免疫治疗领域创新抗体药物研发,融资所得主要用于推进公司在研项 ...

  • 诺奖得主加持,这家免疫抗体药新锐用“C+2E”策略布局管线并将开启“加速跑” | 专访非同生物

    放眼中国肿瘤创新药,随着一系列政策的出台,低端仿制药模式被逐步压缩,同时肿瘤发病率和死亡率逐年攀升,创新型抗肿瘤药物市场需求不断上涨,国内抗肿瘤生物创新药发展空间巨大.近些年,包括单抗.多抗.ADC ...

  • 科研 | PLANT CELL ENVIRON:创新的转录组揭示非模式豆类作物物候、生长和产量的环境响应基因

    编译:秦时明月,编辑:景行.江舜尧. 原创微文,欢迎转发转载. 导读 狭叶羽扇豆(Lupinus angustifolius L.)是一种粮食作物,既是一种绿肥,也是动物饲料和人类食物的蛋白质来源.在 ...

  • 秀丽隐杆线虫作为模式生物的优点

    因为线虫具备的以下这些特性完全符合了Brenner当初的预想: 线虫在土壤中生活,成虫体长1-2毫米左右,身体半透明,靠捕食微生物为生,容易在实验室饲养. 线虫有雌雄同体和雄虫两种性别,雌雄同体可以自 ...

  • 模式生物:大肠杆菌 Escherichia coli

    原核生物中的大肠杆菌和真菌中的酵母都是大名鼎鼎的模式微生物,天天泡实验室的你应该再熟悉不过了. 大肠杆菌作为外源基因表达的宿主,遗传背景清楚,技术操作与培养条件简单,是应用最广泛.最成功的表达体系.大 ...

  • 模式生物:拟南芥 Arabidopsis thaliana

    拟南芥属被子植物门,双子叶植物纲,十字花科植物(十字花科常见植物有油菜.萝卜.卷心菜等),为鼠耳芥属.广泛分布于欧亚大陆和非洲西北部.产华东.中南.西北及西部各省区.生于平地.山坡.河边.路边.朝鲜. ...

  • 模式生物:线虫 Caenorhabditis elegans

    无脊椎动物中的秀丽隐杆线虫,是一种食细菌的线性动物,其体长度 1mm,通身透明,主要以雌雄同体方式存在,体细胞数目恒定,特定细胞位置固定,是目前唯一一个身体中每一个细胞都能被溯源的生物. 自 1965 ...