表达矩阵可视化大全

貌代码被折叠了,大家需要阅读原文才能复制粘贴我代码在Rstudio里面直接运行,几分钟就可以学会15个图的制作!

basic visualization for expression matrix

jmzeng1314@163.com

March 14, 2017

  • 我的博客

  • 我们的论坛

  • 捐赠我

安装并加载必须的packages

如果你还没有安装,就运行下面的代码安装:

BiocInstaller::biocLite('CLL')install.packages('corrplot')install.packages('gpairs')install.packages('vioplot')

如果你安装好了,就直接加载它们即可

library(CLL)library(ggplot2)library(reshape2)library(gpairs)library(corrplot)

加载内置的测试数据:

data(sCLLex)sCLLex=sCLLex[,1:8] ## 样本太多,我就取前面8个

group_list=sCLLex$DiseaseexprSet=exprs(sCLLex)head(exprSet)##           CLL11.CEL CLL12.CEL CLL13.CEL CLL14.CEL CLL15.CEL CLL16.CEL ## 1000_at    5.743132  6.219412  5.523328  5.340477  5.229904  4.920686 ## 1001_at    2.285143  2.291229  2.287986  2.295313  2.662170  2.278040 ## 1002_f_at  3.309294  3.318466  3.354423  3.327130  3.365113  3.568353 ## 1003_s_at  1.085264  1.117288  1.084010  1.103217  1.074243  1.073097 ## 1004_at    7.544884  7.671801  7.474025  7.152482  6.902932  7.368660 ## 1005_at    5.083793  7.610593  7.631311  6.518594  5.059087  4.855161 ##           CLL17.CEL CLL18.CEL ## 1000_at    5.325348  4.826131 ## 1001_at    2.350796  2.325163 ## 1002_f_at  3.502440  3.394410 ## 1003_s_at  1.091264  1.076470 ## 1004_at    6.456285  6.824862 ## 1005_at    5.176975  4.874563group_list## [1] progres. stable   progres. progres. progres. progres. stable   stable   ## Levels: progres. stable

接下来进行一系列绘图操作

主要用到ggplot2这个包,需要把我们的宽矩阵用reshape2包变成长矩阵

library(reshape2)exprSet_L=melt(exprSet)colnames(exprSet_L)=c('probe','sample','value')exprSet_L$group=rep(group_list,each=nrow(exprSet))head(exprSet_L)##       probe    sample    value    group ## 1   1000_at CLL11.CEL 5.743132 progres. ## 2   1001_at CLL11.CEL 2.285143 progres. ## 3 1002_f_at CLL11.CEL 3.309294 progres. ## 4 1003_s_at CLL11.CEL 1.085264 progres. ## 5   1004_at CLL11.CEL 7.544884 progres. ## 6   1005_at CLL11.CEL 5.083793 progres.

boxplot

p=ggplot(exprSet_L,aes(x=sample,y=value,fill=group))+geom_boxplot()print(p)

vioplot

#library(vioplot)#?vioplot#vioplot(exprSet)#do.call(vioplot,c(unname(exprSet),col='red',drawRect=FALSE,names=list(names(exprSet))))p=ggplot(exprSet_L,aes(x=sample,y=value,fill=group))+geom_violin()print(p)

histogram

p=ggplot(exprSet_L,aes(value,fill=group))+geom_histogram(bins = 200)+facet_wrap(~sample, nrow = 4)print(p)

density

p=ggplot(exprSet_L,aes(value,col=group))+geom_density()+facet_wrap(~sample, nrow = 4)print(p)

p=ggplot(exprSet_L,aes(value,col=group))+geom_density() print(p)

gpairs

library(gpairs)gpairs(exprSet       #,upper.pars = list(scatter = 'stats')       #,lower.pars = list(scatter = 'corrgram')       )

cluster

out.dist=dist(t(exprSet),method='euclidean')out.hclust=hclust(out.dist,method='complete')plot(out.hclust)

PCA

pc <- prcomp(t(exprSet),scale=TRUE)pcx=data.frame(pc$x)pcr=cbind(samples=rownames(pcx),group_list, pcx) p=ggplot(pcr, aes(PC1, PC2))+geom_point(size=5, aes(color=group_list)) +  geom_text(aes(label=samples),hjust=-0.1, vjust=-0.3)print(p)

heatmap

choose_gene=names(sort(apply(exprSet, 1, mad),decreasing = T)[1:50])choose_matrix=exprSet[choose_gene,]choose_matrix=scale(choose_matrix)heatmap(choose_matrix)

library(gplots)## ## Attaching package: 'gplots'## The following object is masked from 'package:stats': ## ##     lowessheatmap.2(choose_matrix)

library(pheatmap)pheatmap(choose_matrix)

DEG && volcano plot

library(limma)## ## Attaching package: 'limma'## The following object is masked from 'package:BiocGenerics': ## ##     plotMAdesign=model.matrix(~factor(group_list))fit=lmFit(exprSet,design)fit=eBayes(fit)DEG=topTable(fit,coef=2,n=Inf)with(DEG, plot(logFC, -log10(P.Value), pch=20, main="Volcano plot"))      

logFC_cutoff <- with(DEG,mean(abs( logFC)) + 2*sd(abs( logFC)) )DEG$change = as.factor(ifelse(DEG$P.Value < 0.05 & abs(DEG$logFC) > logFC_cutoff,                              ifelse(DEG$logFC > logFC_cutoff ,'UP','DOWN'),'NOT')                       )this_tile <- paste0('Cutoff for logFC is ',round(logFC_cutoff,3),                    '\nThe number of up gene is ',nrow(DEG[DEG$change =='UP',]) ,                    '\nThe number of down gene is ',nrow(DEG[DEG$change =='DOWN',]))g = ggplot(data=DEG, aes(x=logFC, y=-log10(P.Value), color=change)) +  geom_point(alpha=0.4, size=1.75) +  theme_set(theme_set(theme_bw(base_size=20)))+  xlab("log2 fold change") + ylab("-log10 p-value") +  ggtitle( this_tile  ) + theme(plot.title = element_text(size=15,hjust = 0.5))+  scale_colour_manual(values = c('blue','black','red'))  ## corresponding to the levels(res$change)print(g)

ggplot画图是可以切换主题的

其实绘图有非常多的细节可以调整,还是略微有点繁琐的!

p=ggplot(exprSet_L,aes(x=sample,y=value,fill=group))+geom_boxplot()print(p)

p=p+stat_summary(fun.y="mean",geom="point",shape=23,size=3,fill="red")p=p+theme_set(theme_set(theme_bw(base_size=20)))p=p+theme(text=element_text(face='bold'),axis.text.x=element_text(angle=30,hjust=1),axis.title=element_blank())print(p)

可以很明显看到,换了主题之后的图美观一些。

(0)

相关推荐

  • 16s分析之不同分类水平差异分析及气泡图绘制

    对otu的差异分析并不是我们唯一的选择,差异往大的做,可以往往门,纲,目,科做. 今天要做一张长的图,我们可以和别的图一起配合使用会好? 比如这篇文章,还是挺好看的: 下面是一份完整的代码,我仅仅只做 ...

  • R语言GEO数据处理(七)

    # 6. 可视化展示 ---------------------------------------------------------------- ##6.1 火山图 library(ggplot ...

  • TCGA差异分析及ggplot作图验证

    TCGA数据加载 #安装并加载R包if(length(getOption("CRAN"))==0) options(CRAN="https://mirrors.tuna. ...

  • ggplot版本的flower图:学好几何,画图不愁

    安装R包 # library(ggClusterNet) # 可以直接安装这个github包提取测试数据,或者导入ps_liu.rds,可在公众号后台输入:数据,获取 library(ggplot2) ...

  • TCGA数据分析系列之火山图

    前面我们做了TCGA的差异分析,并且用ggplot2验证了差异分析的准确性,TCGA差异分析及ggplot作图验证,而差异分析后一般会又热图和火山图,热图我们之前也有说过热图系列1,R语言学习系列之& ...

  • EBMT21 Notes: Lymphoma 篇

    CLL  随着新药崛起,CLL中的移植在下降,但是BTK后也亟需新的疗法,目前发现CLL患者中T细胞有些缺陷比如耗竭标志物升高,这可能也是CAR T在CLL中不如DLBCL的原因 Tisa-cel和A ...

  • 火山图|给你geneList,帮我标到火山图上

    火山图(Volcano Plot)常用于展示基因表达差异的分布,横坐标常为Fold change(倍数),越偏离中心差异倍数越大:纵坐标为P value(P值),值越大差异越显著.得名原因也许是因为结 ...

  • 表达矩阵处理—数据可视化

    书籍翻译 好的书籍是人类进步的阶梯,但有些人却找不到优秀的阶梯,为此我们开设了书籍翻译这个栏目,作为你学习之路的指路明灯:分享国内外优秀书籍,弘扬分享精神,做一个知识的传播者. 希望大家能有所收获! ...

  • (1条消息) python常见图形代码可视化大全整理(包括动图)更新中...

    目录 一.离散型变量的可视化 1 饼图 1.1 matplotlib模块 1.2 panda模块 2 条形图 2.1 matplotlib模块 2.1.1 垂直或水平条形图 2.1.2 堆叠条形图 2 ...

  • lncRNA实战项目-第四步-得到表达矩阵的流程

    响应生信技能树的号召:lncRNA数据分析传送门 , 一起来一个lncRNA数据分析实战! SRA->FASTQ->BAM->COUNTS 这几个步骤而已,中间穿插一些质控的手段,每 ...

  • 从GEO数据库下载得到表达矩阵 一文就够

    在第一讲我们详细介绍了GEO数据库的基础知识及规律,也了解了如何利用官方R包GEOquery来探索GEO数据库,当然,我的生信菜鸟团博客里面也从很多其它角度解析过它,欢迎大家自行搜索学习.总得来说,从 ...

  • 使用CGP数据库的表达矩阵进行药物反应预测

    发表这个算法的文章是:Clinical drug response can be predicted using baseline gene expression levels and in vitr ...

  • 要读源代码才能解决的报错-GEOquery下载表达矩阵缺样本名

    最近生信技能树的很多朋友反馈一个GEOquery的bug,而且这个错误对初学者来说,是不可能解决的问题,值得分享一下!(2018-11-27 计) 就是昨天推文末尾的小测试: GEOquery包的ge ...

  • 如果表达矩阵被归一化会发生什么

    事情起源于,某个吃了很多汉堡王一起学习的日子,技能树一众学徒一起学习从GEO数据挖掘到limma差异分析等等等. 选的数据集倒是很有.趣.依据原始表达矩阵随便画的热图是这样的

  • 表达矩阵的归一化和标准化,去除极端值,异常值

    我们阅读量破万的综述:RNA-seq这十年(3万字长文综述)给粉丝朋友们带来了很多理解上的挑战,所以我们开辟专栏慢慢介绍其中的一些概念性的问题,上一期: RNA-seq的counts值,RPM, RP ...

  • 转录组表达矩阵为什么需要主成分分析以及怎么做

    我们阅读量破万的综述:RNA-seq这十年(3万字长文综述)给粉丝朋友们带来了很多理解上的挑战: 所以我们开辟专栏慢慢介绍其中的一些概念性的问题,上一期:表达矩阵的归一化和标准化,去除极端值,异常值 ...