转录组差异表达分析和火山图可视化

2024-05-06 12:19:21

利用R包DEseq2进行差异表达分析和可视化

count数矩阵
差异分析
- 1. 安装并载入R包
- 2. count数矩阵导入并对矩阵进行数据处理
- 3. 查看样本相关性并采用热图展示
- 4. hclust对样本进行聚类分析
- 5. 构建原始dds矩阵并保存为Rdata对象
- 6. 原始dds矩阵标准化并保存
- 7. 提取差异分析的结果
- 8. 绘制火山图
- 9. 简单gene ID转换
参考文件

首先附上文献中的坚定差异基因的流程图。

count数矩阵

在Linux下，通过HISAT2 对fastq数据文件进行比对，FeatureCounts软件进行基因水平定量，得到count数矩阵。之后便可以载入R语言中进行差异分析。

差异分析

第一次分析RNA-seq数据，走到这一步相对容易了许多。转录组数据分析主要参考了生信技能树Jimmy老师的相关课程及推文。
RNA-seq的read count普遍认为符合泊松分布，但是之前分析过的芯片数据符合正态分布，所以筛选DEGs的方法有一定差别。

1. 安装并载入R包

# 设置R语言镜像# options(BioC_mirror="http://mirrors.tuna.tsinghua.edu.cn/bioconductor/")# options("repos" = c(CRAN="http://mirrors.tuna.tsinghua.edu.cn/CRAN/"))# 安装R包# if(!require(c("ggthemes","ggpubr","ggthemes","ggrepel"))) install.packages(c("ggthemes","ggpubr","ggthemes","ggrepel"))# BiocManager::install("DESeq2")

#载入R包suppressPackageStartupMessages(library(DESeq2))suppressPackageStartupMessages(library(ggpubr))suppressPackageStartupMessages(library(ggplot2))suppressPackageStartupMessages(library(ggrepel))suppressPackageStartupMessages(library(ggthemes))

2. count数矩阵导入并对矩阵进行数据处理

exprset <- read.table("RNA-seq_counts_matrix.csv",sep = ",",header = T,check.names = F)rownames(exprset) <- exprset[,1]exprset <- exprset[,-1]exprset <- exprset[apply(exprset,1,function(x) sum(x > 1) > 1),] #先判断值是否为0，得到逻辑值，再取和，判断0的个数是否小于3dim(exprset)# 7428    4head(exprset)

head(exprset)

	control1	control2	treat1	treat2
ENSMUSG00000000028	27	0	0	6
ENSMUSG00000000088	124	268	87	313
ENSMUSG00000000094	5	12	2	0
ENSMUSG00000000131	17	5	6	5
ENSMUSG00000000134	23	79	0	1
ENSMUSG00000000142	6	10	0	0

3. 查看样本相关性并采用热图展示

expcor <- cor(exprset, method = "spearman")head(expcor)pheatmap::pheatmap(expcor, clustering_method = "average",                   treeheight_row = 0,treeheight_col = 0,                   display_numbers = T)

expcor data

	control1	control2	treat1	treat2
control1	1.0000000	0.7089970	0.2366665	0.0209855
control2	0.7089970	1.0000000	0.2990182	0.0866515
treat1	0.2366665	0.2990182	1.0000000	0.4533486
treat2	0.0209855	0.0866515	0.4533486	1.0000000

热图展示

4. hclust对样本进行聚类分析

# t_exprset <- t(exprset)# t_exprset <- t_exprset[,names(sort(apply(t_exprset,2,mad),decreasing = T))[1:500]]# out.dist <- dist(t_exprset,method = 'euclidean')# out.hclust <- hclust(out.dist,method = 'complete')# rect.hclust(out.hclust,k=3)# plot(out.hclust,xlab = "",main = "")

5. 构建原始dds矩阵并保存为Rdata对象

group_list <- factor(c(rep("untrt",2),rep("trt",2))) #因子型变量group_listtable(group_list)## group_list##   trt untrt ##     2     2colData <- data.frame(row.names = colnames(exprset),                        group_list = group_list)colDatadds <- DESeqDataSetFromMatrix(countData = exprset,                               colData = colData,                               design = ~group_list) #~在R里面用于构建公式对象，~左边为因变量，右边为自变量。head(dds)## class: DESeqDataSet ## dim: 6 4 ## metadata(1): version## assays(1): counts## rownames(6): ENSMUSG00000000028 ENSMUSG00000000088 ...##   ENSMUSG00000000134 ENSMUSG00000000142## rowData names(0):## colnames(4): control1 control2 treat1 treat2## colData names(1): group_listtem_f <- 'RNA-seq_DESeq2-dds.Rdata'

colData

	group_list
control1	untrt
control2	untrt
treat1	trt
treat2	trt

6. 原始dds矩阵标准化并保存

if (!file.exists(tem_f)) {    dds <- DESeq(dds) # 标准化    save(dds,file = tem_f)  }load(file = tem_f)# 结果用`result()`函数提取res <- results(dds,              contrast = c("group_list","untrt","trt")) # 差异分析结果resOrdered <- res[order(res$padj),] # 对结果按照调整后的p值进行排序head(resOrdered)summary(res)## ## out of 7428 with nonzero total read count## adjusted p-value < 0.1## LFC > 0 (up)       : 465, 6.3%## LFC < 0 (down)     : 507, 6.8%## outliers [1]       : 0, 0%## low counts [2]     : 2160, 29%## (mean count < 4)## [1] see 'cooksCutoff' argument of ?results## [2] see 'independentFiltering' argument of ?results

head(resOrdered)

	baseMean	log2FoldChange	lfcSE	stat	pvalue	padj
ENSMUSG00000061787	1308.2358	-9.456575	1.564545	-6.044298	0e+00	3.60e-06
ENSMUSG00000064370	1304.1697	-13.689071	2.284209	-5.992916	0e+00	3.60e-06
ENSMUSG00000096745	667.1955	-12.722138	2.066186	-6.157306	0e+00	3.60e-06
ENSMUSG00000096363	320.2598	-11.663243	2.067930	-5.640056	0e+00	2.24e-05
ENSMUSG00000031504	229.8465	-11.184637	2.077845	-5.382805	1e-07	4.24e-05
ENSMUSG00000038900	583.4616	-8.543657	1.597311	-5.348775	1e-07	4.24e-05

7. 提取差异分析的结果

DEG <- as.data.frame(resOrdered)DESeq2_DEG <- na.omit(DEG)diff <- subset(DESeq2_DEG,pvalue < 0.05) #先筛选P值up <- subset(diff,log2FoldChange > 2) #上调down <- subset(diff,log2FoldChange < -2) #下调#可利用`write.csv()`函数保存文件

8. 绘制火山图

DEG_data <- DESeq2_DEGDEG_data$logP <- -log10(DEG_data$padj) # 对差异基因矫正后p-value进行log10()转换dim(DEG_data)## [1] 5268    7#将基因分为三类：not-siginficant，up，dowm#将adj.P.value小于0.05，logFC大于2的基因设置为显著上调基因#将adj.P.value小于0.05，logFC小于-2的基因设置为显著上调基因DEG_data$Group <- "not-siginficant"DEG_data$Group[which((DEG_data$padj < 0.05) & DEG_data$log2FoldChange > 2)] = "up-regulated"DEG_data$Group[which((DEG_data$padj < 0.05) & DEG_data$log2FoldChange < -2)] = "down-regulated"table(DEG_data$Group)## ##  down-regulated not-siginficant    up-regulated ##             336            4659             273DEG_data <- DEG_data[order(DEG_data$padj),]#对差异表达基因调整后的p值进行排序#火山图中添加点(数据构建)up_label <- head(DEG_data[DEG_data$Group == "up-regulated",],1)down_label <- head(DEG_data[DEG_data$Group == "down-regulated",],1)deg_label_gene <- data.frame(gene = c(rownames(up_label),rownames(down_label)),                                label = c(rownames(up_label),rownames(down_label)))DEG_data$gene <- rownames(DEG_data)DEG_data <- merge(DEG_data,deg_label_gene,by = 'gene',all = T)#不添加labelggscatter(DEG_data,x = "log2FoldChange",y = "logP",          color = "Group",          palette = c("green","gray","red"),          repel = T,          ylab = "-log10(Padj)",          size = 1) +   theme_base()+  scale_y_continuous(limits = c(0,8))+  scale_x_continuous(limits = c(-18,18))+  geom_hline(yintercept = 1.3,linetype = "dashed")+  geom_vline(xintercept = c(-2,2),linetype = "dashed")

#添加特定基因labelggscatter(DEG_data,x = "log2FoldChange",y = "logP",          color = "Group",          palette = c("green","gray","red"),          label = DEG_data$label,          repel = T,          ylab = "-log10(Padj)",          size = 1) +   theme_base()+  theme(element_line(size = 0),element_rect(size = 1.5))+ #坐标轴线条大小设置  scale_y_continuous(limits = c(0,8))+  scale_x_continuous(limits = c(-18,18))+  geom_hline(yintercept = 1.3,linetype = "dashed")+  geom_vline(xintercept = c(-2,2),linetype = "dashed")

9. 简单gene ID转换

对于初学者来说如果要对gene ID进行转换，可利用Ensembl数据库的BioMart工具。因为相对于R包biomaRt，界面化的操作更加易懂，快捷。BioMart网页工具的原始界面如下所示：

  其中左侧菜单栏分别是Dataset--选择相关物种参考基因组；  Filters--选择数据gene ID的类型，并输入gene ID，也存在其他类型的ID输入；  Attributes--选择需要输出的ID类型；  点击Result可以输出结果，并且支持文件下载。

第一次写推文，请大家多提宝贵意见！
##如有侵权请联系作者删除！

参考文件

[1] https://mp.weixin.qq.com/s/uDnFJC0szOHtO2NqREz2wA

[2] https://www.jianshu.com/p/3a0e1e3e41d0

[3] https://www.bioconductor.org/help/workflows/RNAseq123/

[4] https://www.bioconductor.org/help/workflows/rnaseqGene/

[5] http://www.biotrainee.com/forum.phpmod=viewthread&tid=1750#lastpost

[6] https://mp.weixin.qq.com/s/ZYB06Yudck2hD0qWJKJcwQ

16s分析之差异分析（DESeq2）

今天我们来学习R语言DESeq2包,原理什么的后不说,在操作过程中点缀一下,等四个差异包推送完成后,咱们在对这四个包做差异分析的原理做一个比较分析: 这个包适用于: 高通量数据分析过程中,基于coun ...
差异分析|DESeq2完成配对样本的差异分析

本文为群中小伙伴进行的一次差异分析探索的记录. 前段时间拿到一个RNA-seq测序数据(病人的癌和癌旁样本,共5对)及公司做的差异分析结果(1200+差异基因),公司告知用的是配对样本的DESeq分析 ...
转录组学习七（差异基因分析）

任务载入表达矩阵,然后设置好分组信息用DEseq2进行差异分析,也可以走走edgeR或者limma的voom流程基本任务是得到差异分析结果,进阶任务是比较多个差异分析结果的异同点. 了解差异基因 ...
试一下我的差异分析软件

我本身是不喜欢把差异分析这种需求包装成软件的,甚至它都算不上软件.当然,我也很不太喜欢写软件(需要考虑太多的用户意外),不过,总有一天我还是得面对.为什么让大家试一下我的 `差异分析软件` ,其实是想 ...
居然可以把rpkm这样的归一化并且带小数点的转录组表达量矩阵直接取整

rm(list = ls()) ## 魔幻操作,一键清空~ options(stringsAsFactors = F)#在调用as.data.frame的时,将stringsAsFactors设置为 ...
拖后腿学徒居然也完成作业，理解RNA-seq数据分析结果

前面我出了一个学徒作业,下载表达矩阵后绘制PCA图及热图,然后理解作者给出的RPM和raw_counts的差异,详见:理解RNA-seq表达矩阵的两个形式很意外,12月学徒肖一僧居然吭哧吭哧的完成了 ...
转录组入门（mac 版本）

软件安装安装bioconda: 去官网下载和自己电脑系统一样的版本 https://conda.io/miniconda.html 下载完后,双击解压,然后cd 到文件目录,开始安装. # 安装 b ...
What if starts with DESeq2 normlized matrix？

因为没拿到raw counts,拿到的是DESeq2 normlized matrix,为了有谱,拿airway数据用DESeq2处理两次,看下结果,比较一下是不是可行! 可行性以及解释,各位看官,往 ...
3秒完成超大规模单细胞转录组差异表达量分析

写教程的话,我的优点仅仅是量大,坚持了七年多写了超1万篇教程.但实际上绝大部分都浮于表面,深度不够. 恰好最近看到了一个超级优秀的博客,安排了其中几篇给学徒们翻译和理解,超级值得读! 下面是七月优秀学 ...
Seurat4.0系列教程22：空间转录组的分析、可视化与整合

Seurat4.0系列教程告一段落,但这决不是终点.这个系列教程只是给大家打开一扇窗,知道Seurat4.0有这些功能可用,少走弯路,起到一个抛砖引玉的作用,后续还要自己深入研究.不要像我当初入门单细 ...
教程 | 可视化多组基因差异表达分析结果

写在前面最近做了一些转录组数据分析.想想,上一次这么精细地分析转录组数据,都是三五年前的事情.整个实验设计是一个器官的不同发育阶段.按照最传统的做法,不同阶段,两两间进行差异表达分析,于是会产生系列 ...
最新！2021年中国储能行业龙头宁德时代业务深度分析（多图）

一.公司主营业务宁德时代新能源科技有限公司(CATL)成立于2011年,于2018年在深交所创业板上市. 图表1:宁德时代发展历程简介资料来源:公司年报.韦伯咨询整理公司是全球领先的动力电池系统 ...
不知道买卖点是因为不懂形态分析，看图识别...

不知道买卖点是因为不懂形态分析,看图识别形态,看懂操作的买卖点,把握中线趋势变化. 技术分析是基于 1.历史会重复 2.市场价格会包含一切 3.价格有惯性趋势运动形态也分为突破形态和整理形态反转形 ...
火山图|给你geneList，帮我标到火山图上

火山图(Volcano Plot)常用于展示基因表达差异的分布,横坐标常为Fold change(倍数),越偏离中心差异倍数越大:纵坐标为P value(P值),值越大差异越显著.得名原因也许是因为结 ...
科研│J AGR FOOD CHEM：代谢组学和转录组学分析显示蓝光促进草莓中绿原酸的合成（国人佳作）

编译:微科盟伊一,编辑:微科盟景行.江舜尧. 原创微文,欢迎转发转载. 导读发光二极管已经广泛应用于工厂和农业设施.可以根据不同植物的光质量和强度要求设计不同的发光二极管,从而调节植物的生长发育以 ...
科研 | 郑州大学：整合代谢组学和转录组学分析揭示豇豆豆荚中花青素和其他类黄酮积累的分子机制（国人佳作）

编译:微科盟伊一,编辑:微科盟景行.江舜尧. 原创微文,欢迎转发转载. 导读豇豆是豆科重要的蔬菜作物,因其豆荚嫩.口感好.营养丰富而被广泛种植.紫色豇豆豆荚吸引了更多的关注,主要是因为它醒目的颜色 ...
科研│香港中文大学：正常和闭锁卵泡中猪卵巢颗粒细胞的转录组学分析：类固醇生成和氧化应激的作用（国人佳作）

编译:微科盟伊安,编辑:微科盟景行.江舜尧. 原创微文,欢迎转发转载. 导读女性不孕的主要原因之一是窦状卵泡闭锁,其潜在的分子机制尚不清楚.因此,研究人员通过ELISA.RNA-Seq.qRT- ...