ATAC-seq的经典差异分析思路

ATAC-seq的数据分析主要是检测信号峰值,就是peaks,不同样品的peaks的差异主要是两个思路,使用韦恩图展现有无peaks的差异,另外就是使用散点图展现高低强弱的peaks差异。

现在是2021了,有了很多成熟的软件算法可以做peaks的差异分析,不过偶尔忆苦思甜也是有必要的ATAC-seq经典差异分析,让我们一起看看距离2013年的ATAC-seq技术开发出来不到两年的  2015的一个文章是如何做。文章是:A novel ATAC-seq approach reveals lineage-specific reinforcement of the open chromatin landscape via cooperation between BAF and p63. Genome Biol 2015 Dec 18;16:284. PMID: 26683334

数据集在:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE67382

可以看到里面的ATAC-seq的数据是4个:

GSM1645706 BAFi_ATAC_rep1
GSM1645707 BAFi_ATAC_rep2
GSM1645708 CTRL_ATAC_rep1
GSM1645709 CTRL_ATAC_rep2

可以看到很明显的2个组,每个组都是2个重复的样品,而且根据peaks的信号值强度相关性散点图可以看出来组内一致性比较好:

信号值强度相关性散点图

其实现在有Irreproducibility Discovery Rate (IDR)指标,用于评估重复样本间peaks一致性。IDR评估会同时考虑peaks间的overlap和富集倍数的一致性。通过IDR阈值(0.05)的占比越大,说明重复样本间peaks一致性越好。

差异分析主居然还像模像样的给出来了一个流程图,简单的上下调的peaks数量,还可以画一个饼图:

上下调的peaks数量

挑选具体的基因,进行IGV软件载入bw文件的可视化,看ATAC-seq的信号差异:

IGV软件载入bw文件的可视化

另外一个不得不提的经典图表,就是看信号强度的:

 

处理流程

首先看上游数据处理流程:

  • ATAC-seq paired-end reads were trimmed for Illumina adapter sequences using a custom script
  • mapped to hg19 using bowtie with parameters –S –X2000 –m1.
  • Duplicate reads were discarded with samtools.
  • Peaks were identified using macs2 with parameters callpeak –nomodel –shift -100 –extsize 200.
  • Peak sets called in individual replicates were combined and individual peaks merged if overlapping within 300 bp to form a union peak set.

下游就是差异分析;

  • Differentially accessible peaks from this union set were identified with edgeR by counting all read ends overlapping peaks in each condition.
  • edgeR was run with default settings, a fold-change threshold of 2, and FDR < 0.01.

其实呢,现在的ATAC-seq 数据处理的更完善了,见ATAC-seq项目的标准分析仅收费1600,差异分析也有专门的R包,比如 Diffbind,有一个2020综述《From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis》值得看:

  • MACS2 进行 Peak calleing
  • csaw 进行差异 Peak 分析
  • MEME suite 进行 motif 检测和富集
  • ChIPseeker 进行注释和可视化
  • HMMRATAC 进行核小体检测
  • HINT-ATAC 进行足迹分析

结合转录组测序

可以看到是3个分组,共6个样品:

GSM1921004 Ctrli_rep1_RNAseq
GSM1921005 Ctrli_rep2_RNAseq
GSM1921006 BAFi_rep1_RNAseq
GSM1921007 BAFi_rep2_RNAseq
GSM1921008 p63i_rep1_RNAseq
GSM1921009 p63i_rep2_RNAseq

两次差异分析,各自挑选 (fold change > 3 with depletion, FDR < 0.01)的基因,然后看交集:

 

对 236 genes controlled jointly by both BAF and p63 进行GO数据库的功能注释。

这个转录组数据分析比较容易复现,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;

文末友情推荐

(0)

相关推荐