ChIP‐Atlas(逆向收费读文献2019-21)
系列目录
本次分享的文献发表了一个网页数据库,把其它数据库(GEO, ArrayExpress, DDBJ, ENCODE等等)的表观数据(主要是ChIP-seq and DNase-seq)整合,主要是6个模式生物的数据,包括(human, mouse, rat, fruit fly, nematode, and budding yeast), 最后形成了:ChIP-Atlas (http://chip-atlas.org)
数据量
可以看到,人类和小鼠的研究是最多的,也符合常识,主要是公共数据库整合,包括:
NCBI GEO (https://www.ncbi.nlm.nih.gov/gds),
EBI ArrayExpress (https://www.ebi.ac.uk/arrayexpress),
DDBJ (https://www.ddbj.nig.ac.jp).
整合公共数据库的流程
可以看到,作者把全部的数据fastq下载到了本地,然后走了自己的流程(Bowtie2+MACS2)进行比对和找peaks,所以保存了全部的bam文件和bw文件供IGV可视化,同时使用的peaks坐标文件进行整合导入数据库。
这样使用他们网页工具的用户有4种策略对他们整合好的数据进行探索:
首先可以浏览任何条件下ChIP-seq and DNase-seq数据分析结果peaks信息,就是其调控的靶点
然后可以查询任何感兴趣基因是否被做过ChIP-seq and DNase-seq数据,而且显示其靶点。
查询任意感兴趣基因的ChIP-seq and DNase-seq数据的共定位基因。
根据用户上传的bed文件,查询数据库全部bed的peaks结果,看相似性。
和其它类似数据库比较
ChIP-Atlas (http://chip-atlas.org) 的确不是全网第一个做ChIP-seq and DNase-seq数据整合的网页工具,虽然是2018年11月才正式发表,但是也陆陆续续开发了好几年,这些年不少同类型数据库网页工具被其它课题组发表,其中比较出名能被拿出来比较的有下面4个:
简单来说,提供bam或者bw文件可视化的只有Cistrome DB和自己的ChIP-Atlas(因为他们两家是自己走ChIP-seq流程,从fastq数据开始处理),其它优缺点功能对比见表格:
4大功能之浏览peaks
网页工具选项蛮多,主要是物种,IP的种类,细胞系类型需要用户选择,如下:
这样就可以下载作者处理好的7万多个的ChIP-seq and DNase-seq数据任意符合条件的peaks的bed文件,或者直接调用本地IGV进行可视化。接着输入我们要查询的基因或者坐标,搜索即可。
下面是作者文章里面的截图,由于网速原因,我并没有重复出来。
4大功能之查询指定基因的靶点
这一个查询步骤会比较耗时,http://dbarchive.biosciencedbc.jp/kyushu-u/hg19/target/TP53.1.html
对比较出名的基因来说,ChIP-seq and DNase-seq数据非常多,个人觉得本功能用处不大。
4大功能之共定位
同样是输入一个基因,这个时候并不会输出全部可能的靶点,而是检索其可能的共定位基因,如下:
http://dbarchive.biosciencedbc.jp/kyushu-u/hg19/colo/AGO1.Breast.html
4大功能之富集分析
这个时候并不是选择物种,IP的种类,细胞系类型来下载BED的peaks文件,也不是输入基因,而是输入peaks信息:
Genomic regions (BED) or sequence motif
Gene list (Gene symbols) ⓘ
后记
到最后也没有看到我想要的功能,其实我想看的是我感兴趣的基因是否在某些转录因子或者组蛋白的ChIP-seq and DNase-seq数据表现为被结合的靶点。
1
南京场(正在进行)
10.12-10.14
2
南宁场(马上开始)
10.26-10.28
课程内容 |
|
1 |
生信R语言入门 |
2 |
GEO数据库挖掘 |
5 |
生信-Linux基础 |
6 |
转录组课题设计与流程分析 |