HiC数据分析实战(一)

首先需要明白数据分析流程,可以查看第一讲:三维基因组学习笔记,提炼流程如下:

  • Hi-C标准分析流程(比对及过滤,原始互作图谱构建)

    • 下载参考基因组及构建bowtie2索引

    • 把fq测序数据比对都参考基因组

    • 过滤及挑选符合要求的比对结果

    • 原始互作图谱构建

    • 互作图谱迭代校正

  • Compartment分析

  • TAD分析

  • 显著互作Loops分析

实战数据

来自于Tung B. K. Le et al. Science 2013 :https://www.ncbi.nlm.nih.gov/sra/?term=srr824846

Study: High-resolution mapping of the spatial organization of Caulobacter crescentus chromosome by chromosome conformation capture in conjunction with next-generation sequencing (Hi-C)

数据下载后转为fq文件如下:

858M Jul  3 16:21 SRR824846_Q20L10_1.fastq.gz
857M Jul  3 16:22 SRR824846_Q20L10_2.fastq.gz

如果想看其它数据:PRJNA196826 · SRP020913 · All experiments · All runs

下载参考基因组并且构建bowtie2的索引

物种是:新月柄杆菌 Caulobacter crescentus,它是一种经常用于实验室实验中的细菌,通常含有扁平囊泡(绿色),包裹着贮存颗粒(橙色)。

WC Nierman - ‎2001的文章就发表了该物种的基因组 - ‎被引用次数:500 The complete genome sequence of Caulobacter crescentus was determined to be 4,016,942 base pairs in a single circular chromosome encoding 3,767 genes.

mkdir -p ~/project/hic/ref
cd ~/project/hic/ref
wget ftp://ftp.ensemblgenomes.org/pub/bacteria/release-40/fasta/bacteria_20_collection/caulobacter_crescentus_na1000/dna/Caulobacter_crescentus_na1000.ASM2200v1.dna.toplevel.fa.gz
gunzip Caulobacter_crescentus_na1000.ASM2200v1.dna.toplevel.fa.gz
bowtie2-build  Caulobacter_crescentus_na1000.ASM2200v1.dna.toplevel.fa   bacteria

得到

5.3M Jul 25 19:28 bacteria.1.bt2
988K Jul 25 19:28 bacteria.2.bt2
  17 Jul 25 19:28 bacteria.3.bt2
988K Jul 25 19:28 bacteria.4.bt2
5.3M Jul 25 19:28 bacteria.rev.1.bt2
988K Jul 25 19:28 bacteria.rev.2.bt2

这个参考基因组fa文件节选如下:

>Chromosome dna:chromosome chromosome:ASM2200v1:Chromosome:1:4042929:1 REF
GAATTCTTAACGTCCTGAGACACGACAGCGACCTCTGACCGGACTCGTTCCGCGTCTTTG
GACAATCGGGATTCAGACTTCGGGGGATGCGGCGCAGGCTTGGGGATGATAGGCGAGCAA
TGCGACCGTTGATCACAGCGGCGCCGTGTCACGACGCTGTTGGGGCCGTTCGGCGCCCGG

下载必备软件

软件大全来源于:https://omictools.com/3c-4c-5c-hi-c-chia-pet-category

如果没有conda就先安装咯:

wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
source ~/.bashrc
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda config --set show_channel_urls yes

然后安装一系列软件哈:

conda create -n hic  python=2 bowtie2
conda info --envs
source activate hic
conda search hiclab
conda install -y sra-tools samtools 

有些软件不在conda里面,需要自行查看软件说明书文档,主要是:

  • https://bitbucket.org/mirnylab/hiclib

  • https://github.com/nservant/HiC-Pro

其中特别值得推荐,可以处理各种各样的hic数据,包括:

  • Hi-C

  • in situ Hi-C

  • DNase Hi-C

  • Micro-C

  • capture-C

  • capture Hi-C

  • HiChip

安装hiclib代码如下:

source activate hic
conda install numpy scipy matplotlib h5py cython numexpr statsmodels  scikit-learn pandas 
pip install https://bitbucket.org/mirnylab/mirnylib/get/tip.tar.gz
pip install https://bitbucket.org/mirnylab/hiclib/get/tip.tar.gz ##  17.7MB 44kB/s

安装hiclib代码如下:

# conda install numpy scipy matplotlib h5py cython numexpr statsmodels  scikit-learn pandas
## 依赖软件比较多
source activate hic
conda install -y pysam bx-python numpy scipy 
conda install  -y R

R -e "install.packages(c('ggplot2','RColorBrewer') repos='https://mirrors.tuna.tsinghua.edu.cn/CRAN/')"
R -e "library(ggplot2)"
R -e "library(RColorBrewer)"

mkdir -p ~/biosoft/hicpro
cd ~/biosoft/hicpro
git clone https://github.com/nservant/HiC-Pro.git
cd HiC-Pro/
which bowtie2
which R
which samtools
which python
cat config-install.txt
mkdir /home/zengjianming/biosoft/hicpro/bin

这个时候一定要根据自己的系统环境,修改目录下的config-install.txt文件哦:

PREFIX =/home/zengjianming/biosoft/hicpro/bin
BOWTIE2_PATH =/home/zengjianming/miniconda3/envs/hic/bin/bowtie2
SAMTOOLS_PATH =/home/zengjianming/miniconda3/envs/hic/bin/samtools
R_PATH =/home/zengjianming/miniconda3/envs/hic/bin/R
PYTHON_PATH =/home/zengjianming/miniconda3/envs/hic/bin/python
CLUSTER_SYS =SGE

然后就可以编译自己的软件啦:

make configure
make install

依赖非常多,但是用心安装还是问题不大的哦!

/home/zengjianming/biosoft/hicpro/bin/HiC-Pro_2.10.0/bin/HiC-Pro -h

这样如果输出了帮助文档,说明安装成功哦。

hiclib教程

先看官网readme,如下:

  • 0. Download software and data

  • 1. Map reads to the genome

  • 2. Filter the dataset at the restriction fragment level

  • 3. Filter and iteratively correct heatmaps.

打开才发现,居然清一色的python代码,而不是打包好的软件,命令行加上参数的模式来走这个流程,感觉有点难用,先放弃,后续再更新这个使用记录。

Hic-pro教程

其说明书完全不逊于hiclib,详见:http://nservant.github.io/HiC-Pro

大体上看就6个步骤,比对、过滤HiC比对结果、检测有效HiC序列、结果合并、构建HiC关联图谱以及关联图谱标准化。而行使这些不同功能只需要更改参数即可:

 [-s|--step ANALYSIS_STEP] : run only a subset of the HiC-Pro workflow; if not specified the complete workflow is run
      mapping: perform reads alignment - require fast files
      proc_hic: perform Hi-C filtering - require BAM files
      quality_checks: run Hi-C quality control plots
      merge_persample: merge multiple inputs and remove duplicates if specified - require .validPairs files
      build_contact_maps: Build raw inter/intrachromosomal contact maps - require _allValidPairs files
      ice_norm : run ICE normalization on contact maps - require .matrix files

只使用s 参数才会分步运行,因为5步中还是mapping花的时间最多,如果其它步骤需要调整参数,分步运行还是会快很多,比如调整BIN_SIZE等等。

当然,不得不提的是其特色功能:位基因特异性HiC分析

今天有点晚了,明天继续实战哦。

其它实战数据集

上面的是细菌基因组,测序文件也小很多,适合练手,如果熟练了也可以找其它数据集,比如Rose基因组的HiC原始数据下载地址:

  • http://sra-download.ncbi.nlm.nih.gov/srapub/SRR6189546

  • http://sra-download.ncbi.nlm.nih.gov/srapub/SRR6189547

每个数据都12G左右。

还可以是 An Osteoporosis Risk SNP at 1p36.12 Acts as an Allele-Specific Enhancer to Modulate LINC00339 Expression via Long-Range Loop Formation 文章的数据,等等。

(0)

相关推荐

  • miniconda配置

    一.配置目录可以是C盘用户目录下的.condarc channels:   - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/   - ...

  • Linux 环境变量的所有知识

    今天详细聊聊环境变量吧.这个十分常见而基础的问题,想必经常困扰初学者,属于众多"我问了,人家也答了,我还看了帖子,但始终没搞明白"的问题之一.岛主试试用写科普的啰嗦风格解释一下.今 ...

  • 转录组学习一(软件安装)

    开篇:2017/10/7正式开始生信技能树论坛里的转录组入门从Linux下软件的安装 到 差异表达基因的功能注释及功能分析相关. 转录组相关软件的安装 任务 本地Windows电脑及服务器Linux系 ...

  • 如何使用蟒蛇在WSL+UBUNTU20.04+python3.8上安装openCV?

    python-3.xopencvwindows-subsystem-for-linuxubuntu-20.04 我试图用WSL+UBUNTU20.08在WSL+UBUNTU20.04上安装openCV ...

  • 宏基因组分析专题(2):生物信息学软件的应用市场-Conda的安装流程

    本文由微科盟phage根据实践经验而整理,希望对大家有帮助. 微科盟原创微文,欢迎转发转载. 写在前面 什么是Conda? Conda是一款可以帮助我们轻松安装几乎所有的生物信息学软件的工具,说Con ...

  • HiC数据分析实战之通过文章来了解流程

    通过第一讲:三维基因组学习笔记,我们了解了3D基因组研究范围,然后根据我在生信技能树发布的生信工程师标准提炼出基础技能,也就是第二讲:生信基础技能 最后提炼出了数据分析流程,并且安装好了对应的软件,也 ...

  • HiC数据分析实战之Hic-pro

    通过第一讲:三维基因组学习笔记,我们了解了3D基因组研究范围,然后根据我在生信技能树发布的生信工程师标准提炼出基础技能,也就是第二讲:生信基础技能 .最后提炼出了数据分析流程,并且安装好了对应的软件, ...

  • 20个python数据分析实战项目(附源码)

    20个python数据分析实战项目(附源码)

  • 基于Python获取股票分析,数据分析实战

    基于Python获取股票分析,数据分析实战

  • Python数据分析实战:降雨量统计分析报告分析

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于菜J学Python ,作者小小明 最近遇到一个有点烧脑的需求,其实也不算烧脑,主要是 ...

  • 数据分析实战

    前景提要 大二实习结束过去五个多月了. 当时入职数据分析还算是有点基础进入的公司. 如今这么久不学数据分析了,似乎都有点生疏了. 今天写个数据分析实战,为了弥补一下亏欠粉丝的承诺吧. 主要目标 使用P ...

  • Python数据分析实战:解密数据分析师的薪资和需求

    本文将以数据分析的方式对这个行业展开调研,尽可能让正在从事或有兴趣想加入这个行业的小伙伴们对于当前数据行业的就业环境有更深入的了解和认识. 项目流程 · 数据获取:访问前程无忧官网,找出需用作数据分析 ...

  • 数据分析实战案例,帮你全面认识 Power BI

    很多人学习了一段时间,可是依然不清楚如何将Power BI用于实践,或者只接触了其中的某个模块,认为她只是一个分析工具或者可视化工具,对PowerBI没有一个整体的认识. 本文利用一个实例,来梳理一下 ...

  • 数据分析实战20绝技

    十年前是一个人人都是产品经理的年代,那时候的产品经理真的可以改变世界. 十年后时代变了,产品经理多了,数据更多了,所以这变成了一个人人都是数据分析师的年代. 当下只要是做互联网和it的没有不知道要重视 ...