安装VEP及其注释数据库

为了其它相关软件的顺利运行,我们根据教程来设置默认的安装目录及变量环境:Ensembl's VEP , If you don't have VEP installed, then follow this gist.

export cd=$HOME/vep
export VEP_DATA=$HOME/.vep
mkdir $VEP_PATH $VEP_DATA; cd $VEP_PATH
export PERL5LIB=$VEP_PATH:$PERL5LIB
export PATH=$VEP_PATH/htslib:$PATH
## 这一块代码就创建文件夹和下载数据,理论上不会出错,取决于网速
perl -e '{print join"\n",@INC}'
## 这种临时添加perl模块路径的方法不好用,需要修改
source   ~/.bashrc

curl -LO https://github.com/Ensembl/ensembl-tools/archive/release/86.tar.gz
tar -zxf 86.tar.gz --starting-file variant_effect_predictor --transform='s|.*/|./|g'

基因组数据库下载

Download and unpack VEP's offline cache for GRCh37, GRCh38, and GRCm38:

cd $VEP_DATA
#rsync -zvh rsync://ftp.ensembl.org/ensembl/pub/release-86/variation/VEP/homo_sapiens_vep_86_GRCh37.tar.gz $VEP_DATA
rsync -zvh rsync://ftp.ensembl.org/ensembl/pub/release-86/variation/VEP/homo_sapiens_vep_86_GRCh38.tar.gz $VEP_DATA
#rsync -zvh rsync://ftp.ensembl.org/ensembl/pub/release-86/variation/VEP/mus_musculus_vep_86_GRCm38.tar.gz $VEP_DATA
cat $VEP_DATA/*_vep_86_GRC{h37,h38,m38}.tar.gz | tar -izxf - -C $VEP_DATA
## 解压下载好的数据库到指定文件夹
# 4.9G Apr 23 19:40 homo_sapiens_vep_86_GRCh38.tar.gz
## 这一步下载的文件有点大,可能会些微耗时,一般不修改默认文件夹。

Install the Ensembl API, the reference FASTAs for GRCh37/GRCh38/GRCm38:

cd $VEP_PATH
#perl INSTALL.pl --AUTO af --SPECIES homo_sapiens --ASSEMBLY GRCh37 --DESTDIR $VEP_PATH --CACHEDIR $VEP_DATA
perl INSTALL.pl --AUTO af --SPECIES homo_sapiens --ASSEMBLY GRCh38 --DESTDIR $VEP_PATH --CACHEDIR $VEP_DATA
#perl INSTALL.pl --AUTO af --SPECIES mus_musculus --ASSEMBLY GRCm38 --DESTDIR $VEP_PATH --CACHEDIR $VEP_DATA
## 这中间会安装 BioPerl

如果成功,会有提示,如下:

- downloading Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
 - converting sequence data to bgzip format
Going to run:
/home/jianmingzeng/vep/biodbhts/scripts/convert_gz_2_bgz.sh /home/jianmingzeng/.vep/homo_sapiens/86_GRCh38/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz /home/jianmingzeng/vep/htslib/bgzip
This may take some time and will be removed when files are provided in bgzip format
Converted FASTA gzip file to bgzip successfully
[fai_load] build FASTA index.
- indexing OK
The FASTA file should be automatically detected by the VEP when using --cache or --offline. If it is not, use "--fasta /home/jianmingzeng/.vep/homo_sapiens/86_GRCh38/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz"
All done

因为用到perl模块,如果你的服务器环境没有配置好,会需要一些设置;

perl -e 'use LWP::Simple'

wget -O- http://cpanmin.us | perl - -l ~/perl5 App::cpanminus local::lib
eval `perl -I ~/perl5/lib/perl5 -Mlocal::lib`
echo 'eval `perl -I ~/perl5/lib/perl5 -Mlocal::lib`' >> ~/.profile
echo 'export MANPATH=$HOME/perl5/man:$MANPATH' >> ~/.profile
source ~/.profile

cpanm -v --notest -l ~/perl5  Archive::Extract;
cpanm -v --notest -l ~/perl5  Archive::Zip;
cpanm -v --notest -l ~/perl5  HTML::Entities;
cpanm -v --notest -l ~/perl5  LWP::Simple;
cpanm -v --notest -l ~/perl5  Compress::Zlib;
perl -e 'use Archive::Extract'
perl -e 'use HTML::Entities'
perl -e 'use HTML::HeadParser'
perl -e 'use LWP::Simple'
perl -e 'use Archive::Zip'
perl -e 'use Compress::Zlib'

cpanm -v --notest -l ~/perl5  DBD::mysql;
perl -e 'use DBD::mysql'

Convert the offline cache for use with tabix, that significantly speeds up the lookup of known variants:

#perl convert_cache.pl --species homo_sapiens --version 86_GRCh37 --dir $VEP_DATA
perl convert_cache.pl --species homo_sapiens --version 86_GRCh38 --dir $VEP_DATA
#perl convert_cache.pl --species mus_musculus --version 86_GRCm38 --dir $VEP_DATA
## 这个步骤特别耗时

更多细节去看我以前在生信菜鸟团博客分享的笔记:http://www.bio-info-trainee.com/1600.html

安装过程如下:

2018-04-27 13:42:12 - Processing homo_sapiens
2018-04-27 13:42:12 - Processing version 86_GRCh38
2018-04-27 13:42:12 - Processing _var cache type
[===========================================================]  [ 100% ]
2018-04-27 14:59:39 - All done!

下载安装关联软件

Download and build samtools and bcftools, which we'll need for steps below, and when running vcf2maf/maf2maf:

mkdir $VEP_PATH/samtools && cd $VEP_PATH/samtools
curl -LOOO https://github.com/samtools/{samtools/releases/download/1.3.1/samtools-1.3.1,bcftools/releases/download/1.3.1/bcftools-1.3.1,htslib/releases/download/1.3.2/htslib-1.3.2}.tar.bz2
cat *tar.bz2 | tar -ijxf -
cd htslib-1.3.2 && make && make prefix=$VEP_PATH/samtools install && cd ..
cd samtools-1.3.1 && make && make prefix=$VEP_PATH/samtools install && cd ..
cd bcftools-1.3.1 && make && make prefix=$VEP_PATH/samtools install && cd ..
cd ..

Download the liftOver binary down the same path, and make it executable:

curl -L http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/liftOver > bin/liftOver
chmod a+x bin/liftOver

Set $PATH to find all those tools, and also add this line to your ~/.bashrc to make it persistent. Be sure to edit the path below, if you didn't do this in your $HOME:

export PATH=$HOME/vep/samtools/bin:$PATH

使用VEP在真实数据

一般都需要先看看帮助文件:

perl ~/vep/variant_effect_predictor.pl  --help
#----------------------------------#
# ENSEMBL VARIANT EFFECT PREDICTOR #
#----------------------------------#
version 86
by Will McLaren (wm2@ebi.ac.uk)
Help: dev@ensembl.org , helpdesk@ensembl.org
Twitter: @ensembl , @EnsemblWill
http://www.ensembl.org/info/docs/tools/vep/script/index.html
Usage:
perl variant_effect_predictor.pl [--cache|--offline|--database] [arguments]
Basic options
=============
--help                 Display this message and quit
-i | --input_file      Input file
-o | --output_file     Output file
--force_overwrite      Force overwriting of output file
--species [species]    Species to use [default: "human"]
--everything           Shortcut switch to turn on commonly used options. See web
                      documentation for details [default: off]
--fork [num_forks]     Use forking to improve script runtime
For full option documentation see:
http://www.ensembl.org/info/docs/tools/vep/script/vep_options.html

一般收入数据的vcf格式的:http://samtools.github.io/hts-specs/VCFv4.2.pdf

不过也没有那么标准,我给了如下:

chr1    12861477    .   T   C   .   .   32:1:3.03%:T:23:8:25.81%
chr1    16588939    .   T   C   .   .   22:0:0%:T:8:3:27.27%
chr1    16703018    .   C   G   .   .   28:0:0%:C:21:6:22.22%

处理起来毫无压力:

perl ~/vep/variant_effect_predictor.pl  -i tmp.vcf  -o test.results \
--cache --force_overwrite  --assembly GRCh38 --vcf

得到的结果其实和snpEFF没啥子区别,反正工具嘛,顺手即可。

其它输入数据:

它支持好几种输入格式数据:

  • BED: a simple tab-delimited format containing 3-12 columns of data. The first 3 columns contain the coordinates of the feature. If available, the VEP will use the 4th column of the file as the identifier of the feature.

  • GFF: a format for describing genes and other features. If available, the VEP will use the "ID" field as the identifier of this feature.

  • GTF: treated in an identical manner to GFF.

  • VCF: a format used to describe genomic variants. The VEP will use the 3rd column of the file as the identifier.

  • bigWig: a format for storage of dense continuous data. The VEP uses the value for the given position as the "identifier". Note that bigWig files contain their own indices, and do not need to be indexed by tabix.

Any other files can be easily converted to be compatible with the VEP; the easiest format to produce is a BED-like file containing coordinates and an (optional) identifier:

其实重点就是给出你的突变的坐标即可,在哪条染色体,什么位置!

不过,值得注意的是,我测试了BED格式,似乎不可以。

输出数据及其复杂

建议打印说明慢慢理解,争取熟记掌握。

snpEFF的输出文件说明书我就打印出来了。

非常重要。

当然,你可能会喜欢snpEFF: 安装snpEFF工具并对VCF文件进行注释【直播】我的基因组85

(0)

相关推荐

  • 保姆级参考基因组及其注释下载教程(图文详解)

    目录一.什么是参考基因组和基因组注释?二.参考基因组版本命名1.常用人参考基因组对应表2.常用小鼠参考基因组对应表三.下载1.NCBI2.Ensemble3.GENCODE4.UCSC5.iGenom ...

  • 生物信息就该这么学(22):不同版本人参考序列的差别

    做人全基因的变异检测,首先需要下载人全基因组参考序列.参考序列主要是一些已发表物种基因组的一些信息,可以包括基因组序列,基因的核酸序列,基因的氨基酸序列,坐标文件,注释信息等,需要针对不同的分析目的, ...

  • 【直播】我的基因组(六):变异位点注释数据库的准备

    大家好,又是一周不见. 这次见面,已然是一个悲伤而又狂欢的日子,这个双十一,小编从一只单身汪已经变成了断手单身汪,累觉不爱.但是,扶朕起来,朕还能学. Jimmy的测序数据终于出来了,虽然还没寄到Ji ...

  • RHEL7.5 静默安装(silent mode)oracle11gr2数据库软件

    如果没有图形界面多可怕,或者图形界面安装总报些奇怪的错误多可怕,静默安装数据库软件了解一下 修改主机名.关闭selinux [root@localhost ~]$ sed -i '3,$d' /etc ...

  • 中标麒麟上安装配置达梦数据库7

    在中标麒麟上安装配置达梦数据库7分为如下几步: 检查软硬件配置是否满足要求 规划安装目录及用户 配置环境变量及limit文件 挂载安装文件 安装数据库 创建数据库 注册并启动数据库实例服务 下面依次进 ...

  • centos7安装数据库MariaDB

    在CentOS7下,默认安装的数据库为MariaDB,属于MySQL数据库的一个分支,所以我还是使用了MariaDB: #yum install mariadb-server -y #systemct ...

  • Oracle 11g数据库安装(包含PLSQL)

    一.虚拟机环境搭建 1.下载VMvare虚拟机安装包,安装虚拟机,并在虚拟机中加装Win Server 2012 服务器环境: 2.如果大家装的是英文版的winserver2012环境,可以在控制面板 ...

  • win10专业版能安装上mysql数据库么

    提问win10专业版能安装上mysql数据库么?如果能,能不能给个安装步骤? 网上百度的各种方法都试过了装不上,请看清楚是win10专业版 1.同时按下键盘组合键Win+i,打开设置窗口,点击&quo ...

  • 一文搞懂MySQL兄弟数据库MariaDB的安装和使用

    linux入门系列19--数据库管理系统(DBMS)之MariaDB 前面讲完Linux下一系列服务的配置和使用之后,本文简单介绍一款数据库管理系统(MySQL的兄弟)MariaDB. 如果你有MyS ...

  • mycat数据库集群系列之mycat读写分离安装配置

    最近在梳理数据库集群的相关操作,现在花点时间整理一下关于mysql数据库集群的操作总结,恰好你又在看这一块,供一份参考.本次系列终结大概包括以下内容:多数据库安装.mycat部署安装.数据库之读写分离 ...

  • 6:VMware Horizon View 8.0-安装数据库服务器

    从模板创建虚拟机 设置虚拟机名字 如果需要自定义硬件,可以设置 等待虚拟机克隆完成 克隆完成后,设置虚拟机 修改IP地址 修改主机名,加域 安装数据库之前必须先安装.net 3.5 安装数据库 安装数 ...