家系分析软件汇总
作者:charon
审稿:童蒙
编辑:amethyst
二代测序技术蓬勃发展,已经用于临床上辅助疾病诊断,利用二代测序数据挖掘孟德尔遗传病相关的基因及变异位点也是越来越普遍。近年来,研究人员开发出很多工具,帮助分析人员可以更简单,快速的分析数据。今天我们就来介绍3个常用的软件,利用父母-子代的trio家系数据来挖掘孟德尔遗传相关的变异。
一、GEMINI
1、软件概述
GEMINI ( GEnome MINIng ) 旨在为个人和医学遗传学开发的一个简单、灵活和强大的框架来探索遗传变异。GEMINI将遗传变异(VCF文件)和丰富的基因组注释集成到统一的数据库(sqlite)中,利用这个集成的数据库作为分析框架,可以充分利用SQL的快速计算能力。此外,通过定义样本关系的PED文件,GEMINI允许探索满足特定遗传模式(比如,隐性,显性等)的变异。
GEMINI 能在人类疾病遗传基础的广泛研究中应用,包括研究个人基因组,未解决的孟德尔疾病,探索大系谱中的罕见变异,以及全基因组病例对照研究。
可检测变异类型:SNPs, INDELs 和 structural variants。
官网:https://gemini.readthedocs.io/en/latest/index.html
gitlab:https://github.com/arq5x/gemini
- 注意事项:
- GEMINI只支持检测人基因组变异,参考基因组版本仅支持37(hg19)
- GEMINI只支持的VCF版本为4.1
- GEMINI数据库需要有访问权限
2、软件安装
GEMINI提供了一个自动安装脚本,非常方便:
wget https://raw.github.com/arq5x/gemini/master/gemini/scripts/gemini_install.py python gemini_install.py $tools $data # $tools是软件安装路径,$data是软件数据库所在路径 export PATH=$PATH:~/gemini/bin # 下载数据库 gemini update --dataonly --extra cadd_score gemini update --dataonly --extra gerp_bp
注意事项,首先需要安装以下依赖包:
- Python 2.7.x
- git
- wget
- a working C / C++ compiler such as gcc
- zlib (including headers)
3、软件运行
数据准备
合并后的vcf文件
家系信息ped文件
参考基因组文件
运行命令
##setup
VCF=/path/to/my.vcf
NORMVCF=/path/to/my.norm.vcf.gz
REF=/path/to/human.b37.fasta
SNPEFFJAR=/path/to/snpEff.jar
##decompose, normalize and annotate VCF with snpEff.
##NOTE: can also swap snpEff with VEP
zless $VCF | sed 's/ID=AD,Number=./ID=AD,Number=R/' | vt decompose -s - | vt normalize -r $REF - | java -Xmx4G -jar $SNPEFFJAR GRCh37.75 | bgzip -c > $NORMVCF
tabix -p vcf $NORMVCF
##load the pre-processed VCF into GEMINI
gemini load --cores 3 -t snpEff -v $NORMVCF $db
##test autosomal recessive
gemini autosomal_recessive $db >$output
结果说明
输出结果文件包含166列,每列之间制表符(tab键)分割,第一行是表头,随后每行代表一个符合该遗传模式的变异,此时变异个数会有数万甚至数百万,因此我们需要对结果进行过滤。
首先,impact_severity这列表示变异的影响,值有HIGH、MED、LOW,通常过滤掉LOW对应的变异,剩下的变异位点将会急剧减少,一般只有几十到几百个。另外,该软件还将变异注释到了很多数据库,或者利用不同的方法对变异进行了注释,比如Clinvar,千人基因组,SIFT等,分析人员都可以根据自己的研究进一步过滤。
二、Exomiser
1、软件概述
一款用java编写的软件。利用表型和vcf信息检测潜在的致病变异,可以应用于WES和WGS。
2、软件安装
需要java环境、软件包和依赖数据库。
软件包可以直接下载解压,链接如下:
https://data.monarchinitiative.org/exomiser/latest/exomiser-cli-12.1.0-distribution.zip
依赖数据链接如下:
https://data.monarchinitiative.org/exomiser/data/
3、软件运行
数据准备
- 合并后的vcf文件
- 家系信息ped文件
- 表型信息HPO编号,中文可以用奇恩生物的罕见病辅助诊断系统https://www.genomcan.cn/#/info,英文用http://compbio.charite.de/phenomizer
运行命令
- step1:修改示例yml文件的信息:vcf,ped,proband,hpoIds,inheritanceModes,outputPrefix,outputFormats(可选TSV-GENE, TSV-VARIANT, VCF, HTML)
- step2:java -Xms4g -Xmx8g -jar exomiser-cli-7.2.3.jar --analysis your-analysis.yml
结果说明
yml文件中设置的outputFormats 对应格式的文件都会输出,html文件方便查看,其他格式方便脚本批量处理。
查看html文件,可以看到得分最高的基因及变异,html的详细解读可以参考 https://cloud.tencent.com/developer/news/390442
三、VAAST
1、软件概述
全称为Variant Annotation, Analysis, and Search Tool ,是一个集变异注释,分析和搜索的工具,整合氨基酸替换和等位频率等信息。其中pVAAST模型用于识别家系的突变分析,识别家庭成员在特定遗传模式中的变异情况,进而判断真正的致病突变。
2、软件安装
压缩包获取地址:http://www.yandelllab.org/software/vaast.html
3、软件运行
数据准备
- 合并后的vcf文件
- 家系信息ped文件
- 参考基因组文件
- 基因组注释GFF3文件
运行命令
step1:创建cdr文件
$VAAST_dir/bin/vaast_tools/vcf2cdr.pl --vcf $vcf --output $outprefix --build hg19 --fasta $ref --gff3 $gff3 --info $info
step2:修改配置文件
所有遗传模式的配置文件在目录$VAAST_dir/data/pvaast/下,根据自己的数据选择相应文件,然后修改文件内参数,主要修改项为:input_ped_cdr_files,pedigree_representatives,inheritance_model
- step3:运行VAAST
$VAAST_dir/bin/VAAST -m pvaast -o $output -pv_control $ctl --gw 1e6 $gff3 $outprefix-step4/family.cdr $outprefix-step4/case.cdr
结果说明
输出目录中有个以 .simple结尾的文件,格式如下:该文件按照P-value对基因进行了排序。进一步可以根据自己的需求取排名靠前的基因位点作为候选集。
总结
软件结果
模拟数据测试结果:
从我自己的测试结果来看,GEMINI结果比较全面,但是假阳性比较多,需要另外过滤;Exomiser结果最好,假阳性结果也是最少的;VAAST的召回率比较低,会漏掉一些真阳性结果。
可检测遗传模式
输入参数
参考文献
1、Paila U , Chapman B A , Kirchner R , et al. GEMINI: Integrative Exploration of Genetic Variation and Genome Annotations[J]. PLoS Computational Biology,9,7(2013-7-18), 2013, 9(7):e1003153.
2、Smedley D , Jacobsen J O B , J?Ger M , et al. Next-generation diagnostics and disease-gene discovery with the Exomiser.[J]. Nature Protocols, 2015, 10(12):2004-2015.
3、Hu H , Huff C D , Moore B , et al. VAAST 2.0: Improved Variant Classification and Disease-Gene Identification Using a Conservation-Controlled Amino Acid Substitution Matrix[J]. Wiley-Blackwell Online Open, 2013, 37(6).