使用SnpSift把vcf文件的变异位点注释到clinvar数据库

2024-05-05 19:47:07

遗传变异的数据库注释非常简单，就是从数据库里面下载记录文件，然后根据坐标对应一下即可，甚至很多成熟的工具都可以自动下载数据库以及比对，就跟我们前面讲到的把vcf文件注释到dbSNP数据库的ID一样简单。我在多年前的直播我的基因组讲过很多了：

首先熟悉 clinvar 数据库

ClinVar是NCBI主办的与疾病相关的人类基因组变异数据库。它的强大在于整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库在遗传变异和临床表型方面的数据信息，形成一个标准的、可信的遗传变异-临床相关的数据库。

clinvar的注释，可以寻找出对应的基因变异信息，发生频率，表型，临床意义，评审状态以及染色体位置等。

首先，我们去clinvar数据库的ftp里面找到数据库文件，然后下载最新版文件，我这里用的是shell命令：

## ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/ mkdir -p ~/annotation/variation/human/clinvar cd ~/annotation/variation/human/clinvar wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/disease_names # mkdir vcf_GRCh37 && cd vcf_GRCh37 mkdir vcf_GRCh38 && cd vcf_GRCh38 wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/clinvar_20200706.vcf.gz wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh38/clinvar_20200706.vcf.gz.tbi

这个 ClinVar数据库里面的变异位点记录更新还是蛮快的。

然后熟悉SnpSift 软件

SnpSift 软件非常强大，推荐大家仔细阅读它的说明书，http://snpeff.sourceforge.net/protocol.html

Example 1: Coding variants
Example 2:Software Integration
Example 3: Non-Coding variants
Example 4: Sequencing data analysis
Example 5: Filter variants (dbSnp)
Example 6: Custom annotations

如果要使用SnpSift把vcf文件的变异位点注释到clinvar数据库，我们需要使用的命令示例是：

java -Xmx1g -jar ~/biosoft/snpEff/snpEff/SnpSift.jar \ annotate \ -v ~/annotation/variation/human/clinvar/clinvar_20200706.vcf.gz \ new.filter.sort.vcf \ > new.clinvar.vcf

一般来说，注释比例并不会太高，因为clinvar数据库记录的位点很有限，如下：

Total annotated entries : 6231 Total entries : 54972 Percent : 11.33%

如果选择其它数据库，比如dbSNP、exac、gnomad注释比例会高很多。

解读clinvar数据库注释结果

实际上，没办法解读，一般来说， WES数据分析结果有10万个变异位点，其中2万左右在外显子区域，那么就会有2千个左右的位点被clinvar注释到，这个数量级仍然是很可观的。

我们必须要有先验知识，比如知道这个WES数据来源的个体是患有某种疾病的，比如，视网膜变性相关疾病就可以搜索：

"Pigmentary retinal degeneration" "Rod-cone dystrophy" "Retinitis pigmentosa"

如果你发现搜索到的突变，都是Benign，没有Pathogenic，就比较麻烦，就需要根据ACMG指南分类分析，重点看：

1、PM1: 位于热点突变区域, 和/或位于已知无良性变异的关键功能域(如酶的活性位点).
2、PM2: ESP 数据库、千人数据库、 EXAC 数据库中正常对照人群中未发现的变异(或隐性遗传病中极低频位点)
3、PP1: 突变与疾病在家系中共分离(在家系多个患者中检测到此变异). 注: 如有更多的证据, 可作为更强的证据.
4、PP3: 多种统计方法预测出该变异会对基因或基因产物造成有害的影响, 包括保守性预测、进化预测、剪接位点影响等. 注: 由于做预测时许多生物信息学算法使用相同或非常相似的输入, 每个算法不应该算作一个独立的标准.

如果这样缩小范围仍然是位点很多，可以直接缩小到基因，比如查询 "Retinitis pigmentosa" 这个疾病相关基因就37个，这样位于这些基因的突变就很少了，从这里面挑选那些有害突变，而且人群频率低的。但是其实有一个问题，既然已经局限于具体的疾病相关基因了，那么为什么还有做WES呢，直接上一个panel不就好了吗？见：家系外显子研究最后反正要定位到已知疾病相关基因

关于ACMG指南分类分析，建议看Germline pathogenic variants of 11 breast cancer genes in 7,051 Japanese patients and 11,241 controls文章的材料与方法部分，主要是很多细致的探索，很有意思。

另外推荐clineff软件

主页是：http://www.dnaminer.com/clineff.html

虽然我没有使用过它，但是从软件名字来看，很明显它更专业，适合做临床级别基因检测数据的变异位点注释。而且居然还收费？

家系分析软件汇总

作者:charon 审稿:童蒙编辑:amethyst 二代测序技术蓬勃发展,已经用于临床上辅助疾病诊断,利用二代测序数据挖掘孟德尔遗传病相关的基因及变异位点也是越来越普遍.近年来,研究人员开发出很多 ...
生物信息就该这么学（22）：不同版本人参考序列的差别

做人全基因的变异检测,首先需要下载人全基因组参考序列.参考序列主要是一些已发表物种基因组的一些信息,可以包括基因组序列,基因的核酸序列,基因的氨基酸序列,坐标文件,注释信息等,需要针对不同的分析目的, ...
保姆级参考基因组及其注释下载教程（图文详解）

目录一.什么是参考基因组和基因组注释?二.参考基因组版本命名1.常用人参考基因组对应表2.常用小鼠参考基因组对应表三.下载1.NCBI2.Ensemble3.GENCODE4.UCSC5.iGenom ...
临床相关突变查询数据库

写在前面越来越多的研究发现某一个基因的突变和很多的临床特征有关系.如果我们想有查找临床性状和基因突变的关系的话,内容比较全面的就是ClinVar数据库了.ClinVar 数据库是ncbi旗下用于查看 ...
【软件介绍】ANNOVAR注释软件用法

变异检测得到的结果是检测样本的基因组序列与参考基因组序列之间的差异.本质上是一个将真实的变异从文库准备.样本富集.检测/测序和映射/比对产生的产物中分离出来的过程.想要进一步研究每一个变异的实际意义, ...
NGS数据分析实践：02. 参考基因组及注释库的下载

NGS数据分析实践:02. 参考基因组及注释库的下载 - 目录 1. 参考基因组数据 2. 已知的SNP和Indel变异数据 3. annovar注释所需数据库的下载 4. 其他数据库系列文章: 二 ...
【直播】我的基因组（六）:变异位点注释数据库的准备

大家好,又是一周不见. 这次见面,已然是一个悲伤而又狂欢的日子,这个双十一,小编从一只单身汪已经变成了断手单身汪,累觉不爱.但是,扶朕起来,朕还能学. Jimmy的测序数据终于出来了,虽然还没寄到Ji ...
优于ANNOVAR和VEP的遗传变异位点注释软件

一般来说, 遗传变异位点注释软件我会介绍ANNOVAR和VEP,以及snpEFF,他们三个的引用是最多的.并不是说就他们3个软件可以做遗传变异位点注释啦,比较知名的还有GEMINI以及SeqAnt,也 ...
如何从vcf文件中批量提取一系列基因的SNP位点？

需求客户的一个简单需求: 我有一批功能基因位点,想从重测序的群体材料中找到这些位点,如何批量快速获得? 示例文件 gene.txt image.png test.vcf image.png 代码实现 ...
【直播】我的基因组28-必须要理解vcf格式记录的变异位点信息

根据前面的讲解我们也对NGS数据分析基本的数据格式和数据流有了一个基本的理解了,不管是fasta.fastq.sam.bam.vcf.gtf 以及 biom 等格式都是具有相对标准的数据组织形式的,含 ...
【直播】我的基因组（七）:从整体理解全基因组测序数据的变异位点

首先记住一个很重要的知识点,变异是相对的! 简单说一下什么是找变异,变异跟突变有什么区别呢?举个栗子:有国际组织规定了人类的参考基因组(如UCSC,ENSEMBL,NCBI等,前面帖子都有讲),就是 ...
【直播】我的基因组 31：vcf文件标记dbSNP的rsID号

vcf文件标记dbSNP的rsID号的这个问题非常多的人问过,大部分的variation calling软件给出的vcf文件里面第3列都是一个纯粹的dot占位符,如下: 但是,我们往往想知道,这个染色 ...
【直播】我的基因组81：看看我的vcf文件的vaf分布情况

这一讲中,我们对VCF中的"VAF"简单的来看一起,如果你对VCF文件还不了解的话,那你就要自我批评一下了.在基因组直播刚开始的时候,我还专门对VCF文件进行了简述.[直播]我的基 ...
从WGS测序得到的VCF文件里面提取位于外显子区域的【直播】我的基因组84

首先要下载并且得到人类基因组的外显子坐标记录文件这里我用的参考基因组版本仍然是hg19,所以去CCDS数据库里面下载对应版本,并且格式化成BED文件. wget ftp://ftp.ncbi.nl ...
安装snpEFF工具并对VCF文件进行注释【直播】我的基因组85

这个软件比较重要,尤其是对做遗传变异相关研究的,很多人做完了snp-calling后喜欢用ANNOVAR来进行注释,但是那个注释还是相对比较简单,只能得到该突变位点在基因的哪个区域,哪个基因这样的信息 ...

使用SnpSift把vcf文件的变异位点注释到clinvar数据库

首先熟悉 clinvar 数据库

然后熟悉SnpSift 软件

解读clinvar数据库注释结果

另外推荐clineff软件

相关推荐