ANNOVAR结果说明-SNP/INDEL
转自 简书
一 结果文件说明
1 VCF (Variant Call Format)是储存Variation结果的文件格式 该文件的#列为文件的详细解读信息
2 *.hg19_multianno.xls是在VCF的基础上,用ANNOVAR注释,并增加OMIM、GO、KEGG等数据库功能注释信息。
二 结果文件(*.hg19_multianno.xls)按照功能区域注释基因及区域注释
变异位点所处的基因(对应的氨基酸)可能直接与疾病相关。公司对变异位点进行已知基因结构及所处区域注释,有助于老师了解此变异位点对应的基因结构及所处区域信息。
CHROM:染色体
POS:变异位点在染色体上的绝对位置
ID:dbSNP注释ID
REF:参考基因组碱基型
ALT:样本基因组碱基型
Func.refGene:对变异位点所在的区域进行注释(exonic,splicing, UTR5, UTR3, intronic, ncRNA_exonic, ncRNA_intronic, ncRNA_UTR3,ncRNA_UTR5, ncRNA _splicing, upstream, downstream,intergenic)。
说明:1、exonic应该包括coding exonic portion、UTR3和UTR5,但ANNOVAR注释结果中exonic只代表coding exonic portion。2、当一个变异位点位于多个基因或转录本,且功能不同,这些功能按照优先级排序,该列输出优先级最高的功能类型:Exonic = splicing > ncRNA> > UTR5/UTR3 > intron > upstream/downstream > intergenic。当一个变异既位于一个基因的UTR3,又位于另一个基因的UTR5时,该列输出"UTR5,UTR3"。当一个变异既位于一个基因的downstream,又位于另一个基因的upstream时,该列输出"upstream,downstream "。
Gene.refGene:列出该变异位点相关的基因。
XXXlocalfreq:公司正常人外显子数据库中,该变异位点上突变碱基的等位基因频率;例如:0.32;表示假设数据库中1000人,其中320个人有该突变;
hgmd_variantType,hgmd_pmid:人类基因突变数据库注释,给出该变异位点相关的突变类型和在HGMD数据库中的ID
omim_id:孟德尔遗传病数据库注释,给出与变异位点所在基因相关的OMIM数据库ID
pho_or_dis,chpo_or_dis:给出与变异位点所在基因相关的遗传疾病中英文表型名称或疾病信息
inheritance:给出与变异位点所在基因相关的遗传方式
GeneDetail.refGene:描述UTR、splicing、ncRNA_splicing或intergenic区域的变异情况。当Func列的值为exonic、ncRNA_exonic、intronic、ncRNA_intronic、upstream、downstream、upstream;downstream、ncRNA_UTR3、ncRNA_UTR5时,该列为空;当Func列的值为exonic;splicing时,表示该位点位于某些转录本的exonic区,另一些转录本的splicing区,这种情况下,GeneDetail会给出该位点对于转录本splicing的影响,例如,NM_1524XX:exon3:c.232C>T,表示该变异位于转录本NM_1524XX上,exon3表示第3个外显子,c.232C>T表示cDNA的232bp处发生由C到T的突变;当Func列的值为intergenic时,该列格式为dist=1322;dist=12414,表示该变异位点距离两侧基因的距离
ExonicFunc.refGene:外显子区的SNV or InDel变异类型(SNV的变异类型包括synonymous_SNV, missense_SNV, stopgain,stopgloss和unknown;InDel的变异类型包括frameshift insertion, frameshift deletion, stopgain, stoploss, nonframeshift insertion, nonframeshift deletion和unknown)
AAChange.refGene:氨基酸改变,只有当Func列为exonic或exonic;splicing时,该列才有结果。按照每个转录本进行注释(例如,AIM1L:NM_001039775:exon2:c.C2768T:p.P923L,其中,AIM1L表示该变异所在的基因名称,NM_001039775表示该变异所在的转录本ID,exon2表示该变异位于转录本的第二个外显子上,c.C2768T表示该变异引起cDNA在第2768位上由C突变为T,p.P923L表示该变异引起蛋白序列在第923位上的氨基酸由Pro变为Leu),再如,FMN2:NM_020066:exon1:c.160_162del:p.54_54del,表示该变异引起cDNA的第160到162位发生删除,p.54_54del表示该变异引起蛋白序列在第54位上的氨基酸删除
*.wgEncodeGencodeBasicV19:Gencode对变异位点所在的区域进行注释(相关解释同*.refGene)
cpgIslandExt:CpG岛预测结果,注释结果为CpG岛名称,如CpG: 116(116是该CpG岛中CG二核苷酸的数目)
cytoband:该变异位点所处的染色体区段(利用Giemas染色观察得到的)。如果变异位点跨过多个区段,用短横线连接
wgRna:基于miRBase和snoRNABase,对变异位点相关的microRNA和snoRNA进行注释,给出microRNA和snoRNA的基因名称
targetScanS:UCSC提供TargetScanS注释数据库,库中包含在3’UTR中保守的microRNA结合位点,来源于TargetScanHuman5.1的预测结果;该软件预测microRNA的靶点,预测结果依据microRNA与靶点之间结合的效能进行排序,排名越靠前,说明microRNA与其靶点的结合越可能是实际存在的事件。此项给出microRNA靶点的信息,一是score,是该靶点的分值,反映的是结合效能的排名,因此,score越大,说明排名越靠后,实际发生该结合的可能性越小,作者没有推荐阈值;二是Name,是作用于该靶点的microRNA名称。例如,Score=62;Name=KRAS:miR-181:1,表示该靶点的分值是62,其位于KRAS基因的3’UTR中,受到该变异位点影响的microRNA是miR-181:1。表示该变异位点位于microRNA(miR-181:1)在基因KRAS的3’UTR上的结合位点。
tfbsConsSites:基于transfac矩阵数据库(v7.0),计算所有转录因子结合位点在人/小鼠/大鼠比对中的保守分值,当结合位点的分值达到阈值时,认为该位点在人/小鼠/大鼠中保守。该列给出的是该变异位点所在的保守转录因子结合位点的位置和分值,即Name和Score。Name是结合位点处的motif名称,这些motif能够被转录因子识别,例如V$CDPCR3_01,利用一些在线服务器(如MSigDB)能够查询这个motif能够被哪些转录因子识别;Score是该结合位点的保守分值
genomicSuperDups:检测该变异位点是否位于重复片段(segmental duplication)中。重复区域中检测到的遗传变异大多数是由于序列比对错误造成的,所以被注释到segmental duplications的变异需要谨慎对待,很可能是假阳性位点。给出两个值,一是Name,表示基因组中与该变异位点所在区域相似的片段的位置;二是Score,表示两个相似片段的序列一致性。例如,Score=0.994828;Name=chr19:60000,表示chr19:60000所在片段跟该变异位点所在片段相似,序列一致性为0.994828,范围0~1
rmsk:重复序列注释信息,重复序列来源于RepeatMasker注释。例如,Name="1385:(CACCC)n(Simple_repeat)"。Name由两部分构成,一部分(CACCC)n是repeat的名称,另一部分Simple是repeat的类别。只要有注释信息,就表明该变异位于散在重复序列或低复杂度序列中;这些区域容易出现比对错误,所以该区域的变异位点可靠性不高 保守(有害)性预测个体中的突变往往非常多(全基因组范围内能达到3.6M-4.4M),而真正有害的突变却是罕见的,有很多根据变异位点的保守性等信息进行有害性预测的软件能帮助我们进行突变位点的有害性评估。采用国际惯用的变异有害性预测软件对突变位点的有害性进行预测,协助找出真正有害的突变位点。
SIFT:SIFT分值(dbNSFP version 3.0),表示该变异对蛋白序列的影响。逗号前后分别是SIFT_score和SIFT_pred:SIFT_score是SIFT分值,分值越小越可能“有害”,表明该SNP导致蛋白结构或功能改变的可能性大。SIFT_pred是预测结果,取值为T或者D。当该变异同时影响多个蛋白序列时,对每条蛋白序列有一个SIFT值,取最小值。D: Deleterious (sift<=0.05); T: tolerated (sift>0.05))
Polyphen2_HVAR:利用PolyPhen2基于HumanVar数据库预测该变异对蛋白序列的影响,用于孟德尔遗传病的诊断(dbNSFP version 3.0)。逗号前后分别是Polyphen2_HVAR_score和Polyphen2_HVAR_pred:Polyphen2_HVAR_score是PolyPhen 2分值,数值越大越可能“有害”,表明该SNP导致蛋白结构或功能改变的可能性大;Polyphen2_HVAR_pred是预测结果,取值为D或P或B(D: Probably damaging (>=0.909), P: possibly damaging (0.447<=pp2_hvar<=0.909); B: benign (pp2_hvar<=0.446))Polyphen2_HDIV:利用PolyPhen2基于HumanDiv数据库预测该变异对蛋白序列的影响,用于复杂疾病(dbNSFP version 3.0)。逗号前后分别是Polyphen2_HDIV_score和Polyphen2_HDIV_pred:Polyphen2_HDIV_score是PolyPhen2分值,数值越大越可能“有害”,表明该SNP导致蛋白结构或功能改变的可能性大;Polyphen2_HDIV_pred是预测结果,取值为D或P或B(D:Probably damaging (>=0.957), P: possibly damaging (0.453<=pp2_hdiv<=0.956); B: benign(pp2_hdiv<=0.452))
MutationTaster: MutationTaster预测结果(dbNSFP version3.0),表示该变异对蛋白序列的影响。逗号前后分别是MutationTaster_score和MutationTaster_pred:MutationTaster_score是MutationTaster分值,取值为0-1,分值越大,表示预测结果越可靠。MutationTaster_pred是预测结果,取值为A、D、N或者P。"A"("Disease_causing_automatic"); "D"("Disease_causing"); "N" ("Polymorphism"); "P"("Polymorphism_automatic")。A和D都表示位点可能有害。
MutationAssessor:MutationAssessor预测结果(dbNSFP version 3.0),表示该变异对蛋白序列的影响。逗号前后分别是MutationAssessor_score和MutationAssessor_pred:MutationAssessor_score是MutationAssessor初始分值,越大越可能“有害”,表明该SNP导致蛋白结构或功能改变的可能性大。MutationAssessor_pred是H、M、L或N(H: high; M: medium; L: low; N: neutral.)。H和M表示功能性的,L和N表示non-functional
LRT:LRT预测结果(dbNSFP version3.0),表示该变异对蛋白序列的影响。逗号前后分别是LRT_score和LRT_pred:LRT_score是LRT分值,分值越小越可能“有害”,表明该SNP导致蛋白结构或功能改变的可能性大。LRT_pred是预测结果,取值为D、N或者U(D:Deleterious; N: Neutral; U: Unknown)
FATHMM:FATHMM预测结果(dbNSFP version3.0),表示该变异对蛋白序列的影响。逗号前后分别是FATHMM_score和FATHMM_pred:FATHMM_score是FATHMM初始分值,分值小于-1.5认为是Deleterious,分值越小越可能有害,表明该SNP导致蛋白结构或功能改变的可能性大。FATHMM_pred是D或T(D:Deleterious; T: Tolerated)
phyloP46way_placental: PhyloP预测结果(dbNSFP version3.0),基于46个哺乳动物物种的多序列比对得到位点的保守性分值,分值越大,位点越保守。该分值考虑的是变异位点的保守性,而非考虑该位点上的碱基,所以无论该位点上是同义突变还是非同义突变,score都相同。该分值用来寻找具有功能重要性的位点,利用这些score值,能够推断出疾病易感性位点
phyloP100way_vertebrate: PhyloP预测结果(dbNSFP version3.0),基于100个脊椎动物物种的多序列比对得到位点的保守性分值,分值越大,位点越保守
CADD:CADD是一种对SNV、InDel的有害性进行打分的工具,它整合多种信息来注释变异位点的功能;不仅预测编码区变异(包括同义突变和非同义突变的影响)的功能影响,还预测非编码区变异的功能影响。对于SNP,仅对CADD分值排名在前10%的SNP给出分值,'.'表示CADD分值排名不在前10%。我们的注释结果中,有分值时,逗号前后分别是CADD和CADD_Phred;CADD列是初始分值,CADD_Phred是转换后的分值;没有分值,即为'.'时,表示CADD_Phred值小于10。CADD_Phred分值中,10表示score排名在前10%,20表示前1%,30表示前0.1%,因此,分值要求越低,能保留下来的位点越多。对于SNP,CADD作者建议CADD_Phred分值>15,文章中通常用10或15;InDel没有建议值
SiPhy_29way_logOdds:与phylop类似,SiPhy是基于29种哺乳动物的多序列比对得到位点的保守性分值,分值越大,位点越保守(dbNSFP version 3.0)
gerp++gt2:dbNSFP version3.0中的gerp++只包含coding variant的注释。为了注释所有变异位点的保守性,ANNOVAR整理了gerp++gt2,包含GERP++ 分值大于2的位点。越保守的位点发生变异,对于蛋白的影响越大。分值越高,位点越保守。通常,GERP++ 分值大于2的位点认为是保守位点,可能具有功能数据库(频率)注释人群中有很多变异位点是多态性的(高频的),而真正有害的变异位点一般是低频的。公司对每个变异位点注释国际通用的部分数据库中的频率及临床相关信息,有助于了解这个变异位点发生的频率高低(临床相关)的信息,协助找出致病突变位点。
wgEncode*HMM:non-coding区域的注释
avsnp147:该变异在dbSNP(版本147)中的ID
CLIN*:(clinvar_20170130)注释变异与人类健康之间的关系,临床意义的数据来源于NCBI,格式为:CLINSIG=Pathogenic;CLNDBN=Immunodeficiency_38;CLNACC=RCV000162196.3;CLNDSDB=MedGen:OMIM;CLNDSDBID=CN221808:616126。CLINSIG代表变异位点在临床意义,可取值为Benign,Likely benign,Likely pathogenic,Pathogenic,drug response,not provided,Uncertain significance,other。CLINDBN代表变异位点相关的疾病名称。CLNACC代表变异在CLINVAR数据库中的accession号和版本号。CLNDSDB是疾病关联信息的数据库来源,CLNDSDBID是数据库中的编号。
gwasCatalog:检测变异位点是否在以往的GWAS研究中被报导,表示该变异位点与哪些疾病相关联,“.”表示没有GWAS报导
1000g2015aug_Chinese: 给出千人基因组计划数据(2015年8月公布的版本)的中国人群中,该变异位点上突变碱基的等位基因频率
1000g2015aug_eas:给出千人基因组计划数据(2015年8月公布的版本)的东亚人群中,该变异位点上突变碱基的等位基因频率
1000g2015aug_all:给出千人基因组计划数据(2015年8月公布的版本)的所有人群中,该变异位点上突变碱基的等位基因频率,文献通常采用0.01的标准进行过滤
esp6500siv2_all:国家心肺和血液研究所外显子组测序计划(NHLBI-ESP project,esp6500si_all数据库中包含SNP变异、InDel变异和Y染色体上的变异的所有个体中,突变碱基的等位基因频率(alternative allele frequency),文献中通常采用0.01的标准进行过滤.
ExAC_ALL:ExAC是Exome Aggregation Consortium的简称,整合了60706个无亲缘关系个体的数据,这些个体来源于大量disease-specific研究和群体遗传学研究,能够用做严重疾病研究的reference set of allele frequency。目前ExAC数据库中包括ALL, AFR (African), AMR (Admixed American), EAS (East Asian), FIN (Finnish), NFE (Non-finnish European), OTH(other), SAS (South Asian)。ExAC_ALL是指在所有人群中,该变异位点上突变碱基的等位基因频率,文献中通常采用0.01的标准进行过滤
ExAC_EAS:在ExAC的东亚人群中,该变异位点上突变碱基的等位基因频率
gnomAD_exome_*: Aggregation Database(gnomAD)基因组聚合数据库(gnomAD)是一个研究者联盟,旨在整合和协调各种大型测序项目的外显子组和基因组测序数据,并为更广泛的科学界提供摘要数据。 在第一个版本中只包含了外显子组数据,因此被称为Exome Aggregation Consortium(ExAC);相关释义见ExAC_*
InterVar(automated):InterVar按照ACMG检验标准给出的致病性分级基因功能及通路注释 对突变位点所在基因进行疾病相关数据库,通路及功能相关注释,能了解到该突变位点是否已知与某类型疾病相关,也能了解到该突变位点所在基因存在于哪些通路中,对了解该基因的生物学功能有重要意义。
GO:Gene Ontology数据库注释,GO是基因本体学注释,包括了基因的生物学过程(Biological Process,BP),细胞组分(Cellular Component,CC)和分子功能(Molecular Function,MF)的注释。给出变异位点所在蛋白质或者基因参与的生物学通路名称。
KEGG_PATHWAY:全基因组及代谢途径数据库注释,给出变异位点所在基因参与的代谢通路名称
Swissprot:是一个蛋白质序列数据库,在整合其他数据库信息的基础上以较低的冗余度实现对蛋白质的评注功能,如功能描述、结构域、翻译后修饰、变体等;变异位点信息 此部分信息为变异位点的详细信息,包括变异位点的覆盖深度,突变前后碱基型和纯杂合信息等。变异位点的信息能在家系分析或者筛选中起到重要的作用。GT:GQ:DP:AD:ARQAUL:变异的质量值,值越高越好,文献中常见20以上的过滤标准
FILTER:过滤TAG,如果该位点满足所有过滤条件,则标记为PASS(过滤条件采用的是国际惯用的过滤标准)
INFO:变异软件检测的变异位点信息
FORMAT:用“:”分隔了若干个字段:
GT:该位点基因型(Genotype)。0代表Allele和ref相同,1、2、3等代表Allele和ref不同;纯合:0/0,1/1;杂合:0/1
GQ:基因型质量值(对应格式0/0,0/1,1/1三种基因型,质量值越大越好)
DP:该位点测序深度(覆盖的总reads数)
AD: 该位点变异碱基型的深度(非参考碱基的reads数)
AR:变异碱基型的深度占总深度的比例
Genotype:与FORMAT列对应,':'分隔的每一部分对应FORMAT':’分隔的每一部分;
优先级信息 通过积累公开文献中的筛选标准,仅作为指导和参考。
1)该位点不在genome repeat 区域(即genomicSuperDups和Repeat 没有注释信息)
2)千人基因组数据库中频率小于0.01
3)该位点位于exonic 或者 splicing 区域
4)该位点经SIFT、Polyphen、MutationTaster、CADD预测至少有一个软件预测为有害
5)该位点位于exonic 或者 splicing 区域
6)去掉本地数据库中高频出现的变异
7)去掉Qual小于20,Filter为lowQual的变异
8)gnomAD中各个种群最大MAF值<1%
9)去掉基因间的变异,保留外显子以及距离剪接位点10个碱基之内的变异(但要保留HGMD,clinvar中报道的致病或疑似致病及VUS的变异)
作者:九月_1012
链接:https://www.jianshu.com/p/6c11fe689bac
来源:简书
著作权归作者所有。非商业转载请注明出处。