如何查找基因上的SNP位点
在医学文献中,经常会发现以基因名+突变信息命名的SNP,如UGT1A9*3 98T>C,如果我们要找到这个在染色体上的位置、对应的rs编号、或者要提取序列进行sanger测序验证时,这样命名的突变位点就很难查到对应的信息。
此时,通过dbSNP详细的注释信息,也能找到这个位点,虽然命名形式不同。
先打开dbSNP,检索要找的基因:
https://www.ncbi.nlm.nih.gov/projects/SNP/
找到UGT1A9基因,通过GeneView查看该基因全部的SNP,当然也包含我们要找的UGT1A9*3 98T>C
需要注意基因组的版本,此处默认的是GRCh38.p7,如果该基因有多个转录本,也可以在此处进行选择,有些突变只在特定的转录本中存在。
然后根据突变信息98T>C去找对应的rs编号了,这表明在转录本第98个编码碱基由T突变为C,对应的氨基酸顺序应该是98/3≈33,向上取整。
contig reference表示参考碱基,missense表示突变碱基对应的突变类型,此处是错义突变。
点开rs编号就能看到这个位点全部的突变信息,该位点实际位于2号染色体233672032(CRCh38.p7版本中),另外这个页面下也会提供GRCh37上的位置。相关的文献也能在PubMed中找到,另外在1000 Genimes,ExAC等数据库中也能找到该突变的信息。
如果需要提取旁邻序列进行验证,可以通过UCSC的在线工具提取序列,直接输入以下网址:
http://genome.ucsc.edu/cgi-bin/das/hg38/dna?segment=chr2:23367200,23367500
这样就能返回hg38基因组中chr2上23367200-23367500的序列。
hg38可以更换成hg19,dna?segment= 后面可以按照以上格式更换,就可以返回想要的序列了。