如何从vcf文件中批量提取一系列基因的SNP位点？

2024-07-29 22:24:27

需求

客户的一个简单需求：

我有一批功能基因位点，想从重测序的群体材料中找到这些位点，如何批量快速获得？

示例文件

gene.txt

image.png

test.vcf

image.png

代码实现

run.sh

cat $1 |while read gene chr from todo#echo $chr $from $toif echo $2 |grep -q '.*.vcf.gz$';thenvcftools --gzvcf $2 --chr $chr --from-bp $from --to-bp $to --recode --recode-INFO-all --out $gene.$chr.$from-$to elif echo $2 |grep -q '.*.vcf$';thenvcftools --vcf $2 --chr $chr --from-bp $from --to-bp $to --recode --recode-INFO-all --out $gene.$chr.$from-$tofidone

运行sh run.sh gene.txt test.vcf，或sh run.sh gene.txt test.vcf.gz

生成结果：

image.png

补充说明

以上代码中利用了vcftools工具，以及shell中读取每行文件的每个字段进行赋值。

vcftools还能提取某个具体位置的SNP：

vcftools --gzvcf test.vcf.gz --positions specific_position.txt --recode --out specific_position.vcf

specific_position.txt文件格式如下：

1 8420131 8910211 9034261 9496541 1018704

除了vcftools，bcftools和plink等工具也能实现类似的功能。

bcftools filter test.vcf.gz --regions 9:4700000-4800000 > out.vcf

但bcftools要求vcf必须是gz格式，如不是，则需要进行转化（直接用gzip不行）：

bcftools view test.vcf -Oz -o test.vcf.gzbcftools index test.vcf.gz

需要格外注意的是，vcf中的染色体名称要和提取文件中的染色体名保持一致，如Chr1或chr1或1。

或者：

bcftools view  -S keep.list test.vcf >sub_indv.vcf

keep.list可以是“染色体+具体位置”两列，也可以是“染色体+起始+终止”三列：

chr1 27639chr1 60383chr2 60469chr3 60516chr4 60534#或者chr1　　1　　1000chr1　　2000　　4500

在plink中，可以指定特定的样本（keep)或SNP(extract)。

指定样本提取：

plink --bfile file --noweb --keep sampleID.txt --recode --make-bed --out sample

sampleID.txt第一列为提取的样本Family ID，第二列为Within-family ID（IID）。

指定位点提取：

plink --bfile file --extract snp.txt --make-bed --out snp

snp.txt文件中一个SNP名称一行。

赞 (0)

GWAS | 原理和流程 | 全基因组关联分析曼哈顿图 Manhattan_plot | QQ p...

生物空间站 17篇原创内容公众号名词解释和基本问题:关联分析:就是AS的中文,全称是GWAS.应用基因组中数以百万计的单核苷酸多态:SNP为分子遗传标记,进行全基因组水平上的对照分析或相关性分析,通过 ...
多手机号和姓名混杂的数据中批量提取手机号

多手机号和姓名混杂的数据中批量提取手机号
word批量处理单文档到Excel(备用)从单个Word文件中批量取值到Excel表格中。，一个

word批量处理单文档到Excel(备用) 从单个Word文件中批量取值到Excel表格中.,一个Word文档中有多个表格,要求将每个表格中指定位置的值提取出来放到Excel中去,每个表中取出的值放 ...
word批量处理单文档到Excel从单个Word文件中批量取值到Excel表格中，一个Word文

word批量处理单文档到Excel 从单个Word文件中批量取值到Excel表格中,一个Word文档中有多个表格,要求将每个表格中指定位置的值提取出来放到Excel中去,每个表中取出的值放在Exce ...
CAD中批量提取坐标到Excel

CAD中坐标如何提取到EXCEL中,是不是一个一个查询点坐标?还是需要专业的坐标提取插件?NO!不需要任何插件CAD本身就具有提取坐标的功能,下边我们来一起学习下吧! 对于做测量工作的广大同仁来说,从 ...
从身份证号中批量提取生日、年龄、性别……3秒就搞定

私信回复关键词[2020],获取100+套高颜值图表模板! 公司要做一个小调查,统计男女比例. 可是员工信息栏里只有员工身份证号码,难道要一个一个去对比身份证号,再筛选找出男女吗? 我太难了!不,有小 ...
word批量处理多文档到Excel(备用)从多个Word文件中提取指定的值到Excel中，支持表

word批量处理多文档到Excel(备用) 从多个Word文件中提取指定的值到Excel中,支持表格嵌套.如果使用上一个菜单"多文档到Excel"无法达到您的需求,可用本工具试试 ...
word批量处理多文档到Excel从多个Word文件中提取指定的值到Excel中，也可以理解为把

word批量处理多文档到Excel 从多个Word文件中提取指定的值到Excel中,也可以理解为把多个Word文件的值放在一个表格中,便于统计或查阅.
将文件夹内的图片和名称批量提取到Excel中，做成数据对应的表格！

Excel情报局 Excel职场联盟生产挖掘分享Excel基础技能 Excel爱好者大本营用1%的Excel基础搞定99%的职场问题做一个超级实用的Excel公众号 Excel是门手艺玩转需要勇 ...
Excel VBA 7.78Excel中的图片如何批量保存？轻松保存他人文件中的精美图片！

Excel中的图片如何批量保存?轻松保存他人文件中的精美图片! 点击上方"Excel和VBA",选择"置顶公众号" 致力于原创分享Excel的相关知识,源码,源 ...