【直播】我的基因组 45:SNV突变(6种)频谱的制作

受热心读者的委托,特意为他讲解一下SNV突变(6种)频谱的制作,同时欢迎大家留言其它需求!

突变频谱呢,就是对含有SNV的VCF格式的文件进行一个统计。

全基因组SNP突变可以分成6类(C>A, C>G, C>T, A>C, A>G, A>T)。肯定会有人问为什么是六类?

以A:T>C:G为例,此种类型SNP突变包括A>C和T>G。由于测序数据既可比对到参考基因组的正链,也可比对到参考基因组的负链,当T>C类型突变出现在参考基因组正链上,A>G类型突变即在参考基因组负链的相同位置,所以将T>C和A>G划分成一类,换句话说我们只考虑正链的突变形式,参考碱基只允许有C或者T,因为它们等价于G或者A。所以全基因组SNP突变可以分成这6类。

很明显,我们只需要考虑VCF文件的第4,5行即可!

cat realign.vcf |grep -v INDEL |grep -v "^#" |cut -f 1-5 |head


cat realign.vcf |grep -v INDEL |grep -v "^#" |cut -f 4,5|sort |uniq -c |grep -v ","

我们过滤掉了多种变异形式的SNV,比如T,突变成G或者C!最后的结果如下:

一般来说,是要可视化一下的,我用R语言的ggplot来画一个呗~

  1. dat <- data.frame(type=c('C>A(G>T)','C>T(G>A)','C>G(G>C)','T>A(A>T)','T>G(A>C)','T>C(A>G)'),

  2. counts=c(180515+181567,698322+697568,184176+185144,148387+148580,177215+177415,676816+675821)

  3. )

  4. library(ggplot2)

  5. p=ggplot(dat,aes( x=type,y=counts))+geom_bar(stat="identity")

  6. print(p)

当然,mutation spectrum这个画图代码只能出一个最简单的条形图,如果你想达到下面的效果,需要学习ggplot啦!

画条形图请参考:http://docs.ggplot2.org/0.9.3.1/geom_bar.html

如果要区分染色体,可以重新考虑第1行,拿去可视化!

http://www.bio-info-trainee.com/1619.html

文:Jimmy

图文编辑:吃瓜群众

(0)

相关推荐

  • GWAS | 原理和流程 | 全基因组关联分析 曼哈顿图 Manhattan_plot | QQ p...

    生物空间站 17篇原创内容公众号名词解释和基本问题:关联分析:就是AS的中文,全称是GWAS.应用基因组中数以百万计的单核苷酸多态:SNP为分子遗传标记,进行全基因组水平上的对照分析或相关性分析,通过 ...

  • 教程 | 简单粗暴的叶绿体基因组 SNP Calling 流程

    写在前面 最近主要忙一些植物群体基因组数据的项目.前面提过,赶时间,全基因组的 SNP Calling 使用 GATK 流程,还是需要跑上两三天.但这个还是耗时,并不一定能够赶上工期.于是我将目标转移 ...

  • (3条消息) gwas snp 和

    上周,我们给大家推送了徐洲更翻译的"SNP过滤教程". 结合SNP这个话题,本小编今天和大家一起探讨下SNP和SNV等相关概念.如有不严谨之处,欢迎温柔拍砖. 相信大家对SNP都不 ...

  • ​iMETHYL:DNA甲基化、 SNP和RNA_seq的多组学联合数据库

    导语 全基因组关联分析(GWAS)可以阐明基因组变异与表型之间的关系,其中CpG二核苷酸的甲基化与常见疾病之间的关系,体现了表观遗传调控DNA甲基化的重要性,DNA甲基化数据库与其他组学数据一起将有助 ...

  • 【直播】我的基因组46:SNV突变(96种)频谱的制作

    昨天我们学习了正常情况下,6种SNV(C>A, C>G, C>T, T>A, T>C, T>G)突变频谱的制作,但是如果考虑到突变的上下文,就可以变成96种(如下图 ...

  • SNV突变(96种)频谱的制作

    昨天我们学习了正常情况下,6种SNV(C>A, C>G, C>T, T>A, T>C, T>G)突变频谱的制作,但是如果考虑到突变的上下文,就可以变成96种(如下图 ...

  • 【直播我的基因组66:大多数性状往往是多个基因控制的

    前面我们说到了那些简单的由单个基因决定的性状,这东西不需要预测,其中的生物学机制已经研究的非常透彻,只要拿到你的基因信息,很容易推断你的性状,比如人的乙醇脱氢酶和乙醛脱氢酶等多种乙醇代谢基因,你本身是 ...

  • 直播我的基因组(第一阶段)完整目录

    最近的全国巡讲不少人问到我两年前的直播基因组系列教程的完整目录,这里先放出直播我的基因组(第一阶段)完整目录.(悄悄告诉你,后台回复直播可以拿到精排版EXCEL表格!)(然后,点击阅读原文也可以拿到可 ...

  • 神奇的45° | 直角三角形中45°处理的40种方法

    作者:谢科安,解题大神 四川省达州市达川区永进乡中心学校 一题多解是指从不同角度,运用不同的思维方式来解答同一道题的思考方法, 本次分享一道多解的题型,这题目方法真是太多了,实在是找不出还有哪一道题的 ...

  • 直播卖货系统开发,直播卖货的实现有哪几种形式

    除了我们熟知的直播卖货系统开发外,直播卖货的实现方式还有很多种,在短视频平台.小程序中经常也能看到直播卖货的身影,针对不同的使用场景,直播卖货系统的实现形式也不一样,今天我们来说一下现在直播卖货系统开 ...

  • 微信直播如何变现呢?这里有3种方式

    2020年最大的风口是直播,而微信直播将会2021年直播的最大风口. 那么微信直播如何变现呢?小编最有效的变现方式是带货.接下来欢拓云直播小编就说一下微信直播带货有哪些方式吧. 方式一:通过视频号培训 ...

  • 直角三角形中45°处理的40种方法

    一题多解是指从不同角度,运用不同的思维方式来解答同一道题的思考方法, 这次一道多解的题型,题目方法真是太多了,实在是找不出还有哪一道题的方法比这题还多,部分方法.定理可能并不常见,借此可以熟悉熟悉,发 ...

  • 科普直播也能带货?2021年两种电商新玩法

    从2016年开始,电商直播就已经开始在各大平台中活跃.就在去年,直播成为最火的销售模式,从网红.明星再到企业高管,从新兴品牌到农产品,都在丰富着直播带货这个新模式.那么在2021年,直播带货还有什么新 ...