SNV和INDEL仅仅是比较数量吗?(学徒作业)

看到于2020年11月发表在杂志《nature cancer》的文章:《Mutations in BRCA1 and BRCA2 differentially affect the tumor microenvironment and response to checkpoint blockade immunotherapy》里面有全基因组测序数据,文献链接是:https://www.nature.com/articles/s43018-020-00139-8

全基因组测序数据可以下载

7个WGS数据,怎么着也得人民币5万块钱!数据在  https://www.ncbi.nlm.nih.gov/bioproject/PRJNA632854 :

7个WGS数据

可以看到,我们能够下载这些数据,然后进行二次分析的!作为一个学徒作业吧,大家下载这些数据,走流程拿到snv和indel的vcf文件!

全基因组测序数据处理

文献的描述如下;

数据处理流程及软件

涉及到的软件如下:

  • DNA was extracted and sequenced at 74–106× (median 80×) coverage.
  • FASTQ files were aligned to MM10 mouse reference with bwamem v.0.7.15.
  • Somatic mutations were called with VarScan v.2.4.3, Strelka v.2.9.10, Platypus 0.8.1, Mutect2 (part of GATK 4.1.4.1) and SomaticSniper 1.0.5.0 (for SNVs only).
  • DNA from a 4T1 parental single-cell clone at time 0 was used as normal.

这些软件大多都有教程及文档,大家可以去《生信技能树》学习它们。我在B站分享了 免费视频课程《WES数据分析》

  • 视频免费在B站:https://www.bilibili.com/video/BV15s411P7ay 大家学习的时候记得发弹幕交流哈
  • 同步查看视频配套代码:https://www.jianshu.com/p/49d035b121b8
  • WES 实战演练的素材:链接:https://share.weiyun.com/56MQHYG 密码:8jxwba 包括一些公司PPT,综述以及文献。
  • WES 实战演练的思维导图:文档链接:https://mubu.com/doc/1iDucLlG5g 密码:7uch

拿到变异文件后

文献里面的关于变异文件的数据分析超级简陋,仅仅是看了看数量:

变异位点的数量

这个其实都不需要他们做小鼠数据的,因为TCGA数据库里面本来就是有BRCA1突变的人类和BRCA2突变的,也可以进行比较。

另外一个关于这些变异位点图表,也仅仅是超级简单,仅仅是看indel的长度

indel的长度范围

关于变异分类

主要可分为单个碱基对的变异(SNVs/SNPs)、小的插入或缺失(InDels≤50bp)以及结构变异(SVs>50bp)。这里我直接摘抄:基因组变异类型详解及区分吧,免得浪费时间自己去整理了。

No.1 | 单个碱基对的变异

SNPs 与 SNVs,二者都是单核苷酸的改变,如果细究起来,还是有些区别的。SNPs一般是针对“群体”而言,且在群体中占据一定比例(well characterized),而SNVs一般是针对“个体”而言,发生频率非常低,不常见 (not well characterized)。

  • 单核苷酸多态性(Single Nucleotide Polymorphisms,SNPs),单个核苷酸碱基的改变,包括置换、颠换、缺失和插入,导致的核酸序列的多态性,是人类最常见的遗传变异类型。由于具有遗传稳定性强、数量多、分布广等特点,SNP被广泛应用于群体遗传学以及疾病相关基因定位等研究中。
  • 单核苷酸变异(Single Nucleotide Variants,SNVs)是DNA序列中单一核苷酸的变异。有单位点核苷置换,单位点核苷缺失,单位点核苷插入三种常见模式。其中置换模式为基因组上某一单位点核苷变异成另一核苷,缺失模式为基因组上某一位点的核苷缺失,插入模式为基因组上某一单位点核苷重复表达。
No.2 | 小的插入或缺失

插入和缺失( insertion-deletion,InDel),指的是在基因组的某个位置上所发生的小片段序列的插入或者缺失,其长度通常在50bp以下。与SNP不同的是,它并不是单个碱基的变化,而是在基因组中发生不同大小的DNA片段的插入或者缺失。它在基因组中的分布频率也是仅次于SNP,且很多都发生在基因内部甚至是外显子区域、启动子区域等重要位置。这种变异往往能够引起基因功能产生重大变化,同时InDel也是非常重要的一种基因组结构变异。

No.3 | 结构变异

结构变异(Structural Variation,SV)这种类型比较多,根据结构变异的不同类型,结构变异可以进一步分为50bp以上的长片段序列插入(Insertion) 、缺失(Deletion)、反转(Inversion)、染色体内易位(Intra-chromosomal Translocation)、染色体间易位 (Inter-chromosomal Translocation)、拷贝数变异(Copy Number Variation)以及一些形式更为复杂的变异。

(0)

相关推荐