更高级的重测序分析策略—CNV介绍及应用

2024-08-03 14:08:55

前言

拷贝数变异（copy number variation ,CNV）是指基因组上某些大片段的拷贝数增加或减少，可分为缺失（deletion）和重复（duplication）两种类型。CNV是一种基因组结构变异，可通过改变基因剂量和转录结构等来调节有机体的可塑性，是个体表型多样性和群体适应性进化的主要遗传基础之一。在基因组中，CNV的变异形式主要包括单个片段的倍增、缺失和多次重复，其中，最常见的形式是单个片段重复（segmental duplication, SD）,其在不同拷贝之间的序列同源性大于90%。通过种内比较基因组学分析，可挖掘对表型有显著效应的CNV。目前定义的CNV长度为50 bp~5 Mb的基因组序列的插入或缺失变异。

图1 CNV类型示意图[1]

CNV常见的检测方法主要分为两类：全基因组范围内检测未知CNV和定点检测已知CNV。基因组未知CNV常用的检测方法有芯片法和测序法。芯片法主要包括比较基因组杂交芯片（aCGH）和SNP芯片（single nucleotide polymorphism arrays）。DNA测序法主要包括全基因组测序（WGS）和单分子长读长测序（long reads sequencing）。

研究表明，不少人类复杂疾病，动植物的重要经济性状都和CNV有密切关系。相比单碱基SNP变异，CNV的长度更长，覆盖更大范围的基因序列，可通过改变基因的剂量效应等影响与基因相关的表型。随着全基因组测序准确性的提高、信息量的扩大、成本的下降等，高通量大规模CNV检测得以迅速发展，并且随着GWAS方法的不断完善，为基于CNV-GWAS发掘更多更可靠的重要形状相关的功能CNV提供了条件，可为后续功能CNV的分子机理以及在育种中的应用奠定基础。

下面就对这些分析点进行详细介绍。

|常见分析内容

1.CNV检测结果及统计

用柱状图显示不同类型的CNV在不同片段长度的分布情况。如图2所示，滩羊CNV分布大约48.5%的CNV片段在10KB-50KB之间，CNV片段在50KB-100KB之间的占比是21.7%。CNVRs片段在10KB-500KB之间的占比是86.2%。大于1MB的CNVR很少，占比0.8%。

图2 滩羊CNV变异分布统计

2.CNVR全基因组图谱

CNV区域（CNV Region, CNVR）是指不同个体间检测得到的CNV具有一部分重叠区域，把重叠的CNV进行整合，合并成为一个CNVR。如图3所示，将47头牛的CNV进行合并，共确定1043个CNVRs，共覆盖44.63 Mb，约占普通牛基因组序列的2.06%。已知染色体上CNVRs的分布如图3所示，共有702个是缺失类型（Loss），270个是插入类型（Gain），71个是属于复杂类型（Both， CNVR中同时含Gain和Loss）。Loss型CNV的数量约是Gain的2.6倍。就长度而言，最长的CNVR长度为2,111,937 bp，最短的CNVR长度为3,600 bp。Loss型CNV的数量约是Gain的2.6倍。就长度而言，最长的CNVR长度为2,111,937 bp，最短的CNVR长度为3,600 bp。该研究为荷斯坦奶牛绘制了准确的全基因组CNVRs图谱。

图3 CNVRs的全基因组图谱[2]

注：蓝色-插入，红色-缺失，绿色-复杂

图4 CNVRs密度圈图

注：粉色-缺失，紫色-插入，蓝色-复杂，深灰色-SNP，浅灰色-大片段插入

3.群体遗传结构和遗传多样性

为了研究山羊属的系统发生关系，基于全基因组常染色体上的SNP计算了两两个体之间的遗传距离。利用NJ法构建了系统发育树（图5 B），结果显示伊朗野山羊（bezoar）与家羊分成两大枝，并且家羊群体按地理来源聚类。利用ADMIXTURE软件对bezoar和家羊群体进行遗传结构分析（图5 C），当k＝3时，bezoar与家羊群体分为3大谱系；当k＝6时，家羊群体分为4大谱系。为了细化家羊群体内部的遗传结构，利用家羊群体SNP进行PCA分析（图5 D），结果显示：PC1和PC2将家养群体按地理来源分成4个亚群，分别为欧洲家山羊群体（EUR）、非洲家山羊群体（AFR）、西南亚家山羊群体（SWA-SAS）和东亚家羊群体（EAS）。

图5 bezoar和世界家羊样本地理来源分布图和群体遗传结构分析

4.基于CNVs的GWAS分析

基于性状和CNV基因型，应用多种模型进行GWAS分析，完成不同模型的GWAS分析后，通过QQ plot比较不同模型下实际Pvalue与理论Pvalue的分布，判断最优分析结果。获得最优模型后，多重检验校正确定Pvalue的显著性阈值，筛选显著区域，并筛选CNV关联的位点基因。获得候选基因后，进行功能注释和富集分析。

基于仔猪存活的遗传率和CNV进行GWAS分析，如图6，共检测到16个区域，分别在2、3、4、11、12、13、14、15、16和17号染色体上，可解释22.54%的遗传表型。

图6 存活的仔猪数量性状GWAS分析曼哈顿图[3]

在SSC2，SSC3，SSC12和SSC17上确定了GWAS和CNVR分析的显著区域，总共包含56种编码基因。这些基因通过基因剂量的变化影响仔猪存活的数量（表1）。

表1 显著区域的基因注释表

5.选择清除与环境适应性位点挖掘--Vst分析

Vst分析是类似于Fst的一个指标，用来衡量群体间每个CNVR差异大小的统计量，计算方法为Vst＝（Vt－Vs）/Vt，其中Vt表示所有样本该区域拷贝数大小的标准差，Vs表示两个群体各自的标准差根据各自群体大小加权之后的值。Vst的值介于0-1之间，值越大表示群体间该区域拷贝数变异差异越大，反之则越小。如图7所示，CN vs WL的Vst平均值是0.11，CN vs RIR的Vst平均值是0.11，WL vs RIR的Vst平均值是0.15，说明WL vs RIR显示出最高的分化程度，并且筛选Vst＞0.79的CNVRs中的基因，并进行功能注释与富集分析，GO富集分析显示主要涉及器官发育，代谢和免疫调节。该研究有助于了解家禽在CNV水平上的遗传特征，这可能为开发鸡的繁殖提供有用的信息。

图7 不同分群鸡的基因组Vst值曼哈顿图[4]

6.选择清除与环境适应性位点挖掘--Bayescan分析

Bayescan用bayes的方法和Fst的经验分布检测outlier标记的方法，一般应用于地理等分群信息明确的比较组差异位点的选择分析中。本研究中，结合材料的分群信息，使用bayescan进行差异位点的检测，检测完成后使用R脚本进行迭代收敛情况评价和outliers的筛选，并将outliers作为候选CNVRs。Bayescan outliers检测结果如图8所示：

(a)将所有基因座的Fst值与BayeScan的log10（q value）作图。垂直虚线表示log10（q value）的q＝0.05，右边的点表示受选择的显著的CNVRs；

(b)按分群进行BayeScan的差异位点检测和outliers的筛选。

图8 Bayescan outlier检测结果[5]

CNV介绍就分享到这里，后续再分享CNV的综合案例应用。

参考文献

[1]. Clinical implications of copy number variations in autoimmune disorders FAU - Yim, Seon-Hee FAU - Jung, Seung-Hyun FAU - Chung, Boram FAU - Chung, Yeun-Jun. Korean J Intern Med, 2015. 30(3): p. 294-304.

[2] Liu, M., Fang, L., Liu, S. et al. Array CGH-based detection of CNV regions and their potential association with reproduction and other economic traits in Holsteins. BMC Genomics 20, 181 (2019).

[3] Stafuzza, N.B., Silva, R.M.d., Fragomeni, B.d. et al. A genome-wide single nucleotide polymorphism and copy number variation analysis for number of piglets born alive. BMC Genomics 20, 321 (2019).

[4] Seol D, Ko BJ, Kim B, Chai H-H, Lim D, Kim H. Identification of Copy Number Variation in Domestic Chicken Using Whole-Genome Sequencing Reveals Evidence of Selection in the Genome. Animals. 2019; 9(10):809. [5] Kvist L, Honka J, Niskanen M, et al. Selection in the Finnhorse, a native all‐around horse breed[J]. Journal of Animal Breeding and Genetics, 2020.

(3条消息) gwas snp 和

上周,我们给大家推送了徐洲更翻译的"SNP过滤教程". 结合SNP这个话题,本小编今天和大家一起探讨下SNP和SNV等相关概念.如有不严谨之处,欢迎温柔拍砖. 相信大家对SNP都不 ...
【全基因组关联分析GWAS专题1】——群体结构

一. GWAS与群体结构 (1)群体遗传结构:群体水平大尺度遗传差异,亚群水平等位基因频率差异,不同祖先来源,个体间亲缘关系,家系等不同的群体结构. 图1 群体结构类型 (2)群体结构对GWAS的影 ...
全基因组关联分析（GWAS）:为何我的QQ图那么飘

转自博客园前段时间有位小可爱问我,为什么她的QQ图特别飘,如果你不理解怎样算飘,请看下图: 理想的QQ图应该是这样的: 我当时的第一反应是:1)群体分层造成的:2)表型分布有问题.因此让她检查一下 ...
中国栽培小麦老家来自欧洲？--首篇小麦基因组大规模重测序研究

2019年1月14号,农历腊月初九,是大家过完腊八品茗五谷的日子.国际科技期刊预印本网站biorxiv,悄悄的挂出了一篇遗传发育所焦雨玲老师为通讯作者的关于小麦重测序的文章.这篇文章选取了120份具有 ...
用了旧的CNV芯片还用旧的参考基因组，把数据发出来也不容易啊

用了旧的CNV芯片还用旧的参考基因组文章发表在 Breast Cancer Res. 2017; 19: 30. Published online 2017 Mar 16. doi: 10.1186 ...
一个全基因组重测序分析实战

这里选取的是 GATK best practice 是目前认可度最高的全基因组重测序分析流程,尤其适用于人类研究. PS:其实本文应该属于直播我的基因组系列,有两个原因把它单独拿出来, 首先,直播我 ...
高中数学重难点分析——导数零点不可求的四种破解策略

在导数试题中,经常碰到导函数零点不可求的情况.对于此类试题,往往要绕开具体的零点值,转而判断导函数在给定区间上的单调性,再想办法证明导函数的零点存在.如何证明导函数的零点存在? 今天老师总结了四种方法 ...
“不合群的孩子，大多有更高级人生”，心理学家的分析有道理

真理往往掌握在少数人手里,成功也往往只属于少数人. 人类都是群居动物,想要生活就必须要社交,融入集体,不过每个人的性格,思维都有差距,有些孩子从小社交能力就好,到哪里都能进入中心圈,交到好朋友. 不过 ...
2020新年很忙！“很忙” 别再说“Very busy”了，这些表达让你的口语更高级！

2020第一天,大家都很忙! 忙着开始... 忙着生活... 忙着长大... 那你知道"我很忙"用英语怎么说吗? 小编带你解锁更多高级表达! 1. Be as busy as a ...
其实，“极简”的异性，往往更高级

极简也是一种奢华,它接近于断舍离的境界,又有所选择和保留,这份智慧之间的拿捏和掌控,才是世间少有的珍贵和个性. 异性相处中,也有这样的人存在着,他们没有过多的物质欲望,也没有太多的理想可追逐,但也不是 ...
答应我，穿长风衣时，最好别配这2双鞋，多穿另外3双，显瘦更高级

风衣是春季必不可少的服饰单品了,不管什么版型的风衣,但凡是个女孩,衣柜中肯定少不了风衣这件单品,我们常常看见很多文章分析风衣的内搭,裤子搭配,裙子搭配. 但是对其鞋子的搭配却经常忽略,但是鞋子如果搭配 ...
《第一性原理》：打破经验诅咒，唤醒更高级的思维方法和创新思路

引言爱因斯坦小时候的表现和他长大后创造的奇迹,往往被人们当作励志的故事来讲,总的来说是这样的:爱因斯坦小时候很笨,学习成绩不好,然后通过自己的努力自学,最终获得了非凡的成就.是不是很励志? 少年爱因 ...
如何“宅”得更高级？这是我听过最好的答案

文丨国粹君琵琶语林海 - 林海影视配乐精选最近因为疫情,很多人都宅在家.不串门,不聚会,不逛街,云办公,云上课-- 有句话说,无聊可以激发人类的创造力,这一点在疫情期间得到了证明. 翻开朋友圈, ...
百度 VS 高德，他们谁表现更靠谱？真实分析来了！

如今出门手机里谁要是没导航软件,几乎是不可能的.导航软件里,装机量最大的我想无非除了高德就是百度.其他导航软件用量其实很少,几乎可以忽略不计.高德-百度之争存在很久了.谁强谁弱一直争吵不断. 所以我自 ...

更高级的重测序分析策略—CNV介绍及应用

前言

|常见分析内容

相关推荐