GWAS综述(生信文献阅读俱乐部精选)
生信文献阅读俱乐部的首年活动进入尾期,部分俱乐部成员从头到尾坚持下来了,优秀程度不下于我!
这里展示澳大利亚胡同学的第20周的GWAS综述翻译稿件:
From genome- wide associations to candidate causal variants by statistical fine- mapping
摘要
从具有遗传标记的复杂性状的统计学关联推进到理解影响性状的功能性遗传变异往往是一个复杂的过程。精细定位可以选择遗传变异并对其进行优先级排序以供进一步研究,但是大量的分析策略和研究设计使得选择最佳方法具有挑战性。作者回顾了不同精细绘图方法的优缺点,强调了影响性能的主要因素。主题包括全基因组关联研究(GWAS)的解释结果,连锁不平衡的作用,统计精细绘图方法,跨种族研究,基因组注释和数据整合以及其他分析和设计问题。
很清晰的abstract,可以说一句废话都没有,同时让你很快了解到下文每一part讲的是什么内容。
基础知识预备
读Review 的好处就是你往往可以学到很多,或者加固一些知识。我主要是基于自己知识翻译,并且该文章主要于人类的GWAS相关,所以相关概念也是以人类的疾病等为例。
Genome- wide association studies (关联分析):扫描遗传标记,通常是单核苷酸多态性(SNPs),使用统计学相关的手段以发现与性状相关的变异体
Complex traits (杂合性状):
无论是由许多基因和环境因素共同作用引起的数量性状(例如血压和身高)还是常见疾病(例如癌症),每种效应都具有相对较小的影响,并且几乎不需要疾病发生就会产生该性状。
Tags SNPS (标签SNPs):
一般与邻近的SNP紧密相关,使得标签SNP充当未测量的SNP的替代物。
Linkage disequilibrium (连锁不平衡):
给定群体中单倍型上不同基因座的等位基因的非随机关联。LD是进行精细定位的关键,来自不同变体
没有等位基因的重组,但可以共同遗传某系性状,意味着变体在同一染色体上邻近。
Casual variants (因果变体): 多个因果变体遗传变异在机制上对疾病或数量性状有贡献,但并不完全具有渗透性。因为单个变体可能不具有致病的能力。
Fine-mapping (精准定位): 通过使用统计学,生物信息学或功能方法来改进因果变体的基因组定位
Penalized regression 刑罚化回归 :
一种通过最大化数据的对数似然性来估计回归系数的方法,同时放置限制回归系数大小的惩罚,将小系数收缩至零,有时恰好为零。尽管这会导致系数估计偏差,但它会通过减少系数估计的方差来改进模型的总体预测
Summary statistics 总结统计 :
衡量性状与一个或多个单核苷酸多态性(SNPs)之间的统计关联度量,其概括SNP对性状影响的大小,影响大小的变化以及影响大小如何相互关联。对于例子对照研究,总结统计包括逻辑回归估计的对数比率,对数比率的差异和对数比率之间的相关性。
Trans- ethnic 跨种族 :
一种遗传关联研究,包括来自不止一个种族背景的研究对象
Multiple testing correction 多重测试修正 :
当测试多个统计关联时,随着统计测试数量的增加,至少有一个significant的结果被宣告的概率会增加。如果m个独立统计检验中的每一个使用P值<α来声明显着性,那么m检验中至少有一个显着性检验的机会大约为mα。多次测试修正通过对每个测试关联使用更严格的P值阈值来保持声明至少一个significant结果的整体概率。
Bonferroni校正使用P值<α/ m来测试每个关联。
Statistical power 统计力 :
当存在统计关联时,正确舍去SNP与性状之间无统计关联的null假设的概率。统计力取决于SNP效应的大小,样本大小和决定统计显着性的P值阈值。
Haplotype 单倍体型 :
在同一染色体上发现的等位基因组合
Haplotype block 单倍体块 :
染色体上的一组高度关联的等位基因,可能会一起遗传。
Genotype imputation 基因型估算 :
用于估计研究对象的未观察基因型的方法,对于在基因型单核苷酸处具有缺失或不可靠基因型的个体 多态性(SNP)和所有个体在没有基因型SNP
Recombination hot spots 重组热点区域 : 重组率远高于中性期望值的基因组区域。
Cross- validation 交叉验证 :
一种通过随机将样本分割成训练集以训练模型(例如,确定要包括在模型中的哪个单核苷酸多态性(SNP))和用于测量其预测性能的测试集来构建预测模型的技术。通常将原始样本分成十个相同大小的子样本,使用九个训练和一个测试,重复这个过程十次,使得每个十个
子样本被用作测试样本,然后平均10个训练子样本的预测性能。
prior probablity 已知概率 :
在贝叶斯概率理论中,分配给感兴趣参数的概率分布被指定为,在观察数据之前表示已知的知识。
Posterior inclusion probability 后包含概率:
单核苷酸多态性(SNP)被包括在任何因果模型中的边际概率,取决于所观察到的数据,从而提供SNP应被包括作为潜在致病因素的权重。
Introduction
一篇好的文章,自然会有好的introduction,特别是对于review paper 来说
文章从常见的人类疾病引出GWAS,阐明GWAS与SNP的联系,进而引出一系列与SNP GWAS相关的基础概念。一篇好的review, 是可以让即使不是该领域或者普通的读者,快速明白文章中心内容。
然后给出一个通过SNP calling,来精准定位的流程。这里写作手法是简单的描述每一步的步骤,然后再后面再分段,将每一步作为一个小标题详细讨论。
首先,简单跟大家过一遍这个流程图。
完成SNP calling 还有相关表型的收集后,开始进行GWAS 的study
基于曼哈顿图中总结的全基因组关联研究(GWAS)P值,使用实现全基因组统计显着性(即,P值<5x10-8)的单核苷酸多态性(SNP)列表,来确定精确定位的感兴趣区域或有价值的区域。
通常使用Haploview图根据SNP之间的连锁不平衡(LD)结构探索每个感兴趣的区域。通过LocusZoom图来观察统计学关联,这图阐明了每个SNP与主要SNP的关联模式,以及该区域基因的注释。
然后,根据评估多个SNP对性状的同时影响的统计模型,可将区域划分为独立的子区域以减轻计算负担。使用下文将要介绍其中一种方法在每个区域进行统计学精细定位。
最后应用方面,使用基因组特征注释从精细定位选择的SNP,以优先进行后续功能研究。 例如eQTL,表达数量性状基因座。
最后在introduction的末尾,作者总结了该文章的亮点,并对下文将要讨论的每一个小点进行了简单介绍,顺利开始过渡到正文的内容。
花了那么大篇幅jiang讲,是想让大家也深刻了解这样写作的模式,不难,绝对可学。这篇文章的introduction部分是比较值得参考学习的。
解释来自GWAS的主要SNP
作者开始详细介绍流程图的每一步
决定精准定位的区域,是在GWAS发现全基因组重要结果之后进行的。常用GWAS结果和曼哈顿所有P值的图表来衡量一次一个SNP与一个特征的边际关联,然后是绘制所感兴趣区域的LocusZoom图。这使得研究者可以关注不同区域中具有最小(即最显着)P值的SNP,有时称为显著SNP。当SNP关联达到公认的P值<5×10-8 的基因组范围统计学显着性阈值时,GWAS结果是最可靠的,该阈值是多重检验校正的一个阈值,尽管一些研究者使用较弱的阈值P值<10-6,用以突出暗示含有因果变体的区域。
主导SNP的局限性在于,它可能不是因果变体所导致的。这可能是因为GWAS microarrays是基于标签SNP,标签SNP仅与未测量的因果SNP相关。此外,即使测量或估算因果SNP,当统计功效不大时,这有很大机会:因果SNP与性状的统计关联不是所有相关SNP之间最显着的关联。作者考虑了多重因果关系,LD的影响,并得出类似的结论,即真正的关联不可能导致最小的P值,部分原因是变异对复杂性状的影响很小。这些发现强调了在考虑主导SNP作为可能的因果关系以及精细定位以鉴定因果变体或变异体的重要性时应该谨慎的重要性。
LD用于群体精准定位
基于群体的研究中的精细定位利用了成对基因座之间非随机关联的测量。当基因座彼此靠近并且它们之间的重组频率较低时,来自在同一染色体上发生的不同基因座的等位基因(称为单元型)倾向于作为单位遗传。对于单倍型的等位基因,偶然发生一起被称为配子关联或更通常称为LD。LD最常用的测量方法是标准化差异,可以通过两个SNP的次要等位基因计数(即不常见的等位基因)之间的Pearson相关性轻松估算。这个相关系数与统计能力直接相关,这是精细定位的合理测量,尽管对于罕见疾病的病例对照研究,诸如归因风险等措施可以更好地发挥作用。
使用LD精细定位一个复杂的特征是基于,前提是祖先减数分裂重组减少了LD,意味着与性状关联最强的SNP是因果变异或接近因果变异。然而,由于基因组区域中LD的复杂模式,一次分析一个SNP可能会引起错误的解析。影响LD的重组以外的因素是遗传标记的突变率,自然选择,种群迁徙和混合,种群瓶颈和群体历史。因为LD受到影响
除了重组以外的因素,仅仅依赖于成对LD或甚至单元型模块的模式来提供可靠的复杂性状的精细定位是有限的。
影响精准定位的因素
许多因素影响精细定位的性能,包括区域内因果SNP的数量及其对性状的影响大小,局部LD结构,样本大小,SNP密度以及是否可以测量因果变异。研究设计中可以控制的因素是样本量和SNP密度。通常获得高SNP密度来捕获因果变异是至关重要的。那么如何提高SNP的密度呢,一般有两种方法:基因型插入 和增加额外的基因分型。
基因型插入
插入SNPs可以填补零星缺失的基因型,协调来自不同GWAS基因分型阵列的数据,以执行汇集或meta分析并增加用于精细定位的SNP密度。插入成功的关键标准是直接测定的SNP与没固定类别SNP高度相关,并且提供了代表研究样本的LD模式和等位基因频率的模板的适当参考标准。虽然插入SNP对质量控制过滤的选择具有一定提升作用,但检测与特征相关联的能力随着插补精度的降低而降低。
增加额外的基因分型
由于SNP插入的准确性取决于LD结构,因此缺乏LD的区域可能需要实际的基因分型来准确评估它们与特征的关联。通过开发针对某些疾病或特征的定制的SNP array,成本效益型使得额外的基因分型变得更容易获得。额外基因分型有助于的情况是:验证推算的SNPs,可能通过减少基因型测量误差来改善精细定位;发现不具有主导SNP的强LD的低频SNP;在参考面板中不能很好地表达SNP。
精确定位的方法
目前主流的精确定位的方法有三种分别是:
探索式方法,惩罚回归模型和贝叶斯方法。
探索式方法
该方法是最早被使用来做精确定位的方法,从实际经验和尝试验证猜测发展而来,但它没有统一定义的标准。
其原理是:
来自GWAS的主导SNP周围的LD结构在精细定位中具有重要作用,通常我们首先检查围绕主导SNP的SNP之间的关联。其一种方法是根据它们与主导SNP的成对相关性(r2)过滤SNP,保留那些r2高于阈值的SNP才有潜在因果关系。
缺点:
功能挖掘能力有限,因为它们没有考虑SNP对性状的共同影响,并且它们不能客观地衡量SNP是否是因果的变体,还是依赖于某种程度上的任意阈值和SNP之间相关性的主观解释。
惩罚回归模
惩罚回归模型是在其他统计领域开发的,其目的是将高维预测变量(例如,用于精细定位的SNP数据)降低与特征强烈关联的小得多的集合。
传统的模型建立是基于前向选择(或可选的逐步方法),使用P值来确定SNP是否应包含在模型中。然而,大量的SNP和SNP之间的高度相关性使得传统的回归模型不稳定。
惩罚回归模型通过将小效应估计收缩到零,同时将SNP效应大小和SNP选择估计到模型中。处罚模型使用调整参数来选择模型中的SNPs,并选择调整参数来促进具有较小效应大小的SNP从模型中移除。
处罚模型倾向于导致稀疏模型,仅选择属于一组相关SNP的一个或几个SNP。这可以产生一个很好的预测模型,其中包括非因果SNP,并且在它们高度相关时排除因果SNP。
贝叶斯方法
贝叶斯方法专为精细定位而设计,与启发式和惩罚回归方法相比具有优势
惩罚性回归和贝叶斯变量选择方法的挑战是确定哪些SNP对性状具有非零效应大小(回归β-值)。
刑罚化模型选择基于交叉验证的SNPs,从而最大限度地减少预测性状的误差。相反,贝叶斯推断侧重于特定假设或特定模型的概率,从而提供了概率性解释。
贝叶斯方法的精细定位有许多优点。首先,与P值不同,可以直接比较SNP的后验概率。其次,与根据与主导SNP的相关性选择SNP相比,他们倾向于选择较少的SNP作为潜在的致病因素。第三,研究表明,贝叶斯方法比条件逐步回归和惩罚回归模型更好。最后,因为贝叶斯模型基于SNP的共同作用,所以它们控制具有较大效应的SNP,提高了检测效应较小的SNP的能力。
将个研究与meta-analyses相结合
将多个研究的数据结合可以有效的提高精确定位的准确性,上述的策略可以用于当个人水平的数据结合在一起。但是个人水平的数据并不是那么好从多个研究中获取。因此,可以使用与SNP的性状关联仅需汇总统计。
这种策略越来越popular,因为它简化了数据共享和计算问题。选择适当的汇总统计数据时,与使用个体级别数据相比,这方法更加不容易丢失关键的信息。(当原始数据用于估计SNP相关性时,相对于分析个体级数据,不存在信息丢失)。实际的例子通常使用合适的参考样本来评估SNP的相关性,在1000个基因组计划,允许将单个SNP分析的汇总统计数据组合起来进行联合分析。但是要注意的是如果参考样本中LD 模式没有代表性,可能会让联合分析产生偏差,因此参考样本的大小不应该太少,要随着GWAS的大小而增加。
不同种之间的GWAS精细定位
对种族差异种群的GWAS的比较表明,SNP与复杂性状的关联通常在不同种群中是一致的,等位基因对性状的影响方向相似。将遗传多样性群体中同一性状的GWAS结果结合起来的跨种族荟萃分析可以通过利用LD模式中的种族差异来辅助精细定位。重要的问题可以重建为,是关于种族群体的选择。例如,基于不同欧洲血统或欧洲和亚洲血统的混合分析,对精细定位的提高微乎其微。但通过包括非洲的血统(具有狭窄的LD)就可以获得更加更加可靠精确的定位。
前面都是讨论比较高深的问题,下面回到我们熟悉的注释。
基因的注释
基因注释是精确定位最重要的一步,因为没有基因功能的解析,定位都是徒劳。将生物学功能配对到DNA序列的基因组注释,可以提供关于通过精细定位分析选择的SNP的可能功能的信息,并且可以帮助确定后续功能研究的优先次序。常见的公众基因功能数据库包括, Gene Ontology, GENCODE, ENCODE, FANTOM5 and the Roadmap Epigenomics Project。
通过将多种数据类型集成到各种组织和细胞类型中,当前的数据库为大约80%的人类基因组提供了功能注释。对已发表的GWAS结果的分析已经确定了复杂特征关联中,功能注释是显着丰富,促使使用注释来提高精定位的准确性。
下面分蛋白质编码注释和非蛋白质编码注释来讨论:
蛋白质编码注释
编码蛋白质的基因中SNP的注释集中在它们对所得蛋白质结构的影响上。注释的实例包括SNP是否发生在外显子,内含子或剪接位点或是否参与可变剪接。大量的生物信息学注释方法可用于功能表征编码SNP并提供预测其有害影响的比重。
非编码蛋白质注释
DNA元素百科全书(ENCODE)项目已经证明基因组是普遍转录的,并且大部分碱基存在于初级转录本中,包括非蛋白质编码转录本。非编码区的遗传变异通常涉及基因调控。非编码注释的一些实例是启动子,增强子,长非编码RNA基因座,转录起始位点,转录因子结合位点,调节序列,染色质可及性和组蛋白修饰模式的特征以及DNaseI超敏感位点。可以通过来自数据库的位置权重矩阵来估计对推定的转录因子结合位点(TFBS)基序的变体影响。
将注释与精确定位相结合
SNP注释通常应用于通过精细定位分析选择的SNP,以便识别注释富集的模式并优先考虑功能验证的候选基因。这种方法会有一定的误差性。替代的方法有,使用功能注释来对回归模型中的SNP进行加权或扩展贝叶斯模型以允许SNP因果依赖于注释的先验概率。
将精确定位与注释相结合具有一定的限制:首先,将注释纳入先验概率对有效的研究的影响有限,其次,目前对广泛基因组功能的理解可能过于局限,无法准确地改进因果关系的先验概率。相反,当关联信号最好是中等的,在高LD区域中,当区域中存在多个因果SNP时,或者当不同区域共享特定注释特征的富集时,注释可能有所帮助。
将GWAS与基因表达相结合
GWAS发现的超过90%的性状相关等位基因定位于非编码区域,有强有力的证据表明增强子,启动子,绝缘子等调节元件的富集。此外,与具有相同等位基因频率的基因型阵列上的其他SNP相比,与复杂性状相关的SNP显着更可能是表达数量性状基因座(eQTL)。这表明GWAS发现的SNP影响附近基因的表达量,并且这种改变的表达最终影响该性状。
统计方法将eQTL数据与GWAS数据整合以量化,是从SNP到基因表达到关联复杂性状的途径。中间变量mRNA是SNP和性状之间的介质。测试因果途径的一种方法是通过因果推断测试,小P值推断因果关系。随机化是另一种方法,可用于区分单个SNP是否影响基因表达和性状与LD中单独的SNP是否影响基因表达和特征。整合eQTL和GWAS结果的关键问题是测量表达的组织类型。复杂疾病通常由多种组织或细胞类型的功能障碍引起,并且基因的表达在不同类型的组织中变化很大。为特定疾病过程或复杂特征选择相关组织类型可能是一项重大挑战。
小结
到目前为止,精细定位工作已经取得了相当大的进步,以完善通过复杂性状的大规模遗传关联研究发现的最可能的遗传变异。本文回顾了各种分析方法,以及基于贝叶斯精细定位的更复杂和相关的方法。所有方法的共同基础是测量的SNP和因果变体之间的LD,这使得精细映射可行并且具有挑战性。
由于我的背景是做植物这方面,很多名词还有概念都没有接触过,本次解读主要是根据我自己的理解在“表明的水平”去解读,更加深刻的内容还需要大家自己回到原文中去理解。随着人类基因组不断深入发展与挖掘,通过GWAS进行疾病等性状精细定位会越来越精准与流行。对比人类基因组,现在植物基因组的研究还是停留在一个比较粗的阶段,但详细日后精细定位也会逐渐运用到植物,已提高产量或者各种抗性。
◆ ◆ ◆ ◆ ◆