科研 | PNAS:鳄梨基因组和转录组揭示了被子植物的系统发育,突出了渐渗杂交,并揭示了受病原体影响的基因空间适应

编译:卡德加,编辑:小菌菌、江舜尧。

原创微文,欢迎转发转载。

导读

鳄梨(牛油果)(Persea americana)作为一种在全球范围需求量越来越大的水果,给墨西哥农业带来了巨大的经济价值。鳄梨属于被子植物古生代分化的木兰亚科(magnoliid)植物,在真双子叶植物或单子叶植物中具体的进化地位一直存在争议。研究者对墨西哥鳄梨品种P. americana var. drymifolia和最受商业欢迎的杂交品种Hass的核基因组进行了测序,并利用遗传图谱将组装序列锚定在染色体上。对危地马拉和西印度种的重测序结果显示,Hass基因组的约39%区域代表危地马拉的原始区域渐渗入了墨西哥种背景。鳄梨谱系在其进化过程中经历了2次独立的多倍化事件,虽然基因树/物种树种系基因组学的结果是不确定的,但与其他物种的直系同源基因共线性结果表明鳄梨在进化上与数量庞大的单子叶和真双子叶种系处于平行关系。多倍体中递减的重复基因增加了鳄梨转录因子的多样性,而串联重复增加了该物种的次生代谢。鳄梨受到炭疽杆菌(炭疽病)侵染后,会增加串联重复基因中苯丙素的生物合成。此外,转录组数据显示,串联重复序列在应对炭疽病感染时表达量显著上调和下调,而多倍体重复序列则没有明显变化,这支持了这样一种普遍观点,即串联重复序列可作为特定物种基因组适应近期环境变化的“调节旋钮”。

论文ID

原名:The avocado genomeinforms deep angiosperm phylogeny, highlights introgressive hybridization, and reveals pathogen-influenced gene space adaptation
译名:鳄梨基因组和转录组揭示了被子植物的系统发育,突出了渐渗杂交,并揭示了受病原体影响的基因空间适应
期刊:PNAS
IF: 9.58
发表时间:2019年9月
通讯作者:LuisHerrera-Estrella
通讯作者单位:德州理工大学植物和土壤科学系

DOI号:doi.org/10.1073/pnas.1822129116

结果

1. 实验材料、基因组组装和注释

由于市场需求的不断增长,目前90%的鳄梨栽培种是由墨西哥本土种P. americana var.drymifolia嫁接来的品种Hass。这一品种的优势是能很好适应墨西哥高原土壤的环境,并保持高产量。在本次研究中Hass栽培种和墨西哥本土种被用于生成参考基因组,此外,为了尽可能研究鳄梨的遗传多样性,研究者还重测序了鳄梨多个生物变种和相邻种的代表性个体(原文附表1和2)。
从头预测和同源注释结果显示每个基因组有相近数量的蛋白质编码基因:墨西哥种中有22441个,Hass种有24616个(表1)。随后基于现有1440个保守真核生物单拷贝基因的数据,使用BUSCO软件预测了两个基因组的完整性,结果显示Hass和墨西哥种的基因组完整性分别为85%和86.3%(表1)。墨西哥种使用Illumina平台测序,而Hass的基因组则选择Pacbio三代测序技术。由于两个基因组的BUSCO值相近,研究者选择更大的Hass基因组用于下游的SNP挖掘,因Pacbio测序技术能降低contig错配的几率,且对于重复序列的组装效果更好。
表1 鳄梨组装及其注释
此外,研究者还通过遗传图谱将Hass基因组锚定到染色体上,1339棵植株组成的两个大作图群体共含有5050的SNP标记,结果将Hass的scaffold分为12个连锁群,这个数值也与鳄梨单倍体染色体数量吻合(图2A)。成功锚定的基因组长度占Hass基因组总长的46.2%,915个scaffold中有361个被锚定。
图1 鳄梨群体基因组结构。A:不同品种间的全基因组SNP的主成分分析。B:NGSAdmix分析表明,当K=3时种群结构相似。

2. Hass的SNP、群体结构和亲本关系

为了从群体基因组学角度进一步研究,研究者重测序多个不同种和栽培种,并将测序的reads比对到Hass参考基因组(原文附表2)。测序深度为3.3-39X,覆盖的基因组范围从70%到92%。考虑到不均匀的测序覆盖率,研究者使用ANGSD调用整个(非锚定)基因组组装中的SNP,然后根据每个位点的深度、等位基因频率和连锁不平衡进行严格的剪枝,最终产生179029个高质量的SNP变异。根据该数据集得出的系统发育、主成分和国家身份(IBS)分析结果,将属于Hass品种和危地马拉品种的样本按其遗传背景按预期分成两组。全基因组SNP的主成分分析结果在哥斯达黎加/西印度群岛/危地马拉群体表现出相对一致性,但在墨西哥亚群体中具有很强的异质性。此外,在该种系的姐妹群体中,危地马拉种系是在哥斯达黎加/西印度种系的范围内产生的,这表明危地马拉种系和其他来源混杂在一起。基于染色体SNP亚群的系统发育模式(仅基于锚定在染色体上的重叠群),对鳄梨12条染色体中的7条进行了归纳,而有1条染色体支持Hass是哥斯达黎加/西印度谱系的姐妹,这可能反映了这个杂交品种外源混合下的染色体差异(原文附图14和附录数据集6)。此外,IBS聚类结果将Hass置于危地马拉亚种群和墨西哥亚种群之间,这与该品种的杂交性质相一致(原文附图16)。
为了进一步解释Hass参考基因组中外来混合的影响,研究者使用NGSAdmix对可能的源种群数量(K=1到6)建模(原文附图17)。Akaike信息准则(AIC)分析结果显示K=1为首选模型,反映了鳄梨整体较差的种群结构。然而,由于Hass来源于先天混合的遗传背景,因此研究者选择了Hass外源混合最初出现的最小的(最简约)K值(K=3)。并以这一标准预测了以下3个种群: 1)P.schiedeana 2)西印度和危地马拉的品种,以及3)墨西哥种(图1B)。结合IBS和NGSAdmix的结果,研究者特别计算了危地马拉和墨西哥背景对Hass亚群体的贡献。EIGMIX的分析结果显示,最大的外源混合比例(61%)来自墨西哥种(原文附图18和附表8)。
尽管scaffold对染色体的锚定比例不高,仅有46%,研究者仍分析了Hass基因组中外来融合的染色体特征。研究者根据Martin等人的方法计算了^f d, ^f dM和dXY值,以估计基因渐渗和分离的程度。计算时控制基因流从危地马拉种进入Hass和墨西哥种进入Hass的方向,设置P. schiedeana为外族群,并剔除Tiny Charly这个种以避免引入分歧误差,最后以非重叠的100 kb窗口序列为输入进行计算(图2B)。如果供体(P3)和受体(P2)之间的绝对遗传距离dXY也减小,表现为^fdM异常值的基因组区域即可以判定为来源于祖先变异渐渗序列。在有基因流存在的情况下,基因组窗的合并比谱系发生的更晚,因此P2 - P3 dXY的减少量应大于没有杂交重组的情况。研究者评估了几次^fdM阈值(Q50,75和90),并观察到在基因流从危地马拉种族转移到Hass的情况下,遗传差异显著减少,研究者基于这些阈值随后在12条染色体上定义了840个危地马拉起源的高可信区域(图2)。染色体4的结果便能很好地证明,一个巨大的来源于危地马拉种的可以包含整个染色体臂的block存在于Hass基因组中(图2A)。这个来源于危地马拉种的block长度,以及不间断的重组现象,反映了该Hass品种最近的杂交起源
研究者还计算了每个群体(墨西哥、危地马拉和Hass)的核苷酸多样性水平[π(17、18)],和FST指数以确定高度分化的区域,以及Tajima’s D指数评估任何偏离中性进化的变异(原文附录数据集7)。研究者观察到,Hass的核苷酸多样性最低(π=0.06)且所有染色体中Tajima’s D值都非常高(基因组平均为1.5),这与发生最近创始人事件(recent founder event)并进行无性繁殖的个体所期望的结果一致;这些数值与墨西哥和危地马拉群体较低且为正值的Tajima’s D值形成对比(基因组平均分别为0.19和0.11)(原文附图22)。在4号染色体的结果中,墨西哥种和Hass之间的FST指数证实了研究者之前关于外来混合的结论大约一半的染色体与墨西哥群体背景相对应,而另一半则起源于危地马拉群体。
图2 SNP多样性分析揭示了Hass鳄梨的杂交基因组背景。A:4号染色体上的22Mb锚定DNA 例证了Hass的杂交性质,其中来自危地马拉鳄梨的基因组渐渗融合墨西哥鳄梨遗传背景。B:在顶部的染色体臂上,蓝色趋势线显示出Hass和墨西哥亚种的分化指数(FST)较低,同时具有高渐渗杂交的信号。C:没有发现选择性清理和驯化信号,墨西哥和危地马拉亚种群表现为中性D值,而Hass则保持估计值的理论上限D值(~2)。

3. 全基因组复制历史

接下来,研究者分析了P. americana的基因组结构历史及其与其他主要被子植物类群的亲缘关系。研究者使用CoGe SynMap工具来分析avocado self:self和avocado:Amborella的共线性关系。无油樟(Amborella)是现存所有被子植物中已知最早和其它被子植物分演化的,与Vitis(葡萄)等所有真双子叶植物古老的六倍体结构相比,无油樟表现出1:3的共线性block关系。因此,无油樟基因组没有显示额外的全基因组复制事件(WGDs),是被子植物的最后共同祖先(last common ancestor)。因此,在self:self和avocado:Amborella中发现的旁系同源共线性block可以反映自上次与与无油樟共同祖先以来鳄梨谱系所特有的WGDs。利用这些方法,研究者发现鳄梨基因组存在两个古老的多倍体事件(图3 A-C),并利用鳄梨、无油樟和葡萄之间的直系同源或旁系同源基因对的Ks密度图,研究了这些事件相对于gamma六倍体和物种分化的相对时间。鳄梨多倍体事件是系特异性的,因为两者都发生在鳄梨谱系与无油樟或V葡萄共同祖先的分化之后(图3C)。结果发现相当多的fractionation(多倍体亚基因组之间重复基因的替代删除),因为这两个多倍体事件在大约4:1的block关系中可以观察到(图3B)。虽然还没有被证明,avocado:Amborella的4:1的block关系显示可能发生了两次而非三次WGD事件。基于鳄梨和其它15种被子植物直系同源共线性“superblocks”的进一步分析结果表明,鳄梨中最近发生的多倍体事件是WGD,而不是伽马古六倍体事件。
图3鳄梨的系统基因组和全基因组复制历史。A:一种基于普遍存在的单拷贝蛋白序列的超度量(ultrametric)时间树描述了Persea(木兰亚纲)与其他开花植物关系的3种常见进化关系树中的1种。这个拓扑结构,显示鳄梨作为单子叶植物和真子叶植物的姊妹,反映了从共线性距离衍生出的系统发育关系。B:Hass (下4个基因组块)显示与无油樟(上块)的4:1的插入式共线性关系。C:鳄梨中的共线同源基因呈现双峰Ks分布,提示存在2个多倍体事件,在木兰亚纲植物和无油樟(红色)分化之后。这些事件发生在葡萄和鳄梨(紫色)的物种分化之后,因此独立于葡萄的伽玛三倍化事件。

4. 鳄梨在被子植物基因组中的系统发育定位

为了进一步证实这两个多倍体事件在鳄梨谱系中的位置,研究者使用两种数据形式生成了主要被子植物谱系的系统发育树:分别是编码序列比对和物种对之间的大量共线性直系同源基因的模式距离。
研究者从19个被子植物蛋白组中检索出单拷贝基因家族(明确无误的直系同源基因,即在开花植物历史上发生各种多倍体事件后,随后重复缺失并返回单拷贝的基因),其中包括鳄梨蛋白组、无油樟蛋白组、单子叶植物和真双子叶植物的代表蛋白组数据(原文附录数据集4)。基于176个严格过滤的单拷贝基因比对的系统发育树(原文附录数据集8和9)给出了基于氨基酸和密码子数据的不同结果。以蛋白质序列为基础,鳄梨为单子叶植物和真双子叶植物的姊妹,在它们彼此分化之前便已形成分支,而编码序列的分析结果则显示鳄梨被作为姊妹放到单子叶植物中。在另一项分析中,研究者将买麻藤(裸子植物)和卷柏 (非种子植物)归为orthogroup分类,目的是从所有4694个基因树中产生一个有根物种树,包含一个或多个(如旁系同源)全物种共有的基因拷贝。在这里,鳄梨被认为是真双子叶的姊妹(原文附图42),这一结论与基于转录组的大量物种分析结果一致。随后,研究者基于CoGe平台上SynMap函数生成的数千对经共线性验证的直系同源基因对的模态差异评分,生成了一个邻接树。在树中,鳄梨再次被定位为单子叶和真双子叶的姊妹(图3A)。
显然,利用蛋白质编码序列很难确定被子植物的早期分枝顺序,这个问题部分是由于序列并行性/深度时间反转、分类单元采样的限制、基于序列直系同源和旁系同源界定的偏差,也与相关物种相对一致的分支时间有关(图6)。快速的物种分化可以通过增强不完全谱系分选(incomplete lineage sorting, ILS)的发生,导致真正的基因树/物种树不协调,其中祖先种群中的多态等位基因状态没有足够的时间根据物种树进行修复。
对于这个问题,研究者使用BadiRate中包含的基因家族更替(turnover)分析进一步研究了ILS的可能作用。将3种放置鳄梨位置的树转换为时间校准的超参数树,并在4种不同的分支模型下评估重复基因获得或丢失的可能性。结果显示AIC明显支持自由速率(free-rates)模型,支持跨谱系多基因家族进化的异质性速率(原文附录数据集10)。有趣的是,考虑到FR模型比单独的WGD/WGT模型更适合多基因家族数据,这种不平衡的基因更替率不能完全用系特异性WGD/全基因组三倍化事件(WGT)来解释。此外,允许每个短分支的更替率变化(<10 My)也提高了可能性和AIC值,尽管与FR模型相比,拟合情况仍然较差(原文附录数据集10)。FR模型对基因计数数据(gene count data)的适应性明显更好,这可以解释为,它们能够灵活地适应当前的更替模型(如物种内的基因复制变异)无法明确解释的变异。种内变异,在一个祖先群体中分离,可以通过2个分裂的谱系以不同的方式遗传,并导致显著的分化差异。这预示着,对于短分支的分化将会加剧,而随着分化时间变长,这种分化偏好将变得微不足道,因为随着时间的推移,它对总分化的相对贡献往往相对较小。在多基因家族水平上,研究者观察到更替率和分支长度之间的相关性(附图46),这表明可能因WGD和随后的fractionation过程,在祖先物种中普遍存在拷贝数变异(CNV)。短的系统发育分支,代表着快速的物种形成事件,在系统发育重建中增加了ILS的发生率,因为在祖先种群中替代副本的灭绝(如不固定的CNVs)会进一步拆分那些相近时间的分支。根据BadiRate的估计结果,ILS对更替率的时间影响远远超过了10 Mya,超过了鳄梨与其他物种分化之前就存在的分支长度的时间,鳄梨与其他物种的分化在年龄上只有3.8到7.4My不等(图3A)。这意味着鳄梨在被子植物中的3种不同位置可能无法纯粹从生物学角度进行区分,然而,在FR模型下,三种不同的树拓扑结构中,有一种是基于AIC对比的结果:即木兰亚纲(magnoliid)是单子叶和真双子叶植物姊妹的拓扑结构(图3A)。
5. 重复基因空间的功能富集
研究者主要通过两种方式完成植物基因组内重复基因的收集,局部的和正在进行的串联重复事件,以及整个基因被复制的古老的多倍体事件。重复基因拷贝的亚功能化和/或新功能化导致重复事件后代的保留,这些复制事件通过功能分化,以不同的方式逃脱了被简单复制的命运。串联重复对于作为剂量敏感转录调控网络的一部分的基因或编码部分多蛋白复合体的基因来说是有问题的,这些功能更有可能被保留在幸存的重复基因中,因为这些重复基因来自精确的剂量平衡多倍体事件。另一方面,一些剂量响应功能(dosage-responsive function)如次生代谢(包括生化通路的增加)是最可能存活的亚/新功能串联重复。这些模式在植物基因组中已被反复观察到,其中次生代谢功能在串联重复中最为普遍,而转录功能在多倍体重复事件中较为丰富。鳄梨基因组也不例外,研究者通过使用GoGe平台,在GO和KEGG数据库中精确地识别了这些不同类型重复基因的过表达模式。在鳄梨共计2433个多倍体重复基因中,有352个注释为“转录调控,DNA模板化”功能的基因显著表达(原文附录数据集12)。研究者发现与“苯丙类生物合成”紧密相关的KEGG通路(原文附录数据集13)在串联重复序列中显著富集。这种功能富集可能是对病原体感染的应激反应,包括炭疽菌(炭疽病)和肉桂疫霉菌(鳄梨根腐病),这两者都激活了鳄梨中的苯丙类生物合成途径。其它显著富集的GO功能通路包括“苯丙基代谢过程”、“木质素生物合成过程”、“UDP-糖基转移酶活性”,均是与苯丙基生物合成直接或密切相关的分类。根据GO的注释结果,“防御反应”和“对真菌的防御反应”在串联重复中显著富集,这个结果与其他植物基因组的分析结果一致。与COMT1同源的串联重复O-甲基转移酶也可能有助于合成苯丙基衍生物和杀虫剂雌二醇,这在很大程度也解释了许多鳄梨品种,尤其是墨西哥品种的茴香样叶子气味和水果味道。串联重复中另一个富集的GO类别是“乙烯激活的信号通路”,它注释了许多不同的转录因子重复。乙烯信号因子,如ERF1(2个同源基因),在病原菌诱导的反应中起重要作用,包括对炭疽杆菌和其他坏死性真菌感染的应激响应,此外,还鉴定了EIN3的3个同源基因,EIN3是一种转录因子,启动下游乙烯反应和果实成熟。鳄梨果实在树上成熟包括乙烯合成和信号传导的过程,而它要等到被收割后才会成熟——这是一种理想的特性,允许种植者将收割时间推迟几个月。
由于鳄梨保留下来的多倍体重复的古老起源,基因组中的大多数串联重复预计来源于最近的起源事件,是由所有真核生物基因组中正在进行的基因生-死-创新过程(birth-death-innovation)产生的。因此,亚功能或新功能的串联重复基因如果能在复制基因通常的命运下——变成假基因存活下来,则应该具有丰富的功能,以适应特定物种所处的选择环境。以鳄梨为例,它对真菌病原体的反应恰恰反映在它的串联复制基因上。
6. 串联和多倍体重复基因的差异表达
根据研究者的预测结果,许多固定在鳄梨基因组中的串联重复可能是近期的病原体压力下进化而来的,因此研究者用炭疽病病原体进行处理,并检测了Hass基因的差异表达。使用Kallisto软件预测Hass基因的表达,结果发现串联重复基因存在显著上下调的情况,而多倍体基因并未出现富集。研究者将这些结果解释为,在病原菌处理下,串联重复是鳄梨重复基因空间中最动态的组成部分。研究者随后对上调和下调串联重复序列进行功能富集,而唯一显著富集的类别功能注释为木葡聚糖:木葡糖苷转移酶活性

结论

墨西哥和Hass鳄梨全基因组关联研究能提供大量信息,用于鉴定现在中美洲自然鳄梨遗传群体中的重要性状,发展基因组辅助育种和基因改造工作,并能协助防治威胁鳄梨的疾病,以及优化生长相关等重要的表型性状。研究者将几乎一半的测序Hass基因组固定在一个遗传图谱上,为12条染色体的遗传变异提供了连锁信息,并重测序了10个基因组,分别代表危地马拉、西印度、墨西哥和与Hass相关的品种的小种群,以及亲缘关系密切的物种的基因组P. schiedeana,目的为了挖掘SNP并研究这些染色体之间的遗传多样性。对外源和渐渗的分析结果清楚表明了Hass鳄梨的杂交起源,指出了它的墨西哥和危地马拉的祖先种族,并表明Hass在其基因组的大约三分之一中包含危地马拉种的渗入。研究者在鳄梨基因组中发现了两个古老的多倍体事件,并发现这两个事件独立于其它被子植物基因组复制或三倍化。为了解决木兰亚科植物与其他主要被子植物的系统发育关系问题,研究者分析了14个物种间的数千个共线性直系同源基因,结果支持木兰亚科植物为单子叶植物和真双子叶植物的独立分支。然而,这个结论仍存在一定争议,因为编码序列的系统基因组学还没有定论,基因家族分析表明,在主要被子植物分支几乎同时发生的扩张过程中,存在明显的重复基因更替并因此增加了发生ILS的可能性。研究者还研究了鳄梨基因组的适应性结构,即串联和多倍体重复,串联重复基因注释许多潜在的重要代谢相关反应,其中可能包括相对较近期对真菌病原体的适应。相比之下,起源于2个不同时期的古代多倍体重复基因,主要注释为关键生理和发育过程的转录调控功能。研究者发现在炭疽病感染后,串联重复序列将更动态地转录,并且一些上调的基因可能与防御反应有关。

评论

鳄梨是一种营养丰富且具有重要经济价值的水果,在开花植物的早期进化分支中的定位一直存在争议。本文研究关于墨西哥鳄梨和Hass鳄梨的核基因组序列,揭示了其古老的进化关系、基因组加倍以及Hass基因组渐渗的来源,并提供了一份关于病原体相互作用如何塑造鳄梨最近的基因组进化史的研究报告。

(0)

相关推荐