科研 | Nature Genetics:印度眼镜蛇参考基因组和转录组全面鉴定毒液毒素
编译:不二,编辑:十九、江舜尧。
原创微文,欢迎转发转载。
蛇咬毒害是一种严重而被忽视的热带病,每年造成约10万人死亡。对毒素基因进行高质量基因组的全面表征将有助于开发有效的人源化重组抗蛇毒血清。作者报道了印度眼镜蛇(Naja naja)de novo的近染色体基因组,这是一种剧毒的对医学有重要意义的蛇。组装的基因组拼接序列N50为223.35Mb,其中19个拼接序列包含95%的基因组。在23248种预测的蛋白质编码基因中,有12346种毒腺表达的基因构成了“毒液组”,其中包括33个毒素家族的139个基因。在139个毒素基因中,有19种“毒液组特异性毒素”(VST)显示毒液腺特异性表达,并且这些可能是编码最小的核心毒液效应蛋白。通过重组VST表达合成的毒液将有助于安全有效合成抗蛇毒血清的快速发展。此外,本研究的基因组可以作为蛇基因组的参考,支持进化研究并实现毒液介导的药物发现。
论文ID
原名:The Indiancobra reference genome and transcriptome enables comprehensive identificationof venom toxins
译名:印度眼镜蛇参考基因组和转录组可全面鉴定毒液毒素
期刊:Nature Genetics
IF:25.455
发表时间:2020.1
通讯作者:SomasekarSeshagiri
通讯作者单位:美国基因科技公司(Genentech,Inc.)
DOI号:10.1038/s41588-019-0559-8
结果
近染色体de novo基因组组装
使用流式细胞仪,研究者估计印度眼镜蛇单倍体基因组的大小为1.48-1.77Gb。细胞遗传学分析显示二倍体核型为2n=38,包括7对大染色体(MAC)、一对性染色体(ZZ雄性或ZW雌性)和11对小染色体(MIC),与以前的报道一致。
成年雄性印度眼镜蛇(NN01)的DNA用于产生长读测序数据(PacBio和Oxford NanoporeTechnologies,ONT)、短读测序数据(Illumina)、Chicago染色质相互作用数据、Hi-C测序数据和光学图谱数据(Bionano Genomics,BNG)。此外,研究者为雌性印度眼镜蛇(NN05)生成了10x Genomics、BNG和Illumina的联合测序数据。采用顺序组装的方法(图1)产生了1.79Gb Nana_v5基因组,其拼接序列N50为223.35Mb,BUSCO基因组完整性评分为94.3%。
为了将Nana_v5的拼接序列分配给染色体,使用无毒蛇类日本鼠蛇(Elaphe quadrivirgata)的互补DNA(cDNA)染色体标记序列(图1e)和绿色蜥蜴(Anolis carolinensis)基因组的联合信息以及单条染色体测序数据(SChromseq;图1f)。还生成了一个混合的10x BNG组装的基因组,以鉴定52.1Mb雌性特异W染色体连锁的拼接序列。
印度眼镜蛇的de novo组装基因组与人类和山羊基因组的比较结果表明,印度眼镜蛇的de novo基因组的拼接序列N50是山羊的2.5倍(87.27Mb与223.35Mb),是人类的3.3倍(67.79Mb与223.35Mb)。与眼镜王蛇基因组相比,印度眼镜蛇基因组包含的拼接序列要少得多(分别为296399和1897),并具有更好的929倍连续性(拼接序列N50为0.24Mb和223.35Mb)。此外,与最近报道的草原响尾蛇(Crotalus viridis)基因组的7034个拼接序列和179.89Mb拼接序列N50相比,印度眼镜蛇基因组的拼接序列N50更高,拼接序列更少。
图1 印度眼镜蛇基因组测序和组装示意图。
基因组特征
印度眼镜蛇基因组的平均DNA碱基(GC)含量为40.46%。代表88%基因组的MAC的GC含量为39.83%。而MIC仅包含基因组的12%,GC含量却为43.50%(图2a)。印度眼镜蛇基因组与其他鳞状爬行动物基因组对比,发现基因组中有43.22%是重复的(约760Mb;图2a)。
印度眼镜蛇和草原响尾蛇基因组之间的全基因组联合比较显示,MAC、MIC和Z染色体之间存在较大的同源区(图2b,c)。研究者观察到几个融合/分裂事件,这与两个基因组之间的染色体数目差异是一致的。印度眼镜蛇的4号染色体与响尾蛇3号和5号染色体共享同一个区域,表明可能发生融合事件。相反,印度眼镜蛇5号和6号染色体与响尾蛇5号染色体同源,表明可能发生了分裂事件(图2b,c)。印度眼镜蛇基因组与更远亲缘的绿色蜥蜴的基因组比较也显示了同源和染色体重排区域(图2c)。蜥蜴的2号染色体包含与印度眼镜蛇基因组中4、5和6号染色体相对应的同源区域(图2c)。同源分析显示,蜥蜴第6号染色体与印度眼镜蛇的Z染色体同源(图2c)。尽管蛇和鸡(Gallus gallus)之间的估计进化时间约为280Ma,但研究者观察到了几种MAC和MIC染色体的同源。鸡1号和2号染色体的几个区域在印度眼镜蛇的MAC、MIC和Z染色体上显示同源(图2c)。这表明在进化过程中,鳞状爬行动物和鸟类基因组之间的MAC和MIC染色体发生了大规模变化。
图2 眼镜蛇基因组的结构。
基因预测和注释
研究者使用MAKER结合蛋白质同源性信息以及14个不同组织的基因表达数据(n=26个样品;图2d和3)对基因组进行注释。预测了23248个蛋白质编码基因和31447个转录本,其中包括编码31036个预测蛋白质的可变剪接产物(图2d)。在23248个基因中,在19个最大的拼接序列上发现了22116个基因(95%)对应于已编号的染色体上。在31036个预测的蛋白质中,共有26216个(84.4%)拥有经典的起始和终止密码子。鉴定了26216个蛋白质中的3265个(约12.5%)具有N端分泌信号序列,这是毒腺分泌毒素的重要特征。并对31036个预测的蛋白质进行了广泛的功能注释,发现有1019个(54.8%)具有与人类基因命名委员会数据库、NCBI数据库或TrEMBL数据库中对应的直系同源基因。将注释蛋白质组与眼镜王蛇、草原响尾蛇和绿色蜥蜴的基因组进行比较,分别鉴定了26323个、25505个和11820个直系同源基因。
图3 印度眼镜蛇各组织表达图谱。
研究者通过将预测的基因模型与长读测序数据、毒素基因HMM模型和人工计算相结合,对毒液相关基因进行全面注释,鉴定了33个基因家族的139个毒素基因。其中包括19种三指毒素(3FTx)、8种蛇毒金属蛋白酶(SVMP)和6种富含半胱氨酸(Cys)的分泌性毒液蛋白(CRISP)。近染色体组装使研究者能够评估编码涉及毒腺功能的酶促和非酶促毒素蛋白的基因家族。在印度眼镜蛇基因组中,MAC上包含了16个主要毒素基因家族(图4a)。与之相反的是,在草原响尾蛇(C. viridis)和原矛头蝮(Protobothrops flavoviridis)的MIC基因组上发现了大部分毒腺基因。
基因组中鉴定出的19个全长3FTx基因中,有14个位于3号染色体上的6.3Mb区域内(图4b)。一个3FTx基因(Nana001KS)位于4号染色体上,其余四个位于未分配的拼接序列ScVE01q_1072上。此外,鉴定了10个3FTx假基因,它们部分缺少编码区域并且没有表达。眼镜蛇基因组编码的第二大毒素基因家族由聚集在MIC 1上的八个SVMP组成(图4c)。在1号染色体上发现了六个CRISP基因簇(图4d)。其他毒素基因,包括利钠肽、C型凝集素、蛇毒丝氨酸蛋白酶(SVSP)、Kunitz和毒液补体激活基因家族,它们分布在19条染色体上,而两个I类磷脂酶A2(PLA2)基因和一个眼镜蛇毒液因子(CVF)基因位于一个未分配的拼接序列上(ScVE01q_344)。草原响尾蛇基因组和印度眼镜蛇基因组中毒腺基因的比较确定了印度眼镜蛇特有的15个毒素基因家族。这包括磷脂酶B样毒素和Cathelecidins。对139个印度眼镜蛇毒腺毒素基因进行评估,发现它们与眼镜王蛇中的直系同源基因匹配的基因有96个,没有匹配的基因有43个。尽管43种毒素中的某些可能是印度眼镜蛇所特有的,但大多数眼镜王蛇基因组中没有注释,这可能是由于其高度碎片化的组装所造成的。
对印度眼镜蛇、草原响尾蛇和绿色蜥蜴的基因组中主要毒素基因家族(3FTx,SVMP和CRISP)的同源比较显示,每个家族中都有多次重复事件,涉及无毒起源的旁系同源基因,导致在毒腺中重复基因的共同选择/募集和表达(图4e,f)。
图4 印度眼镜蛇毒液基因库。
最小的核心毒液组的毒素基因
26个样本的14个不同组织的多组织转录组数据的分析,鉴定了19426个表达的基因(每百万计数CPM>1;图3),其中6601个共同核心基因在所有组织中表达。
毒腺转录组包含12346个表达基因,其中包括33个不同毒素基因家族的139个基因。此外,差异表达分析揭示了15个不同毒素基因家族的109个基因,它们在毒腺中显著上调,其中包括19个仅在毒液腺中表达的毒素基因(图4g)。这19个VST基因可能编码核心毒液效应蛋白,由6种神经毒素、1种细胞毒素、1种心毒素、1种毒蕈碱毒素、6种SVMP、神经生长因子(NGF-β)、2种Kunitz丝氨酸蛋白酶和CRISP组成。此外,研究者通过质谱法确认了19种VST中的16种在蛋白质水平上的存在。
功能多样的3FTx
三指毒素是短的多肽(60-90个氨基酸),属于主要在有毒眼镜蛇中发现的非酶蛋白超家族。已知这些小蛋白主要靶向神经元受体,包括烟碱乙酰胆碱受体(nAChRs)、毒蕈碱乙酰胆碱受体、钙通道蛋白和其他蛋白。从结构上讲,它们折叠成伸出的三指状结构,其中每个手指都包含一个从二硫键稳定的疏水核延伸出来的β-发夹环。3FTx通常包含四个保守的二硫键,有些包含第五个二硫键。在功能上,3FTx分为神经毒素、细胞毒素、心毒素和抗凝剂。
虽然在毒液腺中检测到所有19种注释的眼镜蛇3FTx的表达,但9种是特定于毒液腺的。在这19个3FTx中,有14个常规3FTx具有3个保守Cys残基,而4个3FTx包含10个Cys残基。基于同源性的评估可以将3FTx分为7种神经毒素、6种细胞毒素、4种心毒素、1种毒蕈碱毒素和1种抗凝剂。神经毒素包括两种已知与肌肉nAChR相互作用的I型短链神经毒素(Nana002KS和Nana005KS)、一种已知以肌肉和神经元nAChR为靶点的II型长链神经毒素(Nana012KS)和三种包含10个保守的半胱氨酸预测的III型弱神经毒素(Nana001KS,Nana003KS和Nana004KS),这是非常规和特定于猎物的3FTx的特征。Nana018KS在结构上与眼镜王蛇中的蛇毒毒素相似,并且已知能阻断α7-nAChRs。通过结构建模的进一步评估将印度眼镜蛇3FTx分为四组(图5)。对β-折叠结构的正确折叠和稳定性至关重要的芳香残基(Tyr25或Phe27),在19个3FTx中是保守的(图5a)。四个含10-Cys残基的3FTx中的三个是非常规3FTx,在环I中包含一对额外的半胱氨酸,导致更长的N末端环,这也可能在稳定该环中起作用,并有助于毒素功能(图5a,b)。另一个10-Cys 3FTx是长链神经毒素,在环II(Nana012KS)中包含一对额外的半胱氨酸。带电荷的氨基酸残基Arg39通常通过与C端形成盐桥来稳定天然毒素构象,在除Nana012KS之外的所有已鉴定的3FTx中均保守,其中Nana012KS被亮氨酸残基代替(图5a)。该蛋白的同源性模型表明Leu39可能表现出范德华相互作用,并形成包含Ile35、Phe4、Thr22和Arg68的疏水核心的一部分(图5c)。与其他3FTx相比,两种细胞毒素Nana008KS和Nana010KS具有较短的环I和III(图5d)。
值得注意的是,Nana005KS包含9个Cys残基,这仅在另外两个有毒眼镜蛇Micruruslemniscatus和Micrurus altirostris中发现了这种异常的3FTx。在环I中保守的第二个Cys之前的位置16个氨基酸处的游离Cys残基(图5b)可能促进了共价同/异二聚体3FTx的形成。Nana005KS与短链3FTx Nana002KS密切相关,并且包含针对肌肉nAChRs活性所需的大部分残基。例如,带正电荷的残基Lys25、Lys26和Arg32的存在表明这些毒素可能对哺乳动物的毒化至关重要。特别是,Arg32的胍基基团可以模拟乙酰胆碱与nAChRs中的α-α和α-δ界面形成阳离子-π相互作用。
影响nAChR神经毒素结合位点的获得性突变使某些物种对蛇毒免疫,例如埃及猫鼬(Herpestes ichneumon)。印度眼镜蛇nAChR序列和埃及猫鼬nAChR与其他代表性哺乳动物物种的比较,发现印度眼镜蛇nAChR在α-神经毒素位点带有关键的p.Phe189Asn突变,这会导致对短链和长链神经毒素的敏感性降低。
在最后一组3FTx中,Nana013KS在结构上与AncTx-1类似,后者是已知与β-肾上腺素G蛋白偶联受体相互作用的合成毒素。Nana006KS编码的3FTx发现与非洲环斑眼镜蛇(Hemachatus haemachatus)的外源性凝血复合物抑制剂的环汞肽同源(图5e)。此外,研究者发现Nana017KS与最近报道的Naja atra(μ-EPTX-Na1a)Nav1.8钠通道抑制蛋白相似,相似性为97%。
为了了解3FTx家族中遗传变异的后果,研究人员通过计算每个毒素基因和其非毒素旁系同源基因配对每个位点同源(KS)和非同源(KA)核苷酸替换的数目来评估主要毒素家族的进化速率。3FTx毒素基因的KA/KS替换比为2.034(±0.818),而非毒素旁系同源基因(包含Ly-6/UPAR域的基因)的KA/KS替换比为0.894(±0.103;图5g)。观察到的高KA/KS比大于1表明多样化选择导致毒腺特异性3FTx基因快速进化和功能多样化。
图5 眼镜蛇3FTx基因家族的特征。
印度眼镜蛇SVMP、CRISP、PLA2、CVF和生长因子基因
检测到六个属于P-III类金属蛋白酶(具有金属蛋白酶/解离蛋白/富含Cys的结构域)的毒腺特异性的SVMP(参与诱导出血、炎症、细胞凋亡、凝血酶原激活和血小板聚合的抑制)。发现印度眼镜蛇SVMP的进化速度不及3FTx基因快,因为与含金属蛋白酶结构域的旁系同源基因观察到的0.998(±0.049)相比,毒腺特异性SVMP的KA/KS比为1.070(±0.137)。与响尾蛇SVMP相比,印度眼镜蛇SVMP形成了一个单独的簇。与此相符的是,在结构域M12中第七个Cys残基不存在,该残基在响尾蛇SVMP-PIII典型的生物活性去整合素/Cys丰富结构域的分泌或形成过程中参与了二硫键交换。
在毒腺转录组中检测到六个CRISP,它们在不同的蛇种中高度保守。毒液CRISP具有广泛的生物学效应,包括神经元中K+和/或Ca2+电流的阻滞和血管平滑肌收缩的阻滞。五个CRISP中的两个与中国眼镜蛇(Naja atra natrin)和独眼眼镜蛇(Naja kaouthia)的有毒CRISP同源。中国眼镜蛇同系物(Nana02866)的表达是毒腺特异性的,它可能起到Kv1.3钾通道阻滞剂的作用。
此外,在毒腺和唾液腺中高表达的两个I类分泌酸性PLA2基因(Nana39244和Nana39246)与其他眼镜蛇PLA2具有高度相似性,并具有钙结合(XCGXGG)和催化性(DXCCXXHD)特征的结构域。
除了上述主要的眼镜毒素家族外,还检测到了其他毒素基因家族的转录本,包括透明质酸酶、磷脂酶B样基因、cathelicidins、ohanin和5’核苷酸酶。还检测到了L-氨基酸氧化酶(LAAO;Nana07858),它与血小板聚集、水肿和出血有关。此外,研究人员在毒液组中鉴定了两个全长c型利钠肽基因Nana20849和Nana20852。在毒液组中检测到的三种Kunitz丝氨酸蛋白酶抑制剂中,有两种是VST基因产物(Nana13192和Nana13193),它们可能起到抑制止血系统中丝氨酸蛋白酶的作用。另外,还发现了两个全长的半胱氨酸蛋白酶抑制剂基因Nana15538和Nana35841在毒液组中表达。
眼镜蛇毒液因子是一种非致命蛋白,在结构和功能上类似于补体C3蛋白。以前,已经报道了印度眼镜蛇的一个CVF基因的完整结构。在本研究中,鉴定了印度眼镜蛇基因组中的三个CVF基因(Nana10828,Nana38416和Nana10826)。Nana38416和Nana10828包含40个外显子,分别位于2号染色体上,跨度分别为~118和~75kb。尽管Nana10826的5’基因组结构在目前的组装基因组中尚未完全解析,但通过亚型测序(Iso-seq)证实了Nana10826的全长转录本的表达。蛋白质序列比对显示,Nana38416与独眼眼镜蛇的CVF(UniProtKB:Q91132)有96%的相似性,而Nana10828与先前鉴定的印度眼镜蛇C3补体蛋白质有99%的相似性。
除毒素成分外,鉴定了四种全长PDGF/VEGF-生长因子基因,包括血管内皮生长因子-1(VEGF1;Nana01393)、VEGFC(Nana18254)、血小板衍生生长因子(PDGF;Nana34300)、胎盘生长因子(PGF;Nana05337)、胰岛素生长因子(IGF)基因和毒液组中的Nana04360。此外,还鉴定了毒液腺特异的神经生长因子(NGF-β;Nana13949),与吐液眼镜蛇(Naja sputratrix)的NGFV2具有高度同源性。
图6 印度眼镜蛇最小的核心毒液组的毒素基因。
讨论
目前对蛇毒的大多数理解是基于蛋白质组学研究,而蛋白质组学研究仅提供了部分有关其成分的信息。完整的毒液蛋白目录中,它们的表达和编码序列对于开发安全有效的抗蛇毒血清至关重要。而且,毒液成分的这种详细目录对于候选药物的开发十分有价值。
通过将二代测序技术与新兴的基因组技术结合,获得了de novo高质量印度眼镜蛇参考基因组。近染色体组装揭示了爬行类和鸟类基因组之间的同源区域,与其进化轨迹一致。基因组的高度连续性显示了响尾蛇和眼镜蛇基因组之间毒液基因的显著差异。印度眼镜蛇基因组MAC染色体中的主要毒素基因家族的位置与草原响尾蛇和原矛头蝮基因组MIC中的相反,表明它们的染色体和毒液进化存在差异。
总体而言,研究者发现了构成毒液组的12346个基因表达,其中包括139个毒素基因,其中19个基于毒液腺特异性表达定为VST。此外,还发现已知的毒液功能调节剂在毒液腺中高度表达,例如CVF、凝血因子、蛋白质二硫键异构酶、利钠肽、透明质酸酶、PLA2、磷脂酶B样基因、LAAO、血管内皮生长因子(VEGF)和5’核苷酸酶。这些基因可能与19种VST一起形成毒液的核心毒性效应成分,并诱发多种症状,包括心血管功能障碍、肌肉麻痹、恶心、视力模糊以及全身性影响,例如出血(图6)。研究者建议使用抗体中和这些核心毒液效应因子将是一种有效的治疗策略。此外,考虑到蛇毒成分的变化,对蛇类内部和不同蛇毒腺基因库及其变异进行分类,对于开发广泛有效的抗蛇毒血清非常重要。
以提取的蛇毒作为抗原,利用大型免疫哺乳动物(例如马)制成抗蛇毒血清。由于抗原攻击后马抗体应答的预期差异,此类马衍生抗体显示出功效差异。此外,抗体的异源性导致治疗不利的相关副作用。从完整的VST目录中,可以使用重组蛋白表达技术来生成确定成分的合成毒液。这种重组核心毒液VST蛋白的混合物可用于在马中产生特异性抗体,测试其中和活性,快速克隆/合成并人源化以产生下一代抗毒血清。另外,重组毒液蛋白可用作抗体噬菌体文库的诱饵,以获得毒素中和的、经过活性测试的人源化合成抗体。
基因组重组产生的蛇毒蛋白也可用于表征和改善现有的马源抗蛇毒血清。在这一范例中,可以针对在马中非免疫原性的重组毒液毒素来提高抗体质量,并用于补充目前的抗蛇毒血清以提高其功效。另外,可以用提取或合成毒液免疫的马B细胞库进行单细胞测序,以鉴定预测的中和抗体。该信息可用于快速合成、人源化和鉴定毒素中和抗体,以产生合成抗蛇毒血清。随着更多高质量蛇基因组的完成和毒腺VST的分类,从此类基因组计划中鉴定出的关键物种特异性毒素的合成抗体可以组合起来,形成有效的广谱抗蛇毒血清。此外,噬菌体展示可开发针对不同毒素抗原决定簇的重组毒素抗体。这些重组毒素的抗体可以组合以产生可能更有效的抗蛇毒血清。毒液腺细胞的原代培养或最近开发的毒液腺类器官培养物结合基因组信息,可以为抗蛇毒血清的开发提供一种替代的、可行的蛇毒抗原来源。
评论
印度眼镜蛇参考基因组的分析将有助于抗蛇毒血清开发。基因组和相关的预测蛋白质组将作为有毒生物进化研究的强大平台。更重要的是,本研究发现的毒液蛋白的综合目录能促进药物开发,尤其是治疗高血压、疼痛和其他疾病。
更多推荐
1 科研 | PNAS:转录组学揭示急性和慢性饮酒对肝脏昼夜新陈代谢有不同的影响