编译:寒江雪,编辑:夏甘草、江舜尧。
原创微文,欢迎转发转载。
导读
越南人参是具有重要药用价值的特有濒危物种,由于缺乏有效的分子标记,种群的遗传多样性和结构尚不清楚。本研究对越南人参进行基因组和转录组测序分析。对所有转录本在七大数据库中完成注释分析。检测到11343个EST-SSR,从7774对引物中筛选出101对用于多态性验证,其中20对引物成功扩增出片段,并在群体内观察到大量多态性。利用9个多态位点进行群体结构和多样性分析,群体具有较高的遗传多样性,平均观测杂合度为HO=0.422,平均期望杂合度为HE=0.479。瓶颈分析使用TPM和SMM模型(p<0.01)发现目标群体存在显著的杂合子缺陷,群体间的遗传分化中等,基因流动水平略高。方差分析显示63.17%的个体内变异和12.45%的群体间变异。本研究还揭示了两个与地理距离相关的基因簇间的关系。原名:De novo assembly and Transcriptome characterization of an endemic species of Vietnam, Panax vietnamensis Ha et Grushv., including the development of EST-SSR markers for population genetics译名:越南人参基因组从头组装和转录组特征分析及群体遗传学EST-SSR标记的开发通讯作者:Thi Phuong Trang NguyenDOI号:10.1186/s12870-020-02571-5本研究采集野生越南人参的根、叶和茎速冻作为基因组和转录组测序的材料。对野生人参测序数据进行基因组从头组装和转录本在七大数据库中的功能注释及EST-SSR的开发。选择三个不同的野生种群体(98株)为样本,分析其结构和遗传多样性,并通过统计学计算分析群体特征。通过Trinity和De Novo组装,共有153,074个转录本,N50为1,268 bp,平均长度为770.572 bp。在转录本总数中,200~300bp的转录本最多,有48314个(31.56%),大于2000bp的转录本最少,有11755个(7.68%)。组装得到89,271个N50长度为942bp(平均长度=598.319 bp)的单基因并保留用于分析。其中200~300bp区间数量最多,有39947个(44.75%)(图1,表1)。
对unigene分别在七大数据库(COG、GO、KEGG、KOG、Pfam、Swissprot和Nr)中进行功能注释,共得到31,686个匹配序列(表2)。89,271个unigene中,COG数据库注释到7647个(8.57%),GO数据库注释到14,568个(16.32%),KEGG数据库注释到5838个(5.42%),KOG数据库注释到16,860个(18.89%),Pfam数据库注释到18,600个(20.845),Swiss-Prot数据库注释到19,228个(21.54%),Nr蛋白质数据库注释到16,659个(18.66%)。Nr数据库比对发现越南人参与油棕相似度最高(25%),其次是枣椰树(22%)和小果野芭蕉(9%)(图2)。基于Nr标注,使用GO系统对unigene可能的功能进行分类。将72,183个(80.86%)unigene分为3大类(生物过程类、分子功能类和细胞组分类)和51个亚类(图3)。其中生物过程基因最多(28,653; 39.69%),亚类分别为“代谢过程”(8016,27.98%)、“细胞过程”(7528,26.27%)和“对刺激的响应”(2347,8.19%)。细胞组分unigene 27232个(37.72%),分为“细胞部分”(6645,24.40%)、“细胞”(6596,24.22%)和“细胞器”(5269,19.35%)。16298个(22.58%)unigene与“分子功能”有关,其中突出的亚类是“结合”(7459;45.77%)和“催化活性”(7130;43.75%)。少数基因在“营养库活性”、“分子载体活性”、“蛋白标签”和“翻译调节活性”方面表现丰富(图4)。COG注释的假定蛋白从功能上分为25类。排名前三位的分别是“一般功能预测”(9089)、“翻译、核糖体结构和生物发生”(3388)和“转录”(977)。然而,只有少数unigene被注释为“胞外结构”和“核结构”。5838个unigene在KEGG数据库中匹配,并注释到118个KEGG功能通路(图5)。具体途径包括植物激素信号转导、嘌呤代谢、核糖体、RNA转运剪接体等多种途径。在萜类主干生物合成途径中有45个unigene。
为了开发新的分子标记和检查组装质量,将89,271个unigene用于微卫星挖掘,这些微卫星包含二到六核苷酸基序。使用SSRIT鉴定了11,343个EST-SSR。其中6949个序列包含一个SSR,而2763个序列包含一个以上的SSR。unigene中EST-SSR的频率为12.71%,一个EST-SSR的分布密度为5.98kb。分析了潜在的EST-SSR的频率、类型和分布。最常见的重复基序是单核苷酸(5004,44.12%),其次是二核苷酸(4648,40.98%),三核苷酸(1563,13.78%),四核苷酸(66,0.58%),六核苷酸(29,0.26%),五核苷酸(32,0.28%)重复序列(图6和表3)。最常见的EST-SSR分别为10个重复基序(2040个;20.50%)、6个重复基序(1363个;12.02%)、5个重复基序(925个;8.15%)、7个重复基序(862个;7.6%)、8个重复基序(594个;5.24%)和9个重复基序(428个;3.77%)。二核苷酸重复序列的优势基序是AG/TC(90.06%),其次是AT/TA(5.34%)和AC/TG(4.43%)。三核苷酸重复序列中,CCG/GGC基序分布最高(22.65%),而四核苷酸重复序列中常见基序为ACTG/TGAC(19.30%)(图7)。此外还发现了16种不同类型的EST-SSR的五核苷酸和17种六核苷酸重复序列。
图7 越南人参二核苷酸(A)、三核苷酸(B)和四核苷酸(C)重复序列中不同基序的百分比来自3个越南人参群体的98个个体在9个基因座上产生了27个不同的等位基因,长度从120到265bp不等(表4)。多态信息含量(PIC)值在0.325(L111)~0.493(L145)之间,平均为0.361。检测到的杂合度(HO)最低的位点是L73(0.178),最高的位点是L111,平均为0.422。L73基因座的期望杂合度(HE)最低(0.208),L37基因座的HE最高,平均为0.479。所有群体的固定指数(F)均为正(F = 0.13)。这些结果显示出杂合度不足和显著的近交。9个位点中有7个位点为正,表明其纯合性和近交性较高。有5个位点显著近交,两个位点为负值。瓶颈分析显示目标群体存在明显的杂合子缺陷(表5)。这表明在所有群体中都存在瓶颈迹象。方差分析表明个体内总变异呈极显著水平(p<0.001),为63.17%(表6)。FST值在0.072~0.182间(平均值=0.133),差异显著(P<0.05)。DT和TN群体间的遗传分化值较低(Fst=0.072),而DT和KT群体之间的遗传分化值较高(Fst=0.182)(表7)。种群间的亲缘关系如图8所示。两个遗传群体(DT和TN)中每个群体和个体的祖先百分比表明,(红色在DT和TN中占优势,绿色在KT中占优势(图9)。
研究利用Illumina测序平台对越南人参进行从头组装和转录组测序。获得了大量的EST,并鉴定了在越南人参中差异表达的候选基因。共鉴定出11343个EST-SSR,发现越南人参自然种群保持了较高的遗传多样性水平,本研究得到的大量的SSR标记数据有助于越南人参的分子标记辅助育种工作的开展。本研究分析所有越南人参转录本的功能,分类和代谢途径。开发了一套适用于越南人参的EST-SSR,并通过对三个群体的遗传结构和多样性的研究,证实了这些标记的有效性。还检验了地理距离对野生种群内基因流动的影响。研究不仅为越南人参的育种提供了依据,也为其保护提供了平台,保持了遗传多样性。
更多推荐
1 高分综述 | Trends in Biotechnology: 单细胞分辨率下利用空间转录组揭示器官分子结构(国人佳作)