UCSC:基因组相关研究的一个有力工具
UCSC Genome Browser是由University of California Santa Cruz (UCSC) 创立和维护的,该站点包含有人类、小鼠和大鼠等多个物种的基因组草图,并提供一系列的网页分析工具。站点用户可以通过它可靠和迅速地浏览基因组的任何一部分,并且同时可以得到与该部分有关的基因组注释信息,如已知基因,预测基因,表达序列标签,信使RNA,CpG岛,克隆组装间隙和重叠,染色体带型,小鼠同源性等。用户也可以因为教育或科研目的加上他们自己的注释信息。UCSC Genome Browser目前应用相当广泛,比如Ensembl 就是使用它的人类基因组序列草图为基础的。
用户在使用数据库及其工具(Genome Browser、Table Browser、Gene Sorter、Proteome Browser、VisiGene、Genome Graphs、BLAT等)时可以从以下站点获得大量的适时帮助,包括http://genome.ucsc. edu/goldenPath/help、http://genome.ucsc.edu/FAQ、http://openhelix.com等。还可以写邮件到genome@soe.ucsc.edu获得帮助。
1 新物种信息
目前,GBD新增了13个新物种的基因组序列信息,包括猩猩、绒猴、豚鼠、斑胸草雀、八目鳗、文昌鱼和三种线虫品种——brenneri、remanei、japonica在内的9个以前没有收录的物种信息,以及牛、斑马鱼、海胆、秀丽隐杆线虫(C.elegans)这4个已收录物种的更新信息。GBD为每一个新信息都提供了注释,也将这些信息和GenBank中的其它物种序列进行了比对。此外,他们还对上述9种新物种信息中的7个物种进行了多重比对注释,还将6种蠕虫的序列和最新的秀丽隐杆线虫序列进行了比对。
2 UCSC基因组数据库的新注释信息
除了收录新物种序列之外,GBD还在去年新增了200多条注释信息。可以点击Genome Browser上的相应按钮获得更多新注释信息。
对人类基因组集合(数据库)hg18和基因及基因预测组(Genes and Gene Prediction Track Group)中的Pos Sel基因进行新的注释后发现了承受正向选择压力(positive selection)的基因。网站上显示了通过对人类、黑猩猩、猕猴、小鼠、大鼠和狗基因组进行多基因组比对后筛出的全基因组范围内承受正向选择压力的基因。同时,还使用了9种基于Yang和Nielsen发明的branch-site framework模型的似然比检验法(likelihood ratio test,LRT)对一些直系同源基因进行了检测来验证上述结论的正确性。
开放的调控元件注释项目(Open Regulatory Annotation,OregAnno)的研究已经取得了一定成果,获得了人类、小鼠、黑腹果蝇和酵母这四种模式生物调控元件的注释信息。每一条 OregAnno的注释信息包括经过试验验证后公开的基因调控序列(如启动子、增强子等)、转录因子结合位点以及调控区域的多态性(regulatory polymorphism)等信息,同时每一条OregAnno的注释信息也都会链接到OregAnno数据库。
数据库中,人类目录下现在还收录了Kidd等人对国际人类基因组单体型图计划(HapMap Project)里8个人的序列同参考序列比对后获得的注释信息(HGSV Discordant Track)。这些注释信息显示了那些人类序列中与参考序列的不符之处,表明该处可能存在着大段的缺失或插入序列,这对寻找人类基因组中的变异具有非常重大的意义。
小鼠mm9集合(数据库)现在提供了小鼠与其它30种脊椎动物的比对信息。这些比对信息是通过多重比对和phastCons计算(phastCons computation)之后得出的,它们有助于了解不同物种之间在进化上的相关性。GBD还在小鼠mm9集合(数据库)中新增了一个子数据库用来收录从维尔康姆基金会桑格研究所(Wellcome Trust Sanger Institute)miRBase数据库中获取的microRNA信息。
在大鼠rn4集合(数据库)中GBD还提供了从RGD中获取的数量性状基因座(QTL)信息。这些QTL信息与大鼠基因组中1000多个与血压、血糖等处于持续动态波动之中的表型特征相关基因座有关。
在dm3基因组数据库中收录有黑腹果蝇基因组中超过7500个基因插入突变的注释信息。通过网站上提供的这些注释信息加上与位于美国布鲁明顿的信息储存中心之间的链接,可以发现果蝇基因组中由P元件和Minos元件导致的插入。
3 UCSC基因组数据库新收录的基因
2008年9月,最新版的UCSC基因数据——hg18人类基因数据集发布。UCSC基因注释信息包括参考各种数据库(RefSeq、UniProt、GenBank)后使用比较基因组学方法得出的已知编码基因和非编码基因的多种异构体信息。
在CCDS信息和 RefSeq信息不一致时,最新的UCSC基因注释信息就会使用CCDS蛋白质信息来选择最合适的比对结果。GBD做出这个选择是因为他们相信国际公认的蛋白质信息比随便比较一下基因串联重复序列和转录体RNA 5’端所获得的差别更有意义。例如在对人类基因IFI35(位于hg18 chr17:38,418,889-38,419,044上, http://genome.ucsc.edu/cgibin/hgTracks?db=hg18& position=chr17:38418889-38419044&knownGene=pack&refGene=pack)第四号外显子和第五号外显子之间的剪接情况进行注释时,他们选择的就是CCDS信息。
新的UCSC基因库中包括66,803个基因(包括异构体)信息,其中13,767个基因是非编码基因,这些基因共组成26,570个基因簇(表1)。
这次更新还在Genome Browser中新增了与外部数据库中几种模式生物内直系同源基因之间的链接。这些模式生物数据库包括小鼠基因组数据库(MGD)、大鼠基因组数据库(RGD)、斑马鱼信息库(ZFIN)、线虫信息库(WormBase)、果蝇信息库(FlyBase)和酵母基因组数据库(Saccharomyces Genome Database)。他们还计划继续定期更新,以保证人类基因组数据和小鼠基因组数据都是最新最全面的。
使用Genome Browser浏览UCSC数据库中某一个基因的注释信息,只需要在Genome Browser网页的搜索框中输入该基因的名称等关键词就可以了。同时,可以使用各种基因标识符来进行搜索,例如HGNC名称、UniProt ID、即使是GenBank或UniProt中对该基因的一些描述性关键词都行。通过搜索还可以发现与目的基因产物间有相互作用的基因,对这些基因的注释以RefSeq形式给出。
UCSC Gene track页面还包括与网站内资源之间的链接,例如与GeneSorter、Proteome Browser、VisiGene、in situ hybridization image archive等页面的链接。今年还新增了与艾伦脑科学研究所(Allen Brain Institute)的Human Cortex Gene Expression data数据库、Human Genome Epidemiology(HuGE)data数据库、Comparative Toxicogenomics Database(CTD)等外部数据库之间的链接。
4 基因变异信息
hg18人类基因库提供了大量人类基因变异信息,其中有一些信息是去年才新增的。尤其值得一提的是他们从dbSNP 129中补充了一些以前dbSNP 128和dbSNP 126中没有的SNP信息。
Genome Browser中可以查询到这些SNP信息的详细情况,包括SNP的类型(例如编码区、非编码区、同义突变等等)。GBD现在还能将包含这些SNP位点的序列与参考序列进行比对。此外,为了用户比较的方便,他们还给出了几种灵长类动物(黑猩猩、猩猩、猕猴)的直系同源基因供大家使用。图1就显示了SNP 129网页查询SNP rs 1128456的部分结果。
此外,他们还从dbSNP 128中获取信息更新了mm9 SNP注释信息,从dbSNP 127中获取信息更新了bosTau3牛数据库信息。
GBD使用比较基因组学对人hg18数据库的注释进行了更新,比较了人、小鼠和狗的基因组进化上保守的部分,找出了人类参考基因组序列中的小插入或缺失片段。其它新增的hg18变异信息还包括DGV结构变异信息(DGV Structural variants)、Segmental Dups、Exapted Repeats、Interrupted Repeats等。
根据NIH的决定,UCSC移除了威康信托基金会病例控制协会(Wellcome Trust Case Control Consortium)的研究数据以及NIMH对躁狂抑郁双向障碍的研究数据,因为这些数据有可能会在某些特性情况下泄露患者的隐私,这与研究的本意是相悖的。他们还将继续与其它国际研究机构合作,研究如何才能更好的保护那些参与人类基因组相关研究(genome-wide association studies,GWAS)的志愿人员的隐私。他们将来会在保护个人隐私的前提下提供更多的GWAS数据,也会提供更新的图像化工具来浏览、分析临床试验数据。
5 Transmap
有一组新的数据GBD称之为Transmap,并把Transmap放在了脊椎动物基因组集合下。Transmap是在不同物种间使用同线性过滤配对基因组比对的方法(synteny-filtered pairwise genome alignment)来发现这些物种间最有可能的直系同源基因及其相应的注释信息。TransMap中每一条信息都包括mRNA、RefSeq、UCSC Genes等各方面的证据。例如,就人类mRNA证据来说,TransMap使用了23种脊椎动物的超过400,000条mRNA与库中的人类mRNA进行了高严谨性的BLAT比对。然后又使用Blastz这种在区分不同物种的能力上比BLAT更强的方法再次进行了比对。与translated BLAT法(Non-Human RefSeq Gene,图2)相比较,TransMap发现的旁系同源基因更少,而比较的UTR碱基更多(图2)。
为了研究密切相关的低覆盖率基因组数据,使用的比对方法采用了相互最佳关系,以此来提高线性预测的准确性。就像GBD中所有的注释信息一样,数据库的结构信息也能从相应的Genome Browser页面中了解到。
6 新的基因分类(Gene Sorter)
用户可以使用Gene Sorter借助不同的标准,例如基因表达谱或蛋白同源性以及其它的一些用户自行设定的条件对基因进行分类。通过网页上的链接可以很方便地切换到 Genome Browser页面和其它的UCSC网站页面,了解更多的表达谱信息、蛋白间相互作用信息和其它的相关信息。去年,GBD还在Gene Sorter中添加了几个新的内容,现在Gene Sorter可以对人类、小鼠、大鼠、秀丽隐杆线虫、黑腹果蝇和酵母等六种模式生物的基因进行分类。
内含子大小栏目(Intron Size column)能显示每一个基因内最大的或最小的内含子;编码SNP栏目(Coding SNP column)能快速地了解外显子多态性相关信息;CDS值(CDS Score)表示该基因是编码基因的可能性大小;基因分类(Gene Category)能对基因按编码、非编码、反义等情况进行分类;外显子计数(Exon Count)记录外显子数目(见图3)。
7 新的显示特点
GBD在去年为 Genome Browser新增了几项显示特点,其中很多都是按照用户的反馈在实用性方面做出的一些改进。碱基位置跟踪(Base Position track)现在可以提供一个选项,即在网页上自动显示缩放条配置。在网页下方的反转按钮(Reverse button)能让用户方便的将整条序列反向显示,这样就能从5’-3’方向来显示用户的目的基因了(图2)。现在,直接在定位框(Position box)中输入“坐标值(coordinate)”来定位到一个核苷酸也是允许的了,例如输入chr1:226356466就能定位到SNP rs 1128456位点(也可以在框中直接输入SNP的rs号)。
此外,在网页中还做了几项改进;例如,Track group增加了下拉菜单,这样用户就可以隐藏不需要或不感兴趣的选项了。Tracks也可以轻易的从一个组(group)移动到另一个组,包括移动到网页顶部的Custom Tracks group,这样用户就能在一个地方选择所有感兴趣的选项了,这项功能是大多数网站都不能提供的。现在每一个选项的标签上都有一个刷新按钮,这样用户就不需要频繁的滚动页面修改选项了。网站上还有许多“隐藏的”改进之处。为了减少网页中用于控制图像的“路径(track)”数,加快网页的刷新速度,网站将相关的“路径”都组合到一起形成“超级路径(super-track)”来共享配置选项。
用户进入多重比对网页可以获得genome browser网页中没有的低覆盖率物种的基因组DNA序列。使用UCSC在线验证PCR(UCSC In-silico PCR)功能还能让用户在Genome Browser网页上直观的看到PCR扩增片段与其它序列(例如最有用的外显子或内含子)的关系。如果PCR引物与参考序列不相符,网页上会以红色高亮的方式标示出它们之间的差别。
8 用户自定义选项功能的增强
UCSC Genome Browser提供的用户自定义选项功能允许用户按照自己设定的条件只浏览感兴趣的数据结果。
新增了两种用户自定义数据时提交的数据格式。
用户自定义数据的内在表示法现在是基于专用机器的数据库表,而不再是以前所使用的基于文件系统的执行命令。
最近几年,Genome Browser中最受广大用户欢迎的工具就是“作业保存(session-saving)”功能,用户使用该功能能够保存并共享多个浏览器配置文件以供日后再次使用。与“作业保存”功能相关的用户选项功能也得到了增强。
因为有许多网页设置,还有几乎无数的设置与显示选项组合配置,所以Genome Browser使用了cookies来保存这些设置。
9 未来的发展方向
UCSC将持续收录新的脊椎动物和非脊椎动物模式生物的基因组数据。他们会与NCBI和Ensembl保持密切合作,为获得及处理新数据制定出标准化的的流程,以保证所有机构的数据都是一致的。
他们希望能为2×覆盖率的基因组计划(2×coverage species project)提供包含44种物种基因组的多重比对,还希望能为最新的人类基因组数据提供扩展的多重比对。千人基因组计划(1000 Genomes project)获得的数据也将收录进变异信息库,还将收录重组热点的高分辨率图谱(high-resolution maps of recombination hotspot)。
此外,GBD还计划对网站进行进一步的升级。例如扩展网站工具的实用性和可配置性,升级isPCR功能,能让用户查询“RNA空隙(RNA space)”来比对被内含子隔开的序列,还将继续升级用户自定义系统使其支持混合格式数据。
在接下来的几年中,我们计划能让用户在Genome Browser上直接输入信息,就像wiki做的那样,这样各种“基因专家”们就能在网站上发表评论、数据和其它各种信息。最后要说的是,UCSC一直在与全球传染性疾病控制组织(Global Solutions for Infectious Diseases)合作开发限制访问的医药数据系统,例如HIV基因组数据和相关临床数据。我们还与几个研究机构合作建立了癌症基因组网站(cancer genomics browser)。如果网站的访问和保密问题解决了,我们将很快推出该网站。
原文出处:https://www.plob.org/article/1519.html
BioMan