NCBI(美国国家生物技术信息中心)的资源架构(下篇)
新媒体管家
接着上一讲我们继续对NCBI的具体资源内容继续梳理。
右侧上部分名为热门资源(Popular Resources),不言而喻,是最多被访问,最受欢迎的内容。
包含如下内容:生物医学文献(PubMed),书籍和文件(Bookshelf),自有的生物医学文献(PubMed Central),临床疗效信息(PubMed Health),匹配序列的工具(BLAST),序列的集合(Nucleotide),基因组信息(Genome),单核苷酸多样性数据库(SNP),基因信息(Gene),蛋白质序列集合(Protein)和化学数据库(PubChem)。
分别介绍如下:
· 生物医学文献(PubMed):PubMed包括来自MEDLINE,生命科学期刊和在线图书的超过2700万次的对生物医学文献的引用。 引文可能包括到(自有的生物医学文献)PubMed Central和出版商(publisher)网站的全文内容的链接。
· 书籍和文件(Bookshelf):提供到生命科学和医疗保健书籍和文件的免费的在线访问。搜索,阅读和探索。
· 自有的生物医学文献(PubMed Central):PubMedCentral®(PMC)是美国国立卫生研究院/国家医学图书馆(NIH / NLM)的生物医学和生命科学期刊文献的免费全文档案。
· 临床疗效信息(PubMed Health):临床有效性研究(Clinical effectiveness research )回答了医疗(medical)和保健(health care)中“什么有效”问题。感觉中文中,保健这个概念已经既污又low了。
· 匹配序列的工具(BLAST):多次出现了哦。发现生物(biological)序列(sequences)之间的匹配区域(regions of similarity)。 该程序将核苷酸(nucleotide)或蛋白质(protein)序列(sequences)与序列数据库(sequence databases)进行比较并计算统计学意义(statistical significance)。简单说就是你有一段自己的基因序列,来这里用这个工具查一下,哦,我和人类的基因序列是匹配的呢。当然也可以比较两个基因序列的相似性喽。
· 序列的集合(Nucleotide):核苷酸数据库是来自几个来源的序列集合,包括美国国立卫生研究所遗传序列数据库(GenBank(NIH genetic sequence database)),国家生物信息中心参考序列数据库(RefSeq(NCBI Reference Sequence Database)),第三方标注序列数据库(TPA(Third Party Annotation Sequence))和蛋白质数据银行(PDB(Protein Data Bank)),基因组(genome),基因(gene)和转录本序列数据(transcript sequence data),为生物医学研究和发现提供基础支持。这个库显然是最大的总和。
· 基因组信息(Genome):该资源组织基因组的信息,包括序列(sequences),图谱(maps),染色体(chromosomes),装配(assemblies)和注释(annotaions)。这里面有人类基因组(Human Genome),微生物基因组(Microbial Genomes),细胞器基因组(Organelle Genome),病毒基因组(Viral Genomes),原核生物参考和典型基因组(Prokaryotic reference genomes)。
· 单核苷酸多样性数据库(SNP):单核苷酸多态性(SNPs)数据库和包括插入/缺失(insertions/deletions),微卫星(microsatellites)和非多态性(non-polymorphic)变体(variants)的多个小规模(small-scale)变异(variations)
· 基因信息(Gene):基因整合来自广泛物种的信息。 记录可能包括命名法(nomenclature),参考序列(Reference Sequences)(RefSeqs),图谱(maps),途径(pathways),变异(variations),表型(phenotypes),以及全球范围的基因组、表型和基因座特异性的资源的链接。
· 蛋白质序列集合(Protein):该数据库是来自多个来源的序列集合,包括美国国立卫生研究所遗传序列数据库(GenBank(NIH genetic sequence database)),国家生物信息中心参考序列数据库(RefSeq(NCBI Reference Sequence Database)),第三方标注序列数据库(TPA(Third Party Annotation Sequence))中注释的编码区(coding regions)的翻译,以及注释的蛋白质数据库(annotated protein database )Swiss-Prot,蛋白质信息资源(PIR(Protein information resources)),蛋白质研究基金会(PRF(Protein Research Foundation)和蛋白质数据银行(PDB(Protein Data Bank))的记录。 蛋白质序列是生物结构和功能的基本决定因素。
· 生化信息库(PubChem):提供小分子生物活性(biological activities)的信息,由三个主要数据库Pcsubstance、Pccompound、和PCBioAssay,分别包含物质(substance)信息,化合物( compound)结构和生物学活性(BioActivity)数据。
回到右侧的内容,下面还有个提供了发布新闻和博客的链接(News & Blog),不赘述了。
最后一个部分,我要介绍的是底部的所有内容。这一部分总的来说呢,应该是一个导航栏,就是告诉你目前处于整个站点的位置。但是实际上感觉又是一个所有元素的分类,提供给用户方便的访问。总之不管那么多主要有5个部分。
从这里开始,好吧,这里有5个内容:分别是教育(NCBI Education),帮助文档(NCBI Help Manual),手册(NCBI Handbook),训练和培训(Training & Tutorials)以及提交数据(Submit Data)。讲真哦,别人我不知道,反正如果我要是从这里开始的话,估计早就迷失了。
需要说的是第一个教育和第四个训练和培训和上文中间功能区的学习(Learn)重复,不做介绍。第五个内容提交数据和中间功能去的提交(Submit)重复。表示不理解。剩下的两个如字面意思。
哦,既然整个站点就是资源,欢迎词里面说的嘛。那么这显然是重中之重了,果不其然,我一看和左侧列表中完全重合。并不是,少了一个训练和教程(Training & Tutorials),目前你有三种可能一下子就进入到训练和培训页面,看国家生物信息中心是多么的希望训练和培训你哦。其他完全一样,也就是所有的资源了。
唉,这个部分和刚才提到的右侧部分的热门资源(Popular Resources)完全一致,真的完全一致。不解释。
恩,这个有趣了。由于前面的影响,我下意识的反应就是在寻找,到底这一部分和哪一个条目重合呢?事实上,并没有。没有想到吧,这一部分竟然几乎是新鲜的哦。为什么躲到这个犄角旮旯里呢?我又一次陷入了思考。
· 遗传检测注册表(Genetic Testing Registry(GTR))这里提供了一个提供者自愿提交遗传检测信息的地方。从里面可以看到。测试(Tests)通过搜索测试名称,疾病名称,表型(phenotypes),基因标记和名称(symbols and names),蛋白质名称,实验室名称,主管和位置。环境/表型(conditions/phenotypes)通过搜索疾病名称,特性(traits),药物(drugs),蛋白质(proteins)和分析(analytes)找到环境和表型。基因(Genes)通过搜索基因标记和名称,环境和表型来搜索基因。实验室(laboratories)通过搜索实验室名称,主管,职员,位置和服务,疾病名称和表型搜索实验室。基因评论(GeneReviews)这个很好的,是相关学科专家对基因的评论文章。中国有两家哦!一个是杭州的中翰金诺医学检验所,一个是江苏苏州的健路基因。额,奇怪的状况。
· 临床疗效信息(PubMed Health)向左看热门资源里面有这一条,上文中的右侧也有这条。不解释了。
· 美国国立卫生研究所遗传序列数据库(GenBank(NIH genetic sequence database))前文多次提到这个数据库,这里第一次出现访问链接。介绍文字:美国国立卫生研究所遗传序列数据库,所有公开访问的DNA序列的注释的集合。这里的注释非常重要哦,一堆atcg,那可是完全看不懂天书了。同时,GenBank又是另一个库的一部分,这个库唤作国际核苷酸序列数据库(International Nucleotide Sequence Database),这个大库由几个库组成分别是:日本DNA数据银行(DDBJ),欧洲核苷酸序列档案(European Nucleotide Archive(ENA)),GenBank。这三个机构每天交换数据。可见霓虹国还是很强大的哦。下面介绍了一堆,如何访问,如何使用,保密和隐私之类。有几种方法可以从中获取数据:Entrez Nucleotide,BLAST,e-utilities,和直接看纯文本格式,多种方法各显神通,各有利弊。将来会详细介绍。总关系图中有几个截图可以看看。
· 参考序列数据库(Reference Sequences):一个全面的,整合的,非冗余的,注释良好的参考序列,包括基因组,转录物和蛋白质。关键在于参考这个词,那么多序列,哪个才是标准呢?这是个问题。简单来说,这里的序列,就是可以用来对照的。恩,对照了发现,我是一个人类。就这种感觉。
· 基因表达综合(Gene Expression Omnibus):支持符合微阵列实验最小信息(MIAME)标准的数据提交的公共功能基因组数据库。 接受基于数组和序列的数据。 提供工具来帮助用户查询和下载实验和策划基因表达谱。也就是说大家把测序的结果提交到这个里面来,为啥呢?因为这个数据库存储基因组数据这种大数据特别擅长,提交的方法简单还支持各种通用的注释,很重要的哦,用户可以查询下载研究感兴趣的基因表达谱。
· 图谱(Maps)图谱查看器,Entrez的一部分,提供了多样的基因组图谱和序列数据的浏览功能。这个用了就知道咋回事了。
· 人类基因组(Human Genome),不用说了,这是核心啊。里面有详细的单独的操作方法。可以下载,浏览,查看和学习。就整个资源来说,这里有些像新浪网站搞了一个小专题。就这样的感觉。顺便提一下人类基因组的版本是变化的哦,网站里面给出了两个版本GRCh37和GRCh38版本。表示看不懂,经过研究,原来是,以GRCh28为例,基因组参考联盟之人类基因组(38版)(GenomeReference Consorium human genome (build 38)),额,汗。
· 小家鼠(Mus musculus),不解释了,老鼠的基因组。历史上干死不少人类,现在又被人类干死不少,谁也灭不掉谁。
· 流感病毒资源(Influenza virus),无需解释了,流感是一种病毒,表吃抗生素,消炎药,那是杀菌的,对病毒没有卵用,附带宣传。
· 引物寻找器(rimer-BLAST),引物是一段核苷酸序列,可以在升温后DNA双链打开后,拼合到单链的特定位置上,用以后面降温时,确定DNA补齐双链状态的起始和结束位置。如此重复N次,就把特定区间的DNA复制了大量出来,如果用了荧光标记,那么这时就发出可见强度荧光。如果没有,不是你做错了,而是没有特定的DNA序列让你的引物去拼合。所以,有无荧光就成为被测的DNA有无特定序列的标识。就可以干很多事情了。这里就是如何设计一段用来检测特定dna序列的引物序列的程序。
· 序列阅读存档(Sequence Read Archive (SRA))这个里面存储序列数据。为什么要存到这里呢?因为它设计来存储二代测序技术测出来的原始序列数据的。除了原始序列数据外,SRA现在以参考序列中读取位置的形式存储对齐信息。也就是说我不用存每一个位的信息,我存储相对于参考也就是标准列的位置,这样来存储对齐信息。虽然实践方法不知道,不过显然会减少存储量。现在,sra数据库数量逐渐增加。里面列举了很多信息。
坦白说,看完这一段,发现这个特色下面的列表,虽然位置很偏,但是感觉用处都很大,很有研究价值,和它左右列表相比,完全不是一个档次的。
这一部分有七个列表项目,但是我来分分钟解决。
美国国家生物信息中心概述(About NCBI),美国国家生物信息中心的研究(Research at NCBI)这两个看上去熟悉吧!就是前文中,中间部分的概述(About the NCBI)。那么,美国国家生物信息中心的研究呢?不用担心,这其实是概述的一个子内容。一个是另一个的子内容,我真是醉了。
美国国家生物信息中心新闻和博客(NCBI News & Blog),很熟悉吧,就在页面上不远的地方。
唯一有一点价值的美国国家生物信息中心FTP站点(NCBI FTP Site),并没有任何新鲜事,就是中间部分的下载(Download)里面的FTP。
后面三个,我们用不了,不解释!
好了,到此为止,首页面上呈现的概略性内容就已经完全介绍完了,虽然说是概略性的内容,其实已经涉及到了主要的资源,以及利用资源的方法了。这就是整个美国国家生物技术信息中心的资源架构。
后面,我会择其重点资源,逐个研究。
补充一句,如果看完了,你还是不知道要到哪里去找你要的东西,就到页面的正上部位置,我们一直没有提到的地方,有个空白框,输入你想要的内容,当然如果你知道自己想要什么的话,点击Search,搜索即可。