【教你玩转科研工具】-擅用 UniProt 数据库

生物医药领域,无论是基础研究、临床研究,还是新药研发,蛋白分析永远是绕不开的一环。面对纷繁复杂的蛋白质分子,如何去查找它们的序列?如何去分析它们的功能和结构?
UniProt 是目前资源最丰富、使用频率最高的蛋白序列数据库,今天,我们就介绍下 UniProt 数据库及其使用。我们以Endothelin-1 receptor (EDNRA)为例,分享如何有机结合数据库和蛋白信息,让他们成为研发中的助力。
01
首先,我们在浏览器中打开 https://www.uniprot.org/ 页面,可以看到UniProt 主要包含 3 个部分:

(1)UniProtKB(UniProt Knowledgebase)是蛋白质序列、功能、分类、交叉引用等信息存取中心;UniProtKB 主要由两部分组成:
UniProtKB/Swiss-Prot:高质量的、手工注释的、非冗余的数据集;主要来自文献中的研究成果和 E-value 校验过计算分析结果。有质量保证的数据才被加入该数据库;
UniProtKB/TrEMBL:该数据集包含高质量的计算分析结果,一般都在自动注释中富集,主要应对基因组项目获得的大量数据流以及人工校验在时间上和人力上的不足。注释所有可用的蛋白序列。在三大核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都被自动翻译并加入该数据库中。它也有来自 PDB 数据库的序列,以及Ensembl、Refeq 和 CCDS 基因预测的序列;
(2)UniRef(UniProt Non-redundant Reference)将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度。目前,根据序列相似程度形成 3 个子库,即 UniRef100、UniRef90 和 UniRef50;
(3)UniParc(UniProt Archive)是一个综合性的非冗余数据库,包含了所有主要的、公开的数据库的蛋白质序列。由于蛋白质可能在不同的数据库中存在,并且可能在同一个数据库中有多个版本,为了去冗余,UniaraParc 对每条唯一的序列只存一次,无论是否为同一物种的序列,只要序列相同就被合并为一条,每条序列提供稳定的、唯一的编号 UPI。该数据库含有蛋白质的序列信息,而没有注释数据。
UniProt 数据库中,UniProtKB/Swiss-Prot 是我们最常用的,今天我们主要介绍这个数据库的使用。我们在输入栏中输入EDNRA,点击search,就会出现不同物种该蛋白的详细信息。找到我们想要的物种条目,点击进入。
02
详细信息界面,首先介绍的是蛋白名称,基因名称,组织来源和审阅状态,Status状态如果是reviewed,表示该蛋白序列已经经过科学家的校验,可靠性更高,可靠性分5个等级,从5到1依次升高。

1. Experimental evidence at protein level

2. Experimental evidence at transcriptlevel

3. Protein inferred from homology

4. Protein predicted

5. Protein uncertain

03
随后的信息界面,介绍的是「Function」,该板块会罗列出蛋白的基本功能及参与的生物学过程。每句介绍后的链接即是相应的参考文献,可以根据需要点击查阅。
04
随后的「Names & Taxonomy」板块展示的是命名和来源种属信息、NCBI 和 Enzembl 的基因数据库链接,如有需要,可以直接点击或去 NCBI 和 Enzembl 数据库查阅。
05
之后是蛋白的亚细胞定位和拓扑结构。
我们可以看到,在「Subcellular location」中显示,ETa表达在细胞膜,并且是多次跨膜蛋白,「Topology」中把具体的胞外区、跨膜区和胞内区的序列分布详细列出,点击position可以获得这部分蛋白结构的具体序列。
06
在「Pathology/Biotech」部分,UniProt 数据库会列举此蛋白与疾病和生物技术应用方面的关系。就EDNRA而言,EDNRA在人群中的突变可能会导致下颌面发育不全和脱发,后面有相应的文献链接,以及突变的具体位置。再往下还提供了一些相关疾病和相关药物的数据库链接,有兴趣可以浏览一下。
07
在「PTM/Processing」部分,UniProt 数据库会列举蛋白合成过程中的分子加工、氨基酸修饰及翻译后修饰,比如剪切、糖基化、脂酰化、二硫键位置等等。从这部分信息,我们可以了解这个蛋白的信号肽序列,如果该蛋白有前体蛋白,这部分也会分别列出前体和成熟体的具体序列。此外,糖基化和二硫键的情况,对于我们需要表达的蛋白也是非常关键的信息。
08

再往下的Expression,Interaction,Structure,Family&Domain分别列出了该蛋白的组织表达分布,相互作用的蛋白,结构和家族分型等信息,这些信息都有助于我们对这个蛋白做进一步深入的了解。接下来的「Sequences」是我们要获取的最重要的信息,它列出了这个蛋白从信号肽开始的完整序列,如果该蛋白有不同的剪接体,各个剪接体的序列也会列出。如EDNRA就有5个不同的剪接体。

Experimental Info部分列出了不同研究者得到的与UniProt有冲突的序列以及发生冲突的序列位置。如果你发现从其它数据来源得到的序列与UniProt上的序列不一致,很可能是这个原因,当然UniProt的序列相对更可靠。

Natural variant是在人群中存在的一些天然突变型,比如EDNRA在MFDA的病人中就存在Y129F和E303K的突变。Alternative sequence还列出了在人群中发现的一些不同的剪接体形式的序列。

最后,UniProt还给出了该蛋白在EMBL、GenBank和DDBJ这3个数据库中的mRNA和Genomic DNA序列的链接,从这里我们可以很方便的得到这个蛋白的核酸序列,这里几乎列出了所有不同研究者上传的序列,我们在选择的时候还要仔细甄别,最好选择有文章来源的序列,并且要将选择的核酸序列翻译成蛋白后再与UniProt的序列进行比对,进行再次确认。
自此,我们通过 UniProt 上的信息了解到蛋白的基本功能、命名与来源、亚细胞定位、结构域及对应序列、翻译后修饰位点等重要信息,他山之石可以攻玉,有效利用这些信息,可以辅助研究工作顺利开展。
(0)

相关推荐