经常提到的KEGG数据库是什么样子的

KEGG(Kyoto encyclopedia of genes and genomes, )(https://www.kegg.jp/)是系统分析基因功能、 基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体网络进行研究。

KEGG提供的整合代谢途径查询十分出色,包括碳水化合物、核苷酸、氨基酸等代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,还对催化各步反应的酶进行了全面的注解,包含其氨基酸序列、到PDB数据库的链接等。KEGG数据库是进行生物体内代谢分析、代谢网络分析等研究的强有力工具之一。其整合了基因组、化学和系统功能信息综合性的数据库,由18个子数据库组成。如下图:可通过颜色进行区分。

下面我们以常用的KEGG PATHWAY为例,介绍一下该数据库的基本用法。

根据下图,可以看到KEGG PATHWAY主要包含代谢、遗传信息处理、环境信息处理、细胞过程、生物系统、人类疾病和药物进展相关的分子相互作用、反应和关系网络。

1.  类别检索

当我们想检索某一类型或者参与某过程的通路时,我们可以通过点击首页的KEGG PATHWAY进入类别页面,选择感兴趣的某一类别进入。例,检索人类中关于细胞过程的通路,点击Cellular Processes。

可以看到多个与之相关的子通路。选择感兴趣的点击进去查看详细信息。这里我们以04140 N Autophagy - animal为例,点击链接进入。

下图即为人类的自噬相关通路。

2. 关键词检索

可以直接在搜索框内输入想要查询的信号通路名称或者基因名称进行搜索。我们以基因TP53为例,点击首页的KEGG PATHWAY进入类别页面,选择种属“人”,在输入框内输入基因名称“TP53”,点击search。前缀hsa是人类物种名称的缩写,至于如何查找物种缩写?看下图:

这样可以就得到在KEGG数据内人类的物种缩写为hsa。至于其它物种,方法是一样的。

TP53参与的通路具体如下图,按符合度从大到小排列。

以第一个缩略图为例,我们具体来看一下。通路图的框填充绿色(没有填充色的表示该物种没有该基因),通路中的框链接该物种对应该基因的信息,但1个框体并不一定代表1个基因,有可能是多个基因家族,鼠标置于框上即可看到包含多个基因。

+p:磷酸化

-p:去磷酸化

+u:泛素化

+g:糖基化

+m:甲基化

实箭头:反应及反应方向

虚箭头:此反应可以通过中间产物与其他途径发生联系

点击通路识别号hsa05220,则会出现该通路的具体相关信息。包括通路名称、描述、分类、药物、具体包括哪些基因、参考文献等。参考文献很重要!当我们初识一条通路时,了解它的最快、最优方法就是通过KEGG查看该通路的参考文献,进而对其进行较全面的了解。

3.  通过基因信息数据库

在KEGG首页搜索框内输入基因名称,以TP53为例:

会出现关于基因TP53在KEGG数据库中的搜索结果。

这里我们点击hsa:7157,出现以下界面,以表格形式列出了该基因有关的详细信息。下面我们分别介绍一下具体包含的内容。

1.     Entry。7157为KEGG基因编号。

2.     Gene name。基因名称或别名。

3.     Definition KO。KO数据库相关信息。

KEGG ORTHOLOGY(KO),它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组。其中Ko编号为KEGG中的基因标识符,不同物种间相同的基因Ko号一样。通路图的框填充浅紫色,框只链接对应的基因。

4.     Organism。物种。

5.     Pathway。该基因主要参与的通路,点击链接即可进入具体通路图谱页面。

6.     Network。该数据库针对人,除了提供了基因的功能和相互作用以外,还把基因的变异信息包含进来,更进一步与疾病相关联。network数据库从pathway数据库延伸而来,在pathway 的基础上,将基因的变异信息也包括了进来,对于人类基因相关变异与疾病的研究,提供了更为细致的参考信息。network 数据库中的每条记录叫做network element, 以N Number 唯一标识,里面记录的是基因之间的相互作用的网络,由于network 来源于pathway 数据库,所以每条记录都会有对应的pathway信息。

7.     Disease。该基因参与的疾病。

8.     Drug target。药物靶点。点击进入可查看药物的相关信息。

9.     Brite。代谢通路及同源基因数据库,可检索酶和底物之间的关系,也可以查询某种酶的同源基因。

10.   SSDB。序列相似性数据库。

包括全基因组中的所有蛋白编码基因的氨基酸序列相似性的信息,这些信息是从KEGG中的GENES数据库计算得到的。该数据库可以查询直系同源和旁系同源基因,还可以在额外考虑染色体上位置正确性的情况下查询保守的基因簇。

11.   Motif。基序

12.   Other DBs。其他数据库内该基因的信息情况

13.   LinkDB。其他数据库链接

14.   Structure。蛋白质结构

15.   Position。该基因所在的染色体位置

16.   AA seq。基因的氨基酸序列即蛋白序列。

17.   NT seq。编码该基因的基因序列。


以上就是KEGG的基本介绍了。我们在介绍很多数据库的时候,经常看到说数据来自于KEGG等。所以有时候用别的数据库,为什么不直接用原始数据库呢?

(0)

相关推荐