关于基因ID的二三事

写在前面

对于一个基因而言,我们经常使用的,同时在文章里面能看到的还是基因名。例如: TP53, RNF180。这样的名字,是这个基因功能+编号的简写。例如TP53就是Tumor Protein P53的简写,RNF180是Ring Finger Protein 180的简写。对于很多对基因进行记录的数据库而言,为了他们自己数据库记录的方便,对于每个基因都会进行自己数据库的唯一编号,这样就导致了一个基因形成了很多不同的编号(ID)。例如下图就是一个基因多个数据库的不同ID号。

这也就导致经常在进行数据分析之前拿到手的关于基因的数据对于基因ID的注释可能不是我们想要的基因名,所以经常会就会需要进行ID转换。对于基因ID转换的主要目的还是转换为基因名,或者说转换成我们进行下一步分析的要求的ID号。

既然要讲一下ID转换,那首先还是要稍微的讲一下我们在一个基因可能存在哪些ID号,这样我们在碰到之后也知道这些是这样形式的ID来自于什么地方,这里我们就说一下常见的基因ID都是哪个数据库的。

Entrez Gene

有时候我们经常会碰到利用几个数字来代表基因的。例如下图的285671就代表RNF180。这种一般是数字代表基因的,最常见的就是Entrez Gene。对于这样的ID号,其实就是来自于ncbi里面的gene数据库。如果想要了解gene数据库的话,可以参考我们的第二条推送。

关于gene数据库对于ID的注释。这个ID号只是代表基因。对于一个基因而言它会有不同的mRNA转录本,进一步的也会有不同的蛋白异构体。在gene数据库里面对于转录本和蛋白的编号是以NM和NP开头的。如果是NM的话则代表是转录本编号,如果是NP的话则是蛋白编号。

另外,我们检索的这个基因是一个非编码的RNA(ncRNA)的话,那关于转录本的注释就从之前的NM开头变成了NR开头了。

Ensemble ID

Ensembl是另外一个记录基因信息的数据库。就笔者而言查询基因信息更多使用的gene数据库(其实更多的还是genecards),这个数据库使用的较少。但是这个数据库对于基因的注释十分的详细且权威,所以也就形成了很多个基因不同情况下的ID了。大致的我们能看到的和Ensembl有关的ID的话就有以下几种。

关于Ensembl ID,不管是什么类型的,其ID号的前三个开头都是以ENS开头的。剩下的可以再看第四位:

  • G代表是Gene。是这个基因的的唯一编码,类似于Gene数据库里面的数字

  • T代表Transcript。是数据库对于不同转录本的ID号。这个类似于上面gene数据库当中的NM编号开头的ID。

  • P代表protein。是数据库对于不同蛋白的ID号。这个类似于上面gene数据库的NP编号开头的ID。

另外对于不同的ID,由于其基因信息也会经常所以为了更加详细的区分,Ensembl数据库就又在各自的ID号后面又加了一个.ID来代表不同的版本。所以就有了ENSGXXXX.1这样的编号。

综上,Ensembl数据库的ID号可以用以下这个图来代表。

Uniprot ID

如果我们查找的是一个基因的蛋白的话,那么就有可能涉及到Uniprot这种专门注释蛋白的数据库。这种的ID有时候我们会在蛋白组学当中看到。对于Uniprot的ID号的话,主要是采用字母+数字混合的这种形式(具体的含义,没有详细的查找)。例如:Q86T96就代表RNF180这个基因的蛋白。

芯片当中的ID

我们在进行进行进行表达谱芯片分析的时候,经常会碰到芯片的ID号。这样我们在进行芯片分析的时候,其实首先分析的还是芯片的ID号,进一步的才是对ID号进行注释。例如Affymetrix Human Genome U133 Plus 2.0 Array这个芯片的话,其ID号就是这个样子的。

很多ID转换的数据库也提供了关于芯片ID的转换。但是这种的其实最好的还是下载了芯片的注释文件,来自己来注释,数据库提供的注释文件有可能是老的注释文件。所以说可能有很多注释不到的。

写在后面

基本上常见的一些ID的信息就是这些。明天我们会介绍几个ID转换的网站,可以方便我们在ID转换的时候使用。

(0)

相关推荐

  • Gene ID 转换工具

    写在前面 我们在研究基因的时候,尤其是在研究高通量数据分析,经常会碰到我们研究的这个数据的基因ID不是我们通常意义上的基因名.拿TCGA的数据举例,TCGA RNA-seq的数据比对的基因是ID是En ...

  • 生信菜鸟团博客2周年精选文章集(4)NCBI数据库的几个探索

    目录如下: 生信人必学ftp站点之NCBI-GEO 脚本作业-解读NCBI的ftp里面关于人的一些基因信息 NCBI的taxid简单介绍 NCBI的基因entrez ID相关文件介绍 请直接看我博客吧 ...

  • 转录组学习八(功能富集分析)

    任务 选择p<0.05而且abs(log2FC)大于1的基因为显著差异表达基因集,对这个基因集用R包做KEGG/GO超几何分布检验分析. 把表达矩阵和分组信息分别作出cls和gct文件,导入到G ...

  • BRCA基因检测二三事

    BRCA基因检测二三事

  • 忽然想念一个叫老面包的ID|红袖二三事(4)

    简 单 →热爱文艺却理智 →拥有现实却不忘初心 →万人诺诺要倾听自己的声音 文|挽弓射月 图|网络 周末,大街上车水马龙,人潮熙攘,而书店内三五个人,大多也是青涩的面孔.我随手翻起一本书,陡然看到一个 ...

  • 梁德新‖山村学校二三事

    山村学校二三事 文/梁德新 20世纪七十年代中期,福建省永安县曹远公社岩头村岩头村小学只有一.二年级十多个学生.三年级以上的学生要到约2公里的下早小学读书.那时学校只有一位老师.老师姓钟是二十余岁的上 ...

  • 民间医生二三事(高手在民间!治病需要灵感!)

    导读: 作者在基层业医已近四十年了,现退休赋闲在家,偶尔回忆起个别医事,作为闲话故事记录.文中的机构和人名均为化名虚构,病证和方剂则是真的,但每个人的病情都有其特殊性和差异性,请勿对号治疗. 痢疾 鲁 ...

  • 坪村知青二三事(欧阳兆福)

    中国知青,前无古人,后无来者. 1966年-1976年10年间,为了响应毛主席号召,全国有1700多万知识青年上山下乡.到农村去插队落户:到边疆去军垦拓荒:到草原牧马放羊:到农场植树耕田.到祖国最需要 ...

  • 概率趣谈二三事

    概率和赌博 1651年夏天,法国数学家.物理学家帕斯卡在前往浦埃托镇的旅行途中,偶然遇到了梅累.梅累是一个贵族的公子哥儿,常常进出于赌博场中.为了消磨旅途的寂寞,他大谈"赌博经", ...

  • 母亲节将至 | 用爱呵护成长,细数瑞思亲子之间的温馨二三事

    有人说:妈妈,是人的嘴唇所能发出最甜美的字眼,是世界上最美妙的语言. 作为母亲,她们要忍受十月怀胎的艰辛,更要在孩子出生后为其操劳一生."平凡而又伟大"是母爱最好的形容词,它的平凡 ...

  • 澄星集团和宜兴企业上市二三事

    近日,澄星集团位于江阴的在建总部大楼被无锡市中级法院整体查封. 澄星集团为江阴知名民营企业,员工超过1万名,2019年成为继海澜集团.中信泰富特钢集团之后的无锡第三家千亿级企业.2020年江苏民企百强 ...

  • 李禹佳:童年二三事(之一)~欢迎“张玲” / 轩诚清读(第1482期)

    文:李禹佳 赏析:侯   蓁 播读:梁轩诚 童年,是在一个老院子里度过的, 那时,时间宛如流水,柔长而有趣. ---题记 总是记起小时候,那个时候的我,留着西瓜太郎的头,穿着一身外婆牌的棉衣棉裤,在老 ...