ID转换靠的是深厚的背景知识加上一点代码技巧

有学员提问:

请教老师,在分析一个芯片数据时候,遇到这个GPL16686平台,直接看平台信息里面的表格如图,找不到基因名,所以不知道该怎么办,ID转换就卡死了,后续的差异分析,火山图,热图等等都无从下手。

如下所示:

但,其实这个表格已经是给出来了基因名字,就是 GB_ACC 那一列的内容,属于refseq数据库的ID系列。这个GPL16686平台芯片的难点并不在ID转换,基因注释,反而是在上游处理,质量控制等等,我在:HTA芯片(学徒探索任务) 指出过这一点。

那,为什么大家普遍的问题都集中在ID转换呢,主要是因为大家处于生物信息学初学者这个环节,没办法看到GB_ACC就里面反映过来它是refseq数据库的ID,如果大家注意留意我们生信技能树的基础知识大全,比如24.使用R语言获取人类所有基因的名字,ID,symbol以及别名 就可以看到相应的数据库资源了。entrez gene ID, HUGO symbol, refseq ID, ensembl ID 这些专有名词,我们也是在生信菜鸟团安排专门的小编整理了这些知识:生信基础知识100讲

library(org.Hs.eg.db)
ls('package:org.Hs.eg.db')

在R里面可以看到这个 org.Hs.eg.db包其实 把大家数据分析过程中用得上的ID都整理好了:

> ls('package:org.Hs.eg.db')
 [1] "org.Hs.eg"                "org.Hs.eg_dbconn"         "org.Hs.eg_dbfile"        
 [4] "org.Hs.eg_dbInfo"         "org.Hs.eg_dbschema"       "org.Hs.eg.db"            
 [7] "org.Hs.egACCNUM"          "org.Hs.egACCNUM2EG"       "org.Hs.egALIAS2EG"       
[10] "org.Hs.egCHR"             "org.Hs.egCHRLENGTHS"      "org.Hs.egCHRLOC"         
[13] "org.Hs.egCHRLOCEND"       "org.Hs.egENSEMBL"         "org.Hs.egENSEMBL2EG"     
[16] "org.Hs.egENSEMBLPROT"     "org.Hs.egENSEMBLPROT2EG"  "org.Hs.egENSEMBLTRANS"   
[19] "org.Hs.egENSEMBLTRANS2EG" "org.Hs.egENZYME"          "org.Hs.egENZYME2EG"      
[22] "org.Hs.egGENENAME"        "org.Hs.egGO"              "org.Hs.egGO2ALLEGS"      
[25] "org.Hs.egGO2EG"           "org.Hs.egMAP"             "org.Hs.egMAP2EG"         
[28] "org.Hs.egMAPCOUNTS"       "org.Hs.egOMIM"            "org.Hs.egOMIM2EG"        
[31] "org.Hs.egORGANISM"        "org.Hs.egPATH"            "org.Hs.egPATH2EG"        
[34] "org.Hs.egPFAM"            "org.Hs.egPMID"            "org.Hs.egPMID2EG"        
[37] "org.Hs.egPROSITE"         "org.Hs.egREFSEQ"          "org.Hs.egREFSEQ2EG"      
[40] "org.Hs.egSYMBOL"          "org.Hs.egSYMBOL2EG"       "org.Hs.egUCSCKG"         
[43] "org.Hs.egUNIGENE"         "org.Hs.egUNIGENE2EG"      "org.Hs.egUNIPROT"        

当然了,有背景知识,还需要一些代码技巧,才能做好ID转换, 主要是 match函数,%in% 函数,merge函数的使用!

感兴趣这些ID转换的小伙伴,可以参加我们这个月18号(下周六晚上)八点的钉钉群关于ID转换的公开课,带你一次性弄清楚无穷多的ID转换问题。我们的讲师会带领大家系统性整理生信技能树过去几年关于ID转换的经验合辑,视频+习题,让你一次性学个够!

(0)

相关推荐

  • 一个基因有两个id我能肿么办

    有学员提问, 为什么他看到了一个基因,如下所示,居然有两个id,看起来就非常的诡异,让他百思不得其解. 一个基因有两个id 其实这个基因首先是有一个基因名字,是 MATR3 ,是人类基因命名委员会给出 ...

  • ENGS-SYMBLE的ID转换代码

    ##read.delim()函数读取tsv数据 stringsAsFactors=FALSE exp <- read.csv("ID.csv",header = TRUE, ...

  • 基因ID转换工具比较

    写在前面 昨天我们介绍了三个ID转换的工具: DAVID.g:Convert 以及 biomart,但是这个工具内置的数据怎么样并不清楚,所以今天就来评价一下这几个工具吧. 数据准备 由于我们使用最多 ...

  • 酷我音乐网ID转换MP3网址(歌词)

    <KUWO音乐网ID转换MP3网址(歌词)>能将酷我音乐网的音乐ID转换为可供外链的MP3网址,如该歌曲配有动态歌词,就会转换为LRC歌词.如果转换成功立即播放.显示同步歌词,并可复制转换 ...

  • ID转换大全

    实际上掌握了编程的思维,任何一门语言都可以做id转换! 对于初学者来说,这个是非常实用的一个,很多人当初就是因为要做这个转换,才慢慢走入了编程的道路. 使用大部分软件的时候,第一步就是文件数据准备,基 ...

  • GPL17586、GPL19251和GPL16686平台芯片ID转换

    芯片分析中经常会遇到Affymetrix Human Transcriptome Array 2.0芯片,由于目前还没有现成的R包可以用,因此分析方法也不统一.见生信技能树Jimmy老师HTA2.0芯 ...

  • 生信编程8.ID转换

    有一些五六年前的学生们都成长为了各个生物信息学相关公司的小领导,而且他们都有了自己的公众号,知乎号,也算是一番人物.最近他们跟我反馈面试找不到或者说很难直接考核筛选到认真干活的生信工程师,挺有意思的. ...

  • 你的ID转换错啦

    最近学员群又有人问到了 Agilent-012391 Whole Human Genome Oligo Microarray G4112A 这样的芯片数据,我让学生打包数据成为rdata发给我,我检查 ...

  • 你只想做ID转换却不知道为什么要转换

    最近咱们<生信技能树>的VIP答疑群,有这样的提问:   我觉得很有代表性,很多人仅仅是学了个皮毛,知道是需要进行ID转换,也能够运行代码.但是却搞不懂,不理解自己为什么进行ID转换,以及 ...

  • TCGA转录组差异分析后多种基因功能富集分析:从GO/KEGG到GSEA和GSVA/ssGSEA(含基因ID转换)

    TCGA转录组数据在完成差异分析后,我们通常希望系统地获取这些成百上千的差异基因的功能信息,帮助我们分析下游实验的思路.面对大量的差异基因,逐个查询基因功能是不切实际的.所以我们需要借助基因功能富集分 ...

  • TCGA数据库 ID转换问题

    写在前面 我们在使用TCGA数据库的时候,从TCGA数据库下载到的数据,使用的原始数据ID是ENS ID.对于这样的ID号,我们一方面不认识他们是什么,另外如果要做下有分析的话,很多数据库也不接受这样 ...