ID转换靠的是深厚的背景知识加上一点代码技巧
有学员提问:
请教老师,在分析一个芯片数据时候,遇到这个GPL16686平台,直接看平台信息里面的表格如图,找不到基因名,所以不知道该怎么办,ID转换就卡死了,后续的差异分析,火山图,热图等等都无从下手。
如下所示:
但,其实这个表格已经是给出来了基因名字,就是 GB_ACC 那一列的内容,属于refseq数据库的ID系列。这个GPL16686平台芯片的难点并不在ID转换,基因注释,反而是在上游处理,质量控制等等,我在:HTA芯片(学徒探索任务) 指出过这一点。
那,为什么大家普遍的问题都集中在ID转换呢,主要是因为大家处于生物信息学初学者这个环节,没办法看到GB_ACC就里面反映过来它是refseq数据库的ID,如果大家注意留意我们生信技能树的基础知识大全,比如24.使用R语言获取人类所有基因的名字,ID,symbol以及别名 就可以看到相应的数据库资源了。entrez gene ID, HUGO symbol, refseq ID, ensembl ID
这些专有名词,我们也是在生信菜鸟团安排专门的小编整理了这些知识:生信基础知识100讲 。
library(org.Hs.eg.db)
ls('package:org.Hs.eg.db')
在R里面可以看到这个 org.Hs.eg.db包其实 把大家数据分析过程中用得上的ID都整理好了:
> ls('package:org.Hs.eg.db')
[1] "org.Hs.eg" "org.Hs.eg_dbconn" "org.Hs.eg_dbfile"
[4] "org.Hs.eg_dbInfo" "org.Hs.eg_dbschema" "org.Hs.eg.db"
[7] "org.Hs.egACCNUM" "org.Hs.egACCNUM2EG" "org.Hs.egALIAS2EG"
[10] "org.Hs.egCHR" "org.Hs.egCHRLENGTHS" "org.Hs.egCHRLOC"
[13] "org.Hs.egCHRLOCEND" "org.Hs.egENSEMBL" "org.Hs.egENSEMBL2EG"
[16] "org.Hs.egENSEMBLPROT" "org.Hs.egENSEMBLPROT2EG" "org.Hs.egENSEMBLTRANS"
[19] "org.Hs.egENSEMBLTRANS2EG" "org.Hs.egENZYME" "org.Hs.egENZYME2EG"
[22] "org.Hs.egGENENAME" "org.Hs.egGO" "org.Hs.egGO2ALLEGS"
[25] "org.Hs.egGO2EG" "org.Hs.egMAP" "org.Hs.egMAP2EG"
[28] "org.Hs.egMAPCOUNTS" "org.Hs.egOMIM" "org.Hs.egOMIM2EG"
[31] "org.Hs.egORGANISM" "org.Hs.egPATH" "org.Hs.egPATH2EG"
[34] "org.Hs.egPFAM" "org.Hs.egPMID" "org.Hs.egPMID2EG"
[37] "org.Hs.egPROSITE" "org.Hs.egREFSEQ" "org.Hs.egREFSEQ2EG"
[40] "org.Hs.egSYMBOL" "org.Hs.egSYMBOL2EG" "org.Hs.egUCSCKG"
[43] "org.Hs.egUNIGENE" "org.Hs.egUNIGENE2EG" "org.Hs.egUNIPROT"
>
当然了,有背景知识,还需要一些代码技巧,才能做好ID转换, 主要是 match函数,%in% 函数,merge函数的使用!
感兴趣这些ID转换的小伙伴,可以参加我们这个月18号(下周六晚上)八点的钉钉群关于ID转换的公开课,带你一次性弄清楚无穷多的ID转换问题。我们的讲师会带领大家系统性整理生信技能树过去几年关于ID转换的经验合辑,视频+习题,让你一次性学个够!
1.拟南芥的基因ID批量转换?差异基因,GO/KEGG数据库注释(转录组直接送你全套流程) 2.第一个万能芯片探针ID注释平台R包 3.第二个万能芯片探针ID注释平台R包 4.第三个万能芯片探针ID注释平台R包 5.基因类型注释根据基因ID就好了 6.芯片探针ID的基因注释以前很麻烦 7.TCGA ID 转化的小插曲 8.ID转换大全 9.下载所有芯片探针序列并且写成fasta文件 10.(重磅!价值一千元的R代码送给你)芯片探针序列的基因组注释 11.你希望这个探针注释到蛋白编码基因还是miRNA的基因呢 12.3种方法注释你的甲基化探针 13.芯片明明设计了近6万探针但是作者上传的表达矩阵仅1万多个 14.多个探针对应同一个基因取最大表达量探针极简代码 15.多个探针对应一个基因,取平均值或者最大值 16.多个探针对应同一个基因取最大值的代码进化历史 17.多个探针对应同一个基因到底该如何取舍 18.是人是鼠,你心里没有数?GPL21827之谜 19.GEO表达芯片平台 — GPL14951,注释文件探索过程 20.GPL平台的soft文件提供的注释信息到底准确吗 21.gpl16699平台的探针注释到基因名(十一月学徒投稿) 22.芯片的探针ID找到基因名-基于R语言-一文就够 23.从ensembl的ID到其转录本坐标 24.使用R语言获取人类所有基因的名字,ID,symbol以及别名 25.超精华生信ID总结,想踏入生信大门的你-值得拥有 26.尝试中国区的GitHub