circRNA_ID转化
前些天生信技能树系统性的总结了circRNA的相关背景知识:
其中一个学徒作业的示例火山图里面的差异circRNA的ID就很诡异,学徒群里大家下载芯片后没办法复现处理,所以就有了ID继续转换的需求。第一个ID转换的芯片的探针到circRNA的6位数ID,然后第二次转换是到 CircBase数据库的七位数ID。正巧八月份学徒小豆包在有这方面课题,所以就安排他做了一些资料整理,并且写出了非常棒的教程,希望对你有帮助。
我们查阅GEO数据库发现,目前经常使用的人类circRNA芯片主要有以下几种:
GPL21825:074301 Arraystar Human CircRNA microarray V2
GPL19978:Agilent-069978 Arraystar Human CircRNA microarray V1
GPL26925:Agilent-084217 CapitalBio Technology Human CircRNA Array v2
GPL23467:Agilent-082557 CBChuman circRNA array V2.0
对我们感兴趣的GSE,下载相应的GPL信息即可获得circRNA_ID,当然还有其他物种的circRNA芯片,可自行探索。
采用阿拉伯数字形式进行编码命名,如:hsa_circ_0000001(七位阿拉伯数字)
circBase数据库提供六位/七位circRNA_ID对照表,当我们需要进行ID转化时,登录http://circbase.org/cgi-bin/downloads.cgi即可下载circID与name对应关系进行转化。
下载得到的对应关系文件如下:
circID name
hsa_circ_0000001 hsa_circ_000529
hsa_circ_0000002 hsa_circ_000531
hsa_circ_0000003 hsa_circ_002058
hsa_circ_0000004 hsa_circ_002098
采用host gene+阿拉伯数字形式进行编码命名,如:hsa_circA1CF_001。
001:按照转录起始位点进行排序,其论文中对相同转录起始位点的circRNA命名和circRNA存在可变剪切情况下的命名进行了阐述,下图形象的阐述了Circbank的命名规则;此外,在论文Circbank: a comprehensive database for circRNA with standard nomenclature中还提及了更多特殊情况下的命名方法。
当我们需要进行ID转化时,登录http://www.circbank.cn/downloads.html#即可下载circBank_id与circRNA_id对应关系进行转化。
下载得到的对应关系如下,即可实现ID转化。
circBank_id circRNA_id
hsa_circA1CF_001 hsa_circ_0018410
hsa_circA1CF_002 hsa_circ_0018409
hsa_circA2ML1_001 hsa_circ_0025378
hsa_circA2ML1_002 hsa_circ_0025379
小结
以上就是三种主流的circRNA_ID,基本涵盖了论文中提及的ID;安捷伦circRNA芯片使用6位数ID,我们实验室测序结果使用的7位数ID,当然除此三种外,还有一些其他的circRNA_ID命名方式,欢迎各路大神补充。
参考文献
1.Circbank: a comprehensive database for circRNA with standard nomenclature.
2.circBase: a database for circular RNAs.
最后按照惯例,我们应该是有生信技能树的友情推广,但是我们长沙站招生已经满了,而且未来的两个月并没有外出巡讲计划,所以就不宣传了,大家可以继续添加小助手,说出自己的城市需求,我们会优先安排明年巡讲场次:广州专场(全年无休)GEO数据挖掘课,带你飞(1.11-1.12)和 生信入门课全国巡讲2019收官--长沙站