你希望这个探针注释到蛋白编码基因还是miRNA的基因呢
在全网最系统的表达芯片数据处理教程我没有做过多芯片注释的讲解,不过后期推文倒是很多。实际上,很多时候,策略是没有标准的, 比如最近处理大名鼎鼎的hgu133plus2芯片:library(GEOquery)#Download GPL file, put it in the current directory, and load it:gpl <- getGEO('GPL570', destdir=".")colnames(Table(gpl))head(Table(gpl)[,c(1,11)]) ## you need to check this , which column do you needcolnames(probe2gene)=c('probe_id','symbol')library(stringr)probe2gene$symbol=trimws(str_split( probe2gene$symbol,'///',simplify = T)[,1])save(probe2gene,file='probe2gene.Rdata')可以看到,有些探针会被注释到蛋白编码基因和miRNA,因为这个探针所在序列,就是有两个基因。
如果是简单的字符串切割,就容易出现感兴趣的基因被淹没掉,有时候选择的是MIR,有时候是蛋白编码基因。但是如果你载入R包呢library(hgu133plus2.db)ids=toTable(hgu133plus2SYMBOL)这个时候有趣的事情发生了,你会发现有基因注释的探索只剩下四万多了,明明是有5万多探针的呀!两个问题:如果保留这个探针,你希望这个探针注释到蛋白编码基因还是miRNA的基因呢?是否应该保留这样的探针呢?表达芯片数据处理教程,早在2016年我就系统性整理了发布在生信菜鸟团博客:http://www.bio-info-trainee.com/2087.html配套教学视频在B站:https://www.bilibili.com/video/av26731585/代码都在:https://github.com/jmzeng1314/GEO 早期目录如下:第一讲:GEO,表达芯片与R第二讲:从GEO下载数据得到表达量矩阵第三讲:对表达量矩阵用GSEA软件做分析第四讲:根据分组信息做差异分析第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析第六讲:指定基因分组boxplot指定基因list画热图第七讲:根据差异基因list获取string数据库的PPI网络数据第八讲:PPI网络数据用R或者cytoscape画网络图第九讲:网络图的子网络获取第十讲:hug genes如何找公众号推文在:解读GEO数据存放规律及下载,一文就够解读SRA数据库规律一文就够从GEO数据库下载得到表达矩阵 一文就够GSEA分析一文就够(单机版+R语言版)根据分组信息做差异分析- 这个一文不够的差异分析得到的结果注释一文就够如果你完全看不懂本文,下面的课程你可能会需要!
110.12-14 南京见全国巡讲第17站 210.26-10.28 南宁见全国巡讲第18站 课程内容1生信-R语言入门2GEO数据库挖掘3生信-LINUX基础4转录组课题设计和流程分析小惊喜如果你精选10篇我们生信技能树2019对你帮助最大的推文教程,发到我邮箱 jmzeng1314@163.com 并且写出你的故事,就有惊喜哦!