芯片的探针ID找到基因名-基于R语言-一文就够

2024-05-09 13:58:56

使用bioconductor注释包

如果该芯片平台有对应的bioconductor注释包，只有约90个常用的芯片有！

比如：

library(hgu133a.db) ids=toTable(hgu133aSYMBOL) head(ids) ## 或者 platformDB='hugene10sttranscriptcluster.db' library(platformDB, character.only=TRUE) probeset <- featureNames(GSE62832[[1]])

这些bioconductor注释包规律是一样的，都是存储一下探针ID及其对应的基因名的关系而已。

其它包列表见我早期菜鸟团博客收集：http://www.bio-info-trainee.com/1399.html

使用GPL平台信息

即使该芯片平台没有被bioconductor组织者制作R包，也是很容易拿到探针ID及其对应的基因名的关系文件，只需理解GEO数据库的GPL平台信息即可，如下：

library(Biobase) library(GEOquery) #Download GPL file, put it in the current directory, and load it: gpl <- getGEO('GPL10558', destdir=".") colnames(Table(gpl)) ## [1] 41108 17 ## 重点就是要花时间来摸索这个返回值 head(Table(gpl)[,c(1,10,13)]) ## you need to check this , which column do you need probe2symbol=Table(gpl)[,c(1,13)]

这样可以解决近2万芯片的注释问题，但是GPL上面的信息不一定会存储探针ID及其对应的基因名的关系，有些芯片平台是保密的，产商不愿意提供探针对应基因，但是他不得不提供序列信息，就需要复杂一点的方法。

只有探针核苷酸序列的

首先探针核苷酸序列需要比对到参考基因组

然后比对后的文件跟基因组注释信息去交集。

完整流程见：（重磅！价值一千元的R代码送给你）芯片探针序列的基因组注释

赞 (0)

R语言GEO数据挖掘01-数据下载及提取表达矩阵

欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘. 这一节的内容包括应用 GEOquery包下载芯片数据,提取表达矩阵,提取m ...
芯片探针ID的基因注释以前很麻烦

最近在答疑群里收到一个很经典的提问,就是: 请问各位老师,GPL570芯片中应该有部分基因是LncRNA,能否通过基因重注释的方式把有意义的LncRNA筛选出来呢?R语言能否实现呢? 而且学生特别的好 ...
gpl16699平台的探针注释到基因名（十一月学徒投稿）

gpl16699平台的探针注释到基因名（十一月学徒投稿）
基于R语言实现LASSO回归分析

原文链接:http://tecdat.cn/?p=10997 模拟假数据集 set.seed(0820) n <- 50 p <- 25 beta ...
数据挖掘：基于R语言的实战 | 第5章：聚类分析

第5章我们继续来学习一种无监督的数据挖掘方法--聚类分析.通过聚类分析我们可以观察到数据是怎么聚集在一起的,还可以用来描述数据的分布情况.聚类分析的应用十分广泛,例如通过对客户聚类来对其进行细分以便为 ...
数据挖掘：基于R语言的实战 | 第6章：线性模型与广义线性模型

第6章给大家介绍实际场景中最常用的两种统计模型,线性模型和广义线性模型.本章首先在6.1节中介绍线性模型,然后在6.2节中介绍广义线性模型,在6.3节再介绍线性模型和广义线性模型中的变量选择.本章最后 ...
数据挖掘：基于R语言的实战 | 第7章：神经网络的基本方法

上一章我们简单介绍了有监督学习方法中最常用的线性模型和广义线性模型,第7章我们来认识一下神经网络的基本方法.本章先介绍了单个神经元和神经网络,然后介绍神经网络的训练方法,接着介绍提升模型泛化能力的一些 ...
数据挖掘：基于R语言的实战 | 第9章：基于决策树的模型组合

上一章我们学习了决策树模型,这一章我们继续学习几种基于决策树的模型组合,包括袋装决策树.梯度提升决策树.随机森林和贝叶斯可加回归树.本章的最后提供了在R语言中建立以上几种模型的案例. 9.1节 ...
一文掌握SVM用法（基于R语言）

这是生信技能树一文系列推文,前面的目录: 一文学会WGCNA分析一文看懂主成分分析 SVM 背景知识支持向量机,因其英文名为support vector machine,故一般简称SVM,就是 ...
基于R语言的shiny网页工具开发基础系列-07

任何使用R的人都可运行你的shiny app,他们需要你的app.R的一个副本,还有其他支持材料(比如www文件夹或者帮助脚本) 发送你的文件到另一个用户,email或者github等用户将你的文件 ...