多个探针对应同一个基因取最大表达量探针极简代码

2024-06-08 02:27:15

这个需求实在是太常见了，很多时候我们下载的表达矩阵，都是基因的探针ID作为行名来标记，如下：

这个变量是 dat，一个表达矩阵，所以需要对探针进行注释，并且筛选。

首先看看注释的结果：

很明显可以看到，很多基因都是有多个探针的，而且每个探针的中位表达量不一样，这里我们可以选择最大的探针保留。

代码很简单：

dat[1:4,1:4] library(hgu133plus2.db) ids=toTable(hgu133plus2SYMBOL) head(ids) dat=dat[ids$probe_id,] dat[1:4,1:4] ids$median=apply(dat,1,median) ids=ids[order(ids$symbol,ids$median,decreasing = T),] ids=ids[!duplicated(ids$symbol),] dat=dat[ids$probe_id,] rownames(dat)=ids$symbol dat[1:4,1:4]

过滤后的表达矩阵如下：

可以手动简单检查一些探针的转换情况来验证代码是否准确无误。

不过，如果你连表达矩阵都不知道如何生成，那么你需要补充的基础知识就比较多了。

目录：

解读GEO数据存放规律及下载，一文就够

解读SRA数据库规律一文就够

从GEO数据库下载得到表达矩阵一文就够

GSEA分析一文就够（单机版+R语言版）

根据分组信息做差异分析- 这个一文不够的

差异分析得到的结果注释一文就够

■ ■ ■

赞 (0)

PAM50的概念及分子分型算法原理

众所周知,癌症具有异质性,在乳腺癌领域,不同亚型的癌症比不同器官来源癌症的差异要大很多.最简单癌症分类,当然是一个基因,比如ER阳性或者ER阴性的乳腺癌患者,并不是说人类有2万多个蛋白编码基因就可以有 ...
多个探针对应同一个基因取最大值的代码进化历史

我的GEO芯片数据分析教程本来就是为粉丝写的,基本上就是生信菜鸟团QQ群的诸位问什么,我就临时搜索整理讲解那个知识点,非常融洽,目录如下: 第一讲:GEO,表达芯片与R 第二讲:从GEO下载数据得到表 ...
多个探针对应同一个基因到底该如何取舍

前些天我发现了乳腺癌领域的PAM50算法原理探索,在:PAM50的概念及分子分型算法原理 ,其实并不难,然后我注意到他们在挑选50个基因的时候,提到了多个探针对应同一个基因到底该如何取舍原文是:F ...
100篇泛癌研究文献解读之APOBECs家族基因突变及表达量异常 | 生信菜鸟团

为了分析不同类型.组织起源肿瘤的共性.差异以及新课题.TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划.参考:https://www.ncbi.nlm.nih.gov ...
多个探针对应一个基因，取平均值或者最大值

这么简单的问题,总是有人问,而且总是有人不搜索就到处问,本来我是很生气的,后来想一想,应该是我们没有教会大家搜索,也不能全部怪新手. 以前我都是建议大家取最大表达值探针来作为基因的表达量,其实最大值也 ...
外星人侵入地球的另一种方式，破取人类基因密码，真实细思极恐！

外星人侵入地球的另一种方式，破取人类基因密码，真实细思极恐！
不同物种的同一个基因的对应关系

我们都知道不同的物种在进化过程中其实共享很多基因的,尤其是哺乳动物,同一个基因虽然在不同的物种序列不完全一样,位于的染色体也不一样,发挥的功能可能也稍微有点区别,但是他们的相似性非常高!根据相似性就可 ...
芯片的探针ID找到基因名-基于R语言-一文就够

使用bioconductor注释包如果该芯片平台有对应的bioconductor注释包,只有约90个常用的芯片有! 比如: library(hgu133a.db) ids=toTable(hgu13 ...
gpl16699平台的探针注释到基因名（十一月学徒投稿）

gpl16699平台的探针注释到基因名（十一月学徒投稿）
芯片探针序列的基因注释已经无需你自己亲自做了

第一次是:TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案第二次是:(重磅!价值一千元的R代码送给你)芯片探针序列的基因组注释其中第二个教程是纯粹的R代码技巧,怕粉丝看不懂,我 ...