去除批次效应好,还是RobustRankAggreg优?

最近参加了生信技能树曾老师的GEO数据挖掘月学徒培养,对一些文章中的GSE数据集走标准化分析流程。

小洁老师在去除批次效应的探索文件里给出了两种方法,一个是用R包limma中的函数removeBatchEffect(),另一个是R包SVA中的函数ComBat()。

阅读相关文献查到,也有很多文章用了RobustRankAggreg找个R包进行不同芯片数据的差异基因整合。区别就在于,是先进行样本整合,然后去除批次效应,最后进行差异分析;还是,对每个数据集进行独立分析,然后RRA整合DEG,拿到多个数据集共有的DEG,所以我尝试比较了接触到的这两种方法的结果差异。

首先

我们应该先了解,这个多个芯片数据差异基因整合R包:RobustRankAggreg,介绍在:https://cran.r-project.org/web/packages/RobustRankAggreg/index.html。

然后

limma中的函数removeBatchEffect()和SVA中的函数ComBat()介绍很多,直接浏览器搜索关键词即可。

接下来就是结果啦~

  • 对每个数据集进行独立分析后,用RRA整合,然后拿top10 上下调基因与文章中给出top10进行对比,结果如下(带星标的为一致的基因):
 
  • 先整合所有数据集,然后用limma去除批次效应,再进行差异分析,然后拿top10 上下调基因与文章中给出top10进行对比,结果如下(带星标的为一致的基因):
 

这么看起来,似乎是 我们的用limma去除批次效应,再进行差异分析,然后拿top10 上下调基因与文章的结果一致性好一点哦。

其实是因为从数量上来说,用RRA整合得到的差异基因数量为39个(数据集命名为list_RRA),用limma整合得到的差异基因数量为858个(数据集命名为list_limma),如果一个方法拿到的基因数量足够多,当然是更有可能保护文献的基因集。

那两个差异基因的关系是怎样的呢?见下图

所以结论是,RobustRankAggreg处理,拿到的DEG少,因为没有进行样本的整合,获得DEG所用的样本数量少。(换句话说,是比较严格的挑选了上下调基因,是在多个数据集都很保守的上下调差异基因)

但是优点在于,二分组样本的差异分析流程,对数据前期处理是最简单的,只需要根据pd对样本进行合理分组,即可。而对于limma包的函数removeBatchEffect()来说,虽然前期处理会麻烦一点,但是,能拿到更多的差异基因,因为扩大了样本量。而且,就目前这篇文章的数据集分析结果来说,与文章数据分析结果一致性更高。

还有一个问题

那到底是拿到多的DEG好,还是少的DEG好呢?其实关键不在多和少,而在于根据我们的背景知识,能不能找到符合预期的靶基因,如果RRA不行,那就换一种方法呗~

文末友情推荐

与十万人一起学生信,你值得拥有下面的学习班:

(0)

相关推荐

  • GEO联合TCGA数据挖掘文献分享

    今天要介绍的这篇章是我们中国人写的,发表在Med Sci Monit上,这篇文章主要是通过下载GEO和TCGA的数据,通过差异表达分析,GO富集分析.KEGG富集分析,PPI分析,COX回归分析,筛选 ...

  • 批次效应到底是个什么东东?

    基本概念 关于批次效应的基本解释, 在10年的一篇综述当中是这么解释的. Batch effects are sub-groups of measurements that have qualitat ...

  • TCGA差异分析及ggplot作图验证

    TCGA数据加载 #安装并加载R包if(length(getOption("CRAN"))==0) options(CRAN="https://mirrors.tuna. ...

  • 应用Robust rank aggregation法筛选肝癌的差异表达关键基因

    范振海 邢时云 冯源 [摘要]目的:采用生物信息学方法筛选出肝癌的关键差异表达基因.方法:对GEO公共数据库中获取的四组肝癌和癌旁组织基因表达芯片数据进行生物信息学分析,首先用R数据包中的limma程 ...

  • 可能是最出名的TCGA表达相关数据库介绍(一)

    有小伙伴后台留言说想知道 GEPIA 数据库的用法,正好最近一段时间GEPIA2更新了,其中也更新了一些新的功能.所以就趁着这个机会给大家介绍一下GEPIA2吧. 有小伙伴后台留言说想知道 GEPIA ...

  • 多种批次效应去除的方法比较

    前面我在生信技能树推文:你确定你的差异基因找对了吗? 提出了文章的转录组数据的60个样品并没有按照毒品上瘾与否这个表型来区分,而是不同人之间的异质性非常高,这个时候我提出来了一个解决方案,就是理论上就 ...

  • 使用scran包的MNN算法来去除多个单细胞转录组数据批次效应

    多个样本单细胞转录组数据整合算法以 mutual nearest neighbors (MNNs)和canonical correlation analysis (CCA) 最为出名,见 详细介绍多个 ...

  • 批次效应去不去除呢?这是个问题

    考虑到咱们生信技能树粉丝对单细胞数据挖掘的需求,我开通了一个专栏<100个单细胞转录组数据降维聚类分群图表复现>,也亲自示范了几个,不过自己带娃,读博,时间精力有限,所以把剩余的90多个任 ...

  • 批次效应去除工具

    我们在进行公共数据挖掘的时候,经常会碰到要对多个数据集联合分析的时候,如果想要把这些数据放到一起进行分析的话,那么首先还是需要先去除批次效应才能进行分析的.之前我们的介绍的数据库的时候,也提到了两个和 ...

  • Microbiome | 批次效应对大鼠尿代谢组和肠道微生物群的影响比尿毒症更大

    推荐:江舜尧 编译:卓求 编辑:十九 伦敦玛丽女王大学威廉·哈维研究中心David William Randall教授等人于2019年9月2日在Microbiome发表题目为<Batch eff ...

  • 校正批次效应

    一般情况下我们最好是在实验设计上就考虑到这一点. 但很多时候,数据分析者往往身不由己. Stanford 大学 在MOOC上面的公开课:PH525x series - Biomedical Data ...

  • 关于批次效应矫正后出现负值

    学徒已经陆续出师,是时候把生信技能树的舞台交给后辈了! 下面是YuanSH的分享 首先要了解一下什么叫批次效应 那么如何解决批次效应呢? limma 包中 removeBatchEffect 函数中出 ...

  • 并不是所有的批次效应都可以被矫正

    最近接到粉丝求助,他最近在跟着我B站课程和GitHub代码处理GEO 芯片: GSE113486 GEO平台 已经进行了log2 转换和 Normalized signal intensity by ...

  • 单细胞转录组测序中的批次效应知多少? (上)

    写教程的话,我的优点仅仅是量大,坚持了七年多写了超1万篇教程.但实际上绝大部分都浮于表面,深度不够. 恰好最近看到了一个超级优秀的博客,安排了其中几篇给学徒们翻译和理解,超级值得读! 阅读前面的翻译稿 ...