你确定你的差异基因找对了吗?

转录组已经走入寻常百姓家了,现在生命科学领域实验设计搞个转录组测序就跟PCR和WB一样频繁和普及,但并不是所有人都会分析了,我在全国巡讲分享生物信息学经验的时候特别指出了两个容易混淆的知识点,但大伙类似的错误认知还有不少,这里再详细讲解一个,也顺便diss一些已经发表的文章。理所当然的, 大家做完转录组,从全局表达矩阵,想看到下面的3张图:左边的热图,说明我们实验的两个分组,normal和npc的很多基因表达量是有明显差异的中间的PCA图,说明我们的normal和npc两个分组非常明显的差异右边的层次聚类也是如此,说明我们的normal和npc两个分组非常明显的差异

PS:如果你的转录组实验分析报告没有这三张图,就把我们生信技能树的这篇教程甩在他脸上,让他瞧瞧,学习下转录组数据分析。PS: 示例的3张图来自于我的GitHub博客:https://github.com/jmzeng1314/GEO是不是转录组表达矩阵就应该按照表型信息如此泾渭分明呢?诚然,有上面那样清晰可见的差异,这样的结果当然让人happy,但并不意味着所有的实验设计的结果都应该如此, 任何差异都应该是可以解释的,上图的normal和npc两个分组样本本来就是截然不同,它们的差异也就合情合理啦!但是,我们来看看另外一篇文章发表在Neuropsychopharmacology. 2014 Aug; 影响因子大概是7 ,题目是:A molecular profile of cocaine abuse includes the differential expression of genes that regulate transcription, chromatin, and dopamine cell phenotype. 有点长,但是文章故事很简单,就是两组人的转录组:Subject inclusion in the cocaine cohort (n=10) was based on determination of cocaine abuse as the cause of death, a documented history of drug abuseControl subjects (n=10) died as a result of cardiovascular disease or gunshot wound, had no documented history of drug abuse, and tested negative for cocaine and other drugs of abuse共20个人,每个人3次技术重复,所以是60个数据,但是如果我们天真的以为毒品上瘾与否的人,大脑的全局基因表达就应该是有翻天覆地的差异就错了,如下:

可以看到, control组合毒品组,基本上是无法区分开来的,在PCA里面,这个时候就需要仔细看热图:

很明显,可以看到同一个人的3次技术重复差异非常小,这个符合预期,但是呢,人并没有按照毒品上瘾与否来区分,而是不同人之间的异质性非常高,而且中间还有3个病人,他的3次技术重复都出现了离群点,所以是需要去除的,这一点,文章做的很对!

然后,文章就使用这样的表达矩阵和分组信息,去找差异基因了,找毒品上瘾与否不同组的人的差异表达基因,毫无疑问,这样的差异分析,即使把阈值调的再低,也没多少统计学显著性的基因能被找出来的。

文章里面就91个基因,很有趣的是他们使用qPCR实验验证了他们的芯片技术找到的差异是可靠的,当然, 这样他的生物学故事就足够solid了,这个是历史遗留问题,大家喜欢相信实验结果,搞得好像我们的ngs数据分析只能是一个引子一样。实际上,这样的分析明显是有问题的, 既然不同的人差异这么大,理论上就可以把人当做是一个批次效应,使用北京大学李程课题组开发的sva包的combat函数,把这样的效应去除一下,接着再找差异。那个才更有可能是毒品上瘾与否的差异啊!全网最系统的表达芯片数据处理教程表达芯片数据处理教程,早在2016年我就系统性整理了发布在生信菜鸟团博客:http://www.bio-info-trainee.com/2087.html配套教学视频在B站:https://www.bilibili.com/video/av26731585/代码都在:https://github.com/jmzeng1314/GEO早期目录如下:第一讲:GEO,表达芯片与R第二讲:从GEO下载数据得到表达量矩阵第三讲:对表达量矩阵用GSEA软件做分析第四讲:根据分组信息做差异分析第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析第六讲:指定基因分组boxplot指定基因list画热图第七讲:根据差异基因list获取string数据库的PPI网络数据第八讲:PPI网络数据用R或者cytoscape画网络图第九讲:网络图的子网络获取第十讲:hug genes如何找公众号推文在:解读GEO数据存放规律及下载,一文就够解读SRA数据库规律一文就够从GEO数据库下载得到表达矩阵 一文就够GSEA分析一文就够(单机版+R语言版)根据分组信息做差异分析- 这个一文不够的差异分析得到的结果注释一文就够给你的作业首先,这篇文章标题我给到你了,你应该是能找到数据集下载链接,走一波我的标准GEO代码,试图理解图表,然后说出你的想法。那么就做起来吧,把你 的分析结果发邮件给我,发到我邮箱 jmzeng1314@163.com 并且写出你的故事,就有惊喜哦!还有另外一个数据集,也是如此, 建议你花时间一起摸索一下,台湾人的研究,数据集GSE128502,分析也是错的。如果你完全看不懂本文,下面的课程你可能会需要!

全国巡讲(点我查看)

110.12-14  南京见全国巡讲第17站

210.26-10.28 南宁见全国巡讲第18站

课程内容1生信-R语言入门2GEO数据库挖掘3生信-LINUX基础4转录组课题设计和流程分析小惊喜如果你精选10篇我们生信技能树2019对你帮助最大的推文教程,发到我邮箱 jmzeng1314@163.com 并且写出你的故事,就有惊喜哦!

(0)

相关推荐

  • GEO在线分析工具

    GEO2R是GEO在线分析工具,基于此工具可以对部分GEO样品数据进行基因差异表达分析.该工具主要针对芯片数据,借助R 及Limma包完成分析过程,用户只需要在网业上进行简单的点击等手动操作即可获得分 ...

  • GEO数据集详细介绍

    昨天我们GEO数据库的检索方式.但是对于里面的每一个数据集内容没有详细的解释,这次呢,我们就来介绍一下每个数据集里面包括哪些内容. 这次我们用GSE79973数据集进行介绍.(https://www. ...

  • GEO2R差异表达分析软件

        前两天我们对GEO数据库来了一个大致的介绍GEO数据集详细介绍GEO数据库介绍 (一).我们对于目标数据集,我们做的第一个事情就是差异分析,来寻找有差异的结果.所有的表达芯片做的差异表达分析都 ...

  • 比GEO2R更好用的GEO数据分析工具

    之前在介绍GEO数据库数据分析的时候,我们介绍过GEO2R这个在线的分析GEO芯片数据的工具.但是对于GEO里面的一些二代测序的数据,就没办法进行分析了.最近新发布了一个在线的数据库eVITTA,则可 ...

  • 什么?你还在用GEO2R进行差异表达分析

    GEO虽是一个宝库,但是使用GEO进行数据分析可不是一件简单的事! 首先,GEO的数据检索非常不方便,例如,我想获取有预后信息的乳腺癌数据,显然使用GEO官方检索起来很难. 其次,GEO大部分数据都基 ...

  • 科研 | Industrial Crops & Products:代谢组与转录组揭示三种烟草的代谢多样性与差异基因

    编译:菜鸟菠萝,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读 烟草是一种重要的经济农作物,叶片是重要的芳香生物活性化合物(如酚类和生物碱)的来源.在本研究中,采用无偏转录组学和代谢组学方法来鉴 ...

  • 测序数据没有差异基因,就不正常?

    不知道大家做生信分析的时候,有没有遇到做差异分析的时候没有得到一个差异基因的情况,反正笔者遇到过好几次,无论是GEO数据还是别人给的测序数据都遇到过没有差异基因,哪怕是使用最低的过滤标准都遇到过. 现 ...

  • 转录组学习七(差异基因分析)

    任务 载入表达矩阵,然后设置好分组信息 用DEseq2进行差异分析,也可以走走edgeR或者limma的voom流程 基本任务是得到差异分析结果,进阶任务是比较多个差异分析结果的异同点. 了解差异基因 ...

  • 比较不同的对单细胞转录组数据寻找差异基因的方法

    背景介绍 如果是bulk RNA-seq,那么现在最流行的就是DESeq2 和 edgeR啦,而且有很多经过了RT-qPCR 验证过的真实测序数据可以来评价不同的差异基因算法的表现. 对单细胞测序数据 ...

  • 萌新学完GEO课程复现SCI文章差异基因的热图

    文章标题是:Tinagl1 Suppresses Triple-Negative Breast Cancer Progression and Metastasis by Simultaneously ...

  • 这样拿差异基因集做肿瘤诊断模型不是明知故问吗

    差异基因分析确实是人尽皆知了,不管是表达芯片还是RNA-seq测序拿到的表达矩阵,都可以走差异分析策略,哪怕是蛋白质组和代谢组拿到的矩阵,也是如此,其实图表没啥子区别.差异分析,火山图,热图等等标准流 ...

  • 三阴性乳腺癌表达矩阵探索笔记之差异基因富集分析

    学徒和学员已经陆续出师,是时候把生信技能树的舞台交给后辈了! 下面是学徒写的<GEO数据挖掘课程>的配套笔记(第3篇) B站课程<三阴性乳腺癌表达矩阵探索>笔记之文献解读 三阴 ...

  • 学徒作业-转录组差异基因筛选背景知识很重要

    一个学徒跟着我做了七十多个转录组项目了,但是一直不能理解,凭什么这样的高通量筛选就能定位到具体的一两个基因. 为了帮助他理解生物学的混沌思想,我特意给他找了一个与2018年2月发表在CELL杂志的文章 ...

  • 不同谱系的差异基因分类注释

    作者 | 单细胞天地小编  刘小泽 课程链接在:http://jm.grazy.cn/index/mulitcourse/detail.html?cid=55 这次会介绍如何对不同谱系的差异基因分类注 ...