2011年的表达芯片分析和2019年的区别

突然奇想,希望学徒们可以比较一下同一个数据集,表达芯片的,在2011年他被发表的时候的数据分析和2019年其他人挖掘他的时候的分析有什么区别,数据集是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE27447

最开始是2011的oncogene文章

文章是 FZD7 has a critical role in cell proliferation in triple negative breast cancer. Oncogene 2011 Oct 27;30(43):4437-46. PMID: 21532620  已经是2011的表达芯片数据了,那个时候的分析路线是 首先做差异分析拿到统计学显著的上下调基因,然后KEGG等数据库注释,挑选一条通路,然后选定通路里面的指定基因,比如FZD7进行下游分析

  • Identification of differentially expressed genes was first carried out under the criteria of 1.5-fold upregulation in TNBC with a P-value <0.01.

  • Two hundred and six genes, including 169 annotated genes (Supplementary Figure 1) were identified as being differentially expressed

  • The Wnt signaling pathway was identified as a pathway that was significantly overexpressed in TNBC (P<0.05)

  • FZD7, LRP6 and TCF7 were all upregulated along the Wnt signaling pathway

所以作者集中精力去做各种实验验证FZD7这个基因的重要性,实际上现在我们看来,这样的研究是非常片面的,但是当年那个时候大家对高通量芯片表达数据的认知就是这样。

2019的oncology letter文章

在文章 https://www.spandidos-publications.com/10.3892/ol.2019.9884 也是分析同样的数据集,就是我们说到的数据挖掘啦。

In total, 14 pre-treated non-triple-negative breast tumors and 5 triple-negative breast tumors were collected based on the GPL6244 (HuGene-1_0-st) Affymetrix Human Gene 1.0 ST Array.

同样的差异分析

  • On the basis of the SAM analysis, a total of 132 upregulated and 198 downregulated DEGs were identified.

  • The GO analysis was subsequently conducted (Table II).

  • The results demonstrated that the upregulated DEGs, which included CR2, IGHM, PRKCB, CARD11, PLCG2, CD79A, IGKC and CD27, were relative to the immune response, such as lymphocyte activation (P=1.49×10−11), leukocyte activation (P=4.68×10−11) and B-cell activation (P=6.02× 10−8) (Table IIA).

学徒作业

走我的表达矩阵教程的标准分析流程,火山图,热图,GO/KEGG数据库注释等等。这些流程的视频教程都在B站和GitHub了,目录如下:

  • 第一讲:GEO,表达芯片与R

  • 第二讲:从GEO下载数据得到表达量矩阵

  • 第三讲:对表达量矩阵用GSEA软件做分析

  • 第四讲:根据分组信息做差异分析

  • 第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析

  • 第六讲:指定基因分组boxplot指定基因list画热图

感兴趣可以细读表达芯片的公共数据库挖掘系列推文 ;

然后点评一下这两个分析了同一个数据集的文章最后的生物学故事如何。

(0)

相关推荐

  • 比GEO2R更好用的GEO数据分析工具

    之前在介绍GEO数据库数据分析的时候,我们介绍过GEO2R这个在线的分析GEO芯片数据的工具.但是对于GEO里面的一些二代测序的数据,就没办法进行分析了.最近新发布了一个在线的数据库eVITTA,则可 ...

  • GEO数据集详细介绍

    昨天我们GEO数据库的检索方式.但是对于里面的每一个数据集内容没有详细的解释,这次呢,我们就来介绍一下每个数据集里面包括哪些内容. 这次我们用GSE79973数据集进行介绍.(https://www. ...

  • GEO2R差异表达分析软件

        前两天我们对GEO数据库来了一个大致的介绍GEO数据集详细介绍GEO数据库介绍 (一).我们对于目标数据集,我们做的第一个事情就是差异分析,来寻找有差异的结果.所有的表达芯片做的差异表达分析都 ...

  • 【视频讲解】- 小鼠表达芯片数据整合分析

    本讲涉及到的芯片分别是: GSE7762 GSE62346 GSE50382 视频里的示例会带领大家使用 GEOquery 包里面的getGEO函数下载每个表达芯片数据在GEO数据库里面的数据,解析获 ...

  • 导数高考题分析之2019年全国Ⅰ、Ⅱ​卷 :分而治之、直观找点、隐零点

    导数高考题分析之2019年全国Ⅰ.Ⅱ卷 :分而治之.直观找点.隐零点 函数导数研究函数性质和证明不等式问题,一直都是以高考压轴题的地位出现,也是大家的噩梦,但其实这类问题最大的敌人是自己心中的畏惧,接 ...

  • 导数高考题分析之2019年天津理数 :指数三角结合、结构分析、变形重构

    导数高考题分析之2019年天津理数 :指数三角结合.结构分析.变形重构 函数导数研究函数性质和证明不等式问题,一直都是以高考压轴题的地位出现,也是大家的噩梦,但其实这类问题最大的敌人是自己心中的畏惧, ...

  • 学生作文︱《故乡》表达方式分析

    <故乡>表达方式分析 作文要求: 认真阅读鲁迅的<故乡>,写一篇不少于1000字的表达方式分析文章 <故乡>是由大文豪鲁迅所创作的一篇短篇小说,在文坛上传出极大的知 ...

  • 重磅分析:2019年执业药师考题研究报告!考题变动有点儿大

    2019年执业药师考试已经结束啦!这次考题的难易程度,考点分布是什么?医学教育网专业的考题分析老师为大家带来了一篇重磅文章,建议所有执业药师相关考生都看看! 执业西药师 1.药学专业知识(一) 今年& ...

  • 浅论面试中的表达与分析

    在面对一些专业性比较强的面试题时,如涉及到政府不同部门工作的题,要依靠热点的积累,题目思路的积累来拓宽自己的答题角度,即向题目中的解题思路.热点学习. 对于一些人际沟通的题目,除了学会一些答题的思路之 ...

  • (19)一个affymetrix表达芯片实战-生信菜鸟团博客2周年精选文章集

    这个实例上部分包括: 如何用R包下载GEO数据(只限单一平台,其余平台需要修改下面的代码) 如何对GEO的芯片数据归一化并且得到表达量矩阵, 如何用limma包做差异分析, 对找到的差异基因如何做GO ...

  • 机器学习算法之随机森林的R语言实现-表达芯片示例

    终于还是要发这个系列了,其实我还没有准备好,机器学习系列,有一个公众号做的非常好,是中科院上海马普所的几个同学做的,过两天我会在此推送他们的学习目录,供大家欣赏. 我就先抛砖引玉吧: 随机森林背景介绍 ...

  • Bioconductor的DNA甲基化芯片分析流程

    一次偶然的搜索中发现biocondutor有个甲基化芯片的分析流程,刚好可以学习下,写的真的很棒. Bioconductor的DNA methylation workflow可以在http://www ...