明码标价之公共数据库探索

众所周知,肿瘤的TNM分期是目前临床上比较常用的分期方式之一:

  • 其中的T代表的是肿瘤原发灶,其中包括原发灶的部位、大小、数目、侵犯的范围、浸润的深度等
  • 而N代表的是转移淋巴结,包括转移淋巴结的数目、大小、侵犯的范围等
  • M代表的是转移灶,包括转移灶的部位、数目等

所以,理论上可以分析不同的N或者M的分期的病人来看肿瘤转移与否的差异情况,最近看到了一个文章就是这样做的了,比较N0和N3时期的TCGA数据库的ESCC表达量样品的差异,该文章于2020年发表在《 Adv Sci 》杂志的文章《Direct Targeting of CREB1 with Imperatorin Inhibits TGFβ2‐ERK Signaling to Suppress Esophageal Cancer Metastasis》,链接是:https://onlinelibrary.wiley.com/doi/full/10.1002/advs.202000925

下载TCGA表达量矩阵进行指定分组的差异分析

RNA-sequencing data and clinical in- formation of 60 ESCC cases were obtained from The Cancer Genome Atlas (TCGA) database, and the gene profiles of tumors at N0 stage were compared with those at N3 stage.

主要的分析方法这些年都被写烂了,我就不再赘述:

主要是考验对TCGA数据库的熟悉程度啦,然后对统计学显著的差异进行进行GO数据库的富集分析,如下所示的结果:

GO数据库的富集分析结果

然后作者这里做了一个超级骚的操作,对上面的GO富集条目里面的基因进行计数,发现有TGF𝛽2基因的条目超高了四分之一,同时它也是排名第4高频出现的基因。

如下所示:

排名第4高频出现的基因

由此开始了作者的课题:Among the top genes highly enriched in the pathways listed in Figure 1A, TGF𝛽2, which ranks 4th with a high frequency (26%) of enrichment in the total GO terms, be- came our research focus (Figure 1B).

其实呢这个步骤是架不住推敲的,针对统计学显著差异基因继续GO数据库条目的超几何分布检验,其中含有TGF𝛽2基因的GO条目出现的频率比较高,其实可能是因为TGF𝛽2基因本身参与的功能比较多。是因为它本身出名,而不是因为本次差异分析把它筛选出来了的。

毫无疑问,TGF𝛽2, 肯定是具有表达量差异,所以作者加入了如下所示的小提琴图:

TGF*𝛽*2的表达量差异

当然了,确定一个基因的重要性,仅仅是表达量的上升还不够,还需要高表达它的时候,病人死得快,所以有了如下所示的生存分析图表

TGF*𝛽*2是坏的生存因素
我在生信技能树多次分享过生存分析的细节;

生存分析是目前肿瘤等疾病研究领域的点睛之笔!

虽然有瑕疵,但不失为一个好的数据复用的案例

绝大部分对生物信息学有误解的小伙伴还迷失在所谓的快速发文的套路里面,这样的想法非常危险。其实都看文献,数据复用的前提是支持你的生物学假设,这样的数据挖掘才是王道!

如果你也有自己的科研想法,希望能在TCGA等公共数据库里面探索一下,而且网页工具无法达到你的需求, 那么我们的生信工程师团队可以帮助你哦!这样的差异分析,GO或者KEGG数据库注释,生存分析全一套,仅需人民币1600即可!附送代码和数据,不玩虚的!

你指哪儿,我们就打哪儿!(有需求的直接在公众号这个推文下面留言哦!)

(0)

相关推荐

  • 纯生信数据挖掘,就不能发高分文章?

    最近有人问我们,纯生信数据挖掘能不能发高分文章?答案是可以的.那怎么样发呢 GEO+Oncomine. 1 筛选差异基因 2 GO分析 3 Pathway分析 4 PPI分析 5 将最关键的差异基因进 ...

  • TCGA数据挖掘网站-UALCAN

    一款操作简单.快速有效的TCGA数据挖掘分析的网站工具---UALCAN . UALCAN (http://ualcan.path.uab.edu/index.html)是一个基于PERL-CGI.j ...

  • GEPIA,无编程生信小白福音

    GEPIA, 全称GeneExpression Profiling Interactive Analysis.这个数据库是2017年7月由北京大学张泽民教授团队的唐泽方等人通过 R .Perl等语言对 ...

  • 就补一个PCR,4分+纯生信SCI马上被接收了

    文章具体分析思路如下: 1.作者从GEO数据库下载了6套数据,然后进行整合分析,使用limma进行差异分析,一共得到几百个差异基因 2.将得到的差异基因进行GO富集分析.KEGG富集分析.PPI分析 ...

  • 你只会用生信数据挖掘发文章,却不会利用它设计课题

    很多人都知道怎么样利用生信数据挖掘发文章,却忽略了利用它怎么设置课题.现在离申请基金的日子越来越近了,很多人都在准备撰写基金,如果没有思路该怎么办呢?没有思路的同学可以考虑一下这种方法. 1.从TCG ...

  • 环状RNA纯数据挖掘套路

    第一步 在GEO数据库下载相关的环状RNA.miRNA.mRNA 第二步 分别对下载到的环状RNA.miRNA.mRNA做差异分析 第三步 利用差异的环状RNA预测可能结合的miRNA 第四步 预测得 ...

  • TCGA数据分析系列(二):UALCAN数据库

    UALCAN:(http://ualcan.path.uab.edu/index.html)是一个综合的.用户友好的.交互式的web资源,用于分析癌症组学数据.UALCAN的设计目的是: 提供对公开的 ...

  • 研究帕金森病,做meta分析,数据挖掘,不能缺少这个数据库

    这个数据库的网址为:http://www.pdgene.org/ 下面介绍一下这个数据库的使用: 我们可以在检索框基因名进行检索 查看结果 这里的结果展示的是APOE基因所在位置+-5000碱基对范围 ...

  • 明码标价之公共数据库的生存分析

    最近有粉丝在我们<生信技能树>公众号后台付费求助,想follow一个文章看两个基因组合起来在一个数据集的生存分析. 因为她的课题是保密的,我这里不方便提基因名字和数据集,就show她想fo ...

  • 明码标价之公共数据集的WGCNA

    最近有粉丝在我们<生信技能树>公众号后台付费求助,想follow一个文章 做他自己感兴趣的一个数据集的WGCNA分析. 因为他的课题是保密的,我这里不方便提疾病名字和数据集,就show他想 ...

  • 明码标价之探索新流程(以MSIpred为例)

    最近有粉丝在我们<生信技能树>公众号后台付费求助,想用肿瘤WES测序体细胞突变结果判断MSI状态,因为粉丝课题的保密的.那我这里使用TCGA数据库的CRC的MAF文件举例,安排给了学徒进行 ...

  • 不谈标准吹算力就是耍流氓,芯片算力必须“明码标价”

    今年四月,黑芝麻正式发布FAD EdgeFAD Edge自动驾驶计算芯片.山海人工智能开发工具平台以及面向车路协同的路侧感知计算平台 FAD Edge . A1000 Pro 的最高的 INT4 算力 ...

  • 真正的强者,从不埋头苦干,而是从这3个方面给自己“明码标价”

    真正的强者,从不埋头苦干,而是从这3个方面给自己"明码标价" 前段时间,有一个读者朋友给我发来私信,给我吐槽了她自己亲身经历的事情.听了她的故事以后,小编我深有感触,所以,写下这篇 ...

  • 500元2小时,明码标价暗示“服务”,大打“擦边球”,陌陌变味了

    在这些年,很多互联网创业公司崛起,除了BAT之外比较出名的就是以滴滴美团为代表的TMD,他们迅速成长为新一代小巨头. 而值得一提的是美团.滴滴.以及京东.拼多多的背后,都有着腾讯的投资,作为拥有月活超 ...

  • 四川成都顾客在海鲜酒楼用餐后,被收62元加工费,老板:明码标价

    四川成都的陈先生,五一期间和家人到犀浦的一家海鲜酒楼吃饭,结账时候发现多了62元的加工费.陈先生以为是店家收错钱了,结果老板却说:这是明码标价.遇到霸王餐厅了?该怎么办? 这是怎么回事呢? 原来啊,当 ...

  • 教育部明码标价,谈人生从初中开始

    为什么我们必须接受教育?因为人类必须一代强似一代,至少我们不能被文明社会淘汰.比如不会用电脑的人,不会开车的人,被称作"现代文盲". 现在,学历歧视十分严重,原因是垃圾大学太多了, ...

  • 【出门吃饭怕贵,明码标价无愧】

    [出门吃饭怕贵,明码标价无愧] 八人一路出门游玩, 欣赏美景走走看看, 千岛湖景区像吃饭, 明码标价好不眨眼, 吃完之后刷存在感, 嫌弃太贵觉得太冤, 自己点菜吃饭付钱, 平均一人才六十三, 要想便宜 ...