分享一篇一周接收的数据库挖掘文章
欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA、GEO, SEER数据挖掘。
今天要分享的文章发表在研究生之友 Biochemical and Biophysical Research Communications;BBRC杂志,影响因子2分加吧。
摘要
亮点是审稿接收时间,看了吗,一周接收。我比较喜欢这种风格,干脆果断,审稿过程常常费时费力,有些审稿人的要求是吹毛求疵,每位审稿人都有自己的观点和想法,同时每篇文章都有不足,不存在完美。大家干脆一点,不要拖泥带水挺好其实(发发牢骚)。
大概看下摘要,首先是从 Pan-cancer入手,然后选择了一个基因,一个肿瘤再进一步分析验证,选了另外的独立数据集进行验证,大概的思路就是这样。
文章结果展示
这些血管生成相关基因在泛癌中的表达模式热图,在这样的全景中看这些基因的模式。
选择一种肿瘤的基因表达
研究了感兴趣的基因在colon中的表达情况,包括组织学分型,正常与肿瘤的表达,与甲基化的相关性分析。
功能研究
通过GSEA富集分析,找到与目的基因可能相关的通路。
在结直肠肿瘤中的免疫浸润相关性分析。
数据分析
涉及到的数据包括TCGA的表达、突变,甲基化,CNA, GEO两套数据,GSEA分析。
题外话
· 不要看我说起来简单,自己真正做起来其实并没有想象中那么简单。文章中涉及到的分析综合性比较强了,能做完这些,一般的数据分析能力必须具备。
· 为什么我说没有那么简单,你真的以为一顿饭的功夫能做完吗?
– 首先你要下载Pan-cancer的数据总共9000+sample,上万个基因,作者还下了GTex的正常组织。这些数据你要搞清楚怎么下载吧?下载要时间把,一般的网络我觉得下起来还是有一定困难的。
– 你是怎么想到这些血管生成相关基因找出来的,要去哪里找?你是如何选题的,你如何知道这些没有人做过。
– 基因的表达分析里面有临床信息,那么你就要整理匹配这些临床数据
– 分析还包括突变,甲基化,CNA这些数据你也下载下来,甲基化数据的量你心里得有个数,45k相当于每个Sample*7的量,同样你得清洗数据,匹配信息。GEO两套数据要下载,要整理匹配临床信息吧。
– 文章呈现的内容仅仅是作者让我们看到的内容,还有其它内容是我们没看到的。我们来思考几个问题,为什么作者就选了 CXCL12这个基因呢?为什么它又单单选择了结直肠癌这种肿瘤呢?要知道,在它探索的过程当中是没有告诉它CXCL12这个基因就是可行的,是可以验证的。也就是说作者很有可能选了一个基因,然后得去尝试,这个到底能不能验证,如果失败了,那就再去选,再去试。
– 做完了之后验证了,还要做GSEA分析,分系完了这些结果只是可能性,还要去讨论吧,去看文献吧。这些都是工作。
· 说这些的目的很简单,跟大家交流一下,尤其是没接触过数据库挖掘的朋友们,相互了解下。数据挖掘没有有些人想象中那么简单,如果你有一次请别人帮忙分析数据,记得尊重他们的劳动和付出,说一句谢谢其实他们也不容易,千万不要觉得他们只是在电脑上点了几下,点的每一下,每一行代码都是无数个日夜的积累和沉淀。
这次就聊到这里吧,下期再见,我是老朋友白介素2。
本期内容就到这里,我是白介素2,下期再见,点击下方框框留言。