国自然前期研究基础不足?你可以这样补一些生信分析
万能公式登场
A基因 (RNA/蛋白)
↓
X疾病的B通路
↓
C功能
那么大致的方向有哪些呢???????
1. A, B和C水平和生存,临床分期等的关系
B/C如果不是单个水平的基因(比如说是某个通路、或者是某种表型),可以用ssGSEA的分数或者是其他水平的signature来转化成一种分数(index/score),比如说是自噬,那就做自噬的signature;如果是M1巨噬细胞,那就做巨噬细胞的signature;
这种index的转化不是我们这次分析的主要内容,以后我们会有专门的推送来教大家如何进行index的快速转换;
2. A和B,B和C,A和C的相关性分析
当然你除了可以做散点图以外,也可以按照因素的表达水平分2-4组做柱状图和差异分析;
但是有高维度的数据,除非是分组以后结果更漂亮,不然就建议还是做散点图加线性拟合;
3. A、B、C和一些临床上其他疗效相关指标的延伸分析
比如说TMB,或者是某个白介素等(这里如果是通路性质的,又可以转化为signature来做)
4. 如果是通路,做完了GSEA以后,还可以补做对应通路的基因表达热图
对于这一块热图的展示是有技巧的!!!并不是说你做了就可以了;
5. A和B,B和C,A和C中有rescue的基础实验验证
就算是不能都做,有一两步是有一些基础实验能加进去的也是很不错的了;
有人可能会问,你rescue都做了,那你国自然还做什么?你可以做更详细的调控机制!毕竟套路总是很难有灵魂的;
有人会问了这种分析是不是只能在肿瘤里面做呢?答案是: NO!当然是大部分的疾病都适用呀!!!!!
我们先举一个肺癌的例子,随便在国自然系统里面搜的2019年资助的一个面上项目,"EIF4G1负调节USP10活性与功能促进非小细胞肺癌生长的分子机制",我没有看过全文(也看不到全文),但是如果是仅仅从这个标书题目出发的话,就可以考虑补充这些分析:我们和上面对应起来,A是EIF4G1,B是USP10,C是肿瘤细胞增殖;疾病是NSCLC;那你可以做什么呢?
↓↓
EIF4G1表达,USP10表达和肿瘤细胞增殖分数和NSCLC肿瘤患者生存和临床分析的关系;
有蛋白芯片的数据可以用蛋白芯片的数据
EIF4G1表达,USP10表达和肿瘤细胞增殖分数三者之间两两匹配的相关性分析;
EIF4G1表达,USP10表达和肿瘤细胞增殖分数和治疗相关的指标,如果没有,你找一些临床常见的肿瘤标志物拿来做当然也可以;
补充“肿瘤细胞增殖分数”的热图;这里的index可能不止一个,你可以做多个,就像自噬一样,下面有很多通路,不同的数据集给的基因也不一样多,做出来的结果也不一样;
也可以参考别人的文章收集相关的基因DIY一个gene set
接下来再举一个代谢和糖尿病的例子:“Periostin通过Hippo/YAP通路调控糖酵解代谢在糖尿病血管钙化中的作用与机制”,那么A就是Periostin,B就是Hippo/YAP通路,C是糖酵解代谢;
Periostin表达水平,Hippo/YAP通路激活index和糖酵解代谢通路激活index分别和糖尿病血管钙化程度的分析;如果没有的话,你可以看看有的GEO数据集可能有补充一些血糖,血脂的数据,也可以拿来和三个参数进行合并;
如果是实在没有怎么办?那就拿临床或者是小鼠的样本自己去跑WB或者PCR呗
Periostin表达水平,Hippo/YAP通路激活index和糖酵解代谢通路激活index三者的关系;
补充Hippo/YAP通路激活index和糖酵解代谢通路激活的热图;
找不到一模一样的数据集怎么办?找比较疾病形成过程比较接近的也是可以的,自己做转录组也便宜不是吗?一个样本也就1k左右;
那今天的分析就到这里了哦!如果有特别想看非肿瘤的GEO数据挖掘的小伙伴,请点一下右下角的“在看”!
在看>30
↓↓
小编肝一篇「非肿瘤GEO数据挖掘」的介绍课程
在看>100
↓↓
小编肝一整期「免费」的「非肿瘤GEO数据挖掘」视频课程