再次强调表达量矩阵分析一定要三张图
我在生信技能树的教程:《你确定你的差异基因找对了吗?》提到过,必须要对你的转录水平的全局表达矩阵做好质量控制,最好是看到标准3张图:
左边的热图,说明我们实验的两个分组,normal和npc的很多基因表达量是有明显差异的 中间的PCA图,说明我们的normal和npc两个分组非常明显的差异 右边的层次聚类也是如此,说明我们的normal和npc两个分组非常明显的差异
如果分组在3张图里面体现不出来,实际上后续差异分析是有风险的。这个时候需要根据你自己不合格的3张图,仔细探索哪些样本是离群点,自行查询中间过程可能的问题所在,或者检查是否有其它混杂因素,都是会影响我们的差异分析结果的生物学解释。
就有很多小伙伴问出处,凭什么我这样教大家,以及为什么他并没有在很多文献里面看到我说的3张图呢?
老实说,并没有出处,我就是出处,爱听不听!至于为什么你自己看到的少,有3个原因,因为这3张图是最原始的质量控制,很多人会默认肯定是高质量数据集没有必要展现出来,另外一个原因就是可能他数据集质量很差就不敢展示或者说他知识结构有缺陷压根就不知道这回事。
至少在我看来,有这样的三张图绝对是加分项,比如发表于2021年9月27日,美国康奈尔医学院周乔课题组在***Cell Stem Cell*** 期刊,文章标题是:《SATB2 preserves colon stem cell identity and mediates ileum-colon conversion via enhancer remodeling》,在线阅读链接 是:https://doi.org/10.1016/j.stem.2021.09.004 在附件就提到了这样的三张图:
有了这样的的铺垫,我才会认可你的差异分析结果,接下来你可以自定义阈值来判断统计学显著的差异上下调基因,进行分别的生物学功能富集:
数据挖掘的核心是缩小目标基因
各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。其实还有另外一个策略,有点类似于人工选择啦,通常是可以往热点靠,比如肿瘤免疫,相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析,仅仅是拿着几千个免疫相关基因的表达矩阵即可。
如果大家对数据挖掘的中间过程的合理性不好把握,建议看完我两年前带学徒的时候,安排他们做的文献关键图表复现作业系列笔记分享,如下:
第一期(2018年秋季)
保姆式GEO数据挖掘演示--重现9分文章 GEO数据挖掘-第一期-胶质母细胞瘤(GBM) GEO数据挖掘-第二期-三阴性乳腺癌(TNBC) GEO数据挖掘-第三期-口腔鳞状细胞癌(OSCC),WGCNA GEO数据挖掘-第四期-肝细胞癌(HCC),WGCNA GEO数据挖掘-第五期-肝细胞癌(HCC)-多组分开差异分析 GEO数据挖掘-第六期-RNA-seq数据也照挖不误 TCGA数据库的TP53突变型和TP53野生型BRCA病人的差异分析结果 GEO数据库的耐药与敏感的患者组织内的成纤维细胞比较 TCGA数据库中三阴性乳腺癌在亚洲人群中的差异表达 TCGA数据库的有PIK3CA基因突变的肿瘤病人的转录水平变化 TCGA数据库里面的乳腺癌的芯片表达数据进行差异分析
第二期(2019年全年)
1. 公共数据辅助乳腺癌的免疫治疗机制研究 2. 有生物学意义的复杂热图 3. 干扰MYC‑WWP1通路重新激活PTEN的抑癌活性——3步搞定GSEA分 析 4. 按基因在染色体上的顺序画差异甲基化热图 5. 热图、⻙恩图、GO富集分析图(有了转录组数据不知道该怎么写⽂ 章,看我就对了!) 6. 纯R代码实现ssGSEA算法评估肿瘤免疫浸润程度 7. 肿瘤异质性+免疫浸润细胞数据挖掘(可能是最简单的3分⽂章了) 8. ArrayExpress数据库的基因芯⽚原始数据处理,3D主成分图及聚类热 图 9. 学徒数据挖掘第⼆期汇总之多分组基因注释代码⼤放送 10. TCGA数据辅助甲基化区域的功能研究 11. 你确定你的差异基因找对了吗? 12. 看nature⽂章是如何设计和使⽤普通转录组数据 13. 不⼀定正确的多分组差异分析结果热图展现 14. 如果传统bulk转录组数据队列⾜够⼤也可以使⽤单细胞流程 15. 最简单的芯⽚挖掘也会出错(菜⻦团周⼀数据挖掘专栏第?期) 16. 乳腺癌的IHC分类和PAM50分型的差异情况