惊！3个同样的数据挖掘策略居然同时发表 / 开普饭

总是有粉丝问，都2020年了，公共数据库数据挖掘文章还能发吗？

这个问题怎么说呢，生命科学领域的数据挖掘课题的发表主要是靠工作量，很少有新颖或者前沿，无非就是替换癌症替换分子替换生物学功能基因集，我整理过大家耳熟能详的策略，有：

差异分析+PPI网络+hub基因
WGCNA+hub基因
诊断模型构建
预后模型构建
肿瘤免疫，CIBERSOFT计算的LM22比例分组，以及ESTIMATE算法等等
m6A等生物学功能基因集
药敏信息

（mRNA，lncRNA，miRNA，甲基化，蛋白）均可走上述流程，也就是说33种癌症乘以5种亚型，乘以5种分子，乘以15个策略就已经是过万篇数据挖掘课题了，而且你仔细搜索一下就发现，真的是已经有了过万篇数据挖掘文章了哦！

五年前我授课的时候，能学会的很少，所以基本上大家都很容易发出去，但是现在各个癌症甚至各个癌症亚型都是几十上百篇类似的数据挖掘文章了。很多都论文本科生毕业设计层次了，暑假前我就举办了优秀本科生数据挖掘毕业设计课题辅导活动，已经带领了近100多名优秀本科毕生了解生物信息学，并且完成了相关毕业设计，见：这120万我就不要了，送给500名优秀本科生，

但是你如果硬是要把这样的数据挖掘工作去写作投稿也是没有问题的，只要是不是造假，没有明显的错误，工作量到了就很ok的。毕竟那么多期刊，他们期刊本身也在发愁没有人投稿呢。

数据挖掘的核心是缩小目标基因

各种数据挖掘文章本质上都是要把目标基因集缩小，比如表达量矩阵通常是2万多个蛋白编码基因，不管是表达芯片还是RNA-seq测序的，采用何种程度的差异分析，最后都还有成百上千个目标基因。如果是临床队列，通常是会跟生存分析进行交集，或者多个数据集差异结果的交集，比如：多个数据集整合神器-RobustRankAggreg包，这样的基因集就是100个以内的数量了，但是仍然有缩小的空间，比如lasso等统计学算法，最后搞成10个左右的基因组成signature即可顺利发表。

其实还有另外一个策略方向，有点类似于人工选择啦，通常是可以往热点靠，比如肿瘤免疫，相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析，仅仅是拿着几千个免疫相关基因的表达矩阵即可。

最近比较热门的有：自噬基因，铁死亡，EMT基因，核受体基因家族，代谢基因。还有一个最搞笑的是m6a基因，完全是无厘头的基因集搞小，纯粹是为了搞小而搞小。最近看到讨论群大家列出这3片文献，问它们到底有啥差别，为什么同一个时间段，同一个癌症的m6a策略，居然都可以发表？

3个文献的解读如下：

第1篇：m6A RNA methylation regulators have prognostic value in papillary thyroid carcinoma

文章信息是：https://doi.org/10.1016/j.amjoto.2020.102547 ， Received 6 January 2020

从TCGA网站上下载PTC的RNA-seq转录组数据和相应的临床信息
用limma包寻找显著的差异基因阈值(false discovery rate of <0.05 and foldchange of >2)
找到了13个基因：YTHDF2, HNRNPC, WTAP, RBM15, YTHDC2, YTHDC1, FTO, METTL14, METTL3, ALKBH5, KIAA1429, YTHDF1, and ZC3H13. 并画出热图和火山图
用单因素Cox回归评估这13个基因和总体生存期的关系(OS) 阈值(Hazard ratio > 1,risk genes)，risk gene包括：FTO，KIAA1429，RBM15
用Cox风险比例回归模型计算风险系数
lasso 回归，根据风险系数和risk gene建立风险预测公式。
根据公式，计算每个患者的风险评分，然后使用中位风险评分作为临界值将患者分为高风险和低风险组
分别绘制高风险和低风险组的Kaplan–Meier生存曲线，并使用two-sided Log-rank testing 评估两组之间的OS差异。
计算ROC和AUC来评估筛选基因的诊断价值
用R包pheatmap画出基因在不同临床病理特征下的热图
用单因素Cox回归和多因素Cox回归判断风险评分是否是独立预测指标

m6a相关基因集的表达量差异热图展示如下：

第一篇的m6a相关基因集的表达量差异热图

第2篇：Identifcation and validation of m6A RNA methylation regulators with clinical prognostic value in Papillary thyroid cancer

文章是：Wang et al. Cancer Cell Int (2020) 20:203

从TCGA GDC网页下载PTC的转录组数据，体细胞突变数据和临床信息数据(493primary tumor tissue and 58 solid normal tissue)，主要用TCGA数据分析，用GSE58545，Human Protein Atlas，Genotype-tissue expression (GTEx)验证分析结果。
用VarScan软件和R包maftools分析single nucleotide polymorphisms(SNP)数据。用segmentation analysis and GISTIC2.0 algorithm分析copy number variations(CNVs)数据。
用R包NMF对TCGA数据进行非负矩阵分解一致性聚类识别，分成两类。并用R包survival分别比较cluster1和cluster2之间的OS和disease-free survival(DFS)。
用R包WGCNA建立基因共表达矩阵，用KEGG和GO注释通路，(阈值p < 0.05)
用R包caret将TCGA数据集分为训练集和测试集，lasso回归计算风险评分，将患者分为高风险组和低风险组。
用单因素Cox回归评估哪些基因和DFS相关
分别绘制高风险和低风险组的Kaplan–Meier生存曲线，并使用Log-rank testing 评估在不同分组情况下两组的差异。
计算ROC和AUC来评估筛选基因的诊断价值
用单因素Cox回归和多因素Cox回归判断风险评分是否是独立预测指标

m6a相关基因集的表达量差异热图展示如下：

第2篇的m6a相关基因集的表达量差异热图

第3篇：Prognostic values of m6A RNA methylation regulators in differentiated Thyroid Carcinoma

文章发表情况是：Received: 2019.10.15; Accepted: 2020.05.12; Published: 2020.07.06

从TCGA下载DTC数据(509 tumor and 58 normal)
使用edgeR分析甲基化矩阵,阈值( false discovery rate <0.05 and |log2 fold change| >2),用limmma包分析基因表达矩阵
去除缺失值((509 tumor and 58 normal)，看所选基因是否独立于临床病理特征。
用ConsensusClusterPlus包将DTC分为两组，用glnmet包和survival包(LASSO回归和Cox回归)计算risk score
根据risk score把DTC划分为高风险组和低风险组
用K-M曲线和ROC曲线判断所找出的基因是否有生存预测能力
用GSE33630, GSE35570, GSE60542验证预测模型

m6a相关基因集的表达量差异热图展示如下：

第3篇的m6a相关基因集的表达量差异热图

数据挖掘背后都是统计可视化

我们都组建过完善的知识点直播群，不过大家能看到这个推文，肯定是都错过了，钉钉群有限制只能是1000人，所以大家可以试试看，哪个钉钉群还可以加入，里面的录屏和资料，都是可以学习的哈。

WGCNA-流程及原理细节直播互动授课（今晚八点）,35928729
生存分析速成指南,赶紧收藏！,35371384
ID转换靠的是深厚的背景知识加上一点代码技巧,35371384
R语言公益课程之bioconductor,32524659
转录组公益课（含单细胞）(名额有限,先到先得),31064154

惊！3个同样的数据挖掘策略居然同时发表

数据挖掘的核心是缩小目标基因

3个文献的解读如下：

第1篇：m6A RNA methylation regulators have prognostic value in papillary thyroid carcinoma

第2篇：Identifcation and validation of m6A RNA methylation regulators with clinical prognostic value in Papillary thyroid cancer

第3篇：Prognostic values of m6A RNA methylation regulators in differentiated Thyroid Carcinoma

数据挖掘背后都是统计可视化

相关推荐