跟着Nature Medicine学MeDIP-seq数据分析
虽然MeDIP-seq数据分析教程一直挂在我的博客(http://www.bio-info-trainee.com/)的主页,如下:
但实际上我并没有这样的MeDIP-seq项目数据,仅仅是凭借着我自己五年前的一些表观数据处理经验,迁移到了MeDIP-seq数据处理上。其它表观数据处理教程见:
最近看到于2020年6月发表在,的文章:《Detection and discrimination of intracranial tumors using plasma cell-free DNA methylomes》公布了非常完善的MeDIP-seq数据分析细节。这个文章比较复杂:
先获取患者生物液体(如血浆)中循环的无细胞DNA(ctDNA),对其进行甲基化后,再利用无细胞甲基化DNA免疫沉淀和高通量测序(cfMeDIP-seq)的方法,回收在血浆中的甲基化DNA并实现测序。
利用不同类型甲基化肿瘤DNA之间存在的差异甲基化区域(DMRs),将这些区域所对应相应处理后数据同各种类型肿瘤DNA进行比对,利用机器学习建立的数据库,最终实现肿瘤类别诊断。
该方法在仅需使用到患者生物液体的情况下,便达到了医用目的。MeDIP-seq数据算是这篇文章的重心,所以其上传了MeDIP-seq数据的Rdata形式,以及配套的rmd代码。
数据和代码具有可重复性
其实我们分享过代码海洋,也是类似的效果,数据和代码都具有可重复性。不过,这个MeDIP-seq数据并没有上传到代码海洋,其链接是:https://zenodo.org/record/3715312#.X7R9RJMzbsp
可以看到数据如下:
AnnotationsFullCohort.csv 5.1 kB
BrainData_v2.RData 99.0 MB
Bridge_450k.RData 5.5 MB
Bridge_EPIC.RData 11.4 MB
CombinedRPKM_Updated.RData 126.1 MB
Farshad_ArraySignature.csv 3.4 kB
FilteredSignatures_forExtMachineLearning.RData 30.5 MB
GBM_RF.RData 4.9 MB
GliomaVOthers_plasmaDMRs.RData 84.1 kB
Gliomas_BetaValues_all850k_nongliomaremoved.RData 680.1 MB
MGMTData.RData 351 Bytes
MGMT_wholeMethylomeModels.RData 1.4 MB
MVPStatistics_CellLines.RData 636.6 MB
MapTable.txt14.0 kB
MipChip_MeDIPWindows.RData 728.8 kB
Models_BloodLowSpec.RData 4.8 MB
Models_GBMspec.RData 4.9 MB
OnevAll_Splits_mk2.RData 21.3 kB
PairedAnalyses_all_NoLymphoma.RData 421.1 MB
Parsed_ValidationData.RData 89.3 MB
Plasma_NormalvGliomas.RData 25.7 MB
QCFail.txt 4.7 kB
以及代码如下:
CorrelationPlots_Production.Rmd 9.8 kB
ML_filteredAnalyses_Production.Rmd 8.5 kB
ML_master_production.Rmd 31.6 kB
Multiclass_production.Rmd 28.5 kB
OnevAllClassifiers.R 30.6 kB
SplitModelling.R 3.4 kB
cfMeDIP_CustomFunctions.R 1.6 kB
这篇文章自己的甲基化芯片数据在:GSE122126. 同时采用了CCLE数据库的甲基化数据集,在 GSE68379. 甲基化芯片数据处理教程见:免费视频课程《甲基化芯片数据分析》