3种方法注释你的甲基化探针

关于表达芯片的公共数据库挖掘我这边以及差不多把改写的推文在2年前就写完了,但表达芯片毕竟只占芯片市场的半壁江山,还有大量的非表达芯片,比如大名鼎鼎的甲基化芯片。关于甲基化,我们公众号教程非常少,主要是因为我本人在短暂的6年生物信息学工作经验中并没有实际负责过这样的项目,而我们公众号90%教程都是我写的,极少的投稿里面,只有 850K甲基化芯片数据的分析 让我印象深刻,所以我的学徒也是跟着这个教程在学习甲基化芯片数据处理。

但是学徒反馈说这个教程没有提到芯片的探针如何注释到基因,所以就安排他做了这个补充,下面让我们看学徒的表演!

甲基化芯片背景

甲基化芯片原理:https://www.jianshu.com/p/c4f758e0399d

芯片主要分为EPIC和450k两种,EIPC也就是850k,两种探针的都是以cg开头的数字编号,所谓注释也就是提取这些探针的所对应的信息,例如,探针序列的CpG位置信息,对应的基因信息,染色体上的位置信息,等等。很多包在安装的时候都会自动下载这些注释信息,并包装在一起,如果我们想要自己注释这些探针,就要考虑如何获取独立的注释信息。而所需要注释数据的,大部分都来自于两个数据库,GEO和TCGA

下面介绍三种提取注释信息的方法

# 方法一:从UCSC Xena下载

直接从UCSC Xena相应的癌症甲基化数据库里下载对应的文件。可以看到是来自GPL16304平台的芯片,其实和下面要介绍的从GEO下载注释信息是一样的,不过TCGA的探针数可能会少于45w,大约39w,因为提前过滤了一些低质量的探针。

# 方法二:从GEO下载对应平台的注释文件

在GEO的官网platform下搜索Illumina HumanMethylation450,可以看到450k的芯片主要来自三个平台,探针数也是不一样的,TCGA中下载时一般都会标明来自那个平台,从GEO中下载数据都会得知平台的信息。直接进入对应平台的介绍就可以了。

看一下最常见的GPL13534平台的内容
可以看到有1295个GSE数据集来自这个平台,可以利用的数据相当多,这里给出了一部分数据的概览

表格中展示了部分信息,直接下载然后就可以提取我们需要的注释信息了,485577个探针一个不差,可能是因为我网速的问题,只有下载CSV这个的时候速度比较快,其他速度都非常感人

可以看到信息非常全面了,但实际上我们并用不到这么多,有下面这些就够了

ids<-a[,c("IlmnID",
          "Infinium_Design_Type",
          "CHR",
          "UCSC_RefGene_Name",
          "UCSC_RefGene_Group",
          "UCSC_CpG_Islands_Name",
          "Relation_to_UCSC_CpG_Island")]

#可以看到,包含了探针的名称,探针类型(可用来去批次),染色体编号,对应的基因名,在染色体上的位置信息,以及与CpG岛的位置信息,这样就可以注释差异的探针了

# 方法三:从ChAMP包中提取

这个方法严格来说其实是从ChAMP依赖的两个注释包中提取的,但是我又懒又笨,懒得看原始的包里数据藏在哪里了,ChAMP包在做甲基化分析的时候也很方便,而其中champ.filter函数直接就提取好了

myimport <- champ.import(directory=system.file("extdata",package="ChAMPdata"))
myImport=myimport#包里的演示代码有个小细节错了,没有区分大小写,无伤大雅的
myfilter <- champ.filter(beta=myImport$beta,pd=myImport$pd,detP=myImport$detP,beadcount=myImport$beadcount)
View(hm450.manifest.hg19)
View(probe.features)#两个信息是一样的,包已经把我们需要的信息自动提取了

850k和450k本质上没有什么区别,所以方法都是通用的。

写在后面

以上教程,来自于2019年9月份学徒,谢谢大家观看!

实际上,芯片探针如果有坐标,也可以参考:对bed格式的基因组区间文件进行基因注释

表达芯片的公共数据库挖掘系列推文感兴趣的也可以去看看;

10月巡讲

1

南京场

10.12-10.14

2

南宁场

10.26-10.28

课程内容

1

生信R语言入门

2

GEO数据库挖掘

5

生信-Linux基础

6

转录组课题设计与流程分析

(0)

相关推荐

  • 一篇最基本生信分析文献解读

    利用一周多的时间,我们把最最基本的生信套路来讲解了一遍.正好前几天一个小伙伴拿了一篇相关文献在咨询问题.这里就拿这篇文献来总结一下我们目前写的这些东西. 这次我们来讲解的这边文献是2019-10-12 ...

  • MethSurv:TCGA甲基化分析工具

    导语 DNA甲基化是当前研究最多的表观遗传修饰,对于促进胚胎发育,基因组印记和X染色体失活等重要生物过程至关重要.在甲基化研究的技术手段中,HM450K芯片在癌症甲基化组数据集中占主导地位.TCGA数 ...

  • 社保没交满15年的有救了!新规下,这5种方法一定要知道!

    在社保中,大家除了关注医保外,对养老金的关注度也很高,毕竟养老金是很多退休老人的主要生活来源. 我们都知道,只有当退休时缴纳了至少15年社保,才能拿到养老金.根据不同地区的不同规定,需要缴纳15年.2 ...

  • 健康早知道|老花眼年轻化 这几种方法让你彻底摘掉老花镜

    健康早知道|老花眼年轻化 这几种方法让你彻底摘掉老花镜

  • 书法这样写,越写越有味!(10种方法分享)

    在美学角度而言,书法是一种视觉造形艺术,讲究变化与造势.下面,我们总结书法10种变化,悟懂和实践这些变化,越写越清爽.越有味! 大 小 变 化 三个同样大小的字,笔划的粗细与多少差不多的,若相连在一起 ...

  • 危机时期管理业务的7种方法

    对于我们所有人来说,疫情是不确定的时期,现金流量很少的小型企业主尤其感到紧缩.为了帮助你确定如何在诸如冠状病毒等危机时期管理业务,我们与世界领先的管理专家进行沟通,以下是一些要点,Azides博士为你 ...

  • 不确定时期保持稳定招聘的5种方法

    在疫情这些不稳定的时期, 你如何才能维持稳定的招聘流程,并继续为候选人提供与目标和价值观一致的优质体验? 通过数字化,诚实的沟通,发展员工以及大量急需的同理心,这仍然是可能实现的,在不确定时期保持稳定 ...

  • 提高员工敬业度的11种方法

    组织必须对自己的业务计划以及在疫情爆发期间的工作方式进行大量调整.他们比以往任何时候都更加需要敬业的员工来度过这个充满挑战的时期,他们需要为马拉松而不是短跑做准备,这种全球性流行病不可能在一夜之间消失 ...

  • 降低员工流失率的21种方法

    尽管进行了数百年的创新,但对于当今的组织而言,不必要的员工流动仍然是一个大问题,我们写出21种简单的方法来帮助你降低员工流失率. 01 不要让员工无聊 即使你的员工疯狂地爱上了他们的工作,但在职业生涯 ...

  • HR专业发展的8种方法?

    我们都知道学习的好处.但是,我们也知道学习需要时间,通常是我们根本没有的时间.很难在日常通勤.日常工作.家务.与朋友和家人的宝贵时间周围找到学习的空间.但是,当我们忽略自己的专业发展时,我们就有被落伍 ...

  • 选择高价值HR项目的5种方法?

    选择高价值HR项目的5种方法?