我是如何发现850K甲基化芯片和EPIC的区别

有粉丝求助,她做850K甲基化芯片数据处理的时候,使用champ流程,然后报错非常诡异,是Failed CpG Fraction,各种查资料都无法解决,我让她复制粘贴报错的关键信息,如下:

[ Section 3: Use Annotation Start ]

Reading 850K Annotation >>

Fetching NEGATIVE ControlProbe.
    Totally, there are 613 control probes in Annotation.
    Your data set contains 556 control probes.

Generating Meth and UnMeth Matrix
    Extracting Meth Matrix...
      Totally there are 485512 Meth probes in 850K Annotation.
      Your data set contains 485512 Meth probes.
    Extracting UnMeth Matrix...
      Totally there are 485512 UnMeth probes in 850K Annotation.
      Your data set contains 485512 UnMeth probes.

Generating beta Matrix
  Generating M Matrix
  Generating intensity Matrix
  Calculating Detect P value
  Counting Beads
[ Section 3: Use Annotation Done ]
---
中间省略
---
[ Section 2: Filtering Start >>

Filtering Detect P value Start
    The fraction of failed positions per sample
    You may need to delete samples with high proportion of failed probes:

Failed CpG Fraction.
sample1                 NaN
sample2                NaN 
---后面省略一些样本
Error in if (any(numfail >= SampleCutoff)) { : 
  missing value where TRUE/FALSE needed

也帮忙去各种检索,但确实没有好的解决方案,就让她发过来2个G的原始数据和代码,认真检查了好久,看起来就是我的教程的代码,一模一样啊!

myLoad <- champ.load("raw/",arraytype="850K")

而且我看了她关于"raw/"文件夹下的idat文件,以及制作好的'raw/sample_sheet.csv'文件,都是合格的。没办法,我只好看champ.load函数的帮助文档了:

champ.load(directory = getwd(),
           method="ChAMP",
           methValue="B",
           autoimpute=TRUE,
           filterDetP=TRUE,
           ProbeCutoff=0,
           SampleCutoff=0.1,
           detPcut=0.01,
           filterBeads=TRUE,
           beadCutoff=0.05,
           filterNoCG=TRUE,
           filterSNPs=TRUE,
           population=NULL,
           filterMultiHit=TRUE,
           filterXY=TRUE,
           force=FALSE,
           arraytype="450K")

刚开始一直看不出问题所在,但是最后注意到了:

arraytype 这个参数的选择是:
Choose microarray type is "450K" or "EPIC".(default = "450K")

也就是说,没有850K这个选项,有意思,于是我修改了代码,如下:

#myLoad <- champ.load("raw/",arraytype="850K")
myLoad <- champ.load("raw/",arraytype="EPIC")

确实解决了这个报错,成功运行champ流程,载入idat文件后的日志如下:

 Filtering probes with a detection p-value above 0.01.
    Removing 3813 probes.
    If a large number of probes have been removed, ChAMP suggests you to identify potentially bad samples

Filtering BeadCount Start
    Filtering probes with a beadcount <3 in at least 5% of samples.
    Removing 22027 probes

Filtering NoCG Start
    Only Keep CpGs, removing 2889 probes from the analysis.

Filtering SNPs Start
    Using general EPIC SNP list for filtering.
    Filtering probes with SNPs as identified in Zhou's Nucleic Acids Research Paper 2016.
    Removing 95451 probes from the analysis.

Filtering MultiHit Start
    Filtering probes that align to multiple locations as identified in Nordlund et al
    Removing 11 probes from the analysis.

Filtering XY Start
    Filtering probes located on X,Y chromosome, removing 16655 probes from the analysis.

Updating PD file

Fixing Outliers Start
    Replacing all value smaller/equal to 0 with smallest positive value.
    Replacing all value greater/equal to 1 with largest value below 1..
[ Section 2: Filtering Done ]

All filterings are Done, now you have 725072 probes and 24 samples.

很有意思哦,850K甲基化芯片和EPIC的差异是?我明明是在各种教程及文档,看到850K甲基化芯片和EPIC是同一个芯片的不同表述而已:

  • Illumina公司提供了一个更强大的甲基化分析平台:Illumina InfiniumMethylationEPIC BeadChip (DNA甲基化850K芯片),不但包含了原450K芯片90%以上的位点,并额外增加了增强子区的350,000个位点,可以对正常样本和FFPE样本单个CpG位点进行定量甲基化检测,该芯片是目前最适合甲基化图谱分析研究的全基因组DNA甲基化芯片。
  • 850K芯片覆盖了全基因组853,307个CpG位点,全面覆盖CpG岛、启动子、编码区及增强子。覆盖CpG岛、RefSeq基因、ENCODE开放染色质、ENCODE转录因子结合位点、FANTOM5增强子区域。

这就是很神奇了,但我又不是公司客服,懒得去探索了。

甲基化教程目录

甲基化芯片视频课程免费在B站

《甲基化芯片(450K或者850K)数据处理 》

  • 教学视频免费在:https://www.bilibili.com/video/BV177411U7oj

  • 课程配套思维导图:https://mubu.com/doc/1cwlFgcXMg

  • 甲基化芯片相关资料,https://share.weiyun.com/42a9e78c2dd5367f3427e86c5c99baa1 按需下载,不要整个文件夹全部下载

  • 表观全部资料,https://share.weiyun.com/5tg6pIn 同样是按需下载,不要整个文件夹全部下载

当然了,如果你完全看不懂这些,说明你可能需要手把手教学,考虑一下生信技能树官方入门学习班哦!

(0)

相关推荐

  • 学一学DNA甲基化芯片分析流程

    今天是生信星球陪你的第778天 大神一句话,菜鸟跑半年.我不是大神,但我可以缩短你走弯路的半年~ 就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~ 这里有豆豆和花花的学习历程,从新手 ...

  • Illumina甲基化芯片是什么?Illumina甲基化芯片操作步骤

    一.Illumina甲基化芯片 人类的许多疾病(包括癌症)是由于异常的甲基化引起的.Illumina甲基化芯片是一种DNA甲基化高通量筛选技术,精确到单个碱基的甲基化变化.单碱基分辨率实现了基因区域和 ...

  • 850K甲基化芯片数据的分析

    作者是生信技能树组建的表观遗传学学习小组的小组长,前面已经发过一个: 学员分享-Chip-seq 实战分析流程 本文是看到生信技能树有个450K甲基化芯片数据处理传送门,我呢,恰好不久前用一个集成度很 ...

  • 850K甲基化芯片的TSS附近信号值曲线绘制

    本来呢,这应该是一个教程,但最近是过年休假期间,我也不能无限制的回答粉丝提问,所以借<生信技能树>的便利给他发一个有偿求图的的宣传: 很可惜,我没有现成代码,所以无法"举手之劳& ...

  • 我是如何发现夏朝的:古埃及第一王朝王表的艰难破译

    从文化比较角度,看到古埃及文化与中国华夏文化存在诸多相似性,进而去猜想夏朝是不是在埃及,这个很容易做到.正如汪涛先生所言: 相似本质上是一种相关分析,而相关分析主要作为一种发现因果关系的工具.因此,进 ...

  • 表达谱及甲基化芯片是什么?表达谱及甲基化芯片应用

    一.简介 DNA甲基化是核酸和蛋白质的一种重要修饰方式,通过影响染色质结构,DNA构象,稳定性以及与蛋白质相互作用等方式来调节基因的表达和关闭,与各种细胞功能.胚胎发育.癌症发生.衰老等许多生理性状相 ...

  • 揭秘!我是如何发现新能源汽车主升浪?

    资金为王 追踪主流资金,精耕热点题材,踩住市场节奏.选股选美,将低吸高抛进行到底. 上周四,新能源汽车板块以比亚迪涨停为标志达到高潮,周五板块却冲高回落. 趁周末的时间我来总结一下,我是如何发现新能源 ...

  • 我是怎么发现消费电子板块要走强的?

    资金为王 追踪主流资金,精耕热点题材,踩住市场节奏.选股选美,将低吸高抛进行到底. 强者恒强,选择已经在上涨且还会大涨的主流资金聚集的板块龙头. 1.RPS翻红优先一切: 让股价强度说明一切,RPS& ...

  • 人生有捷径吗?我是这样发现捷径的

    面对生活的艰辛,很多人想走捷径,那人生真的有捷径吗? 我觉得某种角度是有的,很多事都有规律可循,比如挣钱的规律.创业的规律.阶级逆袭的规律. 巴菲特有一个著名的理论,人的一生就像一张纸,上面只能打 2 ...

  • 我是如何发现桔梗治疗痛风病的

    (2016-07-23 19:07:18) 转载▼标签: 健康分类: 医药秘方 我是如何发现桔梗治疗痛风病的作者:新竹旧竹1983年我第一次痛风病发作,左脚母趾红肿.烫手,并引起整个左脚水肿,疼痛难忍 ...