HTA芯片(学徒探索任务)

年前我们布置过一个 agilent芯片的探索任务,很可惜,没有人接单,也许是得等我某一天遇到了,或者时间充裕了会去解决它吧!现在再来一个疑难杂症吧,就是生不逢时的Affymetrix Human Transcriptome Array 2.0芯片的数据处理。

前面我提到过[HTA-2_0] Affymetrix Human Transcriptome Array 2.0芯片的分析其实挺麻烦的,首先需要搞清楚下面3个平台的差异:

  • GPL17586    [HTA-2_0] Affymetrix Human Transcriptome Array 2.0 [transcript (gene) version]

  • GPL19251    [HuGene-2_0-st] Affymetrix Human Gene 2.0 ST Array [probe set (exon) version]

  • GPL16686    [HuGene-2_0-st] Affymetrix Human Gene 2.0 ST Array [transcript (gene) version]

HTA芯片设计的时候覆盖了 ~560 k exons and ~340 k exon-exon junctions , 而且比mRNA-Seq 便宜,稳定性好。

看看TP53这个基因上面的探针设计

我们在 https://www.easana.com/ 网页搜索,可以看到主要的探针都集中在TP53中间的外显子上面:

TP53基因上面的HTA芯片探针

如果具体看探针的坐标,如下:

一个基因的全部探针的坐标

可以看到是29个探针,序列也清清楚楚,还可以csv下载,探针主要是集中是e5-e15, 跟TP53基因结构示意图吻合。

如果以外显子为单位看表达差异

反正都是表达矩阵,以外显子为单位和基因为单位,理论是差不多啦,没有根据注释文件映射到基因名字之前,都是一个ID而已。在 https://www.easana.com/ 网页可视化如下:

以外显子为单位看表达差异

但是这样的示意图肯定没办法发表咯,你可以尝试新的可视化花样。

关于EASANA

其实EASANA是商业软件genosplice的一个可视化功能而已,上面的示意图比较好的介绍了HTA芯片的基因的多个探针的表达量差异情况。

我简单摸索了一下,没有看到人家下载,看样子是需要发邮件给这个商业软件的销售人员一对一的讲解和获取。一般来说,这样的软件在中国大陆是没有市场的, 所以干脆略过了。

实际上affymetrix公司自己有TAC软件

比如有一些文章里面就会明确写出来,采用的是affymetrix公司出品的软件 TAC进行处理。一般来说,购买的如果是商业公司提供的芯片服务,肯定是会有配套的数据分析。可惜的是,大多数情况下,真心想用好HTA芯片数据的小伙伴并不是购买服务的人,而是想挖掘它背后价值的。

TAC软件

可以看到这个软件有一个探索可变剪切的模块,而且这个也的确是大量使用了HTA芯片的文章写作落脚点。如果你发现你的领域有一个公共数据库就是HTA芯片,但是创造数据集的研究者们并没有落脚到可变剪切。那么你就应该是意识到,这可能是你可以努力的方向。

另外一个商业软件partek也很流行

partek这个软件应该是在海外非常流行,我看到不少文献提到了partek,甚至跟affymetrix公司出品的软件 TAC差不多的使用频率。

image-20200205121009699

当然了,具体我也没有用过啦。

学徒作业

跟agilent芯片一样,agilent芯片需要摸索使用 Agi4x44PreProcess包完成E-MTAB-3017数据集的表达矩阵获取。当然了,也可以根据分组,走一下差异分析标准代码。

而我们的HTA芯片,也是需要摸索一个包,好像还在GitHub上面,就是EventPointer,Romero et al. BMC Genomics (2016) 17:467 DOI 10.1186/s12864-016-2816-x 有时间,又想做一些挑战性的数据分析的朋友可以考虑入坑!

标准分析流程,火山图,热图,GO/KEGG数据库注释等等。这些流程的视频教程都在B站和GitHub了,目录如下:

  • 第一讲:GEO,表达芯片与R

  • 第二讲:从GEO下载数据得到表达量矩阵

  • 第三讲:对表达量矩阵用GSEA软件做分析

  • 第四讲:根据分组信息做差异分析

  • 第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析

  • 第六讲:指定基因分组boxplot指定基因list画热图

感兴趣可以细读表达芯片的公共数据库挖掘系列推文 ;

文末友情宣传
(0)

相关推荐

  • 肿瘤全面分析数据库:oncomine使用介绍

    在做肿瘤研究的时候,我们现在都知道可以提前查一下基因的表达和临床特征有没有相关性 ,这样对我们的下一步实验也是一个预测的方向.经典的我们可以使用TCGA的数据来进行分析,我们之前介绍的GEPIA就可以 ...

  • 华为官宣!全新麒麟9010芯片将探索芯片纯国产化:首发搭载3nm工艺

    [5月27日讯]相信大家都知道,自从华为消费者业务CEO余承东明确表态:"在美国新一轮"芯片禁令"下,华为麒麟9000芯片将成为绝版麒麟旗舰芯片产品."确实也是 ...

  • 老宇哥带你一起探索芯片内部的精彩世界

    一花一世界,一叶一菩提,芯片内部也是一样,都有成千上万个晶体管在里面,芯片设计工程师们在里面构建一个特殊的世界,还有一些专属的图腾标志,接下来跟着老宇哥,我们一起深入几款芯片内部的微观世界,非常震撼! ...

  • GEO表达芯片平台 — GPL14951,注释文件探索过程

    最近jimmy老师在学徒群了扔了一个数据挖掘文献图表复现任务,作为老师的新晋小透明学徒,希望可以表现一下,在分析数据集GSE62133时,并没有其平台GPL14951相应的注释包,把这个探索过程分享一 ...

  • Agilent芯片表达矩阵处理(学徒作业)

    Agilent的芯片同样也是扫描得到图片,然后图像处理(主要是Agilent Feature Extraction (AFE) 软件)得到信号值,但是值得注意的是这个时候有两个信号值矩阵,分别是:th ...

  • 学徒作业:给你8个甲基化探针, 你在tcga数据库进行任意探索

    我喜欢把TCGA数据库的应用划分为8个领域: 1.探索各类肿瘤不同临床特征(性别.年龄.种族.临床分期)的预后(生存曲线) 2.探索各类肿瘤与对照的单个分子(mRNA,lncRNA,miRNA,甲基化 ...

  • RNA芯片和测序技术的比较(学徒作业)

    有学员提出来了一个问题,就是可以比较同样实验设计的表达量探索研究,一个研究使用的是芯片,一个是测序,看看两者的差异基因情况的overlap情况.其实这样的例子非常多,比如下面这样的展现方式: 下面给大 ...

  • 学徒任务-探索DNA甲基化的组织特异性

    表观调控领域关于DNA甲基化的研究绝对是一个热点,尤其是有那么多的技术,WGBS,RRBS,450K/850K芯片.早在2014年发表在Genome Biology 的文章:DNA methylome ...

  • 一个甲基化芯片数据被挖掘好几次(学徒作业)

    前面我在<生信技能树>的教程:什么,你感兴趣的GEO数据集没有关联到原始文献出处,提到了一个GSE数据集是可以关联到很多文献,如果这个数据集被挖掘过.但是举例子的时候留空白了,居然被眼尖的 ...

  • 学徒笔记——芯片数据的注释文件获取

    目前芯片数据的分析流程都可以通过AnnoProbe包简单的完成上游分析,包括表达矩阵获取.分组方案的构建和数据注释,但是也存在一些平台的数据无法被该包直接获取.AnnoProbe获取注释信息的方式是通 ...