GEO数据库中国区镜像横空出世

接收到太多的粉丝求助,想下载个表达矩阵做一下数据挖掘偏偏第一步就卡在了,数据文件下载半天毫无动静,或者下载到99%就卡死了。如果我恰好在电脑旁,通常会帮忙下载后微云或者百度云传递给粉丝,但这毕竟不是长久之计。

经过个把月的不懈努力,我终于把全部的GEO数据库里面的表达芯片数据都下载并且全部格式化处理成为r数据文件,并且购置一个2万块钱的腾讯云服务器来存放它们,供广大粉丝使用!

下载使用GEOmirror

有3种方法,如果都失败了,我就没办法说什么了。

Install the development version from Github:

library(devtools)
install_github("jmzeng1314/GEOmirror")
library(GEOmirror)

If it failed, just because your bad internet. You can also download this project directly into your computer, and then install it locally.

Or just use source function to load the codes of geoChina function, as below:

source('http://raw.githubusercontent.com/jmzeng1314/GEOmirror/master/R/geoChina.R') 

What if all these 3 methods failed? I'm so sorry, what' a pity that there's no chance for you to use our GEOmirror !!

安装成功后,加载我们的R包会有一个提示,妈妈以后再也不用担心自己不知道怎么样致谢生信技能树团队啦!

image-20191130112132080

这个就是官方致谢:在感恩节官宣!(文末有惊喜哈)

使用起来非常方便,就一句话,找到你的GSE数据集的ID,传给我们的函数即可:

use it to download GEO dataset, as below :

eSet=geoChina('GSE1009') 
eSet=geoChina('GSE27533') 
eSet=geoChina('GSE95166') 

举一个简单的例子

Once you download the ExpressionSet of GEO dataset, you can access the expression matrix and phenotype data:

## download GSE95166 data
# https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE95166
#eSet=getGEO('GSE95166', destdir=".", AnnotGPL = F, getGPL = F)[[1]]
library(GEOmirror)
eSet=geoChina('GSE95166')
eSet
eSet=eSet[[1]]

probes_expr <- exprs(eSet);dim(probes_expr)
head(probes_expr[,1:4])
boxplot(probes_expr,las=2)

## pheno info
phenoDat <- pData(eSet)
head(phenoDat[,1:4])
# https://www.ncbi.nlm.nih.gov/pubmed/31430288

groupList=factor(c(rep('npc',4),rep('normal',4)))
table(groupList)
eSet@annotation
# GPL15314    Arraystar Human LncRNA microarray V2.0 (Agilent_033010 Probe Name version)

对于这一点表达矩阵数据集,我们可以看看PCA图,火山图以及热图:

image-20191130112636685

代码如下:

genes_expr=probes_expr
library("FactoMineR")
library("factoextra")
dat.pca <- PCA(t(genes_expr) , graph = FALSE)
dat.pca
fviz_pca_ind(dat.pca,
             geom.ind = "point",
             col.ind = groupList,
             addEllipses = TRUE,
             legend.title = "Groups"
)
library(limma)
design=model.matrix(~factor(groupList))
design
fit=lmFit(genes_expr,design)
fit=eBayes(fit)
DEG=topTable(fit,coef=2,n=Inf)
head(DEG)
# We observed that 2107 lncRNAs were upregulated
# while 2090 lncRNAs were downregulated by more than 2-fold,
# NKILA among these downregulated lncRNAs (Fig 1A, GSE95166).

## for volcano plot
df=DEG
attach(df)
df$v= -log10(P.Value)
df$g=ifelse(df$P.Value>0.05,'stable',
            ifelse( df$logFC >1,'up',
                    ifelse( df$logFC < -1,'down','stable') )
)
table(df$g)
df$name=rownames(df)
head(df)
library(ggpubr)
ggpubr::ggscatter(df, x = "logFC", y = "v", color = "g",size = 0.5,
          label = "name", repel = T,
          label.select =head(rownames(df)),
          palette = c("#00AFBB", "#E7B800", "#FC4E07") )
detach(df)

x=DEG$logFC
names(x)=rownames(DEG)
cg=c(names(head(sort(x),100)),
     names(tail(sort(x),100)))
cg
library(pheatmap)
n=t(scale(t(genes_expr[cg,])))
n[n>2]=2
n[n< -2]= -2
n[1:4,1:4]
ac=data.frame(groupList=groupList)
rownames(ac)=colnames(n)  
pheatmap(n,show_colnames =F,show_rownames = F,
         annotation_col=ac)

实际上,这个时候,我们需要把探针的ID转换为基因名字,进行后续分析,不过这个比较复杂超出了本文范围,感兴趣的看:(重磅!价值一千元的R代码送给你)芯片探针序列的基因组注释

是不是很激动,想试试看

同样的代码,你可以处理自己的数据集哦。

因为功能非常简单,just a replacement of getGEO function from GEOquery package.

所以是不会有bug的,但是,也许大家在使用的过程有新的需求,我可以酌情根据时间来开发增加功能,感兴趣可以进入我们的交流群:4年前的TCGA重磅资料你学了吗

当然了,表达芯片的公共数据库挖掘系列更多教程,见推文 ;

(0)

相关推荐

  • R语言GEO数据处理(二)

    #1. GEO数据的下载 ##1.1 方法一:下载RAW Data数据 ##1.2 方法二:下载series Matrix表达数据 rt <- read.table("GSE56814 ...

  • GEO数据库中国区镜像奔走相告啊

    最近还是大量粉丝留言表示自己因为疫情困在家里,想做数据挖掘混个本科毕业论文,但是看完我的GEO数据挖掘视频后,想下载个数据集,就被卡死了,实在是巧妇难为无米之炊! 这个不怪大家,我给大家的免费的GEO ...

  • 你的GEO中国区镜像该升级啦

    备份了GEO数据库里面的几乎全部的表达量芯片数据集的表达量矩阵和临床信息矩阵 版本日志 不来呢是不准备更新GEOmirror了,因为GEOmirror功能都被我的annoprobe包给包含了,但是&q ...

  • 重磅!中文版GEO数据库来了!

    没有样本,没钱测序,如何拿别人的数据来发自己的文章呢? 公共数据库挖掘呀! 众所周知,TCGA和GEO是最著名的两大公共数据库,前者主要存储高通量(二代测序)数据的肿瘤样本数据(TCGA的0代码可视化 ...

  • GEO数据库使用教程及在线数据分析工具

    GEO数据库全称GENE EXPRESSION OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库.它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就 ...

  • 从GEO数据库下载得到表达矩阵 一文就够

    在第一讲我们详细介绍了GEO数据库的基础知识及规律,也了解了如何利用官方R包GEOquery来探索GEO数据库,当然,我的生信菜鸟团博客里面也从很多其它角度解析过它,欢迎大家自行搜索学习.总得来说,从 ...

  • 一万人陪你学习GEO数据库挖掘知识(公益视频听课笔记分享)

    耗费半年的时间精心制作了成套的生物信息学入门视频教程,并且在生信技能树联盟平台发布了这个长达74个小时全套生物信息学入门视频:生信技能树视频课程学习路径,这么好的视频还免费! 在B站看了看,大家学的热 ...

  • 读取GEO数据库的单细胞转录组表达矩阵文本文件的一种方式

    最近在读AUCell包的文档,链接是:http://bioconductor.org/packages/release/bioc/html/AUCell.html,这个包的教程我已经写完了, 在 :使 ...

  • 上传数据到GEO数据库实战笔记

    师兄的文章要送审,编辑让把RNA-seq的数据传到GEO数据库上,今天就在传这个数据. 之前没传过数据,今天就是一边学一边搞这个. 一.注册账号 先注册一个GEO账号 二.准备工作 选择Data ty ...

  • GEO数据库的这个功能你知道吗

    不知不觉在单细胞转录组领域做知识分析也快两年了,很幸运聚集了一些小伙伴携手共进,我们承诺不间断更新5个月,把我们这两年的学习成果全部掏出来给大家,希望大家都能有所收获!当然也欢迎大家加入我们,勇于分享 ...