表达量矩阵并不一定要上传到GEO或者ArrayExpress

最近在系统性整理单细胞转录组图谱计划,发现了一个有意思的数据共享方式,就是2018的小鼠单细胞图谱,文章标题是:《A single-cell transcriptomic atlas characterizes ageing tissues in the mouse》,链接是:https://www.nature.com/articles/s41586-020-2496-1

作者:Tabula Muris Consortium · 2018 · 截止到2021-06-11被引用次数:480

该文描述了斯坦福大学、陈-扎克伯格生物中心以及加州大学旧金山分校的研究人员建立的名为Tabula Muris的开源数据库,主要包括对小鼠20个器官和组织的超10万个单细胞的转录组图谱,及对不同组织和细胞类型的基因表达的比较。

以figshare形式分享

FigShare接受研究者上传图表、多媒体、海报、论文(包括预印本)和多文件、数据集等,提供了当前学术出版所不具备的一种文件共享模式。采用Creative Commons 许可协议共享数据,减少版权纠纷,使全球科学家可以存取、共享信息。

这篇文章在文章给出来了两个数据分享链接:

  • 10.6084/m9.figshare.5715040 for FACS/Smartseq2
  • 10.6084/m9.figshare.5715025 for 10X data.

而且如此出名的数据集,在R语言的bioconductor也有整理好的数据对象:https://bioconductor.org/packages/devel/data/experiment/vignettes/TabulaMurisData/inst/doc/TabulaMurisData.html

suppressPackageStartupMessages({
    library(ExperimentHub)
    library(SingleCellExperiment)
    library(TabulaMurisData)
})
#> snapshotDate(): 2021-05-05

eh <- ExperimentHub()
#> snapshotDate(): 2021-05-05
query(eh, "TabulaMurisData")

#> ExperimentHub with 2 records
#> # snapshotDate(): 2021-05-05
#> # retrieve records with, e.g., 'object[["EH1617"]]'
#>
#>            title               
#>   EH1617 | TabulaMurisDroplet  
#>   EH1618 | TabulaMurisSmartSeq2

可以看到,同样的也是两个分开了的表达量矩阵,他们走到是 SummarizedExperiment 流派,并不是seurat流派,所以有自己的一套对象规则, 也有 自己的网页工具:(2018). “iSEE: Interactive SummarizedExperiment Explorer.” F1000Research, 7, 741. doi: 10.12688/f1000research.14966.1.

也有纯粹文章附件形式分享

比如文章 2021 Mar 11. doi: 10.1016/j.ccell.2021.02.013,标题是:《Progressive immune dysfunction with advancing disease stage in renal cell carcinoma》,数据仅仅是附件:

supplementary Data S1: Data S1.

ScRNA-seq raw count matrix (part 1 of 2), after quality control filtering, with genes as rows and cell barcodes as columns, related to Figure 1–6, S1–3, and S5.

NIHMS1692222-supplement-supplementary_Data_S1.zip (143M) 这个是压缩包,解压后是5个多G的csv文件,有3万多行的基因

GUID: 217E8B40-EB49-4FF5-AEF5-57BBBA4DAE61

supplementary Data S2: Data S2.

ScRNA-seq raw count matrix (part 2 of 2), after quality control filtering, with genes as rows and cell barcodes as columns, related to Figure 1–6, S1–3, and S5.

NIHMS1692222-supplement-supplementary_Data_S2.csv (1.7G) ,仅仅是1万多行的基因

GUID: 34477B69-0F73-4D9A-B926-66981E1D5D4A

文章对其单细胞实验设计描述的很清楚是:We performed single-cell RNA and T cell receptor sequencing (scRNA-seq/scTCR-seq) on 164,722 individual cells from tumor and adjacent non-tumor tissue in patients with ccRCC across disease stages – early, locally advanced, and advanced/metastatic.

但是让我失望的是,文章附件展示的csv文件是不全的!!!

为什么不老老实实的上传到GEO或者ArrayExpress呢?

(0)

相关推荐

  • GEO数据集详细介绍

    昨天我们GEO数据库的检索方式.但是对于里面的每一个数据集内容没有详细的解释,这次呢,我们就来介绍一下每个数据集里面包括哪些内容. 这次我们用GSE79973数据集进行介绍.(https://www. ...

  • R语言GEO数据挖掘01-数据下载及提取表达矩阵

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘. 这一节的内容包括应用 GEOquery包下载芯片数据,提取表达矩阵,提取m ...

  • 比GEO2R更好用的GEO数据分析工具

    之前在介绍GEO数据库数据分析的时候,我们介绍过GEO2R这个在线的分析GEO芯片数据的工具.但是对于GEO里面的一些二代测序的数据,就没办法进行分析了.最近新发布了一个在线的数据库eVITTA,则可 ...

  • 除了GEO,其实我们还可以挖掘这个数据库

    很多人知道都GEO这个数据库,但是很多人忽略了这个数据库,这个数据库是什么呢?那就是--ArrayExpress ArrayExpress是什么? ArrayExpress是主要科学期刊推荐的存储库之 ...

  • 表达量矩阵分组很复杂也可以使用limma的3大策略

    学徒和学员已经陆续出师,是时候把生信技能树的舞台交给后辈了! 下面是<GEO数据挖掘课程>的配套练习题 我把3年前的收费视频课程:3年前的GEO数据挖掘课程你可以听3小时或者3天甚至3个月 ...

  • 这里的乳腺癌表达量矩阵数据集更多

    前面我们分享了 你还缺乳腺癌表达量数据集吗,里面有34个数据集,然后热心的粉丝留言了另外一个包:MetaGxBreast ,里面的数据集更多.同样的也值得介绍 安装和加载MetaGxBreast相信已 ...

  • 差异分析要的是表达量矩阵,基因名字并不重要啊

    太多人咨询基因的各种ID转换问题,在非模式生物的物种里面更麻烦,因为数据库注释资源并不权威. 但是实际上这样的基因ID转换也不是必须的,因为差异分析要的是表达量矩阵,基因名字并不重要啊,后面的注释也是 ...

  • 3个分组的表达量矩阵的两两之间差异分析

    总是有粉丝询问多个分组的两两之间差异分析如何弄这样的问题,其实"师傅领进门,修行在个人",我们讲解了方法并且给予的全部的学习资源,理论上后续应该是大家各凭本事,做好自己的科研. l ...

  • CNS图表复现11—RNA-seq数据可不只是表达量矩阵结果

    前言 前面我们提到了:CNS图表复现10-表达矩阵是如何得到的,有粉丝提问,既然都开始走RNA-seq数据的上游分析了,到Linux服务器操作了,难道仅仅是为了拿到表达矩阵文件吗?RNA-seq数据分 ...

  • 居然可以把rpkm这样的归一化并且带小数点的转录组表达量矩阵直接取整

    rm(list = ls())  ## 魔幻操作,一键清空~ options(stringsAsFactors = F)#在调用as.data.frame的时,将stringsAsFactors设置为 ...

  • 把单细胞表达量矩阵换一个单位

    一般来说单细胞表达量矩阵都是以基因为单位,我们可以很容易走常规的降维聚类分群并且合理的进行生物学命名,比如我们对官方 pbmc3k 例子,跑标准代码: library(Seurat) # https: ...

  • 针对TCGA数据库全部的癌症的表达量矩阵批量运行estimate

    关于这个estimate,我们在生信技能树公众号已经是多次分享了,主要是因为肿瘤本身具有异质性而且肿瘤取样问题,所以我们拿到了肿瘤数据(比如表达量矩阵)里面除了恶性癌症细胞的,还有基质细胞和免疫细胞的 ...

  • 表达量矩阵全部更改为0-1矩阵会影响降维聚类分群吗?

    常规的读入10x的3个文件,需要自己根据下面的网址去下载 pbmc3k_filtered_gene_bc_matrices.tar.gz 文件,并且解压哦,然后  Read10X 函数读入解压后的文件 ...