人类研究有GTEx数据库那么大鼠和小鼠研究呢

2024-07-30 05:07:34

GTEx数据库想必大家并不陌生了，通常我们在挖掘TCGA数据库的时候，会发现该项目纳入的正常组织测序结果是非常少的，也就是说很多病人都不会有他的正常组织的转录组测序结果。

比如说乳腺癌吧，1200个左右的转录组数据，其中1100左右都是肿瘤组织的测序数据，只有区区100个左右的正常对照。这个时候我们就需要想办法加大正常组织测序样本量，既然TCGA数据库没有，我们就从其他数据库着手。这里值得大力推荐的是GTEx数据库 ,Genotype-Tissue Expression (GTEx)

最近有粉丝询问，他想做小鼠的不同癌症模型，想问问看能不能纳入人类研究领域的GTEx数据库，如何去批次效应，如何转换基因名字。

我觉得这纯粹是绕远路了啊，简单搜索一下大鼠或者小鼠研究自己的数据库资源不是更好吗。

比如：于2017年12月发表在的：An RNA-Seq atlas of gene expression in mouse and rat normal tissues

链接是：https://www.nature.com/articles/sdata2017185
The dataset provides the transcriptome across tissues from three male C57BL6 mice and three male Han Wistar rats.
数据集上传到了：ArrayExpress E-MTAB-6081 (2017)

A complete list of the 77 tissue samples with sample ids is given in Table 1.

详细信息如下：

Design Type(s)	species comparison design · organism part comparison design
Measurement Type(s)	transcription profiling assay
Technology Type(s)	RNA sequencing
Factor Type(s)	Species · animal body part
Sample Characteristic(s)	Mus musculus · Rattus norvegicus · brain · colon · duodenum · esophagus · heart · ileum · jejunum · kidney · liver · pancreas · quadriceps femoris · stomach · thymus

看了看，走的是STAR aligner 流程，有意思的是在使用featureCounts定量之前居然对bam文件进行了去重操作。

因为是RNA-seq数据，所以提供了counts, rpkm, tpm这3种形式的数据

R-code provided in Supplementary S2. 感兴趣的可以看看：

## load the data (counts, rpkm, tpm) mouseEnv$counts <- read.table("./data/mouse_counts.txt", check.names = F) mouseEnv$rpkm <- read.table("./data/mouse_rpkm.txt", check.names = F) mouseEnv$tpm <- read.table("./data/mouse_tpm.txt", check.names = F) mouseEnv$pre.design <- read.table("./data/mouse_design.txt", check.names = F)

ratEnv$counts <- read.table("./data/rat_counts.txt", check.names = F) ratEnv$rpkm <- read.table("./data/rat_rpkm.txt", check.names = F) ratEnv$tpm <- read.table("./data/rat_tpm.txt", check.names = F) ratEnv$pre.design <- read.table("./data/rat_design.txt", check.names = F)

研究者采用limm做差异分析

蛮简单的：

## use limma to get voom-normalized log(cpm) values for (e in c(mouseEnv, ratEnv)) { group <- factor(e$pre.design[,"group"]) design <- model.matrix(~0+group) colnames(design) <- levels(group) ## put counts into DGE object and normalize dge <- DGEList(counts=e$counts) ## ignore if not expressed in at least one sample isexpr <- rowSums(cpm(dge)>1) >= 1 dge <- dge[isexpr,keep.lib.sizes=FALSE] dge <- calcNormFactors(dge) e$v <- voom(dge,design) }

附件的R代码也可以学习下，比如下面这个图，难道你不想知道是如何绘制的吗？：

有源代码的图哦

当然了，需要R语言基础，不然看起来磕磕碰碰。

年龄相关差异基因分析数据库

我们人体的基因表达情况是会随着年龄的变化发生变化的.通过了解正常人当中那些基因随着年龄会发生变化,对于研究和年龄有关的疾病也有种重要的作用.今天就来介绍一个年龄有关基因表达数据库:ADEIP (htt ...
点进来，免费帮你做单基因泛癌表达分析（TCGA+GETx）

相信绝大多数研究肿瘤的科研工作者的工作都离不开某个特定的基因,现在绝大部分的单基因的生信文章也都有这么一个图,我就随便列举一些文章的Figure1 比如再比如再比如再比如再比如再比如再比如 ...
生信新思路：正常组织的选择性多聚腺苷酸化数据库

昨天介绍的TC3A是基于TCGA肿瘤数据来进行分析的,而这次的这个APA atlas (https://hanlab.uth.edu/apa/)则是基于GTEx的数据来分析的.如果不清楚TCGA和GT ...
生信工具 | TCGA数据分析工具GEPIA最新更新，用于免疫细胞浸润分析

GEPIA(http://gepia.cancer-pku.cn/index.html)这个工具可以说是分析TCGA数据库数据分析工具中比较简单好用的工具了,包括生存分析,表达差异分析,相关性分析等, ...
TCGA、ICGC、GTEx 数据库都是啥？

我们在进行数据库介绍,尤其是肿瘤相关数据库的时候,经常会提到说这个使用了 TCGA/GTEx 数据库的数据,那么这两个数据库到底是什么呢?为什么会有用这两个数据库呢?另外呢,由于最近ICGC提的也比 ...
疾病甲基化研究利器--DiseaseMeth数据库，开启你的研究新方向！

我们大家都知道在人类疾病发生中DNA甲基化修饰发挥着重要作用,尤其影响癌的发生发展,所以研究某一基因在疾病发生中作用情况,我们可以来探讨一下目的基因的甲基化情况.很多与甲基化相关的数据库都是基于TCG ...
人类的极限寿命是多少岁？科学家通过研究基因，得出了什么结论？

"天地混沌如鸡子,盘古生其中.万八千岁,天地开辟,阳清为天,阴浊为地--天日高一丈,地日厚一丈,盘古日长一丈.如此万八千岁,天数极高,地数极深,盘古极长.后乃有三皇",盘古是混沌之 ...
人类是被设计出来的产物？科学家研究DNA，发现了“造物者”

地球上的生命不仅是人类,其他动植物也有他们的基因.换句话说,基因是所有生物最基本的结构.所以生物学家和遗传学家一直在研究人类基因更深层的奥秘. 事实上,科学家很久以前就注意到了基因的奇异性.直到198 ...
Neuron：成立人类疼痛细胞和网络联盟——加速推进疼痛研究和临床转化

慢性疼痛仅在美国影响就超过5000万人,每年会造成超过3000亿美元的直接医疗费用.目前可用的慢性疼痛治疗方法通常无效或具有较大的副作用.事实上,在过去十年中,阿片类药物用于慢性疼痛导致相关的过量死亡 ...
重磅！利用人类皮肤细胞培养功能齐全的肝脏，最新研究或将改变器官移植范式

匹兹堡大学医学院( University of Pittsburgh School of Medicine)的研究人员利用人类志愿者的皮肤细胞创建了功能齐全的微型肝脏,并将其移植到五只大鼠宿体内且成功 ...
科研 | Am. J. Hum. Genet.：在西班牙裔社区健康研究中，一项全基因组相关研究发现了人类代谢组的46个基因座

编译:阿温,编辑:Tracy.江舜尧. 原创微文,欢迎转发转载. 导读人体代谢物水平的变化反映了体内平衡的变化,为了解健康和疾病提供了一个窗口.在西班牙裔这个心脏代谢疾病高发的人群中,基因对循环代谢 ...
为了给人类腾出地球，恐龙突然灭绝？新研究显示恐龙“被消失”

最近的研究表明,恐龙的灭亡似乎很突然,在小行星撞击将它们从地球表面抹去之前,恐龙正在"蓬勃发展". 以前,科学家认为6500万年前发生灾难性的"大规模灭绝"事件 ...
基于CNKI数据库的我国数学教材研究热点可视化分析

基于CNKI数据库的我国数学教材研究热点可视化分析教材是经国家.地方教育部门许可的,向每一代学生呈现人类知识和文化的权威版本,是课程的物化载体,是教与学的重要媒介,是教师组织学生学习活动的重要思路与 ...
原创人类是被设计出来的产物？科学家研究DNA，发现了“造物者”

原创人类是被设计出来的产物?科学家研究DNA,发现了"造物者" 2021-05-26 13:39 楼上老范随着科学的进步,人类发现了越来越多关于自己DNA的秘密.科学家发 ...

人类研究有GTEx数据库那么大鼠和小鼠研究呢

因为是RNA-seq数据，所以提供了counts, rpkm, tpm这3种形式的数据

研究者采用limm做差异分析

相关推荐