TCGA数据下载与ID转换

2024-06-23 03:49:31

咱公众号也不能只做一个系列，所以经过深思熟虑，打算将来慢慢增加一些内容，主要有以下几个系列

TCGA数据分析系列

GEO数据分析系列

"老板给一个基因，我该怎么办"系列

文献阅读系列

R语言学习系列

Python学习系列

今天继续我们的TCGA数据分析系列。

TCGA数据下载

TCGA数据下载的方式有很多，本次我们利用UCSC Xena数据库下载数据，网址是：https://xenabrowser.net/。该平台内置了一些公共数据集，比如来自TCGA, ICGC等大型癌症研究项目的数据，不仅可以对数据进行分析，而且还提供了对应文件的下载功能。

打开后界面是这样的

点击DATA SETS，里面有很多数据集，我们选择TCGA肝癌数据

接着我们选择HTSeq-Count

这里可以看到值log2（count+1），为什么加一呢，因为很多基因的表达值是0，无法取log。

下载下来，解压后打开是这个样子

接下来我们进行差异分析

首先加载R包

rm(list = ls())#一键清空#安装并加载R包if(length(getOption("CRAN"))==0) options(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")if(!require("rtracklayer")) BiocManager::install("rtracklayer")if(!require("tidyr")) BiocManager::install("tidyr")if(!require("dplyr")) BiocManager::install("dplyr")if(!require("DESeq2")) BiocManager::install("DESeq2")if(!require("limma")) BiocManager::install("limma")if(!require("edgeR")) BiocManager::install("edgeR")

读取数据

#导入表达谱数据LIHCdata=read.table("TCGA-LIHC.htseq_counts.tsv",header=T,sep='\t')LIHCdata[1:4,1:4]

利用我们之前讲到的方法去掉ensemble ID的点号R语言学习系列之separate {tidyr}

LIHCdata1<-separate(LIHCdata,Ensembl_ID,into = c("Ensembl_ID"),sep="\\.") LIHCdata1[1:4,1:4]

接下来我们需要对ID进行转换，转换的方法也有很多，有R包，在线数据库。小工具等，这里我们通过下载最新版的GTF文件来进行转换。

首先，打开ensembl网址：http://asia.ensembl.org/index.html

点击Download

再点击Download database

再点击human的GTF文件

下载Homo_sapiens.GRCh38.99.chr.gtf.gz文件

然后放到我们R语言的工作目录内，打开文件

gtf <- rtracklayer::import('Homo_sapiens.GRCh38.99.chr.gtf.gz')#转换为数据框gtf <- as.data.frame(gtf)

查看文件，保存文件为Rdata，将来方便我们直接打开

dim(gtf)save(gtf,file = "Homo_sapiens.GRCh38.99基因组注释文件.Rda")

可见文件有290万行，27列，由于GTF文件中，基因ID的列名是gene_id,所以我们把LIHCdata1中的基因列名改成一样的，方便后续合并

colnames(LIHCdata1)[1]<-'gene_id'

通过浏览文件看到我们需要的主要信息在

1 type，这一列我们需要选择gene

2 gene_biotype，这一列我们需要选择protein_coding，当然你也可以选择其他的种类，比如miRNA，长链非编码等。

所以我们首先把蛋白编码的基因的行都筛选出来

a=dplyr::filter(gtf,type=="gene",gene_biotype=="protein_coding")dim(a)

这个时候a文件只有19939行了，列下来我们只选择gene_name，gene_id和gene_biotype这三列，其他都不要了

b=dplyr::select(a,c(gene_name,gene_id,gene_biotype))b[1:4,]

接下来用LIHCdata1和b文件中共有的gene_id列还合并文件

c=dplyr::inner_join(b,LIHCdata1,by ="gene_id")c[1:5,1:5]

再去掉第2，3列，基因名再去重

d=select(c,-gene_id,-gene_biotype)mRNAdata=distinct(d,gene_name,.keep_all = T)

把行名由数字换成基因

rownames(mRNAdata)<- mRNAdata[,1]mRNAdata<-mRNAdata[,-1]

我们下载的数据取过了log2（count+1），这里我们再返回count

mRNAdata <- 2^mRNAdata -1

保存文件，大功告成！

write.csv(mRNAdata,"mRNAdata.csv",quote = F,row.names = T)save(mRNAdata,file = "mRNAdata.Rda")

好了，今天先讲到这，下回我们来进行后续的差异分析。

使用不匹配的gtf版本信息会导致近一半ID无法转化

太多人有这样的疑问,为什么自己进行ID转换的时候,成功率很低,今天就为你解惑. 当我们遇到了这样一个表达矩阵(其实就是从tcga数据库下载,通过ucsc的xena浏览器啦): dim(exprSet) ...
转录组Count格式数据转化为FPKM/TPM格式

很多时候我们得到的转录组格式为Count,例如在TCGA数据库下载的数据,如果我们想使用FPKM格式或者TPM,那么就需要转换,不过TCGA数据库也提供了FPKM的格式,貌似miRNA数据只有Coun ...
GFF和GTF的异同及相互转换

GFF(gff)全称为:general feature format GTF(gtf)全称为:gene transfer format 前者用来注释基因组,后者用来注释基因. 异同点: GTF文件和G ...
一份TCGA数据可以发N篇SCI

曾经有人问:一份TCGA数据可以几篇SCI?答案:N篇. 你要是不信的话可以看看证明给你看.例如一份mRNA 数据和临床数据可以做常规的差异分析,功能分析,生存分析,构建模型等等. 按照上面这个常规套 ...
TCGAbiolinks数据下载TCGA数据

欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事. TCGAbiolinks数据下载TCGA数据下载TCGA数据的方法有很多,但比较好用的包我认为就是TCGAbiolinks,T ...
从TCGA下载的甲基化数据格式解读

谢京合关注 0.5022020.10.28 17:56:10字数 844阅读 600 我的天,第一次接触甲基化数据,真是令人头大. 那就先从TCGA上下载某一种癌症的甲基化数据开始吧. 1.下载. 数 ...
lncRNA组装流程的软件介绍之Stringtie

咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...
TCGA数据下载方式小结

之前对TCGA做了简单的了解,粗略了解了什么是TCGA,TCGA是做什么的等,接下来肯定是要学会如何下载TCGA数据,毕竟只有下载了数据才能继续学习官网常规下载 TCGA自2016年改版后,下载方式 ...
UCSC xena 浏览器才是最简单的TCGA数据下载途径

不知道为什么总是有人问我TCGA数据下载这么简单的问题,这问题简单到如何下载人类的hg19.fa这个参考基因组一下,就是http://hgdownload.cse.ucsc.edu/goldenpat ...
TCGA数据下载—TCGAbiolinks包参数详解

TCGA是目前使用最多的肿瘤组学数据库,虽然群主已经录制TCGA系列视频教程: 悄咪咪的上线了TCGA知识图谱视频教程(B站和YouTube直达) 里面也提到了各种下载工具,但是作为学徒的我,学习过后 ...
tcga数据下载

各位科研芝士的朋友,大家好,今天我们继续分享关于TCGA数据下载的专题,之前给大家推出了四个推文,全部是无代码进行数据下载,如果我们想进一步提升自己的水平,那我们从今天开始,开启R语言编程下载TCGA ...
TCGA的28篇教程- 数据下载就到此为止吧

长期更新列表: 使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的R ...
TCGA转录组差异分析后多种基因功能富集分析：从GO/KEGG到GSEA和GSVA/ssGSEA（含基因ID转换）

TCGA转录组数据在完成差异分析后,我们通常希望系统地获取这些成百上千的差异基因的功能信息,帮助我们分析下游实验的思路.面对大量的差异基因,逐个查询基因功能是不切实际的.所以我们需要借助基因功能富集分 ...
TCGA学习01：数据下载与整理

前言交代 1.学习参考之前参加了生信技能树花花老师的TCGA数据挖掘试讲课,收获很多,最近整理一下上课笔记,同时参考了老师的简书相关教程.生信入门的朋友也可微信加入生信星球公众号,个人觉得很好的一个 ...
手把手教你用R语言下载TCGA数据：UCSCXenaTools – sci666

各位朋友,大家好,今天我们继续分享关于TCGA数据下载的专题,之前给大家推出了四个推文,全部是无代码进行数据下载,如果我们想进一步提升自己的水平,那我们从今天开始,开启R语言编程下载TCGA数据教程推 ...
TCGAbiolinks下载TCGA数据

欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事. TCGAbiolinks数据下载TCGA数据下载TCGA数据的方法有很多,但比较好用的包我认为就是TCGAbiolinks,T ...

TCGA数据下载与ID转换

TCGA数据下载

相关推荐