TCGA的28篇教程-整理GDC下载的xml格式的临床资料
长期更新列表:
使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的RTCGAToolbox包获取TCGA数据 (FireBrowse portal)TCGA的28篇教程- 批量下载TCGA所有数据 ( UCSC的 XENA)TCGA的28篇教程- 数据下载就到此为止吧
TCGA的28篇教程- 指定癌症查看感兴趣基因的表达量TCGA的28篇教程- 对TCGA数据库的任意癌症中任意基因做生存分析
临床资料因为一直在更新,很多朋友可能需要去下载最新版的,所以不得不使用GDC官网下载的方式。
GDC给出了一系列的用户友好的选择框,你只需要根据条条框框来选择就可以下载到自己想要的数据,而不需要去几百个文件夹里面漫无目的的查找了。 https://gdc-portal.nci.nih.gov/legacy-archive/search/f 根据自定义搜索过滤条件拿到了 mainfest 文件就可以使用下面代码下载:
# https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
mkdir -p ~/biosoft/gdc_client
cd ~/biosoft/gdc_client/
wget https://gdc.cancer.gov/system/files/authenticated%20user/0/gdc-client_v1.3.0_OSX_x64.zip
wget https://gdc.cancer.gov/system/files/authenticated%20user/0/gdc-client_v1.3.0_Ubuntu14.04_x64.zip
unzip gdc-client_v1.3.0_OSX_x64.zip
/gdc-client --help
./gdc-client download --help
mkdir clinical
./gdc-client download -m ~/Documents/Nutstore/github/TCGA-KIRC-miRNA-example/GDC/gdc_manifest.2018-08-05-clinical.txt -d clinical
# Successfully downloaded: 522
mkdir miRNAseq
./gdc-client download -m ~/Documents/Nutstore/github/TCGA-KIRC-miRNA-example/GDC/gdc_manifest.2018-08-05-LUAD-miRNA-seq.txt -d miRNAseq
# Successfully downloaded: 567
或者直接从微云下载:链接:https://share.weiyun.com/5XsyuzH 密码:68pm7e
但是有个很严重的问题是该下载方式会对每一个病人给出一个xml格式文件记录着临床信息。
简单给一个代码:
# Load the packages required to read XML files.
library("XML")
library("methods")
dir='/Users/jmzeng/biosoft/gdc_client/miRNAseq/'
all_fiels=list.files(path = dir ,pattern='*.xml$',recursive=T)
cl = lapply(all_fiels
, function(x){
#x=all_fiels[1]
result <- xmlParse(file = file.path(dir,x))
rootnode <- xmlRoot(result)
xmldataframe <- xmlToDataFrame( rootnode[2] )
return(t(xmldataframe))
})
cl_df <- t(do.call(cbind,cl))
save(cl_df,file = 'GDC_TCGA_LUAD_clinical_df.Rdata')
得到的生存资料如下所示:
是不是很简单呀,赶快去试试看吧!
而且有了这样的生存资料,根据我前面的讲解,很容易就可以做出性别或者年龄是否影响生存哦!!!