高通量数据下载还能这样操作?
本文属于转录组入门系列(RAN-seq基础入门传送门 http://www.biotrainee.com/thread-1750-1-1.html )第2部分内容,以一篇Nature文章为例,详细解读如何从NCBI下载高通量测序数据。
文章
AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
数据
根据文章中的提示,打开NCBI上的GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)
在搜索框中输入登录号“GSE81916”。在新打开的页面中,拉到底端即可看到文章的可下载数据。其中Download family是经过GEO数据库整理和标准化的数据,Supplementary file是原始数据,提供SRA格式的文件(通过ftp下载)和bw压缩格式的文件(通过 http下载, 点击custom可以选择要下载的文件)
ftp链接打开后显示有15个SRR文件
点击custom后显示有15个bw文件(bw文件是精简版的bam文件),可以选择想要的文件后再下载。
根据“Sample”以及“Overall design”中的信息可以大概看出,属于RNA-seq的数据有:第9-15个样品,即GSM2177723到GSM2177729。但是它们对应的是哪些SRA文件呢?
以GSM2177724为例,直接点击,一路点下去我们就能看到它对应的是SRR3589957.sra这个文件。
从NCBI下载数据
那么如何下载这些数据呢? GEO数据库已经给出了答案:
但是看完后依然不明白具体的下载方法,于是我自己摸索出了以下的下载方法:
1.直接点击http或者ftp连接依次点击下载全部打包文件。
这个方法下载速度很慢。
2.linux下通过sratoolkit工具中的prefetch命令下载:
prefetch SRR3589948
这种方法常常出现链接失败,或者链接断掉。
3.参考某篇博客中提到的方法
( http://blog.sina.com.cn/s/blog_7f1542270102wdk4.html ):NCBI---SRA---搜索SRP075747---选择全部文件---send to----file---format:Runifo---creat file 即生成一个SraRuninfo.csv的文件,根据文件中的下载地址,用wget命令批量下载:
tail -n +1 SraRuninfo.csv | tr ',' '\t' | xargs -i echo {} >> sampleinfo.txt #将csv文件中的逗号分割替换成tab分割
head -n1 sampleinfo.txt | tr '\t' '\n' | nl | grep "path" #查找其中下载路径是第几列
10 downloas_path #返回结果显示是在第10列
tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i wget -c {} #依次提取每一行中的第10列,并利用wget进行下载
#依次下载太慢,可以生成脚本并行下载
tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i echo wget -c {} \& >> download.sh #生成脚本
bash download.sh #运行脚本进行并行下载
4.使用Aspera
教程: http://boyun.sh.cn/bio/?p=1933 以及: http://blog.csdn.net/xubo245/article/details/50513201 但是实际操作时我在Aspera官网上看到“Aspera connect ”有server和client两种
Server版的点击后毫无反应
Client版的只有windows系统下的浏览器插件
根据提示在window上安装好aspera后,再进入 GEO数据库尝试下载sra文件,但是 aspera并不启动。 后来,终于找到了这一篇文章: http://mp.weixin.qq.com/s/oCmngiD3-zBDx6cUC4Fw 原来通过Aspera下载,需要进入到特定的NCBI网址: https://www.ncbi.nlm.nih.gov/projects/faspftp/
从这里根据SPR075747这个study编号,找到文章中所有的原始数据,就可以通过 Aspera client下载了,速度嘛,也不快,300多k。
5.使用GEOquery
无意中找到Jimmy大神的一篇帖子( http://www.bio-info-trainee.com/bioconductor_China/software/GEOquery.html ),介绍了用R包GEOquery下载GEO数据库中的数据的方法,可参考。
以上就是我尝试的5种下载方法,最终我还是通过命令行的方法批量下载的。尽管下载的过程中我也学到了不少新技能,但是相对于我的目标(分析数据)来说,花太多时间纠结下载方法其实并不好,应该尽量将精力集中在最核心的技能的学习中。生物信息分析中最核心的技能是什么?环境配置?软件安装?数据下载不,不是。而应该是解读数据,从数据中回答生物学问题!这才是我们应用生物信息学的最终目的。
作业
关于GEO/SRA数据库
GEO数据库
GEO数据库隶属于NCBI,是最大最全面的基因表达数据库,主要是芯片和转录组测序数据。除储存数据外,也提供一些数据挖掘工具,因此利用好这个数据库,没有实验,没有自己的数据也能发好文章!
参考介绍: https://wenku.baidu.com/view/907abb0c1711cc7931b716e4.html
SRA文件的存放
从NCNI的这个站点( https://www.ncbi.nlm.nih.gov/projects/faspftp/ )可以看出,sra原始的reads数据是在sra/sra-instant/下的,该目录下的analysis是分析结果文件。
reads目录下,又分为ByExp,ByRun和ByStudy三个目录,每个目录下都有sra子目录,而且又分为三个子目录,所以从这里找sra文件是非常繁琐的。不如从GEO主页上直接搜索编号。
软件及参数
回帖:Tophat2.0.13,参考基因组GRCh37/hg19,gene transfer file(GTF version GRCh37.70),去掉MQ>30的reads(low quality mapped reads)
计算reads count: HTSeq0.6.0
差异表达基因:DEseq3.0
deferential exon usage:DEXSeq3.1
read per million normalization: BEDTools2.17.0, bedGraphToBigWigtool 4.