高通量数据下载还能这样操作?

本文属于转录组入门系列(RAN-seq基础入门传送门 http://www.biotrainee.com/thread-1750-1-1.html )第2部分内容,以一篇Nature文章为例,详细解读如何从NCBI下载高通量测序数据。

文章

AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034

数据

根据文章中的提示,打开NCBI上的GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)

在搜索框中输入登录号“GSE81916”。在新打开的页面中,拉到底端即可看到文章的可下载数据。其中Download family是经过GEO数据库整理和标准化的数据,Supplementary file是原始数据,提供SRA格式的文件(通过ftp下载)和bw压缩格式的文件(通过 http下载, 点击custom可以选择要下载的文件)

ftp链接打开后显示有15个SRR文件

点击custom后显示有15个bw文件(bw文件是精简版的bam文件),可以选择想要的文件后再下载。

根据“Sample”以及“Overall design”中的信息可以大概看出,属于RNA-seq的数据有:第9-15个样品,即GSM2177723到GSM2177729。但是它们对应的是哪些SRA文件呢?

以GSM2177724为例,直接点击,一路点下去我们就能看到它对应的是SRR3589957.sra这个文件。

从NCBI下载数据

那么如何下载这些数据呢? GEO数据库已经给出了答案:

但是看完后依然不明白具体的下载方法,于是我自己摸索出了以下的下载方法:

1.直接点击http或者ftp连接依次点击下载全部打包文件。

这个方法下载速度很慢。

2.linux下通过sratoolkit工具中的prefetch命令下载

  1. prefetch SRR3589948

这种方法常常出现链接失败,或者链接断掉

3.参考某篇博客中提到的方法

( http://blog.sina.com.cn/s/blog_7f1542270102wdk4.html ):NCBI---SRA---搜索SRP075747---选择全部文件---send to----file---format:Runifo---creat file 即生成一个SraRuninfo.csv的文件,根据文件中的下载地址,用wget命令批量下载:

  1. tail -n +1 SraRuninfo.csv | tr ',' '\t' | xargs -i echo {} >> sampleinfo.txt  #将csv文件中的逗号分割替换成tab分割

  2. head -n1 sampleinfo.txt | tr '\t' '\n' | nl | grep "path" #查找其中下载路径是第几列

  3.    10 downloas_path #返回结果显示是在第10列

  4. tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i wget -c {} #依次提取每一行中的第10列,并利用wget进行下载

  5. #依次下载太慢,可以生成脚本并行下载

  6. tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i echo wget -c {} \& >> download.sh #生成脚本

  7. bash download.sh  #运行脚本进行并行下载

4.使用Aspera

教程: http://boyun.sh.cn/bio/?p=1933 以及: http://blog.csdn.net/xubo245/article/details/50513201 但是实际操作时我在Aspera官网上看到“Aspera connect ”有server和client两种

Server版的点击后毫无反应

Client版的只有windows系统下的浏览器插件

根据提示在window上安装好aspera后,再进入 GEO数据库尝试下载sra文件,但是 aspera并不启动。 后来,终于找到了这一篇文章: http://mp.weixin.qq.com/s/oCmngiD3-zBDx6cUC4Fw 原来通过Aspera下载,需要进入到特定的NCBI网址: https://www.ncbi.nlm.nih.gov/projects/faspftp/

从这里根据SPR075747这个study编号,找到文章中所有的原始数据,就可以通过 Aspera client下载了,速度嘛,也不快,300多k。

5.使用GEOquery 

无意中找到Jimmy大神的一篇帖子( http://www.bio-info-trainee.com/bioconductor_China/software/GEOquery.html ),介绍了用R包GEOquery下载GEO数据库中的数据的方法,可参考。

以上就是我尝试的5种下载方法,最终我还是通过命令行的方法批量下载的。尽管下载的过程中我也学到了不少新技能,但是相对于我的目标(分析数据)来说,花太多时间纠结下载方法其实并不好,应该尽量将精力集中在最核心的技能的学习中。生物信息分析中最核心的技能是什么?环境配置?软件安装?数据下载不,不是。而应该是解读数据,从数据中回答生物学问题!这才是我们应用生物信息学的最终目的。


作业

关于GEO/SRA数据库

GEO数据库

GEO数据库隶属于NCBI,是最大最全面的基因表达数据库,主要是芯片和转录组测序数据。除储存数据外,也提供一些数据挖掘工具,因此利用好这个数据库,没有实验,没有自己的数据也能发好文章!

参考介绍: https://wenku.baidu.com/view/907abb0c1711cc7931b716e4.html

SRA文件的存放

从NCNI的这个站点( https://www.ncbi.nlm.nih.gov/projects/faspftp/ )可以看出,sra原始的reads数据是在sra/sra-instant/下的,该目录下的analysis是分析结果文件。

reads目录下,又分为ByExp,ByRun和ByStudy三个目录,每个目录下都有sra子目录,而且又分为三个子目录,所以从这里找sra文件是非常繁琐的。不如从GEO主页上直接搜索编号。

软件及参数

  1. 回帖:Tophat2.0.13,参考基因组GRCh37/hg19,gene transfer file(GTF version GRCh37.70),去掉MQ>30的reads(low quality mapped reads)

  2. 计算reads count: HTSeq0.6.0

  3. 差异表达基因:DEseq3.0

  4. deferential exon usage:DEXSeq3.1

  5. read per million normalization: BEDTools2.17.0, bedGraphToBigWigtool 4.

(0)

相关推荐