学徒第一步:飞一般的SRA数据下载法

这个月的学徒了不得,已经初步完全掌握了GEO数据挖掘全部基础分析点,他的第一个投稿大家应该是还历历在目:不同的GSE数据集有不同的临床信息,不同的分组技巧

但这些只是最简单的R语言罢了,生信工程师的正餐是基于linux的NGS组学,同样的,我也引导学徒开启RNA-seq数据处理实战。但是他卡在了第一步下载文章测序数据,因为在中国大陆,我指点了一下解决方案,并委托他总结分享经验如下;

下面看学徒的表演(PS: 图片较多的推文,排版真的是吓死人!)

Jimmy大神怎么说过,只有多做、多错,才能真正的掌握。

下载SRA数据有三种方法

  • 首选IBM的高速下载软件 Aspera Connect软件,体验飞一般的感觉。

  • 其次是使用sratoolkit中的prefetch命令,如果不调用aspera,速度可以让你流泪。

  • 最后是傻瓜式操作,一健下载zip,缺点也是下载速度慢。

最近在下载文章中的SRA数据中遇到各种报错,各种慢。后来在Jimmy大神的指导下终于成功高速下载数据了。

首先,一般都是在以下2个数据库下载数据:

  1. SRA数据库: Sequence Read Archive:隶属NCBI (National Center for Biotechnology Information),它是一个保存高通量测序原始数据以及比对信息和元数据 (metadata) 的数据库,所有已发表的文献中高通量测序数据基本都上传至此,方便其他研究者下载及再研究。其中的数据则是通过压缩后以.sra文件格式来保存的。

  2. ENA数据库:European Nucleotide Archive:隶属EBI (European Bioinformatics Institute),功能同SRA数据库,最方便的是可以直接下载fastq (.gz)文件,可以省去了一部分工作量。(推荐指数5颗星)

根据文章PHF5A Epigenetically Inhibits Apoptosis to Promote Breast Cancer Progression ,我要下载其中的SRR6974318。

url链接取自于文章https://www.ebi.ac.uk/ena/browser/view/PRJNA449418


prefetch批量下载

首先找到该项目的Accession List下载名为SRR_Acc_List.txt 的文件上传到云服务器

image-20191112004118004

conda activate rna
cp ~/SRR_Acc_List.txt ~/1.sra_data/
#从SRA库或者ENA库里下载的SRR_Acc_List.txt
cat SRR_Acc_List.txt | while read id; do echo prefetch ${id} -O ~/1.sra_data/; done > prefetch.command
sh prefetch.command

如果没有自动调用asprea,建议别这么下,因为速度真的很感人。

aspera connect

用到IBM的高速下载器aspera

conda activate rna
wget  https://download.asperasoft.com/download/sw/connect/3.9.6/ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.tar.gz#注意下载的版本,不同版本可能命令不一样,所以要多查看帮助文档
bash ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.sh#安装
# 查看是否有.aspera的文件夹
cd ~ #去根目录
ls # 如果看到.aspera文件夹,代表安装成功
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc#添加环境变量
source ~/.bashrc
# 查看帮助文档
ascp --help

mkdir tnbc #创建数据下载的文件夹

从ENA下载数据

EBI-ENA页面打开如下,然后按照流程操作

image-20191111221306921

which ascp 
## 一定要搞清楚你的软件被conda安装在哪里,很重要
/home/xlfang/.aspera/connect/bin/ascp #这是我的位置
ls -lh /home/xlfang/.aspera/connect/etc/asperaweb_id_dsa.openssh#这是我的openssh位置

ascp -QT -l 300m -P33001  -i /home/xlfang/.aspera/connect/etc/asperaweb_id_dsa.openssh \
 era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR697/008/SRR6974318/SRR6974318_1.fastq.gz  ./ 
 #记得换成自己的openssh地址和SRR编号
 #era-fasp是aspera在ENA的用户名,fasp.sra.ebi.ac.uk是固定下载地址,需要记住。
 # 另外uk后面是:冒号

image-20191111224800829

我们这边5个人在用网,22M下载速度已经很满足了,正常的话应该再50M左右。飞一般的感觉🕶️。

傻瓜式下载

EBI-ENA页面打开如下,然后按照流程操作

image-20191112004752748

一键下载,网速一般在200k-500k,速度较慢。如果你是老粉丝,学的比学徒快,建议看下面的目录:

生信技能树RNA相关教程节选

因为做目录确实很浪费时间,差不多就下面这些,大家先学习吧:

(0)

相关推荐