【生信笔记】高速下载测序数据:Aspera的安装与使用
当我们需要一些NGS数据时,一般会去NCBI或者EBI的数据库中下载。但是当我们用wget下载时,时常会出现断开连接或者网络下载速度缓慢,对于几十G或者上百G的数据,下载无计可施,这是则可以使用Aspera软件高速下载测序数据。
软件概述
Aspera是IBM公司的一款高速传输软件,创造了新一代的传输技术(faspTM),并能不受文件大小、形态、传输距离、网络条件限制,以最高效的速度来协助用户迁移各地的数据。使用 fasp传输专利技术,充分利用现有的 WAN 基础设施和通用硬件,传输速度比 FTP 和 HTTP 快达数百倍。
软件的安装
Aspera支持Windows、MAC和Linux系统,而由于数据量较大,一般存储在服务器,因此我们在这里为大家介绍Linux系统的软件安装与使用。
1. 下载安装包
wget https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
其他版本的下载网址为:https://downloads.asperasoft.com/en/downloads/8?list,选择相应系统下载。
2. 安装软件
#解压安装包
tar -xvzf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
# 安装软件
bash ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
#添加到环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
软件的使用
1. 可使用命令行查看使用方法
#查看帮助
ascp --help
# Aspera的用法:
ascp [参数] 目标文件 目的地址
# Aspera的常用参数:
-T 不进行加密。若不添加此参数,可能会下载不了。
-i string 输入私钥,服务器一般使用asperaweb_id_dsa.openssh 文件作为私钥。
-k 断点续传,一般设置为值1
-l string 设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s
2. 软件的下载,NCBI数据库的SRA文件存储于ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/,可根据相应测序数据进行点击查看,如https://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP092/SRP092408/SRR4785812/SRR4785812.sra ,下载命令为:
ascp -k 1 -QT -l 200M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByStudy/sra/SRP/SRP092/SRP092408/SRR4785812/SRR4785812.sra ./
命令及其含义:
-k 1 表示断点续传
-l 200M 表示宽带限速200M,可提高下载速度
-QT 建议添加,否则可能报错
-i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh 表示密钥文件路径
anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByStudy/sra/SRP/SRP092/SRP092408/SRR4785812/SRR4785812.sra 表示下载路径,通过对比发现将ftp://ftp.ncbi.nlm.nih.gov换为anonftp@ftp-private.ncbi.nlm.nih.gov:即可(注意冒号). 表示当前目录
同理可下载EBI数据库中的数据,ftp.sra.ebi.ac.uk/vol1/fastq/SRR478/002/SRR4785812/,则命令为
ascp -k 1 -QT -l 200M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@ftp.sra.ebi.ac.uk:/vol1/fastq/SRR478/002/SRR4785812/ ./
区别在于使用EBI数据库可下载fastq.gz格式的数据,直接用于后续分析,而不用进行sra的格式转换。
Linux系统在生物信息学数据处理方面的重要性不言而喻,本公众号接下来将基于Windows系统的Linux子系统推出系列生物信息学学习笔记,旨在帮助大家了解生物信息学,奠定生物信息学学习的基础。敬请期待!