【生信笔记】高速下载测序数据:Aspera的安装与使用

当我们需要一些NGS数据时,一般会去NCBI或者EBI的数据库中下载。但是当我们用wget下载时,时常会出现断开连接或者网络下载速度缓慢,对于几十G或者上百G的数据,下载无计可施,这是则可以使用Aspera软件高速下载测序数据。

软件概述

Aspera是IBM公司的一款高速传输软件,创造了新一代的传输技术(faspTM),并能不受文件大小、形态、传输距离、网络条件限制,以最高效的速度来协助用户迁移各地的数据。使用 fasp传输专利技术,充分利用现有的 WAN 基础设施和通用硬件,传输速度比 FTP 和 HTTP 快达数百倍。

软件的安装

Aspera支持Windows、MAC和Linux系统,而由于数据量较大,一般存储在服务器,因此我们在这里为大家介绍Linux系统的软件安装与使用。

1. 下载安装包

wget https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz

其他版本的下载网址为:https://downloads.asperasoft.com/en/downloads/8?list,选择相应系统下载。

2. 安装软件

#解压安装包
tar -xvzf  ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
# 安装软件
bash ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
#添加到环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc

软件的使用

1. 可使用命令行查看使用方法

#查看帮助
ascp --help
# Aspera的用法:
ascp [参数] 目标文件 目的地址
# Aspera的常用参数:
-T  不进行加密。若不添加此参数,可能会下载不了。
-i string  输入私钥,服务器一般使用asperaweb_id_dsa.openssh 文件作为私钥。
-k 断点续传,一般设置为值1
-l string  设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s

2. 软件的下载,NCBI数据库的SRA文件存储于ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/,可根据相应测序数据进行点击查看,如https://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP092/SRP092408/SRR4785812/SRR4785812.sra ,下载命令为:

ascp -k 1 -QT -l 200M  -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByStudy/sra/SRP/SRP092/SRP092408/SRR4785812/SRR4785812.sra ./

命令及其含义:

  • -k 1 表示断点续传

  • -l 200M 表示宽带限速200M,可提高下载速度

  • -QT 建议添加,否则可能报错

  • -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh 表示密钥文件路径 
    anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByStudy/sra/SRP/SRP092/SRP092408/SRR4785812/SRR4785812.sra 表示下载路径,通过对比发现将ftp://ftp.ncbi.nlm.nih.gov换为anonftp@ftp-private.ncbi.nlm.nih.gov:即可(注意冒号)

  • . 表示当前目录

同理可下载EBI数据库中的数据,ftp.sra.ebi.ac.uk/vol1/fastq/SRR478/002/SRR4785812/,则命令为

ascp -k 1 -QT -l 200M  -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@ftp.sra.ebi.ac.uk:/vol1/fastq/SRR478/002/SRR4785812/ ./

区别在于使用EBI数据库可下载fastq.gz格式的数据,直接用于后续分析,而不用进行sra的格式转换。

Linux系统在生物信息学数据处理方面的重要性不言而喻,本公众号接下来将基于Windows系统的Linux子系统推出系列生物信息学学习笔记,旨在帮助大家了解生物信息学,奠定生物信息学学习的基础。敬请期待!

(0)

相关推荐

  • 初步尝试从AWS下载SRA原始数据

    希望所有学员都可以站在生信技能树的舞台上发光发热! 下面是粉丝随机投稿 追随生信技能树的脚步,学习生信已经有半年多了.看了哔哩哔哩上的视频,也跑了健明老师的代码.以为自己起码入门了,但是真正分析感兴趣 ...

  • 听说aspera下载会失败,我也解决不了啊

    在国内做数据分析本来就不容易,SRA数据库自带的prefetch基本上是形如虚设,下载速度比乌龟快一点点,所以不得不求助IBM的aspera加速器.这也是我们每次授课都会介绍的各种国内科研数据处理专用 ...

  • 转录组学习二(数据下载)

    转录组学习一(软件安装)转录组学习二(数据下载)转录组学习三(数据质控)转录组学习四(参考基因组及gtf注释探究)转录组学习五(reads的比对与samtools排序)转录组学习六(reads计数与标 ...

  • 下载sra数据库文件不仅仅是prefetch那么简单了

    最近下载一个文章的数据,发现3个数据,就有3种结果:$cat logs/down.log.4$cat need.sra.list  |while read id;do (  ~/biosoft/sra ...

  • 【数据库】SRA数据库介绍及数据下载

    [数据库]SRA数据库介绍及数据下载 - 目录 1. SRA数据库介绍 (1) SRP开头的ID:PRJNA = SRP (2) PRJNA开头的ID:SAMN = SRS (3) SRX开头的ID ...

  • MAC版: 保姆式SRA Toolkit下载原始数据

     本期和大家分享糯米饭在使用SRA Toolkit下载NCBI-SRA原始数据的一些Tips,时间宝贵,直接上干货. 1.明确Project:SRP119720,打开浏览器,输入: https://w ...

  • 【生信笔记】数据框按照特定顺序修改列名

    在前期我们为大家介绍了[R包荟萃]热图绘制工具:pheatmap包详解,其中想要绘制分组的热图时需要两个数据,即原始表达矩阵mat和分组信息annotation_col,其中annotation_co ...

  • 不止是NCBI的SRA可以下载测序数据

    大家看我在生信技能树发布的各个NGS组学的视频教程, 基本都是随手找到一篇文章,就去查询其原始数据,通常是在NCBI的SRA,然后使用prefetch下载sra文件,有的时候还好使用aspera进行加 ...

  • 生信编程6.下载最新版的KEGG信息并解析

    有一些五六年前的学生们都成长为了各个生物信息学相关公司的小领导,而且他们都有了自己的公众号,知乎号,也算是一番人物.最近他们跟我反馈面试找不到或者说很难直接考核筛选到认真干活的生信工程师,挺有意思的. ...

  • 文献详解丨生信分析 细胞二代测序,轻松6分 ,这样的套路不来一个?

    本文研究的是传统中药复方桂枝茯苓丸治疗乳腺癌的机制,分为3个部分:第一部分,利用网络药理学方法筛选桂枝茯苓丸的有效成分和治疗乳腺癌的潜在靶标,公共数据验证:第二部分,基于高通量测序的高通量筛选技术靶向 ...

  • 【生信笔记】如何避免基因名称被Excel自动转换?

    在进行生信分析时我们会发现,将测序数据用Microsoft Excel打开后,部分基因名会自动转换为日期或浮点. 例如,将下表中第一列的数据导入Excel后,将自动转换为第二列的内容: 一旦导入Exc ...

  • 【生信笔记】Linux如何自动登录服务器账号?

    在使用服务器时,往往需要进行密码登录,甚至有的需要先登录堡垒机,再登录开发机,输入过程较为繁琐,因此可以考虑将命令写成脚本的形式自动化登录. expect是一个能实现自动和交互式任务的解释器,它也能解 ...

  • 【生信笔记】R语言将Excel文件按照列名拆分为多个文件

    首先来看拿到这组数据,需要按照outcome的列名不同将数据保存为Paresthesia.csv和Dry mouth.csv两个文件,假如数据量少,我们一般在Excel进行筛选(保证列名存在,直接复制 ...

  • 【生信笔记】右键菜单打开WSL功能方法简介

    在人工智能以及生物信息学发展迅速的现在,充分掌握相关技术是非常重要的,而由于系统的差异,导致很多软件需要在Linux或者Mac OS上运行,长期以来,在Windows系统上解决这一难题的方式是安装虚拟 ...

  • 生信笔记 | 自定义GSEA分析中的gmt格式文件

    在GSEA分析中,在MSigDB(Molecular Signatures Database)数据库中定义了很多基因集,下载的基因集是gmt格式文件.下载的gmt格式文件,打开后可以看见是下面这个样子 ...