学徒第一步:飞一般的SRA数据下载法
这个月的学徒了不得,已经初步完全掌握了GEO数据挖掘全部基础分析点,他的第一个投稿大家应该是还历历在目:不同的GSE数据集有不同的临床信息,不同的分组技巧
但这些只是最简单的R语言罢了,生信工程师的正餐是基于linux的NGS组学,同样的,我也引导学徒开启RNA-seq数据处理实战。但是他卡在了第一步下载文章测序数据,因为在中国大陆,我指点了一下解决方案,并委托他总结分享经验如下;
下面看学徒的表演(PS: 图片较多的推文,排版真的是吓死人!)
Jimmy大神怎么说过,只有多做、多错,才能真正的掌握。
下载SRA数据有三种方法
首选IBM的高速下载软件 Aspera Connect软件,体验飞一般的感觉。
其次是使用sratoolkit中的prefetch命令,如果不调用aspera,速度可以让你流泪。
最后是傻瓜式操作,一健下载zip,缺点也是下载速度慢。
最近在下载文章中的SRA数据中遇到各种报错,各种慢。后来在Jimmy大神的指导下终于成功高速下载数据了。
首先,一般都是在以下2个数据库下载数据:
SRA数据库: Sequence Read Archive:隶属NCBI (National Center for Biotechnology Information),它是一个保存高通量测序原始数据以及比对信息和元数据 (metadata) 的数据库,所有已发表的文献中高通量测序数据基本都上传至此,方便其他研究者下载及再研究。其中的数据则是通过压缩后以.sra文件格式来保存的。
ENA数据库:European Nucleotide Archive:隶属EBI (European Bioinformatics Institute),功能同SRA数据库,最方便的是可以直接下载fastq (.gz)文件,可以省去了一部分工作量。(推荐指数5颗星)
根据文章PHF5A Epigenetically Inhibits Apoptosis to Promote Breast Cancer Progression ,我要下载其中的SRR6974318。
url链接取自于文章https://www.ebi.ac.uk/ena/browser/view/PRJNA449418
prefetch批量下载
首先找到该项目的Accession List下载名为SRR_Acc_List.txt 的文件上传到云服务器
conda activate rna
cp ~/SRR_Acc_List.txt ~/1.sra_data/
#从SRA库或者ENA库里下载的SRR_Acc_List.txt
cat SRR_Acc_List.txt | while read id; do echo prefetch ${id} -O ~/1.sra_data/; done > prefetch.command
sh prefetch.command
如果没有自动调用asprea,建议别这么下,因为速度真的很感人。
aspera connect
用到IBM的高速下载器aspera
conda activate rna
wget https://download.asperasoft.com/download/sw/connect/3.9.6/ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.tar.gz#注意下载的版本,不同版本可能命令不一样,所以要多查看帮助文档
bash ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.sh#安装
# 查看是否有.aspera的文件夹
cd ~ #去根目录
ls # 如果看到.aspera文件夹,代表安装成功
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc#添加环境变量
source ~/.bashrc
# 查看帮助文档
ascp --help
mkdir tnbc #创建数据下载的文件夹
从ENA下载数据
EBI-ENA页面打开如下,然后按照流程操作
which ascp
## 一定要搞清楚你的软件被conda安装在哪里,很重要
/home/xlfang/.aspera/connect/bin/ascp #这是我的位置
ls -lh /home/xlfang/.aspera/connect/etc/asperaweb_id_dsa.openssh#这是我的openssh位置
ascp -QT -l 300m -P33001 -i /home/xlfang/.aspera/connect/etc/asperaweb_id_dsa.openssh \
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR697/008/SRR6974318/SRR6974318_1.fastq.gz ./
#记得换成自己的openssh地址和SRR编号
#era-fasp是aspera在ENA的用户名,fasp.sra.ebi.ac.uk是固定下载地址,需要记住。
# 另外uk后面是:冒号
我们这边5个人在用网,22M下载速度已经很满足了,正常的话应该再50M左右。飞一般的感觉🕶️。
傻瓜式下载
EBI-ENA页面打开如下,然后按照流程操作
一键下载,网速一般在200k-500k,速度较慢。如果你是老粉丝,学的比学徒快,建议看下面的目录:
生信技能树RNA相关教程节选
因为做目录确实很浪费时间,差不多就下面这些,大家先学习吧: