初步尝试从AWS下载SRA原始数据

希望所有学员都可以站在生信技能树的舞台上发光发热!

下面是粉丝随机投稿

追随生信技能树的脚步,学习生信已经有半年多了。看了哔哩哔哩上的视频,也跑了健明老师的代码。以为自己起码入门了,但是真正分析感兴趣的数据集时才发现还差得远。

从GEO下载测序原始数据,一般会选择用prefetch下载SRA文件然后用fastq-dump转为fastq文件,或者直接去ENA网站(https://www.ebi.ac.uk/ena/browser/home)直接下载fastq文件,或者使用SRA Explorer(https://sra-explorer.info/#)给的脚本去下载。大部分的数据下载都可以通过上面的方法解决。

最近想下载单细胞scATAC-seq数据如SRR11448442学习它的一般分析流程,发现作者上传ENA的数据只有fastq1和fastq2,而这个分析需要的fastq文件要三个或四个,所以这个方式下载的文件不全。

然后,我又去GEO看了看,测试发现下载的SRA是可以转为4 个fastq文件。

prefetch SRR11448442 -O `pwd` && echo "** SRR11448442.sra done **"
time fastq-dump --gzip --split-files -A SRR11448442 SRR11448442.sra && echo "** SRR11448442.sra to fastq done **"
## 得到下面四个文件
##  [3.9G]  SRR11448442_1.fastq.gz
##  [2.3G]  SRR11448442_2.fastq.gz
##  [3.9G]  SRR11448442_3.fastq.gz
##  [1.2G]  SRR11448442_4.fastq.gz

同时发现,作者上传的原始数据就是四个fastq文件,就想能不能直接下载这四个文件,但是作者并没有给出http/https的链接

说实话,拿到这样的文件路径是有点懵的,网上直接谷歌并没有搜到相关的具体操作的资料。通过查阅NCBI的数据下载方法,找到一个解决办法,可以通过AWS下载,经过几番折腾,终于成功下载数据到本地,在这里特别感谢NCBI的工作人员Inna的帮助,第二天就给我回了邮件。

后面我也碰到了作者只上传了bam文件且sra只能转为两个fastq的情况,也是通过这种方式下载到bam数据,然后用10 x genomics的bamtofastq转为fastq文件,貌似10x genomics也建议上传bam文件(https://kb.10xgenomics.com/hc/en-us/articles/360024716391-What-format-of-10x-Genomics-data-should-I-submit-to-NCBI-GEO-SRA-)。

特别感谢生信技能树和Jimmy大神的日常知识分享和帮助,所以也将这个分享给大家,一起学习,减少走坑,下面是具体的操作方法。

1. 注册亚马逊AWS的账号

网址:https://aws.amazon.com/cn/cli/

按照要求一步步填写信息来注册,需要信用卡,因为我没有信用卡,这里感谢我同学路姐的帮忙。

注册完了记得激活。

新用户可以有12个月的AWS免费套餐,具体怎么免费,大家可以通过这个网址https://aws.amazon.com/cn/premiumsupport/knowledge-center/what-is-free-tier/去了解。

设置邮箱免费套餐使用量提醒。具体费用,查看“账单”就可以。

2. 访问S3

https://link.zhihu.com/?target=https%3A//s3.console.aws.amazon.com/s3/home%3Fregion%3Dap-northeast-2

3. 安全凭证

4. 添加用户

5. 下载客户端

Windows:https://docs.amazonaws.cn/cli/latest/userguide/install-cliv2-windows.html

Mac:https://docs.amazonaws.cn/cli/latest/userguide/install-cliv2-mac.html

6. 在终端进行配置

aws configure
## AWS Access Key ID [None]: 填写下载的csv文件的访问密钥ID
## ID AWS Secret Access Key [None]: 填写下载的csv文件的私有访问密钥
## Default region name [None]: 这里填写第2步中访问S3的网页后缀,例如ap-northeast-2
## Default output format [None]: json

## 查看自己云空间里面的文件
aws as ls

7. 创建储存桶

1) 选择访问S3

2) 创建储存桶

AWS的区域要选择美国东部(弗吉尼亚北部)us-east-1,最开始没有注意这一点,导致数据无法传输到我的储存桶,后来发现NCBI有说明这一点,详见下图。

8. 云数据传递

1)选择要传递的数据

要登录NCBI账户,用自己的邮箱注册即可。

https://www.ncbi.nlm.nih.gov/Traces/study/?acc=PRJNA616263&o=acc_s%3Aa

2)输入自己的储存桶

3)添加S3存储桶策略

回到前面的AWS网站建的储存桶。

4)添加刚刚修改的储存桶

5)选择源文件类型

NCBI会让你确认是否传输这个数据,如果一旦确认了,是不可以中间终止的。

6)传输文件

然后,你会收到NCBI的邮件,告诉你收到你的请求,一旦传输完成,会发邮件告诉你。

9. 下载数据到本地

## 在终端进行
### 查看储存桶中的数据
aws s3 ls s3://dat08
### 下载数据到本地,速度有1M/s
aws s3 sync s3://dat08/ /Users/data/

数据下载完了之后,可以将AWS上的储存桶清空和删除,节约空间。

建议不要反复刷新储存桶,会使用流量,避免收费。

尽量不要选择这种方法去下载数据,可能会收费,优先考虑常用方法下载数据。

10. 参考资料

https://docs.aws.amazon.com/AmazonS3/latest/userguide/add-bucket-policy.html

https://www.ncbi.nlm.nih.gov/sra/docs/sra-aws-download/

https://www.ncbi.nlm.nih.gov/sra/docs/data-delivery/

https://blog.csdn.net/qq_20291997/article/details/109849020

https://zhuanlan.zhihu.com/p/232043608

(0)

相关推荐

  • 省事地获取已公开测序数据的下载链接(.sra|.fastq.gz)

    写在前面 课题需要,前述,在TBtools中开放了一个SraExperimentXML2InfoTable的功能.在这个功能的辅助下,我们较快的完成了阶段任务.筛选数据完成了,但是下载数据却出现了问题 ...

  • 踩坑日志 | kingfisher 公共测序数据 SRA/Fastq 下载神器!

    导言 前几天看到基因课的东哥提了一下kingfisher,一个看起来就是极度便利的公共测序数据下载工具.我非常感兴趣,但也确实没时间折腾,于是继续丢给师弟去看看(事实上,他肯定也有类似需求....). ...

  • 转录组学习二(数据下载)

    转录组学习一(软件安装)转录组学习二(数据下载)转录组学习三(数据质控)转录组学习四(参考基因组及gtf注释探究)转录组学习五(reads的比对与samtools排序)转录组学习六(reads计数与标 ...

  • 【数据库】SRA数据库介绍及数据下载

    [数据库]SRA数据库介绍及数据下载 - 目录 1. SRA数据库介绍 (1) SRP开头的ID:PRJNA = SRP (2) PRJNA开头的ID:SAMN = SRS (3) SRX开头的ID ...

  • 0-跟着science学宏基因组-背景和数据

    写在前面 首先说几句话: 本小结代码不需要运行,只是告诉大家数据来源和这份代码的来源: 本小结的软件也不需要安装. 如果没有Ubuntu的随便安装一个就可以16-20都可以运行,例如: 下载一个Qii ...

  • 高中数学自主探究式教学的初步尝试

    刘冰 自主探究式教学课题在初中数学教学中经过三年的研究,取得一定成效,我们创立了一个适应当前数学教育发展和类同我校校情的一个教学模式,在教学中取得显著成效.今年学校安排我教高一,通过一段时间的尝试,我 ...

  • 【奥地利发生叛乱的起因与目的】德国对外扩张的初步尝试

    奥地利纳粹分子叛乱被政府镇压 第一次世界大战以后,奥匈帝国宣告瓦解.<凡尔赛和约>和<圣日耳曼和约>明文规定,奥地利应为独立国家,禁止德国和奥地利合并,并指定英法为奥地利的保护 ...

  • 下载sra数据库文件不仅仅是prefetch那么简单了

    最近下载一个文章的数据,发现3个数据,就有3种结果:$cat logs/down.log.4$cat need.sra.list  |while read id;do (  ~/biosoft/sra ...

  • 三阳镇研学游的初步尝试

    作者 洪小尘 换个角度  洞察世界 一叶轻舟 期待与你相遇  发现更好的所在 一 海报 6月26日,黄山市老年大学戏曲协会黄梅研修班一行80多人,怀着对洪雪飞戏剧家的尊敬,寻找洪雪飞的足迹,送戏下村, ...

  • 推出「猜歌星球」,腾讯初步尝试音乐互动 | 产品观察

    猜歌星球与同类型猜歌产品也并没有形成显著的差异和优势.其直接的优势或许在于腾讯旗下TME本身强大的音乐版权储备,但目前并未看到猜歌星球与TME生态之间有更深的联系或联动. 作者 | 任彤瑶 编辑 | ...

  • 寄生虫检验实验教学与社会实践相结合的初步尝试

    摘 要:实验教学与课堂理论都一样存在相同的重要意义.寄生虫的检查是在该专业的重要的课程,对教学的质量方面也是必不可少的,提高教学质量是学好这门课程的关键,在以前的寄生虫的实验教学中大部分的过程是先听教 ...

  • MAC版: 保姆式SRA Toolkit下载原始数据

     本期和大家分享糯米饭在使用SRA Toolkit下载NCBI-SRA原始数据的一些Tips,时间宝贵,直接上干货. 1.明确Project:SRP119720,打开浏览器,输入: https://w ...

  • 不止是NCBI的SRA可以下载测序数据

    大家看我在生信技能树发布的各个NGS组学的视频教程, 基本都是随手找到一篇文章,就去查询其原始数据,通常是在NCBI的SRA,然后使用prefetch下载sra文件,有的时候还好使用aspera进行加 ...

  • SRA数据库的数据并不一定要在SRA数据库下载

    SRA数据库的数据并不一定要在SRA数据库下载