sra数据库的fastq测序数据已经同步到亚马逊云了

四年前我写过介绍GEO和SRA数据库的推文 ;
其实就是耗费一点时间去摸索如何在这两个数据库里面查询下载自己感兴趣的文章的数据。注意4个层级结构,是:SRP(项目)—>SRS(样本)—>SRX(数据产生)—>SRR(数据本身)
同样的数据是project,层级是PRJNA —> SAMN
链接如下:
  • https://www.ncbi.nlm.nih.gov/sra?term=SRP078156 查看样本列表
  • https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP078156 下载样本ID表格
  • https://www.ncbi.nlm.nih.gov/bioproject/PRJNA327548
  • https://www.ncbi.nlm.nih.gov/sra?term=SAMN05341212
最近一个学徒完成我的随机任务,也是需要从sra数据库下载fastq文件,他并没有采取Traces/study/?acc=SRP230801 的后缀,而且采取Traces/sra/?study=SRP230801的后缀,看起来差异很小,但是进入了完全不同的数据浏览界面:
  • 链接是:https://trace.ncbi.nlm.nih.gov/Traces/sra/?study=SRP230801
我也查看了一下,鼠标无意中放在了fq.gz文件,发现它的下载链接居然是亚马逊云。
下载链接居然是亚马逊云
而且fq.gz文件,样本名标记的非常清楚,跟GEO界面一一对应着
  • https://www.ncbi.nlm.nih.gov//geo/query/acc.cgi?acc=GSE140739
无需下载sra文件,再转为fq文件,还得注意文件名,非常方便!
GSM4182954    CUTLL1-shGFP-1
GSM4182955    CUTLL1-shGFP-2
GSM4182956    CUTLL1-shGFP-3
GSM4182957    CUTLL1-shAURKB-1
GSM4182958    CUTLL1-shAURKB-2
GSM4182959    CUTLL1-shAURKB-3
更重要的是,在国外,很多软件工具是直接部署在亚马逊的,意味着中间的网速基本上是无限的。
类似于大家在腾讯云阿里云华为云使用他们的内部数据:
  • https://www.amazonaws.cn/ec2/pricing/ec2-linux-pricing/  (亚马逊中国,aws)
  • https://buy.cloud.tencent.com/price/cvm#tab0-list1 (腾讯云服务器)
  • https://www.huaweicloud.com/pricing.html#/ecs (华为云服务器)
  • https://cn.aliyun.com/price/product#/ecs/detail (阿里云服务器)
  • https://cloud.google.com/compute/pricing?hl=zh-CN (谷歌云服务器)
  • 其它,美团云,百度云等等就不一一展示
海外使用云服务器做生物信息学分析应该是非常方便了
需要学习一下生信菜鸟团的关于生物信息学环境搭建的讨论
如果你有自己的经验,欢迎留言分享哦!
(0)

相关推荐