省事地获取已公开测序数据的下载链接（.sra|.fastq.gz）

2024-04-29 14:52:53

写在前面

课题需要，前述，在TBtools中开放了一个SraExperimentXML2InfoTable的功能。在这个功能的辅助下，我们较快的完成了阶段任务。筛选数据完成了，但是下载数据却出现了问题。
主要遇到的问题是

NCBI的数据，似乎有时候能下载到，有时候却下载不到。或许网速是一个原因，但我更多地开始认为或许NCBI并没有存储所有的短读段测序数据。DDBJ也是一样。相反ENA似乎存储全面，只是传输速度一般。

无论如何，下载数据的第一步是需要获取数据所在链接。
为了让小课题成员快速获得链接并完成各自的任务，我做了两个小事情。

优化原有功能

对SraExperimentXML2InfoTable工具的输出，增加两列，

NCBI FTP link
DDBJ Potential FTP link

如图

总的来说，NCBI FTP link多数时候是可以下载的；而DDBJ存储的数据确实很少，所以link是Potential的，意思就是，数据很可能并不存在。我个人的经验是，NCBI下载不了的时候，从DDBJ的link却常常可以下载。

But，最优秀的终归还是ENA。如前所述，ENA不仅存储了数据的SRA格式的数据，还存储了Fastq格式。在早前NCBI还没发表fasterq-dump时，直接下载fastq.gz文件的整体耗时明显短于下载SRA格式数据之后用fastq-dump转格式。
虽然现在耗时不相上下，不过下载fastq.gz仍然是一个选择，比如，你并没有fasterq-dump的时候，你却一定会有gzip甚至是pgzip.
Anyway，总会有某种情况，我们会需要从ENA下载数据，无论是SRA格式还是DDBJ格式。正如我们本次课题遇到的情况。所以TBtools增加一个功能

基于SRRnum获取ENA links信息

ENA存储测序数据，并没有绝对的规律，部分数据有专门的目录，部分数据放在不同深度的目录。故，无法通过像NCBI或者DDBJ一样的操作去拼接链接。而只有两个操作：

爬虫，解析整个ENA的FTP，获得并保存文件地址
爬虫，针对给定的SRR获取其对应的信息

第一个操作比较重，很多时候也没必要。于是我采用的是第二个操作。花了大半个小时，顺带打了GUI
打开TBtools，跳转到对应功能

设置输入文件，图中可见，准备一个txt文本文件，每行一个SRR number，保存并用做输入；设置输出文件是，注意补齐文件名。

为了避免被ENA封杀IP，操作是大概每个SRRnumber信息获取后等待1~3s，所以输入100个SRRnum可能需要花5min才能将信息获取完毕。

信息获取完毕后会有弹窗提示，所以此时最好去玩一局贪吃蛇。

OK，弹窗时，贪吃蛇是没有暂停的（所以一定会Game Over），用Excel打开结果文件

可以看到，左侧即为fastq.gz文件下载链接（推荐用aria2c或者迅雷，IDM下载），右侧为sra格式文件

写在后面

Done. 节后开工第一天。
祝大家科研顺利。

题外

课题组每年暑期有内部生信入门培训，主要是对实验室新生开展（以及湿实验为主的成员）培训。一直有收到其他课题组想要了解我们课题组生信数据分析的想法。故，在博导的提议和课题组的讨论后，我们近期计划，在本年度暑期（7~8月份之间）对外增设生信基础培训名额10枚（前面每年只是课题组内培训，而不对外）。具体请见https://mp.weixin.qq.com/s/OtmeTErd9f9rvjJPtBKjMw

什么，ENA和SRA数据库存放的单细胞转录组测序数据并不一致啊？

是时候把生信技能树的舞台交给后辈! 粉丝来稿作者:黑川五郎写在前面单细胞转录组以10X公司为主流,单细胞天地公众号详细介绍了cellranger流程,大家可以自行前往学习,如下: 单细胞实战(一 ...
看优秀本科生如何一周内学会Linux进而搞定RNA-seq上游分析

距离公布要带500个优秀本科生入门生物信息学的活动不到一个月,虽然真正入选不到一百,但是培养成绩喜人,出勤率接近百分之百,大部分人在短短两个星期就完成了R基础知识学习,Linux认知,甚至看完了转录组 ...
侠之大者，为老数据接盘

粉丝来稿写在前面在几乎所有模式植物转录组测序技术都做烂的今天,始终有一些植物因为种种原因鲜有问津.例如小麦,就像是开在奢侈品商场的黄焖鸡:有钱的人未必瞧得上,没钱的也压根就不会去光顾.不过这么多年 ...
lncRNA实战项目-第三步-了解参考基因组及注释文件

响应生信技能树的号召:lncRNA数据分析传送门 , 一起来一个lncRNA数据分析实战! 下载原始测序数据: 在GEO数据库搜索GSE87182, 这里没有直接给出ftp地址,需要先从BioProj ...
SRA数据库不仅仅是可以存放fastq原始数据

最近刷单细胞文章看到了一个很有意思数据存放细节,这个文献的标题是:<Single-cell sequencing links multiregional immune landscapes an ...
【数据库】SRA数据库介绍及数据下载

[数据库]SRA数据库介绍及数据下载 - 目录 1. SRA数据库介绍 (1) SRP开头的ID:PRJNA = SRP (2) PRJNA开头的ID:SAMN = SRS (3) SRX开头的ID ...
初步尝试从AWS下载SRA原始数据

希望所有学员都可以站在生信技能树的舞台上发光发热! 下面是粉丝随机投稿追随生信技能树的脚步,学习生信已经有半年多了.看了哔哩哔哩上的视频,也跑了健明老师的代码.以为自己起码入门了,但是真正分析感兴趣 ...
m6A图文复现02-数据下载和质控

但很多粉丝留言表示这些英文教程看不懂,数据也很分散,没有中文解说实在是很难跟下来,希望我们出一个手把手系列教程. 这个全套 MeRIP-seq 图表复现代码在GitHub:https://github ...
0-跟着science学宏基因组-背景和数据

写在前面首先说几句话: 本小结代码不需要运行,只是告诉大家数据来源和这份代码的来源: 本小结的软件也不需要安装. 如果没有Ubuntu的随便安装一个就可以16-20都可以运行,例如: 下载一个Qii ...
获取已公开个人信息并出售牟利是否构罪？

作者:周光权,清华大学法学院教授. 来源:<法治日报>2021年9月22日第9版,原题为<获取已公开个人信息并出售牟利的定罪争议>. 对于未经被收集者同意,获取部分 ...
周光权:获取已公开个人信息并出售牟利的定罪争议

( 2021-09-22 ) 稿件来源:法治日报法学院□ 周光权 (清华大学法学院教授)对于未经被收集者同意,获取部分已在公众网络上公开的企业登记信息.征信信息并出售或提供给他人的情形是否定罪,在实务 ...
借用别人的已发表测序数据，让自己的研究结果更丰满

免疫逃避机体的免疫可以通过各种各样的方法抵御各种各样病原体的入侵,但是,病原体也可以通过各种手段来逃避免疫系统的攻击和追杀,实现它在机体内存活并伺机扩散的目的,也就是免疫逃避. 摘要 PD-L1和P ...
公共数据挖掘|已有GWAS数据的下载及挖掘（一）

公共数据挖掘|已有GWAS数据的下载及挖掘(一) 浏览 1.4 万·讨论 3 小生小声楼主发布于 2018-10-31 只看楼主这个帖子发布于 2 年零 249 天前,其中的信息可能已发生改变或有 ...
Power Query工作案例综合实战精选20篇及配套数据/动画下载链接

领导就要这种格式的数据汇总,你能怎么办?领导就要这种格式的数据汇总之续篇结合"领导就要这种非标准格式的报表"案例,谈谈PQ与PP如何结合应用的问题结合CELL函数实现数据源的动态化 ...
3000份水稻重测序数据全部公开

感觉最近接触的生物信息学知识越多,越对大数据时代的到来更有同感了.现在的研究者,其实很多都可以自己在家里做了,大量的数据基本都是公开的, 但是一个人闭门造车成就真的有限,与他人交流的思想碰撞还是蛮重要 ...
如何获取已测序的基因组（动物，植物，微生物）

近来课题需要,要看一个所有植物的基因组是否存在某个有趣的现象....但是手上并没有完全的列表.JGI上也只是收录了71个物种...无解之下,百度,微信都搜索完啦... 前面嘛,有朋友说我不喜欢分享,我 ...
PBJ | 基于149份材料靶向测序数据结合全基因组关联分析揭示小麦光能利用相关遗传位点

普通小麦是一个由三个密切相关的亚基因(AABBDD)组成的异源六倍体.它被认为起源于两次多倍化事件:第一次是野生四倍体小麦(AA)与未发现的节节麦谱系(BB)杂交形成的四倍体,距今约50万年;第二次是 ...
每次CT检查都有辐射，对患者的伤害到底有多大？公开真实数据

"小九,我们单位今年体检加了CT项目,听说这玩意儿照多了会得癌啊?能检查吗?" "我今年生病住院,前前后后做了4次CT,做这么多次是不是吃了好多辐射?" &qu ...

省事地获取已公开测序数据的下载链接（.sra|.fastq.gz）

写在前面

优化原有功能

基于SRRnum获取ENA links信息

写在后面

题外

相关推荐