不要让过往的成功经验困住你

别的不敢说,但是NGS数据处理,我应该算是高手了,各种组学均有涉猎,经手的项目也有千八百了,以前处理一些SRA数据库的数据的时候都是用wget进行下载,因为一直在墙外,很方便。

比如下面的srr.list文,件是自己从SRA数据库里面找到的所有数据的SRR开头的ID号,如下:

SRR3776319
SRR3776320
SRR3821893
SRR3821894
SRR3943943
SRR3943944
SRR3943946
SRR3943947
SRR3821896
SRR3821897

我就会自己写shell脚本批量下载:

up=ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/
cat srr.list|while read id;
do
echo $id
echo ${up}/${id:0:6}/$id/${id}.sra
wget -c ${up}${id:0:6}/$id/${id}.sra
done

为什么构建这样的脚本,是因为我非常熟悉SRA数据库,以及里面的各种规则。

1.8T的数据,通常两天就下载完毕了,所以我没有放在心上,待我检查log日志的时候,发现有两个失败的,而且不是网速的问题。

cat download_failed.log
SRR3943921
ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR//SRR394/SRR3943921/SRR3943921.sra
--2018-02-08 00:09:06--  ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR394/SRR3943921/SRR3943921.sra
=> “SRR3943921.sra”
==> TYPE I ... done.  ==> CWD (1) /sra/sra-instant/reads/ByRun/sra/SRR/SRR394/SRR3943921 ... done.
==> SIZE SRR3943921.sra ... done.
==> PASV ... done.    ==> RETR SRR3943921.sra ...
No such file “SRR3943921.sra”.
SRR3943893
ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR//SRR394/SRR3943893/SRR3943893.sra
--2018-02-08 19:32:37--  ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR394/SRR3943893/SRR3943893.sra
=> “SRR3943893.sra”
==> TYPE I ... done.  ==> CWD (1) /sra/sra-instant/reads/ByRun/sra/SRR/SRR394/SRR3943893 ... done.
==> SIZE SRR3943893.sra ... done.
==> PASV ... done.    ==> RETR SRR3943893.sra ...
No such file “SRR3943893.sra”.

我仔细检查了其中一个失败的例子:

https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=SRR3943893

https://www.ncbi.nlm.nih.gov/sra/SRX1969880

ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR394/SRR3943893

发现的确是没有,但是另外的274个样本又都没有问题。

看样子根据构造的ftp链接下载sra文件的方法可能要过时了,wget本来就慢,现在还出错,好尴尬。

但是,还好有prefetch

~/biosoft/sratoolkit/sratoolkit.2.8.2-1-centos_linux64/bin/prefetch SRR3943893

prefetch下载的数据一般存放在~/ncbi/public/sra/文件下,prefecth在下载前会先查找该文件下是否已经存在该文件。

耗费8分钟,下载了下面这个数据,虽然我还是不明白它的链接到底在哪里!

9.3G Feb  9 10:40 SRR3943893.sra

不过,我想应该是没有必要去纠结的,只是经验而已。

(0)

相关推荐

  • 【生信笔记】高速下载测序数据:Aspera的安装与使用

    当我们需要一些NGS数据时,一般会去NCBI或者EBI的数据库中下载.但是当我们用wget下载时,时常会出现断开连接或者网络下载速度缓慢,对于几十G或者上百G的数据,下载无计可施,这是则可以使用Asp ...

  • 【数据库】SRA数据库介绍及数据下载

    [数据库]SRA数据库介绍及数据下载 - 目录 1. SRA数据库介绍 (1) SRP开头的ID:PRJNA = SRP (2) PRJNA开头的ID:SAMN = SRS (3) SRX开头的ID ...

  • 转录组学习二(数据下载)

    转录组学习一(软件安装)转录组学习二(数据下载)转录组学习三(数据质控)转录组学习四(参考基因组及gtf注释探究)转录组学习五(reads的比对与samtools排序)转录组学习六(reads计数与标 ...

  • 艾灸一个穴位到底多长时间?不要被15分钟之类的经验困住

    经常有人问我, 一个穴位应该灸多久, 很多个穴位能一起灸吗? 要是以前我肯定照本宣科的说15分钟, 但是做艾灸6年后的我在实际操作中有了更多的体会, 我说这个要根据自己的身体感受,你觉得我没好好回答你 ...

  • 新消费创业,要的绝不止“成功经验”

    谁也无法否认:今天,一个属于中国消费品牌的时代已经奔涌而来. 中国是世界第二大经济体,中国社会收入水平已经全面进入小康,中国年轻人越来越偏爱本土品牌:新基建.完善的仓储.物流体系.普及的线上支付.强大 ...

  • 被“上进心”困住的中国年轻人

    总有一些理由让我们一再失眠. 对我来说,最近失眠的理由是,头发越掉越多,我怀疑年底可能就要皈依佛门. 对朋友来说,她失眠的理由是,自己太有上进心,活得太累了. 当"上进心"成了一种 ...

  • 快、狠、准!操盘手成功经验记录!

    快、狠、准!操盘手成功经验记录!

  • 被 “不孕不育” 困住的夫妻

    去年 6 月的一天,我妈接到姨妈的电话,得知 60 岁的姨丈立遗嘱了.那份遗嘱中说,等将来他病逝,姨妈是第一继承人:等姨妈也离世,遗产就由东东继承. 姨妈说得平静,我妈却不假思索地问:"给自 ...

  • 我研究了5位三国顶级英雄人物的成功经验,...

    我研究了5位三国顶级英雄人物的成功经验,发现他们能够在乱世中成功,其实靠的不是能力. 1.曹操的职场经验:"宁可我负天下人,不可天下人负我".在职场中混,脸黑心狠都是其次,最主要是 ...

  • 中国共产党的成功经验有借鉴意义(国际论坛)

    非同寻常的经历锻造出中国共产党不畏艰险.吃苦耐劳的精神.中国共产党始终与人民共甘苦,把人民对美好生活的向往作为奋斗目标 在中国共产党的带领下,中国取得了世界瞩目的辉煌成就,创造了"中国奇迹& ...

  • 管理者迷信成功经验,是企业最大的灾难

    我相信在每一家公司里,一定有这样的人存在: 「特别不喜欢改变,晚上想想千条路白天还是走老路.总是保护自己的一亩三分地,非常在乎自己的面子.别人不能指出他的问题,还常常显摆过去自己成功的经验.」 这个世 ...

  • 你知道阅读障碍症吗?有群孩子被它困住,家长应该怎么办?

    观察 阅读障碍 儿童成长的纪录片<我不是笨小孩>剧照 东方网记者包永婷4月23日报道:今天是第27个 世界读书日 .然而,阅读并不是我们以为的那么简单.有这样一群人,他们因为阅读障碍而陷入 ...