可以使用Aspera从CNGBdb数据库高速下载fastq测序数据啦

以前在《生信技能树》(才发现居然已经是 2019-08-22的事情了)我们介绍过中科院北京基因组研究所生命与健康大数据中心开发的原始组学数据归档库GSA (Genome Sequence Archive):不止是NCBI的SRA可以下载测序数据,但是最近我看文献,发现超级多单细胞研究的数据,都是上传到了华大的类似的中心(原始组学数据归档库),如下:

Single-Cell Atlas of Immune Cells in TNBC Reveals a TCR+ Macrophage Subset  来源标识:  CNGB Project  ( ID CNP0000286 )
数据类型: Transcriptome or Gene expression
相关领域: Medical
项目编号: CNP0000286

当然了,这个研究其实是因为本来就是华大牵头,所以存储在他们自己的数据库中心很容易理解。

尤其是最近在朋友圈刷到了发表在《Science Bulletin》,并作为封面文章的《Single-cell atlas of domestic pig cerebral cortex and hypothalamus》,其文章链接:Single-cell atlas of domestic pig cerebral cortex and hypothalamus - ScienceDirect , 数据链接:https://db.cngb.org/search/project/CNP0000686/

本来以为不是在NCBI的SRA数据库里面,下载会很麻烦。进入数据库简单看了看:

image-20210821003111818

可以看到是6个样品,几百个G的数据量而已,数据库官网写了可以Aspera 高速下载, 就方便很多。

首先从数据页面复制这些链接

6个样品,是12个链接,居然得手动一个个复制粘贴,不知道有没有高级操作,有经验的小伙伴可以留言分享一下。

https://ftp.cngb.org/pub/CNSA/data3/CNP0000686/CNS0127223/CNX0111986/CNR0134259/V300015611B_L02_read_1.fq.gz
https://ftp.cngb.org/pub/CNSA/data3/CNP0000686/CNS0127223/CNX0111986/CNR0134259/V300015611B_L02_read_2.fq.gz
https://ftp.cngb.org/pub/CNSA/data3/CNP0000686/CNS0127224/CNX0111987/CNR0134260/CL100128991_L01_read_1.fq.gz
https://ftp.cngb.org/pub/CNSA/data3/CNP0000686/CNS0127224/CNX0111987/CNR0134260/CL100128991_L01_read_2.fq.gz
https://ftp.cngb.org/pub/CNSA/data3/CNP0000686/CNS0127225/CNX0111988/CNR0134261/CL100128991_L02_read_1.fq.gz
https://ftp.cngb.org/pub/CNSA/data3/CNP0000686/CNS0127225/CNX0111988/CNR0134261/CL100128991_L02_read_2.fq.gz
https://ftp.cngb.org/pub/CNSA/data3/CNP0000686/CNS0127226/CNX0111989/CNR0134262/CL100132063_L02_read_1.fq.gz
https://ftp.cngb.org/pub/CNSA/data3/CNP0000686/CNS0127226/CNX0111989/CNR0134262/CL100132063_L02_read_2.fq.gz
https://ftp.cngb.org/pub/CNSA/data3/CNP0000686/CNS0127227/CNX0111990/CNR0134263/CL100132063_L01_read_1.fq.gz
https://ftp.cngb.org/pub/CNSA/data3/CNP0000686/CNS0127227/CNX0111990/CNR0134263/CL100132063_L01_read_2.fq.gz
https://ftp.cngb.org/pub/CNSA/data3/CNP0000686/CNS0127228/CNX0111991/CNR0134264/V300015611B_L01_read_1.fq.gz
https://ftp.cngb.org/pub/CNSA/data3/CNP0000686/CNS0127228/CNX0111991/CNR0134264/V300015611B_L01_read_2.fq.gz

根据官方的提示进行截取:

[path/to/files to download] is the path of the file to be downloaded. Please enter CNSA FTP, copy the data address on the browser you want to download, and delete "https://ftp.cngb.org". The rest of the path is the file path to be downloaded that needs to be filled in the command line. For example: if you want to download the files under this directory (https://ftp.cngb.org/pub/CNSA/data1/CNP0000007/CNS0000004/CNX0000010/CNR0048164/) on FTP, delete "https://ftp.cngb.org/" in the directory, the rest of the path is: /pub/CNSA/data1/CNP0000007/CNS0000004/CNX0000010/CNR0048164/, which is the [path/to/files to download] that you need to fill in the command line.

[path/to/store/downloaded files] is the path where the downloaded files are stored. For example: /home/[user]/download/

其实就是删除网页链接的开头部分:

 cat fq.txt |cut -d'/' -f4- >new_fq.txt
pub/CNSA/data3/CNP0000686/CNS0127223/CNX0111986/CNR0134259/V300015611B_L02_read_1.fq.gz
pub/CN

这个  new_fq.txt  文件非常重要,后续批量下载就靠它了哦!

有了样品的下载链接,然后自己使用conda安装aspera,参考 :使用ebi数据库直接下载fastq测序数据  , 这个教程来直接下载fastq文件啦。首先使用conda安装aspera,命令如下所示:

conda create -n download
conda activate download
conda install -y -c hcc aspera-cli
which ascp
## 一定要搞清楚你的软件被conda安装在哪
ls -lh ~/miniconda3/etc/asperaweb_id_dsa.openssh

我们已经多次介绍过conda细节了,这里就不再赘述。

因为是下载华大的数据,所以需要一个配套的秘钥:https://db.cngb.org/dc_assets/build/dc_cnsa/handbook/aspera_download.key

接下来写一个简单的循环即可:

wget https://db.cngb.org/dc_assets/build/dc_cnsa/handbook/aspera_download.key
cat  new_fq.txt |while read id;do(echo ascp -i aspera_download.key -P33001 -T -k1 -l100m aspera_download@183.239.175.39:$id ./);done > download_CNGBdb.sh

前提是你的 ascp 软件安装成功哦,然后就可以拿到如下所示的下载成功的fq文件啦:


$  ls -lh *fq.gz |cut -d" " -f 5-
 16G 8月  20 20:57 CL100128991_L01_read_1.fq.gz
 55G 8月  20 22:21 CL100128991_L01_read_2.fq.gz
 16G 8月  20 22:44 CL100128991_L02_read_1.fq.gz
 53G 8月  21 00:02 CL100128991_L02_read_2.fq.gz
 17G 8月  21 00:58 CL100132063_L01_read_1.fq.gz
 62G 8月  21 02:30 CL100132063_L01_read_2.fq.gz
 17G 8月  21 00:27 CL100132063_L02_read_1.fq.gz
1.4G 8月  21 00:29 CL100132063_L02_read_2.fq.gz # 这个下载失败了
9.3G 8月  21 02:43 V300015611B_L01_read_1.fq.gz
 28G 8月  21 03:24 V300015611B_L01_read_2.fq.gz

假如需要跑ellranger count,得先修改fq文件名

mv V300015611B_L02_read_1.fq.gz V300015611B_S1_L001_R1_001.fastq.gz
mv V300015611B_L02_read_2.fq.gz V300015611B_S1_L001_R2_001.fastq.gz

文件如下所示:

8.4G 2月  12  2020 V300015611B_S1_L001_R1_001.fastq.gz
25G 8月  20 19:47 V300015611B_S1_L001_R2_001.fastq.gz

下载到单细胞测序原始fq数据仅仅是开始

后续分析更精彩,主要是需要跑我们以前在单细胞天地分享过的上游流程, 如下:

以及拿到表达量后的降维聚类分群和各种各样的高级分析:

End

生信技能树目前已经公开了三个生信知识库,记得来关注哦~

每周文献分享
https://www.yuque.com/biotrainee/weeklypaper
肿瘤外显子分析指南
https://www.yuque.com/biotrainee/wes
生物统计从理论到实践
https://www.yuque.com/biotrainee/biostat

友情宣传

强烈建议你推荐《生信技能树》公众号给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶!

(0)

相关推荐