高通量数据下载还能这样操作?

2024-05-23 14:52:32

本文属于转录组入门系列（RAN-seq基础入门传送门 http://www.biotrainee.com/thread-1750-1-1.html ）第2部分内容，以一篇Nature文章为例，详细解读如何从NCBI下载高通量测序数据。

文章

AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034

数据

根据文章中的提示，打开NCBI上的GEO数据库（https://www.ncbi.nlm.nih.gov/geo/）

在搜索框中输入登录号“GSE81916”。在新打开的页面中，拉到底端即可看到文章的可下载数据。其中Download family是经过GEO数据库整理和标准化的数据，Supplementary file是原始数据，提供SRA格式的文件（通过ftp下载）和bw压缩格式的文件（通过 http下载，点击custom可以选择要下载的文件）

ftp链接打开后显示有15个SRR文件

点击custom后显示有15个bw文件（bw文件是精简版的bam文件），可以选择想要的文件后再下载。

根据“Sample”以及“Overall design”中的信息可以大概看出，属于RNA-seq的数据有：第9-15个样品，即GSM2177723到GSM2177729。但是它们对应的是哪些SRA文件呢？

以GSM2177724为例，直接点击，一路点下去我们就能看到它对应的是SRR3589957.sra这个文件。

从NCBI下载数据

那么如何下载这些数据呢？ GEO数据库已经给出了答案：

但是看完后依然不明白具体的下载方法，于是我自己摸索出了以下的下载方法：

1.直接点击http或者ftp连接依次点击下载全部打包文件。

这个方法下载速度很慢。

2.linux下通过sratoolkit工具中的prefetch命令下载：

prefetch SRR3589948

这种方法常常出现链接失败，或者链接断掉。

3.参考某篇博客中提到的方法

（ http://blog.sina.com.cn/s/blog_7f1542270102wdk4.html ）：NCBI---SRA---搜索SRP075747---选择全部文件---send to----file---format:Runifo---creat file 即生成一个SraRuninfo.csv的文件，根据文件中的下载地址，用wget命令批量下载：

tail -n +1 SraRuninfo.csv | tr ',' '\t' | xargs -i echo {} >> sampleinfo.txt #将csv文件中的逗号分割替换成tab分割
head -n1 sampleinfo.txt | tr '\t' '\n' | nl | grep "path" #查找其中下载路径是第几列
10 downloas_path #返回结果显示是在第10列
tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i wget -c {} #依次提取每一行中的第10列，并利用wget进行下载
#依次下载太慢，可以生成脚本并行下载
tail -n +2 sampleinfo.txt | cut -f 10 | xargs -i echo wget -c {} \& >> download.sh #生成脚本
bash download.sh #运行脚本进行并行下载

4.使用Aspera

教程： http://boyun.sh.cn/bio/?p=1933 以及： http://blog.csdn.net/xubo245/article/details/50513201 但是实际操作时我在Aspera官网上看到“Aspera connect ”有server和client两种

Server版的点击后毫无反应

Client版的只有windows系统下的浏览器插件

根据提示在window上安装好aspera后，再进入 GEO数据库尝试下载sra文件，但是 aspera并不启动。后来，终于找到了这一篇文章： http://mp.weixin.qq.com/s/oCmngiD3-zBDx6cUC4Fw 原来通过Aspera下载，需要进入到特定的NCBI网址： https://www.ncbi.nlm.nih.gov/projects/faspftp/

从这里根据SPR075747这个study编号，找到文章中所有的原始数据，就可以通过 Aspera client下载了，速度嘛，也不快，300多k。

5.使用GEOquery

无意中找到Jimmy大神的一篇帖子（ http://www.bio-info-trainee.com/bioconductor_China/software/GEOquery.html ），介绍了用R包GEOquery下载GEO数据库中的数据的方法，可参考。

以上就是我尝试的5种下载方法，最终我还是通过命令行的方法批量下载的。尽管下载的过程中我也学到了不少新技能，但是相对于我的目标（分析数据）来说，花太多时间纠结下载方法其实并不好，应该尽量将精力集中在最核心的技能的学习中。生物信息分析中最核心的技能是什么？环境配置？软件安装？数据下载不，不是。而应该是解读数据，从数据中回答生物学问题！这才是我们应用生物信息学的最终目的。

作业

关于GEO/SRA数据库

GEO数据库

GEO数据库隶属于NCBI，是最大最全面的基因表达数据库，主要是芯片和转录组测序数据。除储存数据外，也提供一些数据挖掘工具，因此利用好这个数据库，没有实验，没有自己的数据也能发好文章!

参考介绍： https://wenku.baidu.com/view/907abb0c1711cc7931b716e4.html

SRA文件的存放

从NCNI的这个站点（ https://www.ncbi.nlm.nih.gov/projects/faspftp/ ）可以看出，sra原始的reads数据是在sra/sra-instant/下的，该目录下的analysis是分析结果文件。

reads目录下，又分为ByExp，ByRun和ByStudy三个目录，每个目录下都有sra子目录，而且又分为三个子目录，所以从这里找sra文件是非常繁琐的。不如从GEO主页上直接搜索编号。

软件及参数

回帖：Tophat2.0.13，参考基因组GRCh37/hg19，gene transfer file（GTF version GRCh37.70），去掉MQ>30的reads（low quality mapped reads）
计算reads count： HTSeq0.6.0
差异表达基因：DEseq3.0
deferential exon usage：DEXSeq3.1
read per million normalization： BEDTools2.17.0, bedGraphToBigWigtool 4.

超实用干货贴 | 转录组测序原始数据如何上传到NCBI数据库？

转录组测序(RNA-Seq)是当下生物医学科研领域的热点技术,在SCI论文中频频亮相.但是无论是以RNA-Seq为试验主体的论文,还是以RNA-Seq为分析辅助手段的论文,在发表之前总是绕不开一个问题 ...
【生信笔记】高速下载测序数据：Aspera的安装与使用

当我们需要一些NGS数据时,一般会去NCBI或者EBI的数据库中下载.但是当我们用wget下载时,时常会出现断开连接或者网络下载速度缓慢,对于几十G或者上百G的数据,下载无计可施,这是则可以使用Asp ...
全纪录 | 生信札记 - 微信圈子

大概一年前,我曾经希望使用"微信圈子"(估计是微信的两大流量转化方式 - 微信小商店和微信圈子之一)来承担 TBtools 用户社群的交流作用,更或者作为个人记录和分享一些碎 ...
如何高效又简单地省时地获得SRA公共数据的Fastq格式数据

如何高效又简单地省时地获得SRA公共数据的Fastq格式数据陈胖子下载NCBI SRA数据库上的公共数据,整体上还是大部分搞数据分析,又想灌水的人必做的一个事情. 其实直接使用官网推荐的工具asp ...
MAC版: 保姆式SRA Toolkit下载原始数据

本期和大家分享糯米饭在使用SRA Toolkit下载NCBI-SRA原始数据的一些Tips,时间宝贵,直接上干货. 1.明确Project:SRP119720,打开浏览器,输入: https://w ...
【生信笔记】查找GEO数据集

A 什么是GEO数据库? GEO数据库全称Gene Expression Omnibus database,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库.它创建于2000年,收录了世 ...
转录组学习二（数据下载）

转录组学习一(软件安装)转录组学习二(数据下载)转录组学习三(数据质控)转录组学习四(参考基因组及gtf注释探究)转录组学习五(reads的比对与samtools排序)转录组学习六(reads计数与标 ...
【数据库】SRA数据库介绍及数据下载

[数据库]SRA数据库介绍及数据下载 - 目录 1. SRA数据库介绍 (1) SRP开头的ID:PRJNA = SRP (2) PRJNA开头的ID:SAMN = SRS (3) SRX开头的ID ...
单身帅哥3分钟教你玩转高通量数据

今天在这不介绍微生物区系 Microbiota(土壤的,人体的-)重要性的背景了,因为我们知道她太重要了.我们直接开门见山来介绍USEARCH pipeline (http://www.drive5. ...
技术贴 | 16S专题 | 简单介绍如何用自己的笔记本处理高通量16S数据

导读高通量16S测序经济实惠.周期短,是许多微生物组学尤其是环境微生态方向科研工作者的有力武器. 课题组经费不够,测了16S只能自己分析(省钱啊!!).这里为需要自己处理16S数据的同学,整理了 ...
多个单元格录入相同数据时，除了拖动鼠标或填充，还可以别的操作

多个单元格录入相同数据时，除了拖动鼠标或填充，还可以别的操作
挖掘SRA的辅助小工具（NCBI高通量测序数据收录库）

写在前面伴随高通量测序技术的普及,海量的测序数据被产生并上传到网络数据库,如NCBI SRA.我们每个人都可以很轻易地获得这些数据,并用于有生物学问题针对性地分析.数据容易获取,但数据具体来源和信息 ...
美化PPT，让数据更清晰！这个高科技功能你还不知道？

在制作演示幻灯片的过程中,我们经常需要给数据做一个展示,那么我们一般都会通过什么方式对数据进行展示呢? 使用表格归纳数据?使用柱状图.扇形图.直线图等可视化图文表达? 在PPT中直接插入的表格样式,太 ...
高通量测序数据差异分析（DESeq2）

今天我们来学习R语言DESeq2做差异分析,第一次我推送这个差异分析到现在已经过去一年多了,我重新排版,更加了一些感悟,重新推送给大家. 基于高通量测序数据的差异分析,为了矫正测序平台,批次,深度等差 ...
干货|《冯承素摹兰亭序》高清单字而且还附下载！别等了，赶紧收藏吧！

下载地址: http://pan.baidu.com/s/1D7ZrC 或直接点击左下角:阅读原文冯承素(617-672),字万寿,长安信都(今陕西西安)人.唐代书法家.贞观(627-649)时任内 ...
2021版《结直肠癌分子检测高通量测序中国专家共识》重磅发布！（附下载）

导读近日,<临床肿瘤学杂志>发布了2021版<结直肠癌分子检测高通量测序中国专家共识>(以下简称"共识"), 该共识由中国抗癌协会靶向治疗专业委员会发起, ...
181cm成毅帅气造型，颜值高、身材好还很会穿，这样搭简洁时髦

成毅绝对算得上男同胞中身材占据优势的佼佼者,181cm的身高能够轻松撑得起各种夸张元素,再有颜值和肌肉的加持更让他穿衣倍有型,恐怕可与男模媲美! 不过成毅却很少选择造型独特且让人难以驾驭的元素,日常搭 ...

高通量数据下载还能这样操作?

文章

数据

从NCBI下载数据

作业

关于GEO/SRA数据库

软件及参数

相关推荐