解读SRA数据库规律一文就够

做数据分析的朋友都知道NGS测序数据一般会上传到SRA数据库里面,而这个数据库是可以免费无限制下载的,所以对它有基本的了解是一个生物信息学工程师的基本素养。下面就跟着我一起来掌握它吧。

一般的文章里面会给出数据地址,如下:根据文章的GSE号进入GEO数据库里面,就可以看到其对应的SRA数据库ID号。

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE84498 看到如下:

层级结构是:SRP(项目)—>SRS(样本)—>SRX(数据产生)—>SRR(数据本身)
伴随数据库是project,层级是PRJNA —> SAMN 
链接如下:

  • https://www.ncbi.nlm.nih.gov/sra?term=SRP078156 查看样本列表

  • https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP078156 下载样本ID表格

  • https://www.ncbi.nlm.nih.gov/bioproject/PRJNA327548

  • https://www.ncbi.nlm.nih.gov/sra?term=SAMN05341212

首先是SRP开头的ID

一般的文章如果提到其数据上传到了SRA数据库,那么就会给出SRP开头的ID,比如:

The sequencing data have been deposited in the NCBI Sequence Read Archive (SRA) database under the accession code SRP078156.

第一步就是去SRA数据库里面查询:https://www.ncbi.nlm.nih.gov/sra?term=SRP078156

可以看到这个数据集有276个数据。

然后查看该project有哪些数据

链接:https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP078156

可以看到该项目包含的数据多少,以及下面的信息:

BioProject:PRJNA327548

BioSampleModel:Human

Consent:public

InsertSize:0

Organism:Homo sapiens

SRA Study:SRP078156

总共有 1.53 Tb 的数据,有点大。

然后看PRJNA开头的ID

进入链接:https://www.ncbi.nlm.nih.gov/bioproject/PRJNA327548 等同于 SRP开头的

可以看到发表的文章,以及涉及到的样本。

这个实验共50个样本

然后进入每个样本

链接:https://www.ncbi.nlm.nih.gov/sra?term=SAMN05341212 等同于SRS开头的ID

可以看到每个样本都有6个不同的数据,如下:

RNA-Seq of OSCC patient: OSCC

1 ILLUMINA (NextSeq 500) run: 35.5M spots, 10.7G bases, 3.9Gb downloads

  • Accession: SRX1922019

RNA-Seq of OSCC patient: adjacent normal

1 ILLUMINA (NextSeq 500) run: 37.9M spots, 11.5G bases, 4.3Gb downloads

  • Accession: SRX1922018

Whole-exome sequencing of OSCC patient: OSCC

1 ILLUMINA (Illumina HiSeq 2000) run: 123.6M spots, 25G bases, 10.2Gb downloads

  • Accession: SRX1969884

Whole-exome sequencing of OSCC patient: PBMC

1 ILLUMINA (Illumina HiSeq 2000) run: 114.1M spots, 23G bases, 9.5Gb downloads

  • Accession: SRX1969883

Targeted gene sequencing of OSCC patient: OSCC

1 ION_TORRENT (Ion Torrent Proton) run: 20.5M spots, 2.3G bases, 1.2Gb downloads

  • Accession: SRX1923057

Targeted gene sequencing of OSCC patient: PBMC

1 ION_TORRENT (Ion Torrent Proton) run: 20.1M spots, 2.3G bases, 1.2Gb downloads

  • Accession: SRX1923056

接着进入SRX开头每个数据描述

每个样本有6个数据,还可以再进入每个数据,查看详情:https://www.ncbi.nlm.nih.gov/sra/SRX1922019

最后进入以SRR开头的数据本身

链接是:https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=SRR3820386

有些样本数据缺失

我根据构造的ftp链接下载了一个项目,共276个数据,但是有2个数据是缺失的,我仔细检查了一下:

https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=SRR3943893

https://www.ncbi.nlm.nih.gov/sra/SRX1969880

ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR394/SRR3943893

发现的确是没有,但是另外的274个样本又都没有问题, 看样子根据构造的ftp链接下载sra文件的方法可能要过时了,wget本来就慢,现在还出错,好尴尬。

但是,还好有prefetch

~/biosoft/sratoolkit/sratoolkit.2.8.2-1-centos_linux64/bin/prefetch SRR3943893

prefetch下载的数据一般存放在~/ncbi/public/sra/文件下,prefecth在下载前会先查找该文件下是否已经存在该文件。

(0)

相关推荐

  • MAC版: 保姆式SRA Toolkit下载原始数据

     本期和大家分享糯米饭在使用SRA Toolkit下载NCBI-SRA原始数据的一些Tips,时间宝贵,直接上干货. 1.明确Project:SRP119720,打开浏览器,输入: https://w ...

  • 【数据库】SRA数据库介绍及数据下载

    [数据库]SRA数据库介绍及数据下载 - 目录 1. SRA数据库介绍 (1) SRP开头的ID:PRJNA = SRP (2) PRJNA开头的ID:SAMN = SRS (3) SRX开头的ID ...

  • 【生信笔记】高速下载测序数据:Aspera的安装与使用

    当我们需要一些NGS数据时,一般会去NCBI或者EBI的数据库中下载.但是当我们用wget下载时,时常会出现断开连接或者网络下载速度缓慢,对于几十G或者上百G的数据,下载无计可施,这是则可以使用Asp ...

  • 转录组学习二(数据下载)

    转录组学习一(软件安装)转录组学习二(数据下载)转录组学习三(数据质控)转录组学习四(参考基因组及gtf注释探究)转录组学习五(reads的比对与samtools排序)转录组学习六(reads计数与标 ...

  • 解读GEO数据存放规律及下载,一文就够

    做生物信息学分析的朋友应该是对GEO数据库耳熟能详了,总会用到公共数据库的,而GEO数据库则是首选,起先只是为表达芯片数据准备的,后期纳入了各种NGS组学数据,文章里面会给出数据地址,GSE ID号, ...

  • 从GEO数据库下载得到表达矩阵 一文就够

    在第一讲我们详细介绍了GEO数据库的基础知识及规律,也了解了如何利用官方R包GEOquery来探索GEO数据库,当然,我的生信菜鸟团博客里面也从很多其它角度解析过它,欢迎大家自行搜索学习.总得来说,从 ...

  • 用经方思维解读国医大师班秀文教授更年期案

    在泳池里学游泳, 在临床上学经方. --尤虎 如果尽可能只开伤寒金匮中的经方, 遇到各类病人怎么办? 国医大师班秀文医案 段某,女,48岁,已婚. 初诊:1988年5月26日初诊. 近1年来月经紊乱, ...

  • 用经方思维解读国医大师班秀文教授更年期案尤虎 尤虎中医

    用经方思维解读国医大师班秀文教授更年期案 尤虎 尤虎中医 在泳池里学游泳, 在临床上学经方. --尤虎 如果尽可能只开伤寒金匮中的经方, 遇到各类病人怎么办? 国医大师班秀文医案 段某,女,48岁,已 ...

  • 经典雄文《论持久战》,12个成语精确解读与点赞(奇文)

    <论持久战>,毛泽东的经典著作,世界十大军事名著之一,一直被世人从各个角度进行解读,呈现出丰厚的价值和魅力. 而且,品读一番发现,<论持久战>中蕴藏着诸多经典成语的风范.这里略 ...

  • 大投机家:个人交易体系之如何正确解读市场价格运行规律

    当笔者在写自己是如何解读市场价格运行规律时,难免会有人怀疑笔者的诚意,对此,我只想说一句:今日之我非昨日可比,明日之我定更胜今日,学今日之我者,明日之我何惧之. 正所谓,为学日益 ,为道日损 :损之又 ...

  • 超全!各类设备原理,海量动图一文就够!

    这些展示设备原理的动图,一定有你没见过的. ▲ 火力发电流程原理 ▲ 核能发电流程原理 ▲ 水力发电流程原理 ▲ 光热发电原理 ▲ 垃圾发电原理 ▲ 蒸汽吸收式制冷原理 ▲ 尿素热解脱硝流程原理 ▲ ...

  • 人工干预如何提高模型性能?看这文就够了!

    有一些行业对误报非常敏感,如金融行业,在对信用卡欺诈检测时,如果检测系统将用户的行为错误地分类为欺诈,这将对该金融机构的声誉产生负面影响[1].又如在医学领域对癌症诊断时,对假阳性反应是很敏感的[3] ...

  • 高中历史,如何用一句话搞定关键史实和核心概念?这一文就够了

    学习历史和语文一样,知识素养的积累需要一个长期的过程. 其实历史知识有其独特的规律,如果把相关知识归纳汇总,记忆起来也是很有效果的.今天我整理了中国史和世界史的关键史实和核心概念,简短精炼,方便记忆. ...