SRAtoFastq | 任何人都能自主分析测序原始数据

2024-08-02 20:23:17

蓦然回首

在身不由己，无法有什么动作的时候，我就会开始天马星空，胡思乱想。隐约想起了几年前，在华南农林学院某会议室，我大体介绍了一下 TBtools 。介绍完了，有收到这么一个问题，“能不能直接分析测序原始数据？比如 RNA-seq”。
我已经忘了当时我是如何回答。当然，很明显，主题是不能。因为在那时看来，即使是简单的转录组数据分析，本身也涉及较大的计算量。对绝大多数 TBtools 用户来说，可能工作设备就是一个普通的上网本，如 4G 内存甚至2G，4个线程甚至...。其实类似的分析，从界面化软件来说，有 CLC，Genious ... 从不少公司来说，有成熟的云平台。用户其实只需要支付一定的费用，比如一年数千以上，就可以搞定。成熟的商业服务，其实我个人觉得很值。以前这么觉得，现在依旧这么觉得。

于是，这个事情，一放就是几年。
近期在忙学位论文的事情，有时候突然有一些想法，想看看某个物种某些基因在某些组织或者处理前后的表达模式。勉强算是验证 Naive 科研猜想。于是这个时候，又要回去搞命令行。多少觉得麻烦，我其实已经很久没有碰 Linux 了。毕竟我主要还是做生物学问题，并没有太多数据需要跑跑。那现在咋办？
转念一想，当年的问题，其实没那么简单。因为他不仅仅是一个用不用的问题，更是一个用多少的问题。比如买个服务器天天鼓捣和买个服务器吃灰，这是两码事。用户的需求总是千变万化，对于只是需要分析一小套数据（比如Case-Control 6 个样品），而且是公开数据的人来说，其实为此购买商业软件或者云平台，很难认为值得。这个对于商业公司来说，亦是相同：

小单，并不足够利润，甚至不及沟通成本
分析结果用户不一定满意，不接反而省事
从销售出发，赚这单，不如卖人情；然而销售和技术是两码事，还预占公司计算资源，无解

结论即是困局。两边都觉得不值。那咋办？
回过头来，这便是缺口，一个公益的缺口。（好吧，脏活累活大家都不想做，那就我来做）。

简陋计划

我一直提及，并不想写一个打包软件。TBtools 现在也不是打包软件。感兴趣的还是可以看看《Molecular Plant》期刊上 TBtools 的文稿。结合实际情况，组学数据分析或者是转录组测序分析涉及到非常多的成熟软件，比如 sra-toolkits 等。这些本身跟 BLAST 一样，几乎没有重新实现或者重写意义...
于是，打包似乎是无解之解。两相权衡，那就以插件的形式逐个分发。暂定计划如下：

SRA 数据下载 - 已完成；前述写了两个推文，两个功能完全可以胜任
SRA 数据格式转换为 Fastq 格式
Fastq 数据质量查看？
测序数据质量控制
表达量矩阵估计
....

基于我个人的习惯，计划让所有步骤都能在普通的个人工作电脑，即不超过 4G 内存的本子上完成....

插件小四 - SRA to Fastq

Emmm，如何完美获取公开的测序原始数据，在《生信札记》上我已经给出解决方案。今天释放 TBtools 插件 “小四”，SRAtoFastq。
大多数时候，我们下载到的原始数据是 .sra 格式。进行下一步数据分析，需要自行将 .sra 格式转换为 fastq 格式（Emmm，其实也存在少数软件直接支持.sra数据，此处不展开）。

整体上，完成这一步只有两个做法：

使用NCBI 的 SRA toolkits
去NCBI，用内部的 Java 程序

显然，2. 不可行，故选择 1.。软件的安装其实简单，只要下载，解压之后即可使用。TBtools 的目的是“拆除使用门槛”。于是，插件小四是一个打包插件。用户只需要安装这个插件，皆可直接在 TBtools 中，进行 .sra 格式到 .fastq 格式的转换。

插件安装

计划接下来比较多的功能以插件的形式发布，在测试过程中，我发现现有的安装模式显得麻烦。于是做了优化。

修改前，用户需要一个跳转目录，找到插件文件位置。

修改后，用户可以直接拖拽，放置，从而瞬间完成输入

只需要将插件放进去，即可完成选择

点击打开，即可完成插件安装

插件的使用

Emmm，这个有点太简单。

直接拖拽输入 .sra 文件（支持多文件...）

注意：输出文件与输入文件在同一个目录下，所以建议先把.sra 文件复制或者移动到工作目录。

点击 Start 等待完成即可

由于是单端数据，所以一个样品只会输出一个.fastq文件。若是双端测序，则每个样品有两个文件.fastq文件

写在后面

北京基因组所数据库介绍（类似sra和ebi）

基因组学在生物学科的发展中,具有划时代的意义.同时,很多人在刚进入生物信息学领域时,最先接触的也往往是组装基因组,注释基因组.这在我们生信技能树的公号里有详细的教程,需要者可去公号get资源.前面ji ...
什么，ENA和SRA数据库存放的单细胞转录组测序数据并不一致啊？

是时候把生信技能树的舞台交给后辈! 粉丝来稿作者:黑川五郎写在前面单细胞转录组以10X公司为主流,单细胞天地公众号详细介绍了cellranger流程,大家可以自行前往学习,如下: 单细胞实战(一 ...
fast5和fastq格式

前面我们介绍了Oxford Nanopore Technologies(牛津纳米孔技术)公司的一些测序仪,也看到了它产出的测序数据,详见:全长转录组分析之牛津纳米孔测序介绍现在前面一起来详细认识这样 ...
SRA数据库不仅仅是可以存放fastq原始数据

最近刷单细胞文章看到了一个很有意思数据存放细节,这个文献的标题是:<Single-cell sequencing links multiregional immune landscapes an ...
【直播】我的基因组39：从bam中提取我们的原始测序数据

公司给了raw data, clean data,还有alignment的bam文件.在这之前我的博客提到,虽然公司给了比对好的bam文件,但我还是想要自己再比对一下,这就需要把fastq文件上传到服 ...
明码标价之免疫组库

前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB, ...
看优秀本科生如何一周内学会Linux进而搞定RNA-seq上游分析

距离公布要带500个优秀本科生入门生物信息学的活动不到一个月,虽然真正入选不到一百,但是培养成绩喜人,出勤率接近百分之百,大部分人在短短两个星期就完成了R基础知识学习,Linux认知,甚至看完了转录组 ...
掌握基因家族分析与可视化-任何人都可以！

写在前面 TBtools不断地更新,慢慢地能够完成越来越多生信下游数据分析中相对繁琐的小人物.与此同时,TBtools也不断推出了让所有人都能完美绘制一些发表级的图片的功能.机缘巧合之下,有不少做基因 ...
Free！公益释放 | 任何人都能分析 RNAseq 原始数据了，只要你用 TBtools ！

写在前面六年前,我着手开发 TBtools 的主要目的之一,即"减轻科研人员数据分析负担",而后慢慢变化成现在的"降低甚至拆除部分生物信息学数据分析门槛".基 ...
老祖宗的观人术：牢记2个口诀，任何人都藏不住，统统“现原形”

中国拥有数千年历史文明,而在发展的过程中,我国的祖先也总结出了一系列为人处世之道. 这些基本准则能够帮助我们成为更好的人.那么这里就给大家讲一讲老祖宗的观人术.通常只要记下这2个口诀,任何人在你面前都 ...
一生值得去的6座中国城市，任何人都不要缺席，否则真的太遗憾了

一生值得去的6座中国城市，任何人都不要缺席，否则真的太遗憾了
3个副业兼职，任何人都可以做，月入过万！

很多时候,我们都会觉得赚钱很难,心累,不想上班. 但又看到有些人赚钱轻轻松松,每天喝喝茶,健健身,偶尔聊聊项目就把钱赚了. 假如你是送外卖或者送快递的,也许一个月勤快点也能赚个六七千,但是可替代性太强 ...
普洱茶的魅力，不是任何人都懂的！

你好,这是"约茶记"第143篇原创文章,我是茶小派. 南方佳木,陈韵普香一本好书恰如一杯好茶,平日里,打开一本书,泡上一壶茶,清香袭来,畅游在知识的海洋,畅快淋漓! 茶因书而灵动 ...
一代名医去世前留下家规：任何人都不许吃这东西......

一代名医去世前留下家规:任何人都不许吃这东西!原因你绝对想不到..... 1 肾病学宗师邹云翔立下的"家规": 不准家人和孩子们这食物邹燕勤邹云翔之女,江苏省中医院主任中医师, ...
人过50要明白：当你落魄时，这三种人踩得比任何人都狠

社会是复杂的,人性更是如此.人生于世上,需要明白的一点是:你最能够依靠的人,始终只有自己. 除此之外,亲情也好.爱情也好.友情也好,能够依赖的程度有所限制,需要保持理性来看待,而不能不管不顾.绝对的信 ...
管理不听话的下属，就用这三个招数，任何人都乖乖听话

很多人往往都只是看到了那些职场管理者的风光,但是很多时候,只有身处其中,做了一个管理者之后才知道,很多事情并没有我们想象中的那么容易,除了业务问题要处理得当,就连日常的人际关系也要好好维护,同时你也要 ...