如何在四分钟内完成一篇SCI文章的全部数据分析
首先为熊的写作协作小组点赞,吸引到了远在澳大利亚的优秀小伙伴加入,下面关于kallisto软件作者的博文翻译由MING主导,我虽然不用kallisto,但是salmon我却在多种场合推荐,的确是非常方便的转录组数据分析工具,以下是译文:
三年前,当我和共同作者(Páll Melsted, Nicolas Bray, Harold Pimentel)在arXiv上发表了“kallisto文章”(后来Bray等人于2016年发表了“近似最优概率的RNA-seq量化”一文)时,我们称kallisto在不影响测序分析准确性的情况下,通过比当时其他最先进的量化方法快两个数量级而去除了RNA-seq分析的主要计算瓶颈。
使用kallisto,以前需要数天的计算可以在几分钟内准确执行。
尽管分析的速度提升显著,但结果的相关性立即受到质疑。
评论家指出,实验、建库和测序需要几个月,而不是若干年,那么kallisto的分析只能节省数天,且kallisto分析速度提升后结果的相关性并不确定,所以对kallisto的速度提升持谨慎态度。
我们对此做出的反驳是,kallisto不仅可用于单个数据集的快速分析,还可完成以前不能达到的计算规模的分析。
为了具体说明我们的观点,在随后的文章中(Pimentel等人于2016年发布的 “The Lair: a resource for exploratory analysis of published RNA- seq data”[https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-016-1357-2] ),我们描述了利用kallisto的快速性和准确性完成RNA-seq数据的半自动化分析流程,并且描绘了“整体分析短读长(SRA数据库,short read archive)数据”的愿景,从而实现“通过使用同一工具处理不同数据集的研究结果的比较”。
实现这一愿景的一个主要挑战是,虽然kallisto可以快速地低成本处理所有短读长的RNA-seq数据(如,在我们发表kallisto后不久,Vivian等人于2017年的研究结果表明,kallisto将每个样本的分析成本从1.30美元降至了0.19美元,而Tatlow和Piccolo在2016年的研究则显示每个样本的分析成本仅为0.09美元),但实验分析不仅限于量化分析。
在Pimentel等人于2016年发表的文章中,我们争论如何处理实验元数据(随后整篇由 Bernstein 等人于 2017 年发表的文章[https://academic.oup.com/bioinformatics/article/33/18/2914/3848915] 都是关注这个问题),如何使用户能够动态测试不同的研究假说,如何将研究结果与现有数据库和资源进行链接。
结果,Pimentel等人在2016年发表的文章更多的是对原理而非完整资源的验证;最终我们只能完成对几十个数据集的分析。
现在,西奈山伊坎医学院的Avi Ma’ayan小组已经克服了RNA-seq短读长自动化分析项目中遇到的诸多挑战,并发布了一款名为BioJupies[https://amp.pharm.mssm.edu/biojupies/] 的工具(Torre et al. 2018[https://www.cell.com/cell-systems/fulltext/S2405-4712(18)30432-0] )。
为了评估BioJupies,我对照”Cuffdiff2”(Trapnell et al. 2013[https://www.nature.com/articles/nbt.2450] )文章中的数据分析形式进行了阳性对照分析(数据存档为GSE37704[https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE37704] )。
这是用于初步测试Pimentel等人于2016年发表文章的方法的数据集,也是Sleuth[https://pachterlab.github.io/sleuth_walkthroughs/trapnell/analysis.html] 工具用到的数据集。鉴于我对此数据集的熟悉,用它对BioJupies进行测试将是一个好的参考。
简而言之,Trapnell和Hendrickson等人于2013年对经由siRNA敲减HOXA1(一种发育转录因子)处理的肺成纤维细胞进行了差异分析。
使用BioJupies分析数据集就像在Biojupies 搜索框[https://amp.pharm.mssm.edu/biojupies/analyze/search?q=GSE37704] 中键入Gene Expression Omnibus(GEO)号一样简单。
点击“analyze”,点击几次“+”以添加所有可以生成的图,点击“continue”后会打开一个询问样本信息的窗口;HOXA1敲减样本选择“Perturbation”,未靶向特定基因的乱序siRNA处理的样本选择“Control”,样本设置如下图:
然后点击“generate notebook”……
之后BioJupies会以笔记形式展示了对数据的完整分析结果(Trapnell et al. 2013 | BioJupies[https://amp.pharm.mssm.edu/biojupies/notebook/0zo2FL7TT] )。
Trapnell等人的大部分分析结果很快地展示在生成的notebook[https://amp.pharm.mssm.edu/biojupies/notebook/fOFEINIwr] 中。
例如:
下图是Trapnell等人发表的图5a结果,是敲减后的基因组富集分析(GSEA,Gene Set Enrichment Analysis)结果。
BioJupies展示的信号通路富集分析结果:
当然BioJupies还展示了许多其他信息和分析结果,从PCA主成分分析结果到L1000 连通图[https://www.broadinstitute.org/connectivity-map-cmap] 分析结果(expression signatures from a large database of over 20,000 perturbations applied to various cell lines that match the signatures in the dataset)。
BioJupies的一个强大应用是ARCHS4共表达数据的呈现。ARCHS4是kallisto计算的完整表达数据库,也是BioJupies的主要数据库。其特征之一是共表达基因的列表(通过整个短读长的相关性确定)。这些基因显示在BioJupies,使得实验结果可以展示在“全局”转录组关联背景中。
相比于Trapnell等人2013年的文章是对数据集的重分析,BioJupies在分析尚未发布的数据集时,其分析性能得到很好的体现。
我检查了GEO数据库,发现了GSE60538[https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE60538] 系列数据似乎是来自发表文章中的子数据集。该数据来自一项研究,旨在通过两次单敲除和一次双敲除实验研究Sox5和Sox6在小鼠心脏中的作用。该研究源于2014年(与其包含的单端50bp读长一致),但最近更新了。研究项目中共有8例样本,其中含4例对照和4例双敲除的处理样本(单敲除样本尚不可用)。
我找不到相关文章,也找不到与GEO相关联的数据,但文章的摘要已经上传到网站。正如上文处理Trapnell等人在2013年发布的数据集那样,我在BioJupies网站上加入了数据检索号……
4分钟后:
GSE60538分析的摘要指出:“我们对DKO小鼠和对照小鼠的心室进行RNA深度测序以找出潜在Sox5/6作用的靶基因,并发现编码钙处理和阳离子转运蛋白调控因子的基因表达改变”。
确实,BioJupies验证了这一结果(详见Beetz et al. GSE60538 | BioJupies[https://amp.pharm.mssm.edu/biojupies/notebook/91qpAF2D5] )。
当然,除此之外还有更多的分析。除了基本的质量控制和数据集统计,BioJupies页面还包括主成分分析,显示决定样本间相似性的“clustergrammer”,差异 基因表达(关联MA图和火山图),GO富集分析,信号通路富集分析,转录因子富集分析,激酶富集分析,microRNA富集分析和L1000分析。某种意义而言,通过BioJupies,用户可以在四分钟内通过网站以文字形式完成分析结果的展示。
Ma’ayan实验室已经使用BioJupies一段时间。该服务由若干工具,分析流程和该实验室以前发布的资源组成,包括:
· Elysium: RNA-seq的云端比对
· Enrichr: 交互式和协作式HTML5基因列表富集分析工具
· KEA: 激酶富集分析
· LINCS Canvas Browser: 交互式网页app,用于查询、浏览和查找LINCS L1000基因表达signatures
· 大量挖掘人和小鼠研究所发布的公共RNA-seq数据
使用BioJupies,这些工具不仅仅是各部分的总和。虽然BioJupies令人印象深刻,但并不完整。
它不包含异构分析;例如Trapnell等人于2013年发表的文章认为,关键点在于BioJupies对于RNA-seq的转录水平分析能提供多少信息。
但我认为将来BioJupies会包括异构分析的功能。异构量化法由kallisto提供,并且已经可以通过ARCHS4下载。尽管目前BioJupies依赖的一些数据库在其他模型生物中不完整,如果BioJupies可以扩展到人类和小鼠以外的其他物种,那会很棒。甚至可以为非模型生物创建BioJupies。
我希望作者已经考虑过这些想法。我对BioJupies还有一些其他问题:如BioJupies笔记应该引用用于生成结果的所有程序和数据集,而且虽然它有一个自动生成的方法部分,但它尚不完整,应该包括对程序的实际调用,以便其完全重现。再者,“建库大小”不是一个样本的reads数,测序的reads数对应“测序深度”。所有上述提及的问题可以轻松解决。
总之,BioJupies为RNA-seq分析实现了巨大突破。它利用对所有(人类和小鼠)公开发布的数据实现了RNA-seq的快速和详尽的全面分析,这超越了以前的可能性,更多结果待发现。
■ ■ ■