2000 引用的fastp推出重磅更新,再提速一倍

NGS数据分析的第一步永远是质量控制和预处理,以往类似的软件功能单一,速度慢,体验不佳。

为了解决这个问题,海普洛斯陈实富博士开发了开源的fastp,因为其速度奇快,功能强大,很快收到了用户们的喜爱。

在2018年9月欧洲计算生物学大会上,陈博士为软件作了介绍,引起了当场热烈的讨论。
论文随后发表在Bioiformatics上,如今已经被引用了2000多次,并且引用数还在以每天5次左右增加。
国庆假期后,fastp迎来了最新的v0.23.0
之所以为这一版更新单独发一个推送,是因为这是fastp史上难度最大,变化最大,价值最大的一次更新。
国庆闭关期间,陈博士几乎重写了整个软件的多线程引擎和I/O模块。
这些努力带来了两点重大的变化:
1.新版的速度比过去版本可能还要快上一倍左右,特别是在压缩率设置为6或以上的时候。
2.所有的结果都可重现了,同一个命令跑两次,结果不会有任何不同。
首先,来看看新版的速度倒底有多快呢?且看下图:

新版fastp

也就是说,在同样的压缩率6下,如果你用gzip将这对FASTQ文件先解压再压缩,用时要2分52秒,而用fastp来做各种处理,再输出结果,用时仅需25秒,比不作处理只读写的gzip快了6倍左右!

另一个重要的更新是结果稳定可重现。老的版本因为线程乱序执行的问题,会导致输出的结果FASTQ reads顺序是乱的,每一次执行都可能不同,这通常情况下不会有问题,因为read的顺序一般是不重要的,但是偶尔也会有一些软件会对read顺序有依赖性。

启用了新的线程模型后,fastp的输出顺序和输入顺序是一致的,一切的结果都是可重现的,reproducibility 问题得到了彻底解决!
再安利一下fastp v0.22.0版带来的dedup模块
这应该是首次有软件实现在FASTQ水平上的高效去重,而且并不怎么影响性能。就算是上百G的FASTQ来去重,占用内存也只是多了小几个G,速度影响也不大,强烈推荐使用!

获取方式

如果你还没有使用fastp,马上登陆项目的网址去了解并使用吧:

https://github.com/OpenGene/fastp

fastp可以通过多种方式安装,推荐使bioconda安装,请参考:

https://anaconda.org/bioconda/fastp

如果你喜欢自己捣鼓代码,可以选择自己编译;

如果你图简单,可以直接下载我们预编译好的版本:

最后,预告一下,fastp接下来的更新主要在单细胞数据和时空组学的数据预处理上。

海普洛斯也将大力进入单细胞和时空组学方面的科研服务。

如果您对单细胞和时空组学的研究感兴趣,或者您对加入海普洛斯做研发感兴趣,您可以联系海普洛斯(公众号留言,或者邮件至:info@haplox.com),或者联系陈博士的微信(微信号:opengene)。

附几个生信相关的招聘信息,恳请可爱的用户小伙伴们帮我们转发推广一下:

岗位一:单细胞组学/时空组学 生物信息工程师

岗位职责:

1、完成单细胞/空间转录组分析流程的设计、开发,维护、升级分析流程;

2、关注生物信息学领域最新科研动态,引进先进工具与分析方法;

3、负责单细胞项目的数据分析及数据挖掘;

4、对项目执行及售后问题提供解决方案;

任职要求:

1、生物信息学、计算机、数学等相关专业;

2、具有2年或以上单细胞数据分析经验;

3、熟练使用 Linux 系统,熟练使用 Python/Perl/R 中至少一种编程语言;

4、熟悉常用的生物信息学数据库,对生物统计学原理及意义有深刻应用能力;

5、有良好的英文阅读和文档写作能力;

6、有单细胞产品、分析流程开发经验,发表过相关论文者优先;

岗位二:生信注册工程师

岗位职责:

1.负责公司IVD产品、LDT产品、医疗器械软件产品研发方案的设计,执行,数据分析和SOP撰写。

2.负责在产品注册申报过程中的注册材料撰写。

3.负责在产品注册申报过程中的体系材料撰写。

4.产品在创新申报,注册检,临床试验和体系考核等环节的数据分析工作

4.负责IVD产品、LDT产品、医疗器械软件产品生产转化,与生产,市场,质量等部门的沟通。

任职要求:

1. 有2年以上生物信息工作经验,具有软件研发经验优先;

2. 熟悉python、R、perl等编程语言中的一种,具有良好的编程习惯;

3. 掌握Linux基础操作及常用指令,熟悉Linux开发环境和Shell编程;

4. 学习能力强,文献阅读能力强,可独立完成研发任务;

5. 掌握生物学基础知识,有统计学基础者优先;

6. 生物、数学、计算机等数理或IT类相关专业,本科及以上相关学历;

7. 具备良好的沟通能力与团队合作精神。

岗位三:生信研发工程师

职责描述:

1. 负责生物信息分析软件及算法的开发、维护、升级和优化;

2. 负责对开发完成的软件撰写开发说明书,负责申请相关软著专利并进行研发答辩;

3. 负责基于二代高通量测序数据的生物信息分析;

4. 负责新软件测试,对软件优势与劣势进行评估并出具评估报告;

5. 负责及时收集国内外肿瘤检测领域最新的技术动态,并基于此信息提出生信产品的开发与优化方向

任职要求:

1. 有2年以上生物信息工作经验,具有软件研发经验优先;

2. 熟悉python、R、perl等编程语言中的一种,具有良好的编程习惯;

3. 掌握Linux基础操作及常用指令,熟悉Linux开发环境和Shell编程;

4. 学习能力强,文献阅读能力强,可独立完成研发任务;

5. 掌握生物学基础知识,有统计学基础者优先;

6. 生物、数学、计算机等数理或IT类相关专业,本科及以上相关学历;

7. 具备良好的沟通能力与团队合作精神。

(0)

相关推荐