盘点扩增子序列拼接工具和方法

2024-06-07 06:13:07

整理：谢鹏昊

修改：文涛

序列拼接

一.QIIME
二. Vsearch
三. Usearch

序列拼接

拿到扩增子测序结果之后的第一件事就是序列拼接（默认公司发放的数据都是没有问题的，所以不进行质量评估）。关于序列拼接，目前我们使用很多工具，三大扩增子分析工具（Qiime，mothur，usearch（vsearch））都有自己的拼接命令。目前mothur出现在文章中的频率不高了，早先的软件跟新不够，相比于usearch不够快，相比于Qiime不够全面。所以，目前文章中做扩增子分析常用的也就是Qiime和usearch的拼接命令。Vsearch是一个怎样的存在呢？其实第一次听说，实在17年的nuture中，发布全球细菌微生物图谱。作为开源的扩增子分析工具，这个工具来源于usearch，功能和命令都类似。价值主要在可以免费使用，无数据量的限制。

所以下面就着三个工具 Qiime usearch Vsearch 的序列拼接命令进行一个总结，我们提供两种模式的序列拼接，基于单个fq文件，基于多个fq文件。（末尾有彩蛋）

一.QIIME

1.单个fq文件拼接

join_paired_ends.py -m SeqPrep –f $PWD/forward_reads.fastq -r $PWD/reverse_reads.fastq -o $PWD/SeqPrep_joined

join_paired_ends.py QIIME 软件上一个函数，执行拼接命令

-m 调用方法

SeqPrep 慢更准确
fastq-join 快

–f 设置序列前端所在文件路径
-r 设置序列后端所在文件路径
-o 合并后输出的文件位置

2.多条序列同时拼接

# 对文件名有固定要求ABC_L001_R1_001 ABC_L001_R2_001 multiple_join_paired_ends.py -i input_files -o output_folder -p join.txt --include_input_dir_path

ERROR1

Invalid filename found for splitting on input for file /home/qiime/Desktop/Shared_Folder/NCBI28/16S/data_processing_gg135/a0_raw_data/a1_name_change/SRR9620715_1.fq, check input read1_indicator and read2_indicator parameters as well.

通过修改序列名字为标准格式解决

ERROR2Text file busy:'/home/qiime/Desktop/Shared_Folder/NCBI28/16S/data_processing_gg135/a0_raw_data/a1_name_change/try/S0_L001_R1_001/fastqjoin.un2

将文件夹try移动到桌面解决

3. for循环+单个拼接=多个fq文件拼接

for i in *_1.fq; do echo ${i%%_*}; join_paired_ends.py -m SeqPrep -f $PWD/${i%%_*}_1.fq -r $PWD/${i%%_*}_2.fq -o $PWD/resistant_join1/${i%%_*}; mv $PWD/resistant_join1/${i%%_*}/seqprep_assembled.fastq.gz $PWD/resistant_join2/${i%%_*}.fastq.gz; gzip -d $PWD/resistant_join2/${i%%_*}.fastq.gz; done

首先设置好工作目录

for i in; do ;done对目录中文件依次执行do 后面所列命令

for i in *_1.fq 将目录下所有名称为_1.fq 赋值给i

${i%%_*} 移除第一个_及其右边字符

eg: i= SRR9620715_1.fq --- SRR9620715

echo 在面板中显示结果

上面这条对多个fq文件拼接的命令拆分展示

#序列拼接 join_paired_ends.py -m SeqPrep -f $PWD/${i%%_*}_1.fq -r $PWD/${i%%_*}_2.fq -o $PWD/resistant_join1/${i%%_*}

#将合并后文件移动到另一文件夹，方便后续操作 mv a(文件所在) b(指定文件夹) mv $PWD/resistant_join1/${i%%_*}/seqprep_assembled.fastq.gz $PWD/resistant_join2/${i%%_*}.fastq.gz# 对gz 文件解压 done 结束循环 gzip -d $PWD/resistant_join2/${i%%_*}.fastq.gz; done

二. Vsearch

1.单个拼接

# \为换行符,否则分行后无法运行 vsearch --fastq_mergepairs seq/WT1_1.fq \ --reverse seq/WT1_2.fq \ --fastqout temp/WT1.merged.fq \ --relabel WT1.

vsearch --fastq_mergepairs 执行拼接

seq/WT1_1.fq 序列前端所在文件位置

--reverse seq/WT1_2.fq 序列后端所在位置

--fastqout temp/WT1.merged.fq 输出目录

--relabel WT1. 改名

2. for循环+单个命令=多条拼接

这个循环需要我们提前准备好metadata文件，就是fq文件的名称列表。

for i in `tail -n+2 metadata.tsv | cut -f 1`;do vsearch --fastq_mergepairs seq/${i}_1.fq --reverse seq/${i}_2.fq \ --fastqout temp/${i}.merged.fq --relabel ${i}. done

tail -n+2去表头，cut -f 1取第一列，即获得样本列表

vsearch --fastq_mergepairs 拼接命令

seq/${i}_1.fq 序列前端

--reverse seq/${i}_2.fq 序列后端

--fastqout temp/${i}.merged.fq 输出路径及名字

--relabel ${i}.

三. Usearch

1.单个拼接

usearch -fastq_mergepairs SampleA_R1.fastq -reverse SampleA_R2.fastq -fastqout merged.fq

2.多个拼接

这个命令出了将序列拼接完成之后顺便讲全部拼接好的结果合并为一个gq文件，方便后续处理。

for Sample in *_R1.fq; do echo ${Sample%_*}; usearch -fastq_mergepairs ${Sample%_*}_R1.fq -fastqout $Sample.merged.fq -relabel $Sample.; cat $Sample.merged.fq >> all.merged.fq;done

新一代的扩增子流程

基于新一代扩增子流程，Qiime2已经将序列拼接命令合并到的一起了，目的就是寻求最为简易封装的命令模式。我们可能也碰不到其中的序列拼接命令。其实这其中有一些细节需要注意，尤其是对于DADA2算法，这个算法并不是使用的传统的流程：序列拼接-质控-otu表格-下游的模式，而是使用：序列质控-DADA2错误学习-unique序列获得-序列拼接-去除嵌合的顺序做的，所以有很多朋友问询，是否可以将序列拼接后的结果直接做DADA2呢，这里不建议这么做。

Harvard FAS Informatics出品的ATAC

Harvard FAS Informatics出品的ATAC-seq测序指南 github链接:harvardinformatics/ATAC-seq 参考文献:ATAC-seq: A Method ...
【直播】我的基因组70：比对文件并不能完美的还原出测序文件

前面我们说到过可以用软件或者自己写脚本从已经比对到参考基因组的sam/bam格式文件提取出原始的测序fastq文件. 但是我在IGV里面检查bam文件的时候发现了一些难以理解的现象,所以趁这个机会把它 ...
lncRNA组装流程的软件介绍之seqtk

咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...
技术贴 | 16S专题 | 初学者如何深入解读16S rDNA扩增子测序数据，从而选择自己的分析步骤（满满干货～）

导读网络上有很多16S rDNA扩增子测序数据的详细分析流程.但是很多初学者在拿到测序公司给的测序数据时,仍然不知道从何下手.究其原因,我们从测序公司拿到的数据是五花八门的,网上的分析流程虽然详 ...
使用bowtie2去除宿主序列

在研究组织或者肠道微生物时,常常需要去除宿主的DNA序列,以防止宿主的序列干扰研究.去宿主序列的主要研究方法是通过将质控后的序列与宿主基因组进行比对,将比对上的序列进行去除.比对软件通常有bowtie ...
侠之大者，为老数据接盘

粉丝来稿写在前面在几乎所有模式植物转录组测序技术都做烂的今天,始终有一些植物因为种种原因鲜有问津.例如小麦,就像是开在奢侈品商场的黄焖鸡:有钱的人未必瞧得上,没钱的也压根就不会去光顾.不过这么多年 ...
MPB：遗传发育所刘永鑫等-易扩增子：易用、可重复和跨平台的扩增子分析流程

为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...
NGS数据分析实践：06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正

NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正目录 1. 序列比对 1.1 参考基因组建索引 1.2 序列比对 2. 排序 3. PCR重 ...
关于定岗定编中定岗的工具和方法

年底了,很多组织的HR都在忙着做定岗定编的事情,这是人力资源规划的基础源点,当然这也是一个很复杂的工作,尤其是现代组织形态变化多样,貌似都没有规矩可循,但是古老的方法依然还是有用的,为了把定岗定编说透 ...
网络营销技巧-网络营销工具与方法大揭秘

在网络营销过程中,网络营销工具的使用是一个重要环节,能否有效使用网络营销工具在很大程度上决定只最终的营销效果.然而目前依然又很大一部分网络营销人员还在沿用多年前的推广信息群发思路,以致于不仅不能取得良 ...
【证件照】教师资格面试报名照片要求及在线处理工具和方法

开始了!开始了!教师资格证面试网上报名即将于2021年4月15日正式启动,时间短.人数多,大家都准备好报名资料了吗? 根据往年教资面试报名的情况,报名时间较短,最麻烦的一步就是上传个人报名照片及照片审 ...
全能系统维护软件，高级工具使用方法详解。

全能系统维护软件，高级工具使用方法详解。
解决生产物料齐套性的工具与方法

2021-04-13
Vlog视频怎么做？要准备哪些工具？方法都在这！

Vlog,称为视频博客,是现在比较流量的一种视频类型,简单来说,就是用视频记录生活日常的一种方式.涉及的视频也很广泛包括拍摄记录旅游.下班日常.出行日常等等.将这些视频拍摄剪辑好上传到各大自媒体平台, ...
科研 | Microbiome：扩增子和宏基因组测序方法的比较分析揭示了动物metaorganisms进化的关键特征

编译:流年梦,编辑:小菌菌.江舜尧. 原创微文,欢迎转发转载. 导读宿主与其相应微生物群落之间的相互作用现在被认为是生态.进化和发展的基础.这些相互关系激发了多细胞生物作为"宏生物&quo ...
手机控制电脑的远程工具使用方法

小伙伴们你们知道手机怎样控制电脑远程工具,今天小编很乐意与大家分享手机控制电脑的远程工具使用方法,感兴趣的可以来了解. 使用:TeamViewer控制软件. 使用方法如下: 第一步.在我们的手机,电脑 ...
鸡心领用罗纹拼接的缝纫方法，让领盘更加服帖

鸡心领用罗纹拼接的缝纫方法，让领盘更加服帖

盘点扩增子序列拼接工具和方法

序列拼接

一.QIIME

1.单个fq文件拼接

2.多条序列同时拼接

3. for循环+单个拼接=多个fq文件拼接

上面这条对多个fq文件拼接的命令拆分展示

二. Vsearch

1.单个拼接

2. for循环+单个命令=多条拼接

三. Usearch

1.单个拼接

2.多个拼接

新一代的扩增子流程

相关推荐