Trimmomatic | 点点点,测序原始数据质控,技能√get

写在前面

悔恨的眼泪犹如滔滔江水,绵延不绝!早知今日,何必当初。
约莫半个月前,我说过要让所有人都可以分析公共测序数据(SRA测序原始数据 - 到 - 基因表达量)。说得通俗一点:无论是在Windows还是Mac操作系统下,你都可以点点点完成基本的转录组数据分析。
前述已经提及了,这个事情本身无论是对高校教师,科研院所工作人员,课题组苦力研究生,科研服务公司技术,尤其是销售,完全利好,未有利空可能。感觉上是一件不错的事情,不过情况和五年前我写 TBtools 是类似的,亦即其实并没几个人看好。但这其实没啥问题,我习惯了自认优秀,于是立了 flag,一周更新一个插件,用一两个月的时间,完成这个事情。善始善终嘛,既然有这个想法,管他到底是否有用,做了再说。
好,最坑爹的事情就是立了 flag.... 前面写了

  1. SRA 数据信息整理和下载(SRA,DDBJ,ENA) - TBtools 内置

  2. SRAtoFastq 格式转换 - 插件发布

  3. FastQC 质量控制 - 插件发布

其实接下来就两个插件:1)质量控制;2)读段计数/表达量估计。写不下去的原因有多,主要问题在于:

  1. 无法设计出精简的步骤,使得每个人都能轻松掌握

  2. 有些输入参数,无法让用户不出现误操作,比如用啥接头序列

  3. 有些程序需要改源码,比如依赖程序的源码中 Spilt(":"),在windows下路径会被错误处理
    4.....

当然还有其他问题....所以不想写,可是

上周有人问,这周还是有人问。知道我的人都很清楚,我个人最厌恶的,不是好人也不是坏人,而是不守承诺的,更或者言而无信的。既然我自己立了 Flag,那就硬着头皮也要搞完。不然我不就马上活成自己厌恶的样子?

插件安装

首先拿到这个插件,一个 .zip 压缩包

其次打开 TBtools,并跳转到 插件安装 菜单

拖拽放置,或者点击选择 Trimmomatic.zip

于是就安装成功了

插件的使用

打开功能界面

对于测序原始数据,质控内容主要有二:

  1. 接头

  2. 低质量碱基

如上界面,要求用户提供接头序列,如果清楚接头序列,那么以 Fasta 格式输入即可,具体可以参考 Preset 摁钮跳转的接头集合目录下的文件格式准备

如果你确实不知道接头到底是啥,那么直接使用Merged.Adapter.fa,也就是把其他全部接头序列合并成一个文件,这几乎在所有情况下都可以正常处理。另外也不用担心接头找不到,因为.... Trimmomatics 对双端数据也会自动预测可能的接头。
如果我操作的话,就直接设置Merged.Adapter.fa为接头序列。

接下来就是设置测序数据,注意,TBtools 这一系列的插件设计和开发的目的前述已经提出,让所有人都有能力处理小的测序项目,换句话说,几十上百个样品,并不太合适使用。

  1. 对于双端测序数据,每次拖拽或者选择两个测序数据文件(即一对)

  2. 对于单端测序数据,每次拖拽或选择一个测序数据文件

如下

比如,一共是六个样品的 双端测序数据,那么就每次拖拽两个,拖拽 六次 ...
设置完了,就直接点 Start 摁钮即可。
然后就是等待,直到完成(或者提示报错)

完成后,可以看到

输入数据目录下,出现了四个新的文件,均为质控后的结果,一般直接用 _clean.fq 后缀的两个文件。而_unpaired.fq 对应的是,质控后某一端测序的质量过差,被清理了。一般不用于组装,不会使用。

质控参数简单介绍

总的来说,我个人不建议不了解参数和具体数据的情况下修改这些参数(基于我个人经验而设置的),换句话说,几乎不需要修改。不过既然写了,那就还是提一下具体参数含义:

Min Tailing Qual: 从读段 3 端开始切除质量值低于 指定值 的碱基,这个有必要的话,可以提高
Min Leading Qual: 从读段 5 端开始切除质量值低于 指定值 的碱基,这个除非数据用于组装,否则不建议使用,主要原因是可能引入过多看似测通甚至正反向读段位置不合理的数据
Crop(kept 5'end): 从读段 5 端开始,保留指定个碱基,其他切掉,这个参数一般用于数据去 Bias,在某些情况下用到,比如大规模的做,对于同个实验产生的数据,几乎不可能用上
Crop(remo 5'end): 从读段 5'端开始,切除指定个碱基,这种在一些数据上有用处,但目前用得不多,可以直接从 FastQC 结果知晓。在小RNA测序数据上,有一定的数据可用上
Sliding WindSize: 滑窗大小,可以调节,默认是 4个碱基 计算一次
Sliding WindQual: 窗口最低平均质量值,低于这个值,会切断读段,保留 5端,舍去 3 端,还是不错的
Min Read Length: 质控后读段最低长度,36 其实还是比较严格的,但没事,二代测序,数据量大,当然按理说 25 以上常常足够了

写在最后

(0)

相关推荐