Kallisto | 点点点,从 测序数据 到 基因表达量矩阵 人人都可以!
写在前面
2020 年 07 月末,我立了 flag,提出通过写一系列的TBtools插件,进而让所有人(在笔记本上)完成常规的(非上百套数据)公开可获取的转录组数据分析。
转眼,约莫一个月就过去了。中间也跳票了两周。相信一路支持下来的朋友,看到我这一系列插件的上一个推文就知道,我多少已经有坚持不下去的样子。但既然说了要搞,那么一定要搞,主要出发点还是三个:
说话不算话,不是我的风格
现在不整,以后就更不会整了
多少我还是用的上
于是,我花了点时间,看了相关文献,也做了一些软件选择,最后确定并在今天写完了最后这个插件 - Kallisto Super Wrapper。本来想叫 Kallisto GUI Wrapper,但这个插件不仅仅是 Wrapper,还是比较便利,且有 TBtools 的结果整理,明显更有助于下游数据查看和分析。
插件安装
Kallisto Super Wrapper 支持 Windows 和 Mac 平台,插件为一个 .zip 压缩包(不要解压)。
安装插件与其他插件类似。打开 TBtools 并跳转到插件安装菜单
点击菜单项,即可弹出插件文件选择框
随后即可看到插件安装完成(如果失败,那么必然是 TBtools 版本过老,先更新吧)
插件的使用
从插件菜单,找到 Kallisto Super Wrapper 菜单项,点击即可
具体按格式输入和操作即可
其中存在一些参数可以注意一下,当然对于双端测序,往往保持默认也并没有问题,但还是具体说明下。
Bias Correction 转录组测序往往会收到序列偏好影响,建议勾选
Kmer Size Kallisto 本身定量基于 Kmer 分析,注意到,这个其实是一个关键参数,越大那么准确度往往越高,但也可能会由于测序错误(参考转录本或测序数据有差异)而丢失部分信息;越小则数据利用率越高,但也会带来更多多处匹配,影响定量准确(当然,Kallisto 文稿说明影响不是非常大)。最高是 31,可以降低,但不建议降得太低,个人观点,25 足够低了,也建议除非必要,不做调整
Boot Strap Kallisto 基于 Kmer 信息估算转录本表达量,可以对测序数据进行重抽样,这样可以评估估算值的技术可重复性,个人认为除非是使用其下游套装做分析,否则,无需做这一步(Emmm,似乎 TBtools 这个 Wrapper 用不到,这个参数应该不做开放)。
ThreadNum 运行时使用的线程数,感觉上这个主要还是用于 BootStrap,所以一般不做调整,从某种角度是越高越好,但似乎没必要
StrandedS 链特异文库,其中包括 NS 即 非链特异,FR 即常见的 dUTP 建库(第一读段方向与转录本方向相反 Forward Reverse 的意思),以及 RF,其他类
SingleOverhang 这个参数针对双端测序数据,个人认为还是勾选,主要处理一些读段,正向或者反向的一端匹配不到转录本上,这种应该比较常见
FragLen 这个参数针对单端测序数据,事实上,用户需要根据自己测序数据的文库构建参数,即进行建库时,确定出来的插入片段大小,常见的RNAseq大概是200,用作默认,但如果输入的是单端测序数据,还是要自己调整;对于双端数据,无需理会,kallisto会自行估算
FragLenSD 即 单端测序数据的插入片段长度估计值,默认的 30 为经验值,但建议用户自己根据实验参数调整;双端数据,仍然无需理会
Done,其实对于我来说,啥也不管,反正现在几乎只有双端测序数据....
啥都设置好了,就点击运行
这里是三个样品的双端测序数据(各两个 fsatq 文件)
OK,运行结束,我们看看输出
可以看到,输出文件有且仅有两个,TPM 矩阵(基因表达量矩阵,这个是我们要的) 和 Counts 矩阵(有些人或许会拿到一些网页工具做差异表达分析)
打开看看
完美!(其中数值偏大,可以理解哈,因为这个是 Demo Data,样品少,sum(TPM) = 1000000)
为什么我说完美?因为 TBtools 自动整合了多个样品的 Kallisto 输出结果,直接给你两个表格。