Kallisto | 点点点，从测序数据到基因表达量矩阵人人都可以！ / 开普饭

写在前面

2020 年 07 月末，我立了 flag，提出通过写一系列的TBtools插件，进而让所有人（在笔记本上）完成常规的（非上百套数据）公开可获取的转录组数据分析。
转眼，约莫一个月就过去了。中间也跳票了两周。相信一路支持下来的朋友，看到我这一系列插件的上一个推文就知道，我多少已经有坚持不下去的样子。但既然说了要搞，那么一定要搞，主要出发点还是三个：

说话不算话，不是我的风格
现在不整，以后就更不会整了
多少我还是用的上

于是，我花了点时间，看了相关文献，也做了一些软件选择，最后确定并在今天写完了最后这个插件 - Kallisto Super Wrapper。本来想叫 Kallisto GUI Wrapper，但这个插件不仅仅是 Wrapper，还是比较便利，且有 TBtools 的结果整理，明显更有助于下游数据查看和分析。

插件安装

Kallisto Super Wrapper 支持 Windows 和 Mac 平台，插件为一个 .zip 压缩包（不要解压）。

安装插件与其他插件类似。打开 TBtools 并跳转到插件安装菜单

点击菜单项，即可弹出插件文件选择框

随后即可看到插件安装完成（如果失败，那么必然是 TBtools 版本过老，先更新吧）

插件的使用

从插件菜单，找到 Kallisto Super Wrapper 菜单项，点击即可

具体按格式输入和操作即可

其中存在一些参数可以注意一下，当然对于双端测序，往往保持默认也并没有问题，但还是具体说明下。

Bias Correction 转录组测序往往会收到序列偏好影响，建议勾选
Kmer Size Kallisto 本身定量基于 Kmer 分析，注意到，这个其实是一个关键参数，越大那么准确度往往越高，但也可能会由于测序错误（参考转录本或测序数据有差异）而丢失部分信息；越小则数据利用率越高，但也会带来更多多处匹配，影响定量准确（当然，Kallisto 文稿说明影响不是非常大）。最高是 31，可以降低，但不建议降得太低，个人观点，25 足够低了，也建议除非必要，不做调整
Boot Strap Kallisto 基于 Kmer 信息估算转录本表达量，可以对测序数据进行重抽样，这样可以评估估算值的技术可重复性，个人认为除非是使用其下游套装做分析，否则，无需做这一步（Emmm，似乎 TBtools 这个 Wrapper 用不到，这个参数应该不做开放）。
ThreadNum 运行时使用的线程数，感觉上这个主要还是用于 BootStrap，所以一般不做调整，从某种角度是越高越好，但似乎没必要
StrandedS 链特异文库，其中包括 NS 即非链特异，FR 即常见的 dUTP 建库（第一读段方向与转录本方向相反 Forward Reverse 的意思），以及 RF，其他类
SingleOverhang 这个参数针对双端测序数据，个人认为还是勾选，主要处理一些读段，正向或者反向的一端匹配不到转录本上，这种应该比较常见
FragLen 这个参数针对单端测序数据，事实上，用户需要根据自己测序数据的文库构建参数，即进行建库时，确定出来的插入片段大小，常见的RNAseq大概是200，用作默认，但如果输入的是单端测序数据，还是要自己调整；对于双端数据，无需理会，kallisto会自行估算
FragLenSD 即单端测序数据的插入片段长度估计值，默认的 30 为经验值，但建议用户自己根据实验参数调整；双端数据，仍然无需理会

Done，其实对于我来说，啥也不管，反正现在几乎只有双端测序数据....

啥都设置好了，就点击运行

这里是三个样品的双端测序数据（各两个 fsatq 文件）

OK，运行结束，我们看看输出

可以看到，输出文件有且仅有两个，TPM 矩阵（基因表达量矩阵，这个是我们要的）和 Counts 矩阵（有些人或许会拿到一些网页工具做差异表达分析）
打开看看

完美！（其中数值偏大，可以理解哈，因为这个是 Demo Data，样品少，sum(TPM) = 1000000）
为什么我说完美？因为 TBtools 自动整合了多个样品的 Kallisto 输出结果，直接给你两个表格。

Kallisto | 点点点，从 测序数据 到 基因表达量矩阵 人人都可以！

写在前面

插件安装

插件的使用

写在最后

相关推荐

Kallisto | 点点点，从测序数据到基因表达量矩阵人人都可以！