简洁 | 优雅地准备 比较基因组分析 文件

写在前面

比较基因组分析已然是常见生信数据分析。开展这类分析时,往往会遇到各式各样的问题,尤其是,输入文件内容和格式的问题,比如:

  1. 只有基因组序列文件和基因结构注释信息

  2. CDS或者蛋白序列 ID 与基因结构注释信息文件中基因 ID 不匹配

  3. CDS或蛋白序列文件中包含可变剪切体

  4. 不同物种 ID 命名系统冲突

  5. ...

解决这一系列问题,最好的办法是针对每一个物种,做相应的文件准备。在 TBtools 中,已有系列工具实现,如 One Step MCScanX 等。为了后续的一些可能操作,使 TBtools 功能串联使用更为顺畅,刚才花了点时间,抽取这部分功能。

Genome Analysis Init

可以看出来,输入文件有二:

  1. 基因组序列文件

  2. 基因结构注释信息文件

此外,可选项 Prefix ,可用于增加前缀,解决不同物种 ID 命名冲突的问题
最后是... 一个输出目录(注意:是目录,不是文件)

使用方法

打开 TBtools 并找到该功能

打开 Genome Analysis Init,随后设置输入输出文件

输出文件

其中,无论是CDS 还是 蛋白序列,都已经取了代表性转录本对应的序列,可以直接用于下游分析

写在后面

可以说,这是一个非常简单的功能。在这个功能推出之前,可以用 TBtools 分几步走:

  1. 对 GXF 文件进行前缀增加

  2. 对基因组序列ID进行前缀增加

  3. 提取GXF代表性转录本的CDS

  4. 翻译 CDS 为 蛋白

然而,如果可以一步搞定,为什么还要做四步呢?

(0)

相关推荐