稀有 | GXF Stat 一次统计物种的Gene/mRNA/Exon/Intron/CDS/UTR...信息

写在前面

近日在鼓捣课题的过程中,遇到了一些数据整理需求。需要快速统计物种的序列特征情况,比如基因,转录本,外显子,内含子,CDS,UTR等。但我们其实都清楚,很多物种的基因结构注释信息比较粗糙,所以前面我写了一个功能GXF Fix,详细见《GXF Fix 修复 / 优化基因结构注释信息文件 - GTF/GFF3》。说实话,我觉得这个功能还是比较有用的。
既然Fix有了,那么就可以搞“Stat”,于是今天主要介绍GXF Stat。

看看结果文件先

Emmm,这个功能说来也简单,就是做一个信息整理,结果文件如下。
看个拟南芥的,我们知道,拟南芥的注释很全面,完全不需要Fix,统计结果如下。

看个香蕉的统计结果,就相对简单,因为不存在 TE 的注释,也没有直接的假基因的特征标识。

整体上,我们可以看到,GXF Stat的统计结果,包括:

  1. 染色体数目

  2. 基因数目

  3. 转录本数目

  4. 基因ID

  5. 染色体ID

  6. 基因在染色体上的坐标跨度

  7. 每个基因的转录本个数

  8. 每个转录本的ID

  9. 每个转录本在染色体上的坐标跨度

  10. 每个转录本的外显子数目

  11. 每个外显子在染色体上的坐标跨度

  12. 每个转录本的内含子个数

  13. 每个内含子在染色体上的坐标跨度

  14. 每个转录本的CDS 特征个数

  15. 每个转录本的CDS 特征在染色体上的坐标跨度

  16. 每个转录本的UTR 特征个数

  17. 每个UTR 特征在染色体上的坐标跨度

写在最后

(0)

相关推荐