稀有 | GXF Stat 一次统计物种的Gene/mRNA/Exon/Intron/CDS/UTR...信息
写在前面
近日在鼓捣课题的过程中,遇到了一些数据整理需求。需要快速统计物种的序列特征情况,比如基因,转录本,外显子,内含子,CDS,UTR等。但我们其实都清楚,很多物种的基因结构注释信息比较粗糙,所以前面我写了一个功能GXF Fix,详细见《GXF Fix 修复 / 优化基因结构注释信息文件 - GTF/GFF3》。说实话,我觉得这个功能还是比较有用的。
既然Fix有了,那么就可以搞“Stat”,于是今天主要介绍GXF Stat。
看看结果文件先
Emmm,这个功能说来也简单,就是做一个信息整理,结果文件如下。
看个拟南芥的,我们知道,拟南芥的注释很全面,完全不需要Fix,统计结果如下。
看个香蕉的统计结果,就相对简单,因为不存在 TE 的注释,也没有直接的假基因的特征标识。
整体上,我们可以看到,GXF Stat的统计结果,包括:
染色体数目
基因数目
转录本数目
基因ID
染色体ID
基因在染色体上的坐标跨度
每个基因的转录本个数
每个转录本的ID
每个转录本在染色体上的坐标跨度
每个转录本的外显子数目
每个外显子在染色体上的坐标跨度
每个转录本的内含子个数
每个内含子在染色体上的坐标跨度
每个转录本的CDS 特征个数
每个转录本的CDS 特征在染色体上的坐标跨度
每个转录本的UTR 特征个数
每个UTR 特征在染色体上的坐标跨度
写在最后
赞 (0)