lncRNA组装流程的软件介绍之gffcompare

咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程

下面是100个lncRNA组装流程的软件的笔记教程

比较不同样本的转录本定量信息需要先将转录本信息储存为相同的格式,一般组装软件的输出结果都是gtf或gff。由于在组装的过程中产生了大量的新的转录本信息,而我们仅通过肉眼观察其唯一的注释信息----染色体上的起始位置,很显然无法阐明其中蕴含的生物学意义,因此我们需要将它们与已知的转录本注释文件---annotation.gtf进行比较,将新得到的转录本与注释好的转录本之间建立联系,这样可以让我们更好地发现新的转录本。而gffcompare就是做的这个工作,由于它是基于cufflinks的一个附件cuffcompare开发的,因此很多原理及输出文件的格式也与cuffcompare类似。

一、软件安装

使用conda安装

conda install gffcompare

二、gffcompare的用法

安装完成以后,可以使用gffcompare -h来查看软件的帮助文档。

1. 软件用法:

2. 常用参数:

-r # 提供注释好的gtf文件
-G # 比较输入的gtf中所有的转录本,即使它们有可能是冗余的
-o # 输出文件的前缀
-i #如果gtf是很多文件,可以通过-i 提交一个gtf文件的list文件

三、输入文件

 gtf或gff3文件

四、软件运行命令

gtf=/home/data/lihe/reference/human/gtf/gencode.v37.annotation.gtf

nohup gffcompare -R -r $gtf -o ./merged ../05.stringtie/02.merge_gtf/stringtie_merged.gtf > gffcompare.log 2>&1 &

五、输出文件解读

1.输出文件六个,前四个文件可以指定保存位置,后两个文件是跟输入的gtf文件保存在一个位置,并且都是以-o提供的前缀开头的

gffcmp.annotated.gtf:存储的是StringTie组装的转录本与注释文件内的转录本的差别信息,通过class_code来表示

gffcmp.stats:文件存储比对结果的准确性和预测率。

gffcompare.loci:见说明书

gffcompare.tracking:见说明书
 
gffcompare_result.refmap:这个文件包含四列信息,第一列ref_gene_id是gene symbol ,无symbol的给出的是ensemble的gene id; 第二列ref_id是指ensemble的transcript id; 第三列class_code 是“=”和“c”;第四列是cuff_id_list。这个文件指组装后与参考基因组几乎完全匹配的转录本
 
gffcompare_result.tmap:包含了转录本的定量信息,如cov,FPKM等,可用于定量或筛选新转录本(ref_gene_id,ref_id,class_code,qry_gene_id,qry_id,num_exons,FPKM,TPM,cov,len,major_iso_id,ref_match_len)
 

2.class code分类

class_code分类的具体含义:  “=” 代码表示此预测转录本与注释基因的所有内含子完全吻合,但它们在第一外显子(first exon)的起始端或最后外显子(last exon)的末端可能有差别。然而,这并不影响将“=”类重建转录本判定为已注释转录本。又如,转录本标有 “j” 类别代码,表明此转录本至少有一个内含子与已注释基因的内含子相同,而其他位置可能不同,据此可推断此类转录本可能是注释基因的一个新异构体(novel isoform)。另外 “i,o,u,x” 的分类符合lncRNA的特征,可用于lncRNA的识别过程。因此,**“i,j,o,u,x”**这5类转录本表示可能是新的转录本,符合lncRNA的要求,保留作为后续分析。

= : 预测转录本与参考转录本拥有完全相同的内含子

c : 预测转录本包含在参考转录本中

j : 预测的转录本与参考转录本共享至少一个剪切位点,可能是潜在的新型isoform

e : 预测的单外显子转录本与参考转录本至少重合10bp的参考内含子长度,有可能是pre-mRNA

i : 预测的转录子完全落入参考内含子中

o : 预测的转录本的外显子与参考转录本的外显子有重叠

p : 预测的转录本的参考转录本附近2kb的距离内,可能是聚合酶滑动产生的片段

r : 预测的转录本有50%以上的碱基与重复序列重合

u : 与参考转录本相比,预测的转录本是在基因间区

x : 预测的转录本的外显子与参考转录本重合但是在相反的链上

s : 预测的转录本内含子与参考转录本重合但是在相反的链上

文末友情推荐

与十万人一起学生信,你值得拥有下面的学习班:

(0)

相关推荐

  • 易基因 | 独家分享:m6A peak鉴定经典软件exomPeak原理解析

    大家好,这里是易基因,此前我们已讲解许多关于RNA甲基化相关实验设计和研究思路套路,今天,我们来点新干货,从生物信息学分析的角度来独家解析MeRIP-Seq数据的分析利器--exome Peak.通过 ...

  • GFF和GTF的异同及相互转换

    GFF(gff)全称为:general feature format GTF(gtf)全称为:gene transfer format 前者用来注释基因组,后者用来注释基因. 异同点: GTF文件和G ...

  • 「IGV-GSAme」基因结构注释信息-人工矫正-神器

    IGV-Gene Structure Annotation Manual Editor,简称IGV-GSAme 写在前面 igv是目前最常用的本地基因组浏览器,与其开发的目标类似,用于整合各种类别的高 ...

  • lncRNA组装流程的软件介绍之MultiQC

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之aspera

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之trim-galore

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之FastQC

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之diamond

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之CPC2

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之featureCounts

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍软件推荐之DEseq2

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之PLEK

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...