lncRNA组装流程的软件介绍之featureCounts
咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程!
在高通量测序分析中用于下游分析的关键信息是比对到每个genomic feature(外显子、基因等)中的read数目,而计数的过程称为read summarization
featurecounts是一款使用于RNA-seq和DNA-seq的read summarization工具,应用了高效率的染色体哈希算法和feature区块技术
它比目前存在的工具速度都快,而且需要的内存空间少,同时可以用于单端和双端的数据
一、软件安装
使用conda安装
conda install featureCounts
二、输入数据
1、输入的数据有两类,一类是SAM/BAM文件,另一类是GTF/GFF/SAF,其中SAM/BAM可以输入一个或多个
2、SAM/BAM文件和GTF/GFF/SAF文件需要来自同一个参考基因组,即必须参考基因组和GTF/GFF/SAF文件来自同一个网站,同一个版本
3、SAM/BAM主要提供read所比对到的染色体/contig,read在染色体上的位置以及CICAR信息,即SAM/BAM中的三列信息,GFF/GTF/SAF主要提供feature identifier(如geneID), chromosomename, start position, end position and strand 这五列信息
4、featurecounts也支持链特异性的read的计数,前提是要提供链特异性的信息,同时featurecounts也支持用于根据比对结果中的比对质量分数来卡阈值选择合适的比对结果进行定量
5、单端和双端测序
如果是双端测序,这一对read定义了一个DNA/RNA片段的两端,这种情况下,featurecounts会计算片段数(fragment)而不是read数
6、feature和meta-feature
feature是指基因组上被定义的一个片段区域,meta-feature是指多个feature组成的区域,如exon和gene的关系;
分享相同的feature identifier(GTF文件中有) 的features属于同一个meta-feature;
featurecounts可以对features和meta-feature进行计数;
三、featureCounts的用法
安装完成以后,可以使用featureCounts -h来查看软件的帮助文档。
1. 软件用法:
2. 常用参数:
input file # 输入的bam/sam文件,支持多个文件输入
-a < string > #参考gtf文件名,支持Gzipped文件格式
-F # 参考文件的格式,一般为GTF/SAF,C语言版本默认的格式为GTF格式
-A # 提供一个逗号分割为两列的文件,一列为gtf中的染色体名,另一列为read中对应的染色体名,用于将gtf和read中的名称进行统一匹配,注意该文件提交时不需要列名
-J # 对可变剪切进行计数
-G < string > # 当-J设置的时候,通过-G提供一个比对的时候使用的参考基因组文件,辅助寻找可变剪切
-M #如果设置-M,多重map的read将会被统计到
-o < string > # 输出文件的名字,输出文件的内容为read 的统计数目
-O # 允许多重比对,即当一个read比对到多个feature或多个metafeature的时候,这条read会被统计多次
-T # 线程数目,1~32
# 下面是有关featrue/metafeature选择的参数 参数说明
-g < string > # 当参考的gtf提供的时候,我们需要提供一个id identifier 来将feature水平的统计汇总为meta-feature水平的统计,默认为gene_id,注意!选择gtf中提供的id identifier!!!
-t < string > # 设置feature-type,-t指定的必须是gtf中有的feature,同时read只有落到这些feature上才会被统计到,默认是“exon”
-p # 只能用在paired-end的情况中,会统计fragment而不统计read
-B # 在-p选择的条件下,只有两端read都比对上的fragment才会被统计
-C # 如果-C被设置,那融合的fragment(比对到不同染色体上的fragment)就不会被计数,这个只有在-p被设置的条件下使用
-d < int > # 最短的fragment,默认是50
-D < int > #最长的fragmen,默认是600
-f # 如果-f被设置,那将会统计feature层面的数据,如exon-level,否则会统计meta-feature层面的数据,如gene-levels
四、软件运行命令
nohup featureCounts -T 5 -p -t exon -g transcript_id \
-a ~/lncRNA_project/07.identification/step5/filter5_by_nr.gtf \
-o de-novo_lncRNA_exon.txt ~/lncRNA_project/04.mapping/*.bam 1>counts_exon.log 2>&1 &
命令参数解读:
-T 5 # 设置线程数为5
-p # paired-end,会统计fragment而不统计read
-t exon # reads只有落到exon上才会被统计到,
-g transcript_id # 使用transcript_id,来将feature(exon)水平的统计汇总为meta-feature水平的统计
五、结果解读
gene_id:# 基因名
chr:# 位于的染色体
start:# exon起始位置
end:# exon终止位置
strand # 正负链
length # 转录本长度
# 后面的列为reads数目