lncRNA组装流程的软件介绍之bedtools

咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程

下面是100个lncRNA组装流程的软件的笔记教程

BEDTools是可用于genomic features的比较,相关操作及进行注释的工具。而genomic features通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件表示,用UCSC Genome Browser进行可视化比较。bedtools总共有二三十个工具/命令来处理基因组数据。

    intersect     Find overlapping intervals in various ways.
    window        Find overlapping intervals within a window around an interval.
    closest       Find the closest, potentially non-overlapping interval.
    coverage      Compute the coverage over defined intervals.
    map           Apply a function to a column for each overlapping interval.
    genomecov     Compute the coverage over an entire genome.
    merge         Combine overlapping/nearby intervals into a single interval.
    cluster       Cluster (but don't merge) overlapping/nearby intervals.
    complement    Extract intervals _not_ represented by an interval file.
    shift         Adjust the position of intervals.
    subtract      Remove intervals based on overlaps b/w two files.
    slop          Adjust the size of intervals.
    flank         Create new intervals from the flanks of existing intervals.
    sort          Order the intervals in a file.
    random        Generate random intervals in a genome.
    shuffle       Randomly redistribute intervals in a genome.
    sample        Sample random records from file using reservoir sampling.
    spacing       Report the gap lengths between intervals in a file.
    annotate      Annotate coverage of features from multiple files.

比较典型而且常用的功能举例如下:

格式转换,bam转bed(bamToBed),bed转其他格式(bedToBam,bedToIgv);

对基因组坐标的逻辑运算,包括:交集(intersectBed,windowBed),”邻集“(closestBed),补集(complementBed),并集(mergeBed),差集(subtractBed);

计算覆盖度(coverage)(coverageBed,genomeCoverageBed);

一、软件安装

使用conda安装

conda install bedtools

二、bedtools window 的用法

安装完成以后,可以使用bedtools window -h来查看软件的帮助文档。

1. 软件用法:

2. 常用参数:

image-20210505132248543

三、输入文件

bed/gff/vcf文件

四、软件运行命令

与bedtools intersect类似,window 在A和B中搜索重叠的特征。

However, window adds a specified number (1000, by default) of base pairs upstream and downstream of each feature in A. In effect, this allows features in B that are “near” features in A to be detected.

bedtools window -a DEL.gtf \
-b protein_coding_gene.gtf \
-l 10000 -r 10000 > test.txt

参数说明:

-a DEL.gtf -b protein_coding_gene.gtf # 把DEL.gtf比对到protein_coding_gene.gtf寻找overlap
-l 10000 # 寻找范围,上游10000bp
-r 10000 #寻找范围,下游10000bp

五、输出结果

chr1 8416627 8422722 + transcript_id "MSTRG.299.44" chr1 8352397 8848921 -  
gene_name "RERE"
chr1 16142499 16142858 + transcript_id "MSTRG.518.1" chr1 16124337 16156069 - 
gene_name "EPHA2"
chr1 20981406 20984251 + transcript_id "MSTRG.624.1" chr1 20806292 21176888 - gene_name "EIF4G3"
chr1 39634613 39639494 + transcript_id "MSTRG.1249.4" chr1 39623435 39639643 gene_name "HEYL"
chr1 44423896 44512709 + transcript_id "MSTRG.1392.8" chr1 44405194 44651724 + gene_name "RNF220"
chr1 53720323 53734052 + transcript_id "MSTRG.1665.7" chr1 53506237 53738106 -  gene_name "GLIS1"

文末友情推荐

与十万人一起学生信,你值得拥有下面的学习班:

(0)

相关推荐

  • pybedtools:对bedtools的封装和扩展

    bedtools是区间操作最常用的软件,pybedtools对其进行了封装,可以在python编程环境中灵活使用bedtools,而且进一步拓展出了很多有用的功能. 在pybedtools中, 核心是 ...

  • 科研 | FRONT PLANT SCI:茶树受到盐胁迫早期lncRNA如何参与调控?(国人作品)

    编译:寒江雪,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读 茶树(Camellia Sinensis)是重要的经济作物,因为受到盐胁迫等各种非生物胁迫的严重影响,影响了茶树的广泛种植.然而,对 ...

  • R语言版本的bedtools--bedtoolsr

    bedtools是一款非常强大的用于处理bed,vcf,gff等格式数据的工具,该软件由犹他大学的Quinlan实验室开发.但是目前bedtools主要提供的是在linux,unxi等操作系统环境下的 ...

  • linux(1)-- gffread

    gffread gffread: used to generate a FASTA file with the DNA sequences for all transcripts in a GFF f ...

  • 完美 | GXF Fix 修复 / 优化基因结构注释信息文件 - GTF/GFF3

    写在前面 目前基因组测序和组装成本几乎已经到任何一个课题组都可以单独负担的价码,大量物种的基因组序列被测定和释放.与此同时,对应的基因结构注释信息文件,如GTF或GFF3文件等,也可公开下载. 对于绝 ...

  • lncRNA组装流程的软件介绍之MultiQC

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之aspera

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之trim-galore

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之FastQC

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之diamond

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之CPC2

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之featureCounts

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍软件推荐之DEseq2

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之PLEK

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...