【软件介绍】IGV软件的安装和基本介绍

【软件介绍】IGV软件的安装和基本介绍 - 目录

  • 1. IGV 下载与安装

  • 2. Java 安装及环境变量设置

  • 3. IGV 基本介绍

    • 3.1 IGV 界面布局

    • 3.2 IGV 结果界面

    • 3.3 序列比对结果说明

  • 4. 文件格式说明

    • 4.1 FASTA 文件

    • 4.2 BAM 文件

    • 4.3 TDF 文件

    • 4.4 bw文件

    • 4.5 GFF/GTF文件

    • 4.6 VCF文件

    • 4.7 GWAS文件

IGV(Integrative Genomics Viewer)是一个高性能的可视化工具,可以交互式的察看综合的基因组相关数据,友好的支持多种数据类型,包括芯片、二代测序和基因组注释数据等。IGV是基于Java的工具,且在不断更新当中,不同版本的IGV可能需要不同的Java版本。

1. IGV 下载与安装

IGV 有Windows、MAC和Linux系统对应的版本,下载网址为:http://software.broadinstitute.org/software/igv/download。
本文以 Windows (64 位) 系统为例进行介绍。安装好IGV后,可以查看安装目录下的readme.txt 文件,以确定所需的Java版本。IGV 2.10.3 版本需要Java 11,且与Java 8,9,10版本不兼容。

2. Java 安装及环境变量设置

查看电脑上已安装的Java版本:

可见,已安装的为Java 8,需重新安装并配置Java 11。由于是二进制版本,因此不需要安装,解压后,配置环境变量即可使用。
Java 11 二进制版本的下载地址:https://download.java.net/java/GA/jdk11/9/GPL/openjdk-11.0.2_windows-x64_bin.zip。

下载目录:

环境变量设置:
(1) 新建JAVA_HOME变量,并且输入JDK11的安装目录。
(2) 编辑Path变量把%JAVA_HOME%\bin;这个变量插入。

通过cmd窗口验证jdk11是否安装成功:

双击igv.bat文件(有时需鼠标右键以管理员身份运行),即可打开IGV。打开IGV时,会调用windows的cmd面板。

3. IGV 基本介绍

3.1 IGV 界面布局

官方示例:http://software.broadinstitute.org/software/igv/MainWindow

① 工具栏:基因组列表区、染色体列表区、检索区(可填入基因名,基因组位置等信息来定位到具体基因组区段)、工具区(依次为返回至整个基因组视角,后退一步操作,前进一步操作,刷新,选取特定区域,缩放至屏幕大小,track 信息展示方式)、缩小和放大视野。
② 染色体:染色体上的红框表示为显示在当前track上的相应区域,当缩小到显示完整的染色体时,红色方框消失。
③ 刻度线表示所处的染色体位置坐标,span列出当前显示的碱基数量(244 bp)。
④ tracks区域:主要的信息区,通常会显示甲基化、基因表达、拷贝数、杂合性缺失(Loss of Heterozygosity)、突变等信息;对应的有三种显示形式:collaspsed(堆积)、squished(压缩)和expanded(展开)。
⑤ 特征显示区:如,基因。蓝色粗线为外显子区域,细线为内含子区域,空白为基因间隙;
⑥ track 名称区:列出 track名称,即导入的比对等结果名称,一个文件就是一个 track。

其他示例:

James T. Robinson, Helga Thorvaldsdóttir, Wendy Winckler, Mitchell Guttman, Eric S. Lander, Gad Getz, Jill P. Mesirov. Integrative Genomics Viewer. Nature Biotechnology 29, 24-26 (2011).

Thorvaldsdóttir H, Robinson JT, Mesirov JP. Integrative Genomics Viewer (IGV): high-performance genomics data visualization and exploration. Brief Bioinform. 2013 Mar;14(2):178-92.

3.2 IGV 结果界面

①可手动输入想要察看的染色体/基因/contigs/scaffolds编号/位点(如,chr5:90,339,000-90,349,000;DPYD或NM_10000000),然后回车查看;
②参考序列对应的核酸序列,其中四种核酸分别用不同的颜色表示:A绿, C蓝, G橙, T红,下面为对应翻译的氨基酸序列,甲硫氨酸(M)用绿格表示,终止密码子(*)星号红格表示;当右上角的标尺足够大时此区域才会显示;在sequence track中有一个向右的小箭头,点击小箭头方向变为向左,此时获得的是参考基因的反向互补序列。
③不同颜色条表示排序方式,鼠标停留在此处右键选择 <Color alignments by> 可选取不同的颜色形式;同时每一个长条对应的序列和比对信息可以鼠标右键选择来拷贝;每一个长条都是由一系列的核酸序列组成,可通行<Show all bases> 来显示;比对的reads长条也可通过成对的形式显示;
④鼠标停留时会显示此处碱基统计信息;当导入数据为比对的bam数据时,此处所在区域为 Coverage Track。

3.3 序列比对结果说明

IGV使用颜色、透明度和其他的标记来显示SNV变异、插入和删除/缺失等。
(1) 可通过 View ->Preferences ->Alignments 面板设置相关参数;
(2) 在 Track 区不进行 Color alignments by 的情况下,alignments 只有亮灰和白色两种长条,其中灰色为与参考基因能比对上的reads,白色的比对质量为零 (mapping quality equal to zero);
(3) 插入:用紫色或红色的 I (当插入的碱基数多余预设的阀值时)表示;鼠标停留察看详细的插入碱基情况;
(4) 删除/缺失:黑色横线——表示;
(5) Sort alignments by 可对Track区域进行排序,如想返回最初结果则选择 Re-pack alignments 即可;
(6) 默认情况下 Track Alignments 区以紧凑的单个 reads 的形式展示,通过 View as pairs 可成对显示;
(7) Paired-end alignment tracks (View as pairs) 时,将reads以pairs形式和颜色来区分(红色-负链,蓝色-正链);右键选择 View mate region in split screen 可以分为几个屏幕显示;右键选择 Switch to standard view 可返回单个分区。

注:颜色等标注详解见,
Viewing Alignments:http://software.broadinstitute.org/software/igv/AlignmentData
Interpreting Color by Insert Size:http://software.broadinstitute.org/software/igv/interpreting_insert_size
Interpreting Color by Pair Orientation:http://software.broadinstitute.org/software/igv/interpreting_pair_orientations
Interpreting Color by Bisulfite Mode:http://software.broadinstitute.org/software/igv/interpreting_bisulfite_mode

4. 文件格式说明

IGV支持多种文件格式 http://software.broadinstitute.org/software/igv/FileFormats:BAM、BED、BEDPE、BedGraph、bigBed、bigWig、Custom File Formats、Cytoband、FASTA、GCT、CRAM、genePred、GFF/GTF、GISTIC、Goby、GWAS、IGV、LOH、MAF (Multiple Alignment Format)、MAF (Mutation Annotation Format)、Merged BAM File、MUT、narrowPeak、PSL、RES、RNA Secondary Structure Formats、SAM、Sample Info (Attributes) file、SEG、TDF、Track Line、Type Line、VCF、WIG 等。

当数据通过 File-> load from file 导入时,IGV通过导入文件的扩展名来确认数据格式 (file format),进而确定数据类型 (data type),再确定数据展现的 Track 形式 (track default display options)。

4.1 FASTA 文件

FASTA文件是一个文本文件,每个序列以单行描述开始,后面跟着几行序列数据,用于指定导入基因组的参考序列。
详见:NGS数据分析实践:03. 涉及的常用数据格式[1] - fasta和fastq格式

导入:可以在工具栏选择参考基因组;也可以通过菜单栏选择Genomes -> Load Genomes From Files 从本地以及服务器(server)中导入参考基因组。
IGV服务器上有多个基因组:http://software.broadinstitute.org/software/igv/Genomes

4.2 BAM 文件

官方说明:

http://software.broadinstitute.org/software/igv/BAM;
http://software.broadinstitute.org/software/igv/merged_BAMs

命名原则:IGV要求sam和bam文件都按位置进行排序(sort)和建索引(index),并且索引文件遵循特定的命名约定,这两步骤可以用samtools或Picard软件实现(NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正)。bam索引文件应该通过在bam文件名后附加. bai来命名。sam索引文件应该通过在sam文件名后附加. sai来命名。bam文件(.bam)是sam文件的二进制版本。IGV的推荐格式是bam,而不是sam。命名示例:test-xyz.bam 的索引文件需被命名为test-xyz.bam.baitest-xyz.bai

多个bam文件:若需将多个bam文件合并到一个track进行展示,则需要创建一个纯文本文件,文件名需以.bam.list.txt结尾。文件中需列出每个bam文件的路径或者URL,且该路径下有相应的索引文件 (.bai)。注:较老版本的IGV,创建的txt纯文本文件中不能有末尾空行。

导入:通过File -> Load from File导入本地bam文件至IGV。

Tracks:载入bam文件后会产生3个相关的tracks,①Alignment track显示每个的reads的比对情况;②Coverage track显示覆盖度和测序深度;③Splice Junction Track提供一个可选的横跨剪切位点(spanning splice junctions)的reads视图(http://software.broadinstitute.org/software/igv/splice_junctions)。一般情况下,前两个tracks会自动出现。这些设置可以通过右键进行修改。默认情况下,IGV能动态计算和显示比对文件的覆盖率和测序深度。当IGV窗口放大到reads 可视化阈值大小时,这个track会以灰色条形图显示每个位点的测序深度。如果某核苷酸与参考序列不同(超过20%reads)时,IGV会标出不同的颜色。即:A→绿色;C→蓝色;G→橙色;T→红色。将鼠标悬停在你需要查看的位点处可以看到详细的信息,右键可以复制。

注:
(1) 染色体名称:所选参考基因组的染色体名称与bam文件需一致。为了方便,IGV将两种染色体表示方式等同起来,如,染色体 1chr1是等价的。
(2) 1-based index:开始和结束位置使用基于1的索引来标识。终点位置包括在内。例如,将start-end设置为1-2表示序列中的第一个和第二个碱基。

4.3 TDF 文件

官方说明:
http://software.broadinstitute.org/software/igv/TDF;http://software.broadinstitute.org/software/igv/igvtools

Reads 覆盖率:整体视图,默认的覆盖率视图,和扩展覆盖率视图。可用igvtools将BAM文件转化为TDF格式,这个文件是专门显示覆盖率,方便快速查看。

4.4 bw文件

bam文件很大,不方便查看和转移。而有些时候,只需要测序深度这一个值,并不需要具体某条reads的碱基序列,碱基质量值。因此,可以把bam格式转化为bw格式,以查看测序深度分布。bw格式全称是bigwig格式,规定了数据的每个坐标区间的测序深度。详见,NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式。

利用deeptools这个软件的bamCoverage工具来完成bam到bw的转换:

source ~/anaconda3/bin/activate
conda activate SNPseq
conda install deeptools -y
bamCoverage --binSize 25 -b 20180629001.sorted.bam -o 20180629001.sorted.bw
ll -h *.bw

4.5 GFF/GTF文件

GFF (General Feature Format) 文件是一个简单的制表符分隔文本文件,用于描述基因组特征。有几种不同的 GFF 文件格式。IGV 支持 GFF2、GFF3 和 GTF 文件格式。详见:http://software.broadinstitute.org/software/igv/GFF。
GFF2在IGV中的文件扩展名,必须是.gff
GFF3在IGV中的文件扩展名,必须为.gff3,格式描述详见 http://www.sequenceontology.org/gff3.shtml。
GTF在IGV中的文件扩展名,必须为.gtf,格式描述见 https://mblab.wustl.edu/GTF2.html。
1-based index:开始位置和结束位置均是从1开始的,如,将start-end设置为1-2,则表示序列中的第1和第2个碱基。
颜色特征:要为给定特征指定颜色,可以将其添加到文件中,如下例所示。颜色值可以是十六进制或 RGB (r, g, b) 格式。

##gff-version 3
chr1 varclass variants_454HCDiffs 59133 59133 33 . . Var=A->G;AA=S->S;depth=9;frame=+1;gene=OR4F5;ref=novel;InRegion;color=#0000EE
chr1 varclass variants_454HCDiffs 59374 59374 67 . . Var=A->G;AA=T->A;depth=30;frame=+1;gene=OR4F5;ref=rs2691305;InRegion;color=#EE0000
chr1 varclass variants_454HCDiffs 731442 731442 100 . . Var=T->C;AA=->;depth=3;frame=;gene=;ref=rs3115865,rs61770168;OutOfRegion;color=#AAAAAA

4.6 VCF文件

VCF 代表 Variant Call Format,1000 Genomes 项目使用它来编码结构遗传变异。官方说明见,http://software.broadinstitute.org/software/igv/VCF。有关突变和 VCF 文件的 IGV 可视化示例见:http://software.broadinstitute.org/software/igv/viewing_variants。变异识别包括:SNPs,indels和基因组重排。样本也可以注释属性信息,包括血统、家系等。IGV 使用这些注释对样本进行分组、排序和过滤,例如按人口组对样本进行分组。

需要的扩展名包括:.vcf或 .vcf.gz,如果文件进行了gzip压缩,那么还需要相应的tabix (.tbi)格式的索引文件。该文件可以利用bcftools等工具生成,也可以使用IGV Tools生成(Tools->Run igvtools...),http://software.broadinstitute.org/software/igv/igvtools。

bcftools index -t bacth1_test2.bcftools.vcf.gz
# bacth1_test2.bcftools.vcf.gz.tbi

为VCF文件track载入相应的BAM track: 可使用 2 列制表符分隔的mapping文件将 BAM 文件与 VCF 文件中的样本相关联。文件名必须是.mapping,其实就是将 .mapping 添加到 vcf 文件名的末尾。第1列是来自 vcf 文件的样本名称;第2列是指向 bam 文件的路径,可以是 URL 或文件路径;它可以是绝对路径,也可以是相对于 vcf 文件所在位置的路径。如果存在mapping文件,它将自动加载,并且 VCF track中将出现一个名为load alignments的新菜单项。

VCF文件格式数据详解见:NGS数据分析实践:03. 涉及的常用数据格式[5] - vcf格式 和 v4.2 specifications:http://samtools.github.io/hts-specs/VCFv4.2.pdf。

结果图形展示:
VCF Files:http://software.broadinstitute.org/software/igv/viewing_vcf_files
Multi-Locus View:http://software.broadinstitute.org/software/igv/multilocus_view
Regions of Interest:http://software.broadinstitute.org/software/igv/regionsofinterest

4.7 GWAS文件

GWAS 文件是来自全基因组关联研究分析的空格或制表符分隔的结果文件。这些文件包括整合map信息(即每个关联的染色体位置)的 PLINK 结果文件。GWAS 文件的扩展名有:.linear.logistic.assoc.qassoc.gwas

GWAS 文件必须包含一个标题行和四个必需的列(不区分大小写):
① CHR: chromosome (aliases chr, chromosome);
② BP: nucleotide location (aliases bp, pos, position);
③ SNP: SNP identifier (aliases snp, rs, rsid, rsnum, id, marker, markername);
④ P: p-value for the association (aliases p, pval, p-value, pvalue, p.value)
列可以按任何顺序排列,除必需列外的其他列是允许的。p 值将转换为 -log10 尺度进行绘图。

结果图形示例:http://software.broadinstitute.org/software/igv/viewing_gwas。

参考阅读:
(1) Java11安装及环境变量设置:https://blog.csdn.net/sihai12345/article/details/83834201
(2) windows IGV下载和常见的打开报错原因:https://www.jianshu.com/p/5cde024fac50
(3) IGV User Guide:http://software.broadinstitute.org/software/igv/UserGuide
(4) 生信技能树,学IGV必看的初级教程
(5) 生信技能树,使用IGV看序列比对情况
(6) 生信技能树,【直播】我的基因组 35:bam格式转化为bw格式看测序深度分布
(7) 必备可视化Integrative Genomic Viewer(IGV)(一)
(8) 必备可视化Integrative Genomic Viewer(IGV)(二)
(9) 基因组数据可视化:IGV软件使用详解
(10) 眼到手到-IGV的高级实操
(11) 3篇10分用户文章教你如何将m6A-seq和RIP-seq结果一起可视化 | m6A专题
(12) NGS 测序深度和覆盖度—Depth、Coverage
(13) 测序深度和覆盖度综述:基因组学分析的关键参数

(0)

相关推荐