【软件介绍】IGV软件的安装和基本介绍
【软件介绍】IGV软件的安装和基本介绍 - 目录
1. IGV 下载与安装
2. Java 安装及环境变量设置
3. IGV 基本介绍
3.1 IGV 界面布局
3.2 IGV 结果界面
3.3 序列比对结果说明
4. 文件格式说明
4.1 FASTA 文件
4.2 BAM 文件
4.3 TDF 文件
4.4 bw文件
4.5 GFF/GTF文件
4.6 VCF文件
4.7 GWAS文件
IGV(Integrative Genomics Viewer)是一个高性能的可视化工具,可以交互式的察看综合的基因组相关数据,友好的支持多种数据类型,包括芯片、二代测序和基因组注释数据等。IGV是基于Java的工具,且在不断更新当中,不同版本的IGV可能需要不同的Java版本。
1. IGV 下载与安装
IGV 有Windows、MAC和Linux系统对应的版本,下载网址为:http://software.broadinstitute.org/software/igv/download。
本文以 Windows (64 位) 系统为例进行介绍。安装好IGV后,可以查看安装目录下的readme.txt 文件,以确定所需的Java版本。IGV 2.10.3 版本需要Java 11,且与Java 8,9,10版本不兼容。
2. Java 安装及环境变量设置
查看电脑上已安装的Java版本:
可见,已安装的为Java 8,需重新安装并配置Java 11。由于是二进制版本,因此不需要安装,解压后,配置环境变量即可使用。
Java 11 二进制版本的下载地址:https://download.java.net/java/GA/jdk11/9/GPL/openjdk-11.0.2_windows-x64_bin.zip。
下载目录:
环境变量设置:
(1) 新建JAVA_HOME
变量,并且输入JDK11的安装目录。
(2) 编辑Path
变量把%JAVA_HOME%\bin;
这个变量插入。
通过cmd窗口验证jdk11是否安装成功:
双击igv.bat
文件(有时需鼠标右键以管理员身份运行),即可打开IGV。打开IGV时,会调用windows的cmd面板。
3. IGV 基本介绍
3.1 IGV 界面布局
官方示例:http://software.broadinstitute.org/software/igv/MainWindow
① 工具栏:基因组列表区、染色体列表区、检索区(可填入基因名,基因组位置等信息来定位到具体基因组区段)、工具区(依次为返回至整个基因组视角,后退一步操作,前进一步操作,刷新,选取特定区域,缩放至屏幕大小,track 信息展示方式)、缩小和放大视野。
② 染色体:染色体上的红框表示为显示在当前track上的相应区域,当缩小到显示完整的染色体时,红色方框消失。
③ 刻度线表示所处的染色体位置坐标,span列出当前显示的碱基数量(244 bp)。
④ tracks区域:主要的信息区,通常会显示甲基化、基因表达、拷贝数、杂合性缺失(Loss of Heterozygosity)、突变等信息;对应的有三种显示形式:collaspsed(堆积)、squished(压缩)和expanded(展开)。
⑤ 特征显示区:如,基因。蓝色粗线为外显子区域,细线为内含子区域,空白为基因间隙;
⑥ track 名称区:列出 track名称,即导入的比对等结果名称,一个文件就是一个 track。
其他示例:
James T. Robinson, Helga Thorvaldsdóttir, Wendy Winckler, Mitchell Guttman, Eric S. Lander, Gad Getz, Jill P. Mesirov. Integrative Genomics Viewer. Nature Biotechnology 29, 24-26 (2011).
Thorvaldsdóttir H, Robinson JT, Mesirov JP. Integrative Genomics Viewer (IGV): high-performance genomics data visualization and exploration. Brief Bioinform. 2013 Mar;14(2):178-92.
3.2 IGV 结果界面
①可手动输入想要察看的染色体/基因/contigs/scaffolds编号/位点(如,chr5:90,339,000-90,349,000;DPYD或NM_10000000),然后回车查看;
②参考序列对应的核酸序列,其中四种核酸分别用不同的颜色表示:A绿, C蓝, G橙, T红
,下面为对应翻译的氨基酸序列,甲硫氨酸(M
)用绿格表示,终止密码子(*
)星号红格表示;当右上角的标尺足够大时此区域才会显示;在sequence track中有一个向右的小箭头,点击小箭头方向变为向左,此时获得的是参考基因的反向互补序列。
③不同颜色条表示排序方式,鼠标停留在此处右键选择 <Color alignments by>
可选取不同的颜色形式;同时每一个长条对应的序列和比对信息可以鼠标右键选择来拷贝;每一个长条都是由一系列的核酸序列组成,可通行<Show all bases>
来显示;比对的reads长条也可通过成对的形式显示;
④鼠标停留时会显示此处碱基统计信息;当导入数据为比对的bam数据时,此处所在区域为 Coverage Track。
3.3 序列比对结果说明
IGV使用颜色、透明度和其他的标记来显示SNV变异、插入和删除/缺失等。
(1) 可通过 View ->Preferences ->Alignments
面板设置相关参数;
(2) 在 Track 区不进行 Color alignments by
的情况下,alignments 只有亮灰和白色两种长条,其中灰色为与参考基因能比对上的reads,白色的比对质量为零 (mapping quality equal to zero);
(3) 插入:用紫色或红色的 I
(当插入的碱基数多余预设的阀值时)表示;鼠标停留察看详细的插入碱基情况;
(4) 删除/缺失:黑色横线——
表示;
(5) Sort alignments by
可对Track区域进行排序,如想返回最初结果则选择 Re-pack alignments
即可;
(6) 默认情况下 Track Alignments
区以紧凑的单个 reads 的形式展示,通过 View as pairs
可成对显示;
(7) Paired-end alignment tracks
(View as pairs) 时,将reads以pairs形式和颜色来区分(红色-负链,蓝色-正链);右键选择 View mate region in split screen
可以分为几个屏幕显示;右键选择 Switch to standard view
可返回单个分区。
注:颜色等标注详解见,
Viewing Alignments:http://software.broadinstitute.org/software/igv/AlignmentData
Interpreting Color by Insert Size:http://software.broadinstitute.org/software/igv/interpreting_insert_size
Interpreting Color by Pair Orientation:http://software.broadinstitute.org/software/igv/interpreting_pair_orientations
Interpreting Color by Bisulfite Mode:http://software.broadinstitute.org/software/igv/interpreting_bisulfite_mode
4. 文件格式说明
IGV支持多种文件格式 http://software.broadinstitute.org/software/igv/FileFormats:BAM、BED、BEDPE、BedGraph、bigBed、bigWig、Custom File Formats、Cytoband、FASTA、GCT、CRAM、genePred、GFF/GTF、GISTIC、Goby、GWAS、IGV、LOH、MAF (Multiple Alignment Format)、MAF (Mutation Annotation Format)、Merged BAM File、MUT、narrowPeak、PSL、RES、RNA Secondary Structure Formats、SAM、Sample Info (Attributes) file、SEG、TDF、Track Line、Type Line、VCF、WIG 等。
当数据通过 File-> load from file
导入时,IGV通过导入文件的扩展名来确认数据格式 (file format),进而确定数据类型 (data type),再确定数据展现的 Track 形式 (track default display options)。
4.1 FASTA 文件
FASTA文件是一个文本文件,每个序列以单行描述开始,后面跟着几行序列数据,用于指定导入基因组的参考序列。
详见:NGS数据分析实践:03. 涉及的常用数据格式[1] - fasta和fastq格式
导入:可以在工具栏选择参考基因组;也可以通过菜单栏选择Genomes -> Load Genomes From Files
从本地以及服务器(server)中导入参考基因组。
IGV服务器上有多个基因组:http://software.broadinstitute.org/software/igv/Genomes
4.2 BAM 文件
官方说明:
命名原则:IGV要求sam和bam文件都按位置进行排序(sort)和建索引(index),并且索引文件遵循特定的命名约定,这两步骤可以用samtools或Picard软件实现(NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正)。bam索引文件应该通过在bam文件名后附加. bai来命名。sam索引文件应该通过在sam文件名后附加. sai来命名。bam文件(.bam)是sam文件的二进制版本。IGV的推荐格式是bam,而不是sam。命名示例:test-xyz.bam
的索引文件需被命名为test-xyz.bam.bai
或test-xyz.bai
。
多个bam文件:若需将多个bam文件合并到一个track进行展示,则需要创建一个纯文本文件,文件名需以.bam.list.txt
结尾。文件中需列出每个bam文件的路径或者URL,且该路径下有相应的索引文件 (.bai
)。注:较老版本的IGV,创建的txt纯文本文件中不能有末尾空行。
导入:通过File -> Load from File
导入本地bam文件至IGV。
Tracks:载入bam
文件后会产生3个相关的tracks,①Alignment track
显示每个的reads的比对情况;②Coverage track
显示覆盖度和测序深度;③Splice Junction Track
提供一个可选的横跨剪切位点(spanning splice junctions)的reads视图(http://software.broadinstitute.org/software/igv/splice_junctions)。一般情况下,前两个tracks会自动出现。这些设置可以通过右键进行修改。默认情况下,IGV能动态计算和显示比对文件的覆盖率和测序深度。当IGV窗口放大到reads 可视化阈值大小时,这个track会以灰色条形图显示每个位点的测序深度。如果某核苷酸与参考序列不同(超过20%reads)时,IGV会标出不同的颜色。即:A→绿色;C→蓝色;G→橙色;T→红色。将鼠标悬停在你需要查看的位点处可以看到详细的信息,右键可以复制。
注:
(1) 染色体名称:所选参考基因组的染色体名称与bam文件需一致。为了方便,IGV将两种染色体表示方式等同起来,如,染色体 1
和chr1
是等价的。
(2) 1-based index:开始和结束位置使用基于1的索引来标识。终点位置包括在内。例如,将start-end设置为1-2表示序列中的第一个和第二个碱基。
4.3 TDF 文件
Reads 覆盖率:整体视图,默认的覆盖率视图,和扩展覆盖率视图。可用igvtools将BAM文件转化为TDF格式,这个文件是专门显示覆盖率,方便快速查看。
4.4 bw文件
bam文件很大,不方便查看和转移。而有些时候,只需要测序深度这一个值,并不需要具体某条reads的碱基序列,碱基质量值。因此,可以把bam格式转化为bw格式,以查看测序深度分布。bw格式全称是bigwig格式,规定了数据的每个坐标区间的测序深度。详见,NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式。
利用deeptools这个软件的bamCoverage工具来完成bam到bw的转换:
source ~/anaconda3/bin/activate
conda activate SNPseq
conda install deeptools -y
bamCoverage --binSize 25 -b 20180629001.sorted.bam -o 20180629001.sorted.bw
ll -h *.bw
4.5 GFF/GTF文件
GFF (General Feature Format) 文件是一个简单的制表符分隔文本文件,用于描述基因组特征。有几种不同的 GFF 文件格式。IGV 支持 GFF2、GFF3 和 GTF 文件格式。详见:http://software.broadinstitute.org/software/igv/GFF。
GFF2在IGV中的文件扩展名,必须是.gff
。
GFF3在IGV中的文件扩展名,必须为.gff3
,格式描述详见 http://www.sequenceontology.org/gff3.shtml。
GTF在IGV中的文件扩展名,必须为.gtf
,格式描述见 https://mblab.wustl.edu/GTF2.html。
1-based index:开始位置和结束位置均是从1开始的,如,将start-end设置为1-2,则表示序列中的第1和第2个碱基。
颜色特征:要为给定特征指定颜色,可以将其添加到文件中,如下例所示。颜色值可以是十六进制或 RGB (r, g, b) 格式。
##gff-version 3
chr1 varclass variants_454HCDiffs 59133 59133 33 . . Var=A->G;AA=S->S;depth=9;frame=+1;gene=OR4F5;ref=novel;InRegion;color=#0000EE
chr1 varclass variants_454HCDiffs 59374 59374 67 . . Var=A->G;AA=T->A;depth=30;frame=+1;gene=OR4F5;ref=rs2691305;InRegion;color=#EE0000
chr1 varclass variants_454HCDiffs 731442 731442 100 . . Var=T->C;AA=->;depth=3;frame=;gene=;ref=rs3115865,rs61770168;OutOfRegion;color=#AAAAAA
4.6 VCF文件
VCF 代表 Variant Call Format,1000 Genomes 项目使用它来编码结构遗传变异。官方说明见,http://software.broadinstitute.org/software/igv/VCF。有关突变和 VCF 文件的 IGV 可视化示例见:http://software.broadinstitute.org/software/igv/viewing_variants。变异识别包括:SNPs,indels和基因组重排。样本也可以注释属性信息,包括血统、家系等。IGV 使用这些注释对样本进行分组、排序和过滤,例如按人口组对样本进行分组。
需要的扩展名包括:.vcf
或 .vcf.gz
,如果文件进行了gzip压缩,那么还需要相应的tabix (.tbi)
格式的索引文件。该文件可以利用bcftools等工具生成,也可以使用IGV Tools生成(Tools->Run igvtools...
),http://software.broadinstitute.org/software/igv/igvtools。
bcftools index -t bacth1_test2.bcftools.vcf.gz
# bacth1_test2.bcftools.vcf.gz.tbi
为VCF文件track载入相应的BAM track: 可使用 2 列制表符分隔的mapping文件将 BAM 文件与 VCF 文件中的样本相关联。文件名必须是.mapping
,其实就是将 .mapping
添加到 vcf 文件名的末尾。第1列是来自 vcf 文件的样本名称;第2列是指向 bam 文件的路径,可以是 URL 或文件路径;它可以是绝对路径,也可以是相对于 vcf 文件所在位置的路径。如果存在mapping文件,它将自动加载,并且 VCF track中将出现一个名为load alignments
的新菜单项。
VCF文件格式数据详解见:NGS数据分析实践:03. 涉及的常用数据格式[5] - vcf格式 和 v4.2 specifications:http://samtools.github.io/hts-specs/VCFv4.2.pdf。
结果图形展示:
VCF Files:http://software.broadinstitute.org/software/igv/viewing_vcf_files
Multi-Locus View:http://software.broadinstitute.org/software/igv/multilocus_view
Regions of Interest:http://software.broadinstitute.org/software/igv/regionsofinterest
4.7 GWAS文件
GWAS 文件是来自全基因组关联研究分析的空格或制表符分隔的结果文件。这些文件包括整合map信息(即每个关联的染色体位置)的 PLINK 结果文件。GWAS 文件的扩展名有:.linear
、.logistic
、.assoc
、.qassoc
、.gwas
。
GWAS 文件必须包含一个标题行和四个必需的列(不区分大小写):
① CHR: chromosome (aliases chr, chromosome);
② BP: nucleotide location (aliases bp, pos, position);
③ SNP: SNP identifier (aliases snp, rs, rsid, rsnum, id, marker, markername);
④ P: p-value for the association (aliases p, pval, p-value, pvalue, p.value)
列可以按任何顺序排列,除必需列外的其他列是允许的。p 值将转换为 -log10 尺度进行绘图。
结果图形示例:http://software.broadinstitute.org/software/igv/viewing_gwas。
参考阅读:
(1) Java11安装及环境变量设置:https://blog.csdn.net/sihai12345/article/details/83834201
(2) windows IGV下载和常见的打开报错原因:https://www.jianshu.com/p/5cde024fac50
(3) IGV User Guide:http://software.broadinstitute.org/software/igv/UserGuide
(4) 生信技能树,学IGV必看的初级教程
(5) 生信技能树,使用IGV看序列比对情况
(6) 生信技能树,【直播】我的基因组 35:bam格式转化为bw格式看测序深度分布
(7) 必备可视化Integrative Genomic Viewer(IGV)(一)
(8) 必备可视化Integrative Genomic Viewer(IGV)(二)
(9) 基因组数据可视化:IGV软件使用详解
(10) 眼到手到-IGV的高级实操
(11) 3篇10分用户文章教你如何将m6A-seq和RIP-seq结果一起可视化 | m6A专题
(12) NGS 测序深度和覆盖度—Depth、Coverage
(13) 测序深度和覆盖度综述:基因组学分析的关键参数