如何下载注释文件并查看基因结构
目的:
在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。
作业:
截图几个基因的IGV可视化结构!还可以下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构。了解IGV常识。
回帖到参考基因组
RNA-seq 数据分析的通用套路是:
检测测序数据的质量,如果需要,对数据进行预处理,去掉接头,去掉质量差的数据等等
将所有数据回帖到genome,根据结果,进行新基因或转录本的鉴定,然后对转录数据进行定量,并进行差异表达分析。也可跳过对新基因和新转录本的分析,只对已知的基因和转录本进行定量。
如果没有参考genome数据,可以供transcriptome数据代替。
如果参考转录组数据也没有,可以直接对RNA-seq数据进行从头组装,注释,作为参考转录组。
图片源于《RNA-seq Data Analysis》
把高通量测序得到的reads回帖到参考基因组上,既是进行后续基因表达定量和差异表达分析的基础,同时也是可变剪接分析、SNP、InDel分析以及测试数据质量控制的一部分。
回帖到参考基因组常用的软件
Bowtie,Bowtie2,tophat2,BWA,HISAT2, STAR等
Bowtie和bowtie2软件的设计目的是进行short reads 的比对,为基因组测序序列的组装而开发(Bwa也是常用的short reads比对软件),在RNA-seq数据分析中也有应用。
Bowtie2的官网介绍:http://bowtie-bio.sourceforge.net/index.shtml
Bowtie和Bowtie2 的主要区别有:
1. 长度大于50bp的reads, Bowtie2更快更精确。而小于50bp的reads,Bowtie1更快更精确。
2. Bowtie2支持的reads长度没有上限,当然reads的长度在50-100bp为宜;而Bowtie1支持的长度上限为1000bp。
3. Bowtie2支持gap,而Bowtie1不支持gap
4. Bowtie2支持局部对比,Bowtie1不支持
5. Bowtie2的比对支持在参考序列中有N,而Bowtie1不支持。
TopHat2软件使用Bowtie2作为比对的引擎,适合长度在75bp以上的reads,准确性强,速度快。但是测序质量低的reads的比对结果会较差,TopHat2还可以用于检测基因组转录位点。
Bowtie2和Tophat2都已经算是即将过时的回帖软件了,现在流行用HISAT2和STAR
HISAT2官网: https://ccb.jhu.edu/software/hisat2/index.shtml
STAR官网: https://github.com/alexdobin/STAR
关于参考基因组
关于参考基因组的介绍,推荐阅读生信技能树公众号中Jimmy大神的帖子不可不知的基因组版本对应关系以及【直播】我的基因组(五):测试数据及参考基因组的准备。
总而言之,有三大全文网站提供参考基因组下载,它们分别是:
NCBI (https://www.ncbi.nlm.nih.gov/grc)
UCSC (http://hgdownload.soe.ucsc.edu/downloads.html)
Ensemble (http://asia.ensembl.org/index.html?redirect=no)
目前最常用的人和小鼠的参考基因组版本如下(Jimmy总结)
参考基因组及注释信息的下载
文章中使用的是GRCh37/hg19参考基因组,注释信息文件版本为CRCh37.70
从UCSC上下载参考基因组
进入UCSC主页:http://genome.ucsc.edu
选择 Downloads------Genomic Data
点击 Human
向下拉动,找到 GRCh37/hg19,点击 “Full data set”
先阅读一下各类文件的说明,比如chromAgp.tar.gz是描述测序片段如何组装的文件,chromFa.tar.gz是组装后的序列,每条染色体一个文件(我们要下载的文件),继续向下翻还有关于如何下载的说明。
最后就是可下载的文件:
鼠标悬浮在chromFa.tar.gz上,点击右键,选择“复制链接地址”然后回到Terminal,使用wget或者axel进行下载
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
#或者用axel,相比之下axel是真心快啊!
axel http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
#下载后解压
tar -zxvf chromFa.tar.gz
#解压后可以发现,参考序列是按照染色体号分开列出的,我们还需要把所有的序列写入到一个文件中。
cat *.fa > hg19.fa
#最后删除其他无用的文件
rm chr*.fa
注意:Jimmy在《不可不知的基因组版本对应信息》中特别提示:hg19基因组大小是3G,压缩后八九百兆!
下载注释文件
关于注释文件,推荐先阅读Jimmy大神的这篇文章(http://www.biotrainee.com/thread-30-1-1.html),顺便说一下,几乎所有新手遇到的问题,都能在Jimmy大神的帖子里找到答案!
回过头来继续说注释文件。简单来讲注释文件就是基因组的说明书,告诉我们哪些序列是编码蛋白的基因,哪些是非编码基因,外显子、内含子、UTR等的位置等等。注释文件在以上三个提供参考基因组的网站中都有提供,比如Ensemble。但是现在最权威的人类和小鼠基因组的注释还属Gencode数据库。
官网: http://www.gencodegenes.org
进入官网后直接下载对应hg19的最新人类的基因组注释文件(Data-----Human-----GRCh37-mapped Releases-----选择2016年10月份发布的最新注释版本“ gencode . v26lift37 . annotation . gtf . gz” ),注意注释文件的格式一般是gtf或者gff3格式的,具体可参考@徐洲更和@沈梦圆的笔记。
axel ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz
gzip -d gencode . v26lift37 . annotation . gtf . gz #下载后解压
mv #与下载的hg19参考基因组放在一起
IGV软件的下载和安装
IGV软件全称:Integrative Genomics Viewer 是一个高效的查看基因组数据的可视化软件。
官网: http://software.broadinstitute.org/software/igv/home
下载和安装
点击对应系统按钮下载,解压后,阅读“readme.txt”这个文件,根据文件提示,将解压后的文件夹转移到专门放置软件的目录下(我放在了Biosoft下),在该目录下命令行中运行:
java -Xmx750m -jar igv.jar #打开igv,同时指定IGV占用750M内存,对于较大的基因组,可以增大-Xmx的值
等待一段时间后,会显示IGV的图形窗口,同时还会自动下载一个hg19的参考基因组文件(这是IGV默认的一个hosted genome,储存在Broad研究所的服务器中)。
IGV软件的使用
IGV User Guide : http://software.broadinstitute.org/software/igv/UserGuide 生信技能树公众号帖子:《使用IGV看序列比对情况》 以下内容翻译自 IGV User Guide
主窗口布局:
工具栏tool bar
红色框显示当前显示的染色体的位置,当缩小显示范围到整个染色体范围时,红色框消失。
显示当前查看的染色体序列的长度
该窗口显示测序样品的测序情况。每一条track代表一个样品或者一次实验,显示的情况包括甲基化、表达水平、拷贝数,碱基突变等信息。
参考基因组信息
track名(即样品或者实验名)
Attribute names属性名,即序列信息,如indel、甲基化等。 更多的使用方法可查看 IGV User Guide
导入参考基因组及注释信息,查看感兴趣基因的结构
选择hosted genome
IGV提供了多个物种的参考基因组序列,这些序列储存在Board研究所的服务器上。首次打开IGV会默认下载Human hg19参考基因组序列。想查看更多物种的参考基因组信息可以点击箭头,点击“More....”进行选择。
加载参考基因组
如果hosted genome中没有我们需要的物种的参考基因组,可以自己加载或者导入参考基因组。
加载的基因组文件必须是fasta格式或者IGV.genome格式。
fasta文件必须是纯文本文件,不能是压缩文件,且应当有一个通过Samtools软件生成的.fai格式的索引文件。
如果载入的fasta文件没有索引,IGV会自动尝试对其进行index。
导入hg19参考基因组及注释文件
Genomes-----load genoe fom file---选择上述生成的hg19.fa文
files----load fom file----选择上述下载并解压的 gencode . v26lift37 . annotation . gtf文件
提示需要index,点击Go后又提示该GTF文件没有排序,按照提示给出的说明,打开Tools----Run igvtools 在新打开的面板中选择“sort”,并选择 gencode . v26lift37 . annotation . gtf,点击Run。
几分钟后排序就完成了,生成一个 gencode . v26lift37 . annotation .sorted. gtf的文件。
重新导入这个GTF文件并index,就完成了。
查看感兴趣基因的结构
批量查看基因的结构可以学习: 批量IGV截图【直播】我的基因组83
手动查找的方法可能有很多,我现在只会一个:NCBI上找基因的染色体信息,然后输入IGV中查看结构
比如EGFR的location是chr7:55019032-55207338,在IGV的工具栏中GO前面的输入框中输入“ chr7:55019032-55207338 ”即可查看该基因的结构
参考阅读:
徐洲更的转录组入门系列《 转录组入门(4):了解参考基因组及基因注释 》《 转录组入门(5): 序列比对 》
Panda姐的转录组入门系列《 PANDA姐的转录组入门(4):了解参考基因组及基因注释 》
生信技能树公众号中Jimmy大神的帖子《不可不知的基因组版本对应信息》以及《 【直播】我的基因组(五):测试数据及参考基因组的准备 》
IGV User Guide : http:// software.broadinstitute.org /software/igv/UserGuide