如何下载注释文件并查看基因结构

高通量数据下载还能这样操作?

谁能告诉我,这数据测毁了么?

目的:

在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。

作业:

截图几个基因的IGV可视化结构!还可以下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构。了解IGV常识。


回帖到参考基因组

RNA-seq 数据分析的通用套路是:

  1. 检测测序数据的质量,如果需要,对数据进行预处理,去掉接头,去掉质量差的数据等等

  2. 将所有数据回帖到genome,根据结果,进行新基因或转录本的鉴定,然后对转录数据进行定量,并进行差异表达分析。也可跳过对新基因和新转录本的分析,只对已知的基因和转录本进行定量。

  3. 如果没有参考genome数据,可以供transcriptome数据代替。

  4. 如果参考转录组数据也没有,可以直接对RNA-seq数据进行从头组装,注释,作为参考转录组。

图片源于《RNA-seq Data Analysis》

把高通量测序得到的reads回帖到参考基因组上,既是进行后续基因表达定量和差异表达分析的基础,同时也是可变剪接分析、SNP、InDel分析以及测试数据质量控制的一部分。


回帖到参考基因组常用的软件

Bowtie,Bowtie2,tophat2,BWA,HISAT2, STAR等

Bowtiebowtie2软件的设计目的是进行short reads 的比对,为基因组测序序列的组装而开发(Bwa也是常用的short reads比对软件),在RNA-seq数据分析中也有应用。

Bowtie2的官网介绍:http://bowtie-bio.sourceforge.net/index.shtml

Bowtie和Bowtie2 的主要区别有

1. 长度大于50bp的reads, Bowtie2更快更精确。而小于50bp的reads,Bowtie1更快更精确。

2. Bowtie2支持的reads长度没有上限,当然reads的长度在50-100bp为宜;而Bowtie1支持的长度上限为1000bp。

3. Bowtie2支持gap,而Bowtie1不支持gap

4. Bowtie2支持局部对比,Bowtie1不支持

5. Bowtie2的比对支持在参考序列中有N,而Bowtie1不支持。

TopHat2软件使用Bowtie2作为比对的引擎,适合长度在75bp以上的reads,准确性强,速度快。但是测序质量低的reads的比对结果会较差,TopHat2还可以用于检测基因组转录位点。

Bowtie2和Tophat2都已经算是即将过时的回帖软件了,现在流行用HISAT2STAR

HISAT2官网: https://ccb.jhu.edu/software/hisat2/index.shtml

STAR官网: https://github.com/alexdobin/STAR


关于参考基因组

关于参考基因组的介绍,推荐阅读生信技能树公众号中Jimmy大神的帖子不可不知的基因组版本对应关系以及【直播】我的基因组(五):测试数据及参考基因组的准备

总而言之,有三大全文网站提供参考基因组下载,它们分别是:

  1. NCBI (https://www.ncbi.nlm.nih.gov/grc)

  2. UCSC (http://hgdownload.soe.ucsc.edu/downloads.html)

  3. Ensemble (http://asia.ensembl.org/index.html?redirect=no)

目前最常用的人和小鼠的参考基因组版本如下(Jimmy总结)


参考基因组及注释信息的下载

文章中使用的是GRCh37/hg19参考基因组,注释信息文件版本为CRCh37.70

从UCSC上下载参考基因组

进入UCSC主页:http://genome.ucsc.edu

选择 Downloads------Genomic Data

点击 Human

向下拉动,找到 GRCh37/hg19,点击 “Full data set”

先阅读一下各类文件的说明,比如chromAgp.tar.gz是描述测序片段如何组装的文件,chromFa.tar.gz是组装后的序列,每条染色体一个文件(我们要下载的文件),继续向下翻还有关于如何下载的说明。

最后就是可下载的文件:

鼠标悬浮在chromFa.tar.gz上,点击右键,选择“复制链接地址”然后回到Terminal,使用wget或者axel进行下载

  1. wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz

  2. #或者用axel,相比之下axel是真心快啊!

  3. axel  http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz

  4. #下载后解压

  5. tar -zxvf chromFa.tar.gz

  6. #解压后可以发现,参考序列是按照染色体号分开列出的,我们还需要把所有的序列写入到一个文件中。

  7. cat *.fa > hg19.fa

  8. #最后删除其他无用的文件

  9. rm chr*.fa

注意:Jimmy在《不可不知的基因组版本对应信息》中特别提示:hg19基因组大小是3G,压缩后八九百兆!

下载注释文件

关于注释文件,推荐先阅读Jimmy大神的这篇文章(http://www.biotrainee.com/thread-30-1-1.html),顺便说一下,几乎所有新手遇到的问题,都能在Jimmy大神的帖子里找到答案!

回过头来继续说注释文件。简单来讲注释文件就是基因组的说明书,告诉我们哪些序列是编码蛋白的基因,哪些是非编码基因,外显子、内含子、UTR等的位置等等。注释文件在以上三个提供参考基因组的网站中都有提供,比如Ensemble。但是现在最权威的人类和小鼠基因组的注释还属Gencode数据库。

官网: http://www.gencodegenes.org

进入官网后直接下载对应hg19的最新人类的基因组注释文件(Data-----Human-----GRCh37-mapped Releases-----选择2016年10月份发布的最新注释版本“ gencode . v26lift37 . annotation . gtf . gz” ),注意注释文件的格式一般是gtf或者gff3格式的,具体可参考@徐洲更和@沈梦圆的笔记。

  1. axel  ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz

  2. gzip -d  gencode . v26lift37 . annotation . gtf . gz #下载后解压

  3. mv  #与下载的hg19参考基因组放在一起


IGV软件的下载和安装

IGV软件全称:Integrative Genomics Viewer 是一个高效的查看基因组数据的可视化软件。

官网: http://software.broadinstitute.org/software/igv/home

下载和安装

点击对应系统按钮下载,解压后,阅读“readme.txt”这个文件,根据文件提示,将解压后的文件夹转移到专门放置软件的目录下(我放在了Biosoft下),在该目录下命令行中运行:

  1. java -Xmx750m -jar igv.jar  #打开igv,同时指定IGV占用750M内存,对于较大的基因组,可以增大-Xmx的值

等待一段时间后,会显示IGV的图形窗口,同时还会自动下载一个hg19的参考基因组文件(这是IGV默认的一个hosted genome,储存在Broad研究所的服务器中)。


IGV软件的使用

IGV User Guide : http://software.broadinstitute.org/software/igv/UserGuide 生信技能树公众号帖子:《使用IGV看序列比对情况》 以下内容翻译自 IGV User Guide

主窗口布局:

  1. 工具栏tool bar

  2. 红色框显示当前显示的染色体的位置,当缩小显示范围到整个染色体范围时,红色框消失。

  3. 显示当前查看的染色体序列的长度

  4. 该窗口显示测序样品的测序情况。每一条track代表一个样品或者一次实验,显示的情况包括甲基化、表达水平、拷贝数,碱基突变等信息。

  5. 参考基因组信息

  6. track名(即样品或者实验名)

  7. Attribute names属性名,即序列信息,如indel、甲基化等。 更多的使用方法可查看 IGV User Guide


导入参考基因组及注释信息,查看感兴趣基因的结构

  • 选择hosted genome

IGV提供了多个物种的参考基因组序列,这些序列储存在Board研究所的服务器上。首次打开IGV会默认下载Human hg19参考基因组序列。想查看更多物种的参考基因组信息可以点击箭头,点击“More....”进行选择。

  • 加载参考基因组

如果hosted genome中没有我们需要的物种的参考基因组,可以自己加载或者导入参考基因组。

加载的基因组文件必须是fasta格式或者IGV.genome格式。

fasta文件必须是纯文本文件,不能是压缩文件,且应当有一个通过Samtools软件生成的.fai格式的索引文件。

如果载入的fasta文件没有索引,IGV会自动尝试对其进行index。

  • 导入hg19参考基因组及注释文件

Genomes-----load genoe fom file---选择上述生成的hg19.fa文

files----load fom file----选择上述下载并解压的 gencode . v26lift37 . annotation . gtf文件

提示需要index,点击Go后又提示该GTF文件没有排序,按照提示给出的说明,打开Tools----Run igvtools 在新打开的面板中选择“sort”,并选择 gencode . v26lift37 . annotation . gtf,点击Run。

几分钟后排序就完成了,生成一个 gencode . v26lift37 . annotation .sorted. gtf的文件。

重新导入这个GTF文件并index,就完成了。

  • 查看感兴趣基因的结构

批量查看基因的结构可以学习: 批量IGV截图【直播】我的基因组83

手动查找的方法可能有很多,我现在只会一个:NCBI上找基因的染色体信息,然后输入IGV中查看结构

比如EGFR的location是chr7:55019032-55207338,在IGV的工具栏中GO前面的输入框中输入“ chr7:55019032-55207338 ”即可查看该基因的结构


参考阅读:

  1. 徐洲更的转录组入门系列《 转录组入门(4):了解参考基因组及基因注释 》《 转录组入门(5): 序列比对 》

  2. Panda姐的转录组入门系列《 PANDA姐的转录组入门(4):了解参考基因组及基因注释 》

  3. 生信技能树公众号中Jimmy大神的帖子《不可不知的基因组版本对应信息》以及《 【直播】我的基因组(五):测试数据及参考基因组的准备

  4. IGV User Guide : http:// software.broadinstitute.org /software/igv/UserGuide


(0)

相关推荐