转录组入门传送门
写在前面
相应大家这段时间在论坛或者公众号看到了非常多的转录组学习笔记,没有参与的人肯定感到很困惑,这股学习热潮是啥时候刮起来的。其实早在两个月前我们就有了这个入门计划,见 转录组入门学习小组招募:我也列好了一个详细的大纲指引,基本上按照这8个步骤来,肯定是能入门转录组的基本分析流程的。
PS: 微信公众号推文不允许插入外链,请点击阅读原文查看,慢慢学习,集百家之长。
(1):计算机资源的准备
最好是有mac或者linux系统,8G+的内存,500G的存储即可。
如果你是Windows,那么安装必须安装 git,notepad++,everything,还有虚拟机,在虚拟机里面安装linux,最好是ubuntu。
需要安装的软件包括 sratoolkit,fastqc,hisats,samtools,htseq-count,R,Rstudio
软件安装的代码,在生信技能树公众号后台回复老司机即可拿到。
进阶作业,每个软件都收集一个中文教程链接,并自己阅读,发在论坛里面。
优秀作业如下,请大家学习:
转录组(一)作业 ( HOPTOP )
转录组入门(1)-作业 (青山屋主)
转录组入门(1)Mac上软件准备作业
PANDA姐的转录组入门(1):计算机资源的准备
转录组作业(一):来自零基础的小白
转录组入门作业(1)软件准备 (yojoy123)
(1)转录组之软件安装(ZGN1)
小白生信学习记4:Linux系统下,RNAseq分析软件的安装](http://www.biotrainee.com/thread-977-1-2.html)
(2):读文章拿到测序数据
本系列课程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034 很容易在文章里面找到数据地址GSE81916 这样就可以下载sra文件
作业,看文章里的methods部分,把它用到的软件和参数摘抄下来!
然后理解GEO/SRA数据库的数据存放形式,把规律和笔记发在论坛上面!
优秀作业如下:
转录组入门(二)作业 New(HOPTOP)
转录组入门(2)-作业(青山屋主)
PANDA姐的转录组入门(2):读文章拿到测序数据
(2)转录组之数据获取(ZGN1)
(3):了解fastq测序数据
需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc等软件测试测序文件的质量!
作业,理解测序reads,GC含量,质量值,接头,index,fastqc的全部报告,搜索中文教程,并发在论坛上面。
目前优秀作业有:
转录组(三):作业(HOPTOP)
转录组入门(3)-作业(青山屋主)
PANDA姐的转录组入门(3):了解fastq测序数据
(3)转录组之数据质控(ZGN1)
转录组(3):了解fastq测序数据 (兮兮狼)
(4):了解参考基因组及基因注释
在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。
作业,截图几个基因的IGV可视化结构!还可以下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构。了解IGV常识。
目前优秀作业是:
hoptop的:转录组作业(四)
(5): 序列比对
比对软件很多,首先大家去收集一下,因为我们是带大家入门,请统一用hisat2,并且搞懂它的用法。
直接去hisat2的主页下载index文件即可,然后把fastq格式的reads比对上去得到sam文件。
接着用samtools把它转为bam文件,并且排序(注意N和P两种排序区别)索引好,载入IGV,再截图几个基因看看!
顺便对bam文件进行简单QC,参考直播我的基因组系列。
目前优秀作业是:
转录组入门(5): 序列比对(HOPTOP)
(6): reads计数
实现这个功能的软件也很多,还是烦请大家先自己搜索几个教程,入门请统一用htseq-count,对每个样本都会输出一个表达量文件。
需要用脚本合并所有的样本为表达矩阵。参考:生信编程直播第四题:多个同样的行列式文件合并起来
对这个表达矩阵可以自己简单在excel或者R里面摸索,求平均值,方差。
看看一些生物学意义特殊的基因表现如何,比如GAPDH,β-ACTIN等等。
目前优秀作业是:
转录组入门(6):reads技术(HOPTOP)
这是一个分水岭,后面的分析主要靠R了,前面的分析都最好是在linux系统下面完成,主要是安装软件,下载数据,运行。
有几个笔记不错的整合作业:
转录组入门(1-6)从测序数据到生成count矩阵
JD加栋 的个人博客
PANDA姐的转录组入门(0-6)合辑
(7): 差异基因分析
这个步骤推荐在R里面做,载入表达矩阵,然后设置好分组信息,统一用DEseq2进行差异分析,当然也可以走走edgeR或者limma的voom流程。
基本任务是得到差异分析结果,进阶任务是比较多个差异分析结果的异同点。
(8): 差异基因结果注释
我们统一选择p<0.05而且abs(logFC)大于一个与众的基因为显著差异表达基因集,对这个基因集用R包做KEGG/GO超几何分布检验分析。
然后把表达矩阵和分组信息分别作出cls和gct文件,导入到GSEA软件分析。
基本任务是完成这个分析。
最后,把同样的代码实践与其它几篇转录组文章,并且把代码和分析结果发在论坛上面;
http://biotrainee.com/jmzeng/RNA-seq/RNA-seq-example-GSE81916-two-group.sh
http://biotrainee.com/jmzeng/RNA-seq/DEG.zip
我以前在博客写过的http://www.bio-info-trainee.com/2218.html
比如可以来一些实战:
生信技能树»生信技能树›互动作业›项目实战›mRNA-seq数据分析实战
MeDIP-seq,ChIP-seq,RNA-seq结合起来分析