都2020年了你还在用tophat吗(RNA-seq数据免费分析)
Tophat 首次被发表已经是6年前
Cufflinks也是五年前的事情了
Star的比对速度是tophat的50倍,hisat更是star的1.2倍。
stringTie的组装速度是cufflinks的25倍,但是内存消耗却不到其一半。
Ballgown在差异分析方面比cuffdiff更高的特异性及准确性,且时间消耗不到cuffdiff的千分之一
Bowtie2+eXpress做质量控制优于tophat2+cufflinks和bowtie2+RSEM
Sailfish更是跳过了比对的步骤,直接进行kmer计数来做QC,特异性及准确性都还行,但是速度提高了25倍
kallisto同样不需要比对,速度比sailfish还要提高5倍!!!
如果你现在(2020)做人类数据分析,比如lncRNA的鉴定啥的,当然是走hisat2+stringTie流程啦,取代已经十多年了的tophat+Cufflinks流程。但是我这两天假期无聊刷文献,看到发表在Theranostics 2020,的研究文章:Long noncoding RNA PiHL regulates p53 protein stability through GRWD1/RPL11/MDM2 axis in colorectal cancer里面的RNA-seq数据居然还是在走十几年前的tophat流程哦,有趣,而且写的不清不楚那个FPKM是如何计算的。在广州锐博公司?
实际上,RNA-seq我们在生信技能树应该是至少推出了400篇教程,而且是我们全国巡讲的标准品知识点,其中还有一个阅读量过两万的综述翻译及其细节知识点的补充:
相信大家听完了我B站的RNA-seq分析流程后,对这个数据的应用方向都不陌生。代码也很简单,如果你有Linux基础,基本上一两个小时就可以完成数据分析流程,拿到表达矩阵啦。就是:
# 安装RNA-seq数据处理流程
# 代码参考:https://www.jianshu.com/p/a84cd44bac67
# 视频教程见:https://www.bilibili.com/video/av28453557
hisat2=/home/jianmingzeng/biosoft/HISAT/hisat2-2.0.4/hisat2
# # 如果使用conda安装的 hisat2,那么 hisat2 命令应该是在环境变量的。
## 索引文件需要自己下载
# https://ccb.jhu.edu/software/hisat2/manual.shtml
# wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/mm10.tar.gz
index=/home/jianmingzeng/reference/index/hisat/mm10/genome
ls raw_fq/*gz | while read id; do
$hisat2 -p 10 -x $index -U $id -S ${id%%.*}.hisat.sam
done
ls *.sam|while read id ;do (samtools sort -O bam -@ 5 -o $(basename ${id} ".sam").bam ${id});done
rm *.sam
ls *.bam |xargs -i samtools index {}
## gtf文件推荐去gencode数据库下载
gtf=/home/jianmingzeng/reference/gtf/gencode/gencode.vM12.annotation.gtf
featureCounts=/home/jianmingzeng/biosoft/featureCounts/subread-1.5.3-Linux-x86_64/bin/featureCounts
# # # 如果使用conda安装的 subread,那么featureCounts 命令应该是在环境变量的。
$featureCounts -T 5 -p -t exon -g gene_id -a $gtf -o all.id.txt *.bam 1>counts.id.log 2>&1 &
这篇文章其实并没有怎么使用这个RNA-seq数据,可能是因为确实他们课题组并不懂测序数据,也没有生物信息学基础知识背景吧。就是委托公司简单测序而已。
做的是GSEA分析
(A) Gene set enrichment analysis (GSEA) results based on PiHL expression levels (siRNA-PiHL vs siRNA-NC, with three repeats) in HCT116 cells.
The GSEA plots for the enrichment of p53 target genes involved in modulation of apoptosis and cell cycle are shown.
很简单的啦,如果大家感兴趣GSEA分析原理和用法,看我在生信技能树的教程合辑
RNA-seq数据分析继续免费做
请注意,并不是上游流程哦,因为这个走hisat2+stringTie流程需要服务器,就有成本了。我们提供的免费分析,仅仅是我在生信技能树推文里面的各种各样的数据分析,那些都是我非常有经验的,比如我在lncRNA的一些基础知识 ,和lncRNA芯片的一般分析流程 介绍过的那些图表,以及下面的目录的分析内容 对我来说是举手之劳,希望可以帮助到你!
转录组数据分析的4个维度认识(数据分析继续免费哦) RNA-seq数据的2个分组差异分析,热图,PCA图,火山图等等
根据感兴趣基因看肝癌免疫微环境的T细胞亚群差异 条形图或者箱线图
查看感兴趣基因的甲基化水平和RNA表达水平(数据分析免费做)相关性 散点图或者箱线图
log与否会改变rpkm形式表达矩阵top的mad基因列表 WGCNA分析免费做
甲基化信号值的差异分析也许不应该是看logFC 甲基化信号矩阵差异分析免费做
WGCNA得到模块之后如何筛选模块里面的hub基因 WGCNA分析免费做