仅提供bam文件的RNA-seq项目重新分析
最近看到一个文章发表于April 2020,在,标题是:《Genome-wide Screens Implicate Loss of Cullin Ring Ligase 3 in Persistent Proliferation and Genome Instability in TP53-Deficient Cells》,这个是文章链接, https://doi.org/10.1016/j.celrep.2020.03.029 感兴趣的可以看看。
它里面提供了其RNA-seq项目的数据库链接在:https://www.ebi.ac.uk/ena/browser/view/PRJEB36947,有意思的是我进入查看,发现其仅仅是上传了bam文件,并没有其它。
如下所示:
我觉得这是一个蛮好的例子,帮助大家认识RNA-seq数据。
首先是表达矩阵的质量控制
大家可以下载这个项目的bam文件,然后走一下featureCounts命令就可以拿到表达矩阵,然后在R里面就可以绘制如下所示的图表.
转录组的基本分析教程合辑:
上游分析视频以及代码资料在:https://share.weiyun.com/5QwKGxi
下游主要是基于counts矩阵的标准分析的代码 https://share.weiyun.com/50hfuLi
数据分析是一方面,对图表的理解是另外一方面。下面的图表相当于是项目的质量控制,可以看到两个不同的分组的样本在PCA图里面相距较远,相关性也是组内大于组间。说明这个RNA-seq数据至少从处理的还算是比较好的。
差异分析的生物学功能注释
相关性也是组内大于组间,两个不同的分组可以顺理成章的做差异分析, 代码也是在上面分享的链接里面。
但是出下面的图表呢,是把kegg数据库和go数据库的BP,CC,MF这3大类别绘制到了一起,如下所示:
个性化分析
仅仅是差异分析和生物学功能注释还不够,那些属于各大科研服务公司的常规分析流程。如果要把自己的项目解释清楚,一般来说需要结合好合适的生物学故事(通路,调控),如下所示:
pathway(通路,调控)在我这里是其实想指代基因集的别名,其中msigdb有着丰富的基因集,MSigDB(Molecular Signatures Database)数据库中定义了已知的基因集合:http://software.broadinstitute.org/gsea/msigdb
包括H和C1-C7八个系列(Collection),每个系列分别是:
H: hallmark gene sets (癌症)特征基因集合,共50组,最常用; C1: positional gene sets 位置基因集合,根据染色体位置,共326个,用的很少; C2: curated gene sets:(专家)校验基因集合,基于通路、文献等: C3: motif gene sets:模式基因集合,主要包括microRNA和转录因子靶基因两部分 C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合; C5: GO gene sets:Gene Ontology 基因本体论,包括BP(生物学过程biological process,细胞原件cellular component和分子功能molecular function三部分) C6: oncogenic signatures:癌症特征基因集合,大部分来源于NCBI GEO 发表芯片数据 C7: immunologic signatures: 免疫相关基因集合。
如果你没有足够的生物学背景,我们给大家分享的代码默认是做完这些一万多个生物学功能基因集,即使是筛选了统计学显著的,也还是几百个结果。
从几百个生物学功能基因集里面定位到三五个就足够进行可视化发表啦。