比GEO2R更好用的GEO数据分析工具
之前在介绍GEO数据库数据分析的时候,我们介绍过GEO2R这个在线的分析GEO芯片数据的工具。但是对于GEO里面的一些二代测序的数据,就没办法进行分析了。最近新发布了一个在线的数据库eVITTA,则可以让我们更好的分析GEO数据了。所以今天我们就来介绍一下eVITTA(https://tau.cmmt.ubc.ca/eVITTA/)。这个工具吧。
关于eVITTA这个工具。里面主要包括了三个功能。
easyGEO: 快速的对GEO的数据进行差异分析及可视化
easyGSEA: 对差异分析的结果进行快速的GSEA分析以及可视化
easyVizR: 对多数据集分析的结果进行交叉分析及可视化
限于文章篇幅,今天我们就来先介绍一下easyGEO这个功能吧。
和其他对表达谱数据进行分析工具不同的是,easyGEO (https://tau.cmmt.ubc.ca/eVITTA/easyGEO/) 类似于GEO2R。我们不需要下载这个表达谱的原始数据。直接输入GEO数据库内的GSE号即可进行分析。
这里为了演示方便,我们就使用GSE10161来进行演示。
1.1 检索GSE号
在工具的第一步,就是用来检索相对应的GSE号码。我们只需要输入GSE12056。然后点击Search。可以得到这个数据集的注释注释文件。
点击Select to proceed可以在右边看到这个数据集的基本信息。包括数据集的总结,样本信息等等。
2. 数据矩阵提取
第一步在输入了GSE号之后,可以看到其基本信息。后续如果要进行分析的话,需要提取里面的基因信息。在这里我们点击» Navigate to 2. Data matrix to proceed即可进行后续的数据集提取。
在表达矩阵的界面,👈可以选择基于注释文件把芯片ID转换为什么基因ID。👉则是具体的表达矩阵。
在数据矩阵方面,可以选择列名是按照GSM ID显示还是换成ID具体对应的实验名称。
3.样本筛选
对数据矩阵选择好之后,我们点击Navigate to 3. Filter/review design matrix to proceed。就可以进行下一步进行实验分组了。
在这个部分,如果作者可以看到这个数据集当中的临床信息(如果有的话)。比如这个数据集就包括这些样本的年龄、性别等信息。例如,这里我们只是选择男性样本进行后续的分析。
4.差异表达分析
在对数据进行筛选之后,我们就可以进行差异表达分析了。点击上面的Navigate to 4. Run DE analysis to proceed就可以进行后续分析
在这个地方,我们需要选择实验的分组。在分组方面,一方面可以根据之前提供的临床数据来进行选择。同时也可以自己选择样本来进行分组,
选择好之后。点击右侧的Run DE Analysis!即可进行差异分析。差异表达基因首先是以表格的形式呈现的。
5.结果可视化
同时,我们点击Navigate to 5. Visualize results for visualizations可以可视化结果。结果的可视化分为三种。算是差异表达分析的常规可视化图形了
火山图,在火山图界面,👈我们可以看到上面差异分析的火山图。👉则是对火山图进行细节调整的选项。默认的是标注差异前几的基因。
热图,在这个界面,👈是具体的热图。👉也是图形调整的选项
具体某一个基因的可视化结果,在这个部分可以观察某一个基因在不同分组当中的表达情况。主要是可以通过小提琴图以及箱式图来进行展示的
总的来说
以上就是这个工具的一步一步的用法了。总的来说还是相比较GEO2R的话。在可视化方面以及前期选择处理方面还是出色一些的。但是目前这个工具只能处理RNA-seq以及单通道的芯片。同时处理的也只能是表达谱芯片。对于miRNA以及一些non-coding的则没办法进行差异分析。