非肿瘤研究如何利用公共数据库发表文章

目前很多对于公共测序数据的分析,很多都是集中在肿瘤数据当中,主要原因还是在于,肿瘤有一个TCGA的数据库。倒不是说TCGA数据库有多大的样本,而是在于TCGA数据库可以获得每个患者的临床数据。基于这些内容,我们在分析的时候,除了做基本的差异,同时可以看预后等等的。

而对于其他的疾病的患者,其数据的来源主要还是GEO。而GEO数据由于都是作者决定上传什么数据的,所以基本上除了每个样本的测序信息,以及一个基本的分组。对于每个患者的其他信息,比如年龄性别这类的基本信息以及临床相关信息很少有包括在内的。这也就导致我们经常只能做一个简单的分组。所以相对来说分析的内容少,内容少了那文章肯定也就不好发了。

在最近的EbioMedicine里面发表了一篇非肿瘤的生信文章。基于这个文章倒是可以看一下如果临床信息少的病种来怎么进行分析的。

文章主要框架

通过以上的题目,我们可以了解到这个文章主要做的还是败血症的研究。下面就简单的介绍一下这个文章的框架吧。

数据集选择

对于这类的文章,其实第一步就是来寻找可用的数据集。为了保证选择的数据量多,作者利用GEO和AarryExpress两个数据库检索符合要求的数据。在进行一系列的筛选,最后获得了12个和败血症相关的数据集。

PS:在这里需要注意的是,由于要合并多个数据集,所以要进行批次效应的去除。

聚类分析

在获得基本的数据集之后,作者使用其中一个数据集来通过非监督聚类k-means的方法来对样本进行分组。通过聚类分析,作者把数据集分成了两个分类。

富集分析

由于样本分成了两个分类,所以作者利用对两个分类进行了差异分析,最后对这些差异基因进行富集分析来了解不同两个分类主要是哪些功能发挥作用。

特征基因选择

在进行差异分析的时候,我们会得到很多差异基因,对于基因很多,我们没办法进行核心基因的选择。为了选择一个可以能够评估两个分组的基因组合模型。作者使用了GALGO算法来进行基因模型的选择。都选择好基因之后,作者使用了其他数据集来进行了外部数据集验证。来证明这几个可以来进行不同临床特征的预测。

文章总结

以上就是这个文章的主要内容。通过这个文章,其实我们可以借鉴的就是,对于临床信息少的疾病。我们可以通过增加数据集的方式来增加文章的内容。进一步的,相较于之前的差异等等,可以通过加载一些机器学习甚至深度学习的算法来进行分析的准确性。所以如果是研究其他疾病的,可以尝试一下这个模式的哈。

PS:文章当中用到的算法什么的都是很经典的,相对来说也不难实现。另外作图啥的,也都是最基本的图形。

(0)

相关推荐