基于序列分析的m6A数据库简介
基于基因序列来进行预测的数据库,一般的输入文件都是序列文件。序列文件的话一般都是 fasta 的文件格式,文件格式就是下图这种的。
这个文件主要包括两个部分:
第一行,注释信息。这个注释信息我们可以自己来添加的,主要是为了告诉计算机下面序列是什么东西。注释信息前面必须有一个 “>”,至于后面的内容是什么都不重要。你就算写
> askjdkljasd
都没问题,只要你自己认识就行。第二行,需要预测的序列。
通过pubmed的检索,我们一共找到基于序列来进行分析m6A的数据库4个。其中 iRNA(m6A)-PseDNC 是用于分析啤酒酵母基因组。这里我们只关注人的数据,所以就不介绍了。接下来我们就来介绍一下剩下的三个数据库。
1
SRAMP
SRAMP(http://www.cuilab.cn/sramp/)是最早的一个用来预测m6A位点的数据库,发表于2016年,由于是最早的也是很好用的,目前这个数据库的被引次数已经到了56次,说明还是预测的结果还是挺准确的。和上面说的一样,这个数据库知识需要我们输入相关的序列即可。
这个数据库主要还是基于随机森林的算法来进行预测的。它支持两种输入方式,一个是带有内含子的基因组序列,另外一个是不带内含子的成熟的mRNA。另外这个数据库需要选择是否考虑RNA的二级结构。
这里我们数据目标序列选择考虑RNA的二级结构之后,点击 submit 即可。结果的呈现的话,首先是数据库会对于序列的预测结果有一个评分,评分的结果可以通过下面这个图来呈现。
再往下,会有具体的评分序列的详细信息。除了包括下列信息也包括了结构信息。同时我们点击其中一个 draw 的选项可以获得 RNA 二级结构的具体位置。
2
BERMP
BERMP(http://www.bioinfogo.org/bermp)是一个基于深度学习另外一个算法(bidirectional Gated Recurrent Unit, BGRU 不是很懂)来预测m6A结合位点的数据库。这个数据库发表于2018年,目前被引了1次。
和上一个数据不同的是,这个数据库没有考虑考虑RNA二级结构的选项,其他的基本类似。
预测的结果是通过表达的形式来展示的。某一段序列都会有一个评分,进而也有一个预测可信度。
3
iMRM
iMRM(http://www.bioml.cn/XG_iRNA/home)是今年刚刚发表的数据库。这个数据库开发出来的目的是用以来预测转录后调控位点的,其中包括m6A, m5C, m1A, ψ and A-to-I 修饰预测。
我们需要做的就是输入序列、选择物种、选择预测的修饰方式(可以全选)、选择阈值即可。
选择之后,我们点击提交就可以看到序列当中具体的调控的位点都有在上面地方了。
由于上面三个数据库都是基于基因序列来寻找m6A调控位点的数据库,所以就想着说拿来一起比较一下的,但是后来iMRM数据库一直就分析不出结果了,这个就很尴尬。然后就用 BERMP和 SRAMP 来进行了一下比较:在输入相同序列的时候,两者数据库的结果有差异的,也有一样的地方。所以说,是不是两个数据库重叠的地方会不会更好呢?这个可能就只能是实验验证了吧。
以上就是基于序列来分析m6A结合位点的数据库。随着测序技术数据的增多。现在也有了基于测序技术来寻找m6A绑定位点的数据库,明天我们就来介绍这些有关的数据库吧。