基于序列分析的m6A数据库简介

基于基因序列来进行预测的数据库,一般的输入文件都是序列文件。序列文件的话一般都是 fasta 的文件格式,文件格式就是下图这种的。

这个文件主要包括两个部分:

  • 第一行,注释信息。这个注释信息我们可以自己来添加的,主要是为了告诉计算机下面序列是什么东西。注释信息前面必须有一个 “>”,至于后面的内容是什么都不重要。你就算写 > askjdkljasd 都没问题,只要你自己认识就行。

  • 第二行,需要预测的序列。

通过pubmed的检索,我们一共找到基于序列来进行分析m6A的数据库4个。其中 iRNA(m6A)-PseDNC 是用于分析啤酒酵母基因组。这里我们只关注人的数据,所以就不介绍了。接下来我们就来介绍一下剩下的三个数据库。

1

SRAMP

SRAMP(http://www.cuilab.cn/sramp/)是最早的一个用来预测m6A位点的数据库,发表于2016年,由于是最早的也是很好用的,目前这个数据库的被引次数已经到了56次,说明还是预测的结果还是挺准确的。和上面说的一样,这个数据库知识需要我们输入相关的序列即可。

这个数据库主要还是基于随机森林的算法来进行预测的。它支持两种输入方式,一个是带有内含子的基因组序列,另外一个是不带内含子的成熟的mRNA。另外这个数据库需要选择是否考虑RNA的二级结构。

这里我们数据目标序列选择考虑RNA的二级结构之后,点击 submit 即可。结果的呈现的话,首先是数据库会对于序列的预测结果有一个评分,评分的结果可以通过下面这个图来呈现。

再往下,会有具体的评分序列的详细信息。除了包括下列信息也包括了结构信息。同时我们点击其中一个 draw 的选项可以获得 RNA 二级结构的具体位置。

2

BERMP

BERMP(http://www.bioinfogo.org/bermp)是一个基于深度学习另外一个算法(bidirectional Gated Recurrent Unit, BGRU 不是很懂)来预测m6A结合位点的数据库。这个数据库发表于2018年,目前被引了1次。

和上一个数据不同的是,这个数据库没有考虑考虑RNA二级结构的选项,其他的基本类似。

预测的结果是通过表达的形式来展示的。某一段序列都会有一个评分,进而也有一个预测可信度。

3

iMRM

iMRM(http://www.bioml.cn/XG_iRNA/home)是今年刚刚发表的数据库。这个数据库开发出来的目的是用以来预测转录后调控位点的,其中包括m6A, m5C, m1A, ψ and A-to-I 修饰预测。

我们需要做的就是输入序列、选择物种、选择预测的修饰方式(可以全选)、选择阈值即可。

选择之后,我们点击提交就可以看到序列当中具体的调控的位点都有在上面地方了。

横向比较

由于上面三个数据库都是基于基因序列来寻找m6A调控位点的数据库,所以就想着说拿来一起比较一下的,但是后来iMRM数据库一直就分析不出结果了,这个就很尴尬。然后就用 BERMPSRAMP 来进行了一下比较:在输入相同序列的时候,两者数据库的结果有差异的,也有一样的地方。所以说,是不是两个数据库重叠的地方会不会更好呢?这个可能就只能是实验验证了吧。

数据库总结

以上就是基于序列来分析m6A结合位点的数据库。随着测序技术数据的增多。现在也有了基于测序技术来寻找m6A绑定位点的数据库,明天我们就来介绍这些有关的数据库吧。

(0)

相关推荐

  • 国人佳作 | Genome Biology:CircAtlas:来自1070个脊椎动物转录组的一百万个高精度环状RNA的整合资源

    编译:热血本能,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读 现有的环状RNA(circRNA)数据库已成为转录组学必不可少的.但是,大多数方法都不适合挖掘候选circRNA优先级的深入信息. ...

  • 最强攻略4:史上最全甲基化表观调控数据库汇总解读

    表观遗传(Epigenetics)是指DNA序列未发生变化,但基因的表达却发生了可遗传改变.表观遗传学是指基于非基因序列改变所致基因表达水平变化,如DNA甲基化和染色质构象变化等:表观基因组学(epi ...

  • 最强攻略2: 史上最全非编码RNA数据库汇总解读

    第一单元 lncRNA数据库 长链非编码RNA(Long non-coding RNA, lncRNA)是长度大于 200 个核苷酸的非编码RNA.研究表明, lncRNA 在剂量补偿效应.表观遗传调 ...

  • 今天文章重点:实用!(6-11分SCI都偏爱这个Style)

    SRAMP:m6A甲基化位点预测网站 嗨,小伙伴们大家好!上周给大家介绍过EWAS Data Hub数据库,提供表观遗传组关联分析信息,尤其是DNA甲基化信息图谱,带大家初步尝鲜了甲基化修饰模式的美味 ...

  • 综述 | DescribePROT:氨基酸水平蛋白质结构和功能预测数据库

    编译:李可爱,编辑:Emma.江舜尧. 原创微文,欢迎转发转载. 导读 随着基因序列数据量的迅速增长,科学家面临着巨大的任务.目前,2020.04版本的UniProt数据库中,从功能和结构上表征新型蛋 ...

  • LncRNADisease:IncRNA相关疾病数据库

    LncRNA对于理解生命科学,尤其是疾病,至关重要.LncRNADisease数据库整理了实验支持的lncRNA-疾病关联数据的资源,还整合了用于预测新型lncRNA-疾病关联的工具该数据,旨在提供人 ...

  • m6A在线预测网站——SRAMP

    点击"Prediction"按钮 选择预测的模型 左边的"Full transcript mode"在对编码和非编码RNA进行预测时,建议使用此模式. 注意,在 ...

  • Annolnc:一站式lncRNA查询数据库

    长链非编码RNA(lncRNA)是一类新型调控分子,它在从胚胎发育到肿瘤发生等在多种生理病理过程中发挥重要调控作用.虽然人类lncRNA发现数量和规模快速扩张,但这些工具仅支持从单一角度对长非编码RN ...

  • 基于测序数据的m6A数据库

    基本原理讲解 随着测序技术的发展,我们可以通过二代测序的技术来预测m6A.关于m6A测序的技术叫做meRIP-seq,这个测序结果的分析,类似于chip-seq,最后我们可以获得一种叫做peak的文件 ...

  • BigData之MongoDB:MongoDB基于分布式文件存储数据库的简介、下载、案例应用之详细攻略

    BigData之MongoDB:MongoDB基于分布式文件存储数据库的简介.下载.案例应用之详细攻略 MongoDB的简介 MongoDB是基于分布式文件存储的数据库,高性能.可扩展.易部署.易使用 ...

  • 基于刀具原厂数据库的应用

    数控加工车间使用刀具的型号众多,规格各异.为方便数控离线编程的随时调用,需要首先基于实际刀具参数,来定制CAM刀具库.整个定制过程会花费大量的时间.为了节省这部分繁琐的时间成本,是否可以将刀具厂家的云 ...

  • ABP框架使用Mysql数据库,以及基于SQLServer创建Mysql数据库的架构和数据

    ABP默认的数据库是SQLServer,不过ABP框架底层是EF框架,因此也是很容易支持其他类型的数据库的,本篇随笔介绍在ABP框架使用Mysql数据库,以及基于SQLServer创建MySql数据库 ...

  • SRA数据库简介

    简介 SRA是NIH的高通量测序数据的主要档案,是国际核苷酸序列数据库协作(INSDC)的一部分,包括NCBI序列阅读档案(SRA),欧洲生物信息学研究所(EBI)和DNA数据库. 日本(DDBJ). ...

  • m6A数据库总体评价介绍

    数据库汇总 通过对昨天检索到的的20个得到的数据库进行整理总结,我们发现一共有19个是和m6A相关(没有关系是因为在摘要当中也提到了m6A,所以我们也就提取到了),在19个里面有一个数据库已经停止使用 ...

  • 基于瞳孔检测算法---数据库设计心得

    一.     项目介绍 我们的项目是基于OpenCV的瞳孔识别和个性化推荐系统. 人的瞳孔可以体现很多的信息,它往往能体现一个人的喜怒哀乐,或者反应外界的环境,并且每个人的瞳孔信息中的一部分是独一无二 ...

  • 基于计算思维的数据库课程教学改革 参考论文

    摘要:针对当前高校数据库课程教学的状况,在分析"数据库原理及其应用技术"课程与计算思维关系的基础上,笔者提出采用IPR-CDIO.案例教学法."大班上课.小班讨论&quo ...

  • nhanesR:NHANES数据库简介

    NHANES简介 国家健康和营养检查调查 (NHANES) 是一项旨在评估美国成人和儿童健康和营养状况的研究计划.该调查的独特之处在于它结合了访谈和体检.NHANES 是国家卫生统计中心 (NCHS) ...