什么是开放阅读框(Open Reading Frame, ORF)
在构成基因的核苷酸序列中存在着一些最终翻译成蛋白的碱基段,每三个连续
碱基(即三联“ 密码子”)编码相应的氨基酸。其中有一个起始“密码子”--AUG/ATG和
三个终止“ 密码子”,终止“ 密码子”提供终止信号。当细胞机器沿着核酸合成蛋白链
并使其不断延伸的过程中遇到终密码子时,蛋白的延伸反应终止,一个成熟(或提前终止
的突变)蛋白产生。因此开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基
序列。由于拥有特殊的起始密码子和直到可以从该段碱基序列产生合适大小蛋白才出现的
终止密码子,该段碱基序列编码一个蛋白。
现在有很多找ORF的软件,包括在线的,如:
ORF Finding的功能
ORF Finding被用来预测已存在的编码区的小基因序列。它较早应于序列设计
,应用优于长片断、高质量的匹配。进而,它提供了比用标准基因编码查询更有用的信息
。ORF Finding把提交序列分成六个亚区,并对这六个阅读框分别进行默认,赋予每个亚
区一个确定其编码内容的度量,如果可能,将对每一亚区进行进一步分析。每个亚区按照
已有的分类结果,被随机提交给查找它们是否编码蛋白质的特定测试收集器。最后只有那
些具有编码潜能的重要区域才被报导。ORF Finding识别是证明一个新的DNA序列编码特定
的蛋白质的部分或全部的先决条件,可用于大规模的开放式阅读框寻找。
使用说明
测试过程:
当一个基因被识别、其DNA序列被解读时,人们往往仍然无法弄清相应的蛋白序列
是什么。这是因为在没有其它信息的前提下,DNA序列可以按六种框架阅读和翻译(每条
链三种,对应三种不同的起始密码子)。 ORF Finding针对小基因序列,搜索并报导可能
的蛋白质编码区,它检测这六个阅读框架,并寻找以启动子和终止子为界限的DNA序列,
符合这些条件的序列有可能对应一个真正的单一的基因产物。
ORF Finding 通过如下方式处理您的序列:
·定位六个阅读框上的ORF候选区域
·对每个候选区域的编码可能性进行评估
·如果可能性很高,就把该区域作为可能的蛋白质编码区进行报导
编码可能性:是通过从物种训练模拟器收集来的统计数据确定的用。ORFFinding 进行蛋
白质编码区的预测,有三步程序。
第一步:延伸无终止密码子的序列,把延伸的片断定位在六个阅读框上;它们是下一步进
行 开放式阅读框研究的候选序列。
第二步:用物种hexamer统计表来估算ORF候选区域上蛋白质编码部分编码蛋白质的最大可
能性。
第三步:根据序列结构和区域最可能成分来计算蛋白质编码的可能性。
这种测试利用物种的统计学原理把编码区从非编码区区分出来,其中包括编码蛋白质的最
大可能性的估算、3 个过程的测试 和ORF片断大小的确定。这种测试应用于物种的二次形
式,得到一个三个自由度的chi-square统计量,被称为候选ORF的二次判别式。这个判别式
对于编码区趋向于取大值,对于非编码区趋向于小值,并被固定化,所以非编码区获取的
值趋向于小于1。一般通过第一步和第二步,大约61%的非编码区域产生值小于1的二次判别
式。89%的区域的期望值小于2。经多次应用发现,5.0的结果很理想,它是介于正、误之
间的阈值。
使用方法: 首先选择你测试的序列的来源(物种),然后直接在输入框内填写您的DNA序
列,进行提交即可。但输入序列的长度不得小于50bp。
结果说明:
提供最优的潜在开放阅读框位置。通常,ORF Finding 会把您提交的序列进行检测
,然后根据阅读框的次序(+1,+2, +3,-1,-2,-3),给出各阅读框架的蛋白质编码区域的
详细信息。如果同一个阅读框包含几个蛋白质编码区域的话,则这一开放式阅读框中蛋白
质编码区域会按照它们的起始核苷酸在该阅读框上的碱基位置依次给出。编码区域的详细
信息包括:
·Numb x:编码区编号。从1依次增加,从此您可以知道各编码区的相对序号和您提交的序
列的总编码区数目。
·Predicted start、Predicted end:预测的基因编码区的开始、结束。是指该阅读框的
该编码区上编码蛋白质的核苷酸的起始和结束位置。
·Readingframe:阅读框。六种框架(每条链三种,对应三种不同的起始密码子)中的哪
一种。
·Type:类型。说明这一蛋白质编码区是预测出来的还是存在的。
·ORF start、ORFend:开放式阅读开始、结束。即这一编码区的起始和结束。它除包括
编码蛋白质的核酸序列外,还包括调控基因、起始密码子、终止密码子等。
·Spectral:吸收光谱。 该段核苷酸的吸收光谱数。
·ORF length:ORF长度。
·Max likelihood:最大可能性。请参考 测试过程 中的编码可能性。
MLE lengthscore:最大可能性估量长度评估。即该编码区上编码部分占整个ORF区的比例
。
·Quadraticdiscriminant:二次判别式的值。对于编码区趋向于取大值,非编码区趋向
于取小值
碱基(即三联“ 密码子”)编码相应的氨基酸。其中有一个起始“密码子”--AUG/ATG和
三个终止“ 密码子”,终止“ 密码子”提供终止信号。当细胞机器沿着核酸合成蛋白链
并使其不断延伸的过程中遇到终密码子时,蛋白的延伸反应终止,一个成熟(或提前终止
的突变)蛋白产生。因此开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基
序列。由于拥有特殊的起始密码子和直到可以从该段碱基序列产生合适大小蛋白才出现的
终止密码子,该段碱基序列编码一个蛋白。
现在有很多找ORF的软件,包括在线的,如:
ORF Finding的功能
ORF Finding被用来预测已存在的编码区的小基因序列。它较早应于序列设计
,应用优于长片断、高质量的匹配。进而,它提供了比用标准基因编码查询更有用的信息
。ORF Finding把提交序列分成六个亚区,并对这六个阅读框分别进行默认,赋予每个亚
区一个确定其编码内容的度量,如果可能,将对每一亚区进行进一步分析。每个亚区按照
已有的分类结果,被随机提交给查找它们是否编码蛋白质的特定测试收集器。最后只有那
些具有编码潜能的重要区域才被报导。ORF Finding识别是证明一个新的DNA序列编码特定
的蛋白质的部分或全部的先决条件,可用于大规模的开放式阅读框寻找。
使用说明
测试过程:
当一个基因被识别、其DNA序列被解读时,人们往往仍然无法弄清相应的蛋白序列
是什么。这是因为在没有其它信息的前提下,DNA序列可以按六种框架阅读和翻译(每条
链三种,对应三种不同的起始密码子)。 ORF Finding针对小基因序列,搜索并报导可能
的蛋白质编码区,它检测这六个阅读框架,并寻找以启动子和终止子为界限的DNA序列,
符合这些条件的序列有可能对应一个真正的单一的基因产物。
ORF Finding 通过如下方式处理您的序列:
·定位六个阅读框上的ORF候选区域
·对每个候选区域的编码可能性进行评估
·如果可能性很高,就把该区域作为可能的蛋白质编码区进行报导
编码可能性:是通过从物种训练模拟器收集来的统计数据确定的用。ORFFinding 进行蛋
白质编码区的预测,有三步程序。
第一步:延伸无终止密码子的序列,把延伸的片断定位在六个阅读框上;它们是下一步进
行 开放式阅读框研究的候选序列。
第二步:用物种hexamer统计表来估算ORF候选区域上蛋白质编码部分编码蛋白质的最大可
能性。
第三步:根据序列结构和区域最可能成分来计算蛋白质编码的可能性。
这种测试利用物种的统计学原理把编码区从非编码区区分出来,其中包括编码蛋白质的最
大可能性的估算、3 个过程的测试 和ORF片断大小的确定。这种测试应用于物种的二次形
式,得到一个三个自由度的chi-square统计量,被称为候选ORF的二次判别式。这个判别式
对于编码区趋向于取大值,对于非编码区趋向于小值,并被固定化,所以非编码区获取的
值趋向于小于1。一般通过第一步和第二步,大约61%的非编码区域产生值小于1的二次判别
式。89%的区域的期望值小于2。经多次应用发现,5.0的结果很理想,它是介于正、误之
间的阈值。
使用方法: 首先选择你测试的序列的来源(物种),然后直接在输入框内填写您的DNA序
列,进行提交即可。但输入序列的长度不得小于50bp。
结果说明:
提供最优的潜在开放阅读框位置。通常,ORF Finding 会把您提交的序列进行检测
,然后根据阅读框的次序(+1,+2, +3,-1,-2,-3),给出各阅读框架的蛋白质编码区域的
详细信息。如果同一个阅读框包含几个蛋白质编码区域的话,则这一开放式阅读框中蛋白
质编码区域会按照它们的起始核苷酸在该阅读框上的碱基位置依次给出。编码区域的详细
信息包括:
·Numb x:编码区编号。从1依次增加,从此您可以知道各编码区的相对序号和您提交的序
列的总编码区数目。
·Predicted start、Predicted end:预测的基因编码区的开始、结束。是指该阅读框的
该编码区上编码蛋白质的核苷酸的起始和结束位置。
·Readingframe:阅读框。六种框架(每条链三种,对应三种不同的起始密码子)中的哪
一种。
·Type:类型。说明这一蛋白质编码区是预测出来的还是存在的。
·ORF start、ORFend:开放式阅读开始、结束。即这一编码区的起始和结束。它除包括
编码蛋白质的核酸序列外,还包括调控基因、起始密码子、终止密码子等。
·Spectral:吸收光谱。 该段核苷酸的吸收光谱数。
·ORF length:ORF长度。
·Max likelihood:最大可能性。请参考 测试过程 中的编码可能性。
MLE lengthscore:最大可能性估量长度评估。即该编码区上编码部分占整个ORF区的比例
。
·Quadraticdiscriminant:二次判别式的值。对于编码区趋向于取大值,非编码区趋向
于取小值
赞 (0)