人类基因组中这些被忽视的非编码序列,表达癌细胞生存必需蛋白

撰文|nagashi

2001年,人类基因组计划(HGP)工作草图发表,该计划成功绘制了人类基因组图谱,人类由此获得了属于自己的“自然天书”。从人类基因组图谱中只发现了大约20000个编码蛋白质的基因,这些编码蛋白质的基因只占据人类基因组的1.5%左右,剩余的98.5%由重复序列增强子调控序列非编码RNA等不翻译的序列占据,这些不翻译的基因组序列也被称为The dark genome(黑暗基因组)。

然而,在随后20年的时间里,关于这本“天书”的解读却十分不易,直到现在,我们对人类基因组的表达模式仍缺乏足够的认识

在分子生物学中,开放阅读框(ORFs)是指一段从起始密码子开始,结束于终止密码子的连续DNA序列,由此可以编码蛋白质。值得注意的是,基因组分析预测表明人类基因组中存在许多非典型开放阅读框,但它们是否能编码生物活性蛋白尚未得知。

2021年1月28日,美国麻省理工学院-哈佛大学博德研究所(Broad Institute)的研究人员在 Nature Biotechnology 杂志上发表题为:Noncanonical open reading frames encode functional proteins essential for cancer cell survival 的研究论文。

这项研究表明,非典型开放阅读框也可以表达生物活性蛋白!并且,部分非典型开放阅读框还与癌症的发生发展密切相关,编码翻译了癌细胞所必须的蛋白

在人类基因组中,除了已知的20000个基因编码蛋白质外,还存在着大量之前未知的功能性蛋白,在疾病尤其是癌症中发挥着作用

这些蛋白可作为癌症治疗的潜在靶点,或将有助于新的癌症靶向治疗药物的开发。

人类基因组序列的早期分析表明,人类拥有10万个甚至更多的编码蛋白质的基因。然而,进一步的研究发现,这些候选基因中的大多数更有可能产生非编码RNA、片段互补的DNA克隆或表达水平不显著的RNA。

与此同时,人类蛋白质组计划中的NeXtProt数据库识别出约17600个经质谱分析确认的蛋白质编码基因以及约2100个未确认的蛋白质编码基因。然而,越来越多利用核糖体相关RNA高通量分析的证据表明,目前注释为非编码RNA或假基因的DNA序列也可能可以编码蛋白质

并且,由于严格的、基于保守的分析只向人类基因组中添加注释了少量的新蛋白质。目前尚不清楚这种翻译是否反映了在构建参考基因组数据库、核糖体扫描或混乱的计算预测过程中被忽略的蛋白质。

更重要的是,事实上质疑这些预测的新蛋白质是否可以稳定翻译,以及是否具有生物学功能,仍有待进一步的系统实验去验证。

研究流程图

在此项研究中,研究团队实验性地从非典型开放阅读框数据集中选择了553个候选对象。研究人员发现,当它们在人类癌细胞系中被敲除时,有57种诱导活性缺失,且在异位表达后,257个出现蛋白表达,401个诱导基因表达改变。

与此同时,CRISPR筛选和起始密码子突变实验表明,非典型开放阅读框的生物学效应是依赖于其翻译而不是RNA介导的效应。

CRISPR筛选以识别与癌细胞生存有关的未知开放阅读框

不仅如此,研究人员还发现其中一个ORF——富含甘氨酸的胞外蛋白1 (GREP1),其编码了一个在乳腺癌中高表达的分泌蛋白。在263个乳腺癌细胞系中敲除该蛋白后,乳腺癌来源细胞系的增殖受到了抑制。

除此之外,研究还表明,表达了GREP1的癌症细胞系所分泌的致癌细胞因子——GDF15的丰度增加,而补充GDF15可以减轻敲除GREP1后的细胞生长抑制作用。

GREP1在乳腺癌中的癌症依赖基因的表征

论文作者表示:“我们确定,我们数据集中大约10%的开放阅读框是癌细胞生存所需的。尽管数据集代表的是非典型开放阅读框的精选列表,而不是所有可能的开放阅读框的随机抽样,但这些实验表明,非典型开放阅读框可能对癌症和其他疾病的发病机制和治疗提供新的见解。”

识别翻译的、未注释的或未研究的非典型开放阅读框

总而言之,尽管人类基因组在20年前就已经完成了测序,但人类基因组中蛋白质编码基因的确切数量仍是一个争议点。这项研究表明,在典型编码区(CDS)以外的非编码序列也普遍存在翻译,这些非典型开放阅读框也可以表达出生物活性蛋白,并且可能在癌症等疾病的发生发展中起作用,未来或将成为治疗人类疾病的新靶点!

论文链接:

https://www.nature.com/articles/s41587-020-00806-2

(0)

相关推荐