真核cDNA序列详解

2024-07-28 13:26:42

我一直强调生物信息学工程师需要理解：基因，转录本(transcripts,isoform，mRNA序列)、EXON区域，cDNA序列、UTR区域，ORF序列、CDS序列 这些概念，一个基因可以转录为多个转录本，真核生物里面每个转录本通常是由一个或者多个EXON组成，能翻译为蛋白的EXON区域是CDS区域，不能翻译的那些EXON的开头和结尾是UTR区域，翻译区域合起来是ORF序列，而转录本逆转录就是cDNA序列。

但是干巴巴的文字解释度不强，这里脚本代码带领大家探索一下。

我们都知道物种的所有基因的所有转录本的cDNA序列是可以下载的，这里首选：https://asia.ensembl.org/info/data/ftp/index.html

wget ftp://ftp.ensembl.org/pub/release-95/fasta/homo_sapiens/cds/Homo_sapiens.GRCh38.cds.all.fa.gz wget ftp://ftp.ensembl.org/pub/release-95/gtf/homo_sapiens/Homo_sapiens.GRCh38.95.chr.gtf.gz

然后我发现其中一个：

ENST00000556645.5 cds chromosome:GRCh38:14:100334493:100376251:-1 gene:ENSG00000140105.17 gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:WARS description:tryptophanyl-tRNA synthetase [Source:HGNC Symbol;Acc:HGNC:12729]

其对应的序列是 1293 个碱基：

ATGTTGGTGTCATTAAAAATGAGCTACAAAGCTGCCGCGGGGGAGGATTACAAGGCTGAC TGTCCTCCAGGGAACCCAGCACCTACCAGTAATCATGGCCCAGATGCCACAGAAGCTGAA GAGGATTTTGTGGACCCATGGACAGTACAGACAAGCAGTGCAAAAGGCATAGACTACGAT AAGCTCATTGTTCGGTTTGGAAGTAGTAAAATTGACAAAGAGCTAATAAACCGAATAGAG AGAGCCACCGGCCAAAGACCACACCACTTCCTGCGCAGAGGCATCTTCTTCTCACACAGA GATATGAATCAGGTTCTTGATGCCTATGAAAATAAGAAGCCATTTTATCTGTACACGGGC CGGGGCCCCTCTTCTGAAGCAATGCATGTAGGTCACCTCATTCCATTTATTTTCACAAAG TGGCTCCAGGATGTATTTAACGTGCCCTTGGTCATCCAGATGACGGATGACGAGAAGTAT CTGTGGAAGGACCTGACCCTGGACCAGGCCTATAGCTATGCTGTGGAGAATGCCAAGGAC ATCATCGCCTGTGGCTTTGACATCAACAAGACTTTCATATTCTCTGACCTGGACTACATG GGGATGAGCTCAGGTTTCTACAAAAATGTGGTGAAGATTCAAAAGCATGTTACCTTCAAC CAAGTGAAAGGCATTTTCGGCTTCACTGACAGCGACTGCATTGGGAAGATCAGTTTTCCT GCCATCCAGGCTGCTCCCTCCTTCAGCAACTCATTCCCACAGATCTTCCGAGACAGGACG GATATCCAGTGCCTTATCCCATGTGCCATTGACCAGGATCCTTACTTTAGAATGACAAGG GACGTCGCCCCCAGGATCGGCTATCCTAAACCAGCCCTGCTGCACTCCACCTTCTTCCCA GCCCTGCAGGGCGCCCAGACCAAAATGAGTGCCAGCGACCCCAACTCCTCCATCTTCCTC ACCGACACGGCCAAGCAGATCAAAACCAAGGTCAATAAGCATGCGTTTTCTGGAGGGAGA GACACCATCGAGGAGCACAGGCAGTTTGGGGGCAACTGTGATGTGGACGTGTCTTTCATG TACCTGACCTTCTTCCTCGAGGACGACGACAAGCTCGAGCAGATCAGGAAGGATTACACC AGCGGAGCCATGCTCACCGGTGAGCTCAAGAAGGCACTCATAGAGGTTCTGCAGCCCTTG ATCGCAGAGCACCAGGCCCGGCGCAAGGAGGTCACGGATGAGATAGTGAAAGAGTTCATG ACTCCCCGGAAGCTGTCCTTCGACTTTCAGTAG

但是它在gtf文件记录是：

100334493 100376251 transcript 100375511 100376251 exon 100375283 100375350 exon 100361708 100361921 exon 100361708 100361897 CDS 100361895 100361897 start_codon 100360554 100360662 exon 100360554 100360662 CDS 100354447 100354566 exon 100354447 100354566 CDS 100353687 100353869 exon 100353687 100353869 CDS 100346746 100346846 exon 100346746 100346846 CDS 100343275 100343387 exon 100343275 100343387 CDS 100342398 100342571 exon 100342398 100342571 CDS 100337062 100337202 exon 100337062 100337202 CDS 100334493 100335036 exon 100334878 100335036 CDS 100334875 100334877 stop_codon 100375511 100376251 five_prime_utr 100375283 100375350 five_prime_utr 100361898 100361921 five_prime_utr 100334493 100334874 three_prime_utr

第一个外显子100375511 100376251 长度是 741，和第二个短的外显子，都不是CDS序列，所以它们不应该在cDNA序列里面。而且这个转录本是位于负链，所以它的坐标会越来越小。

第3个外显子开始才属于CDS序列，所以它们会被记录在cDNA序列里面，但是呢，我们对 Nucleotide Codes, Amino Acid Codes, and Genetic Codes 都不陌生，其中，真核生物的起始密码子一定是 AUG代表的Met ，位于第3个外显子（也就是第一个CDS序列）的最后一个3联体，就是cDNA序列开头的地方。

密码子参考：https://www.genome.jp/kegg/catalog/codes1.html

这个知识点非常重要，如果有人能绘制一个示意图，可能更方便理解。

外显子坐标如下：

CDS坐标如下：

CDS相比外显子缺失的地方是UTR区域。

CDS、cDNA、ORF等等傻傻分不清

生物汪天天和基因打交道,不过总有人分不清CDS.cDNA.ORF.外显子.内含子等等的概念和关系,今天小编就梳理一下,希望对您的科研有所帮助! 真核生物: 下面先从真核生物开始,小编在网上找了个图片, ...
TBtools | 只有序列，怎么做基因结构图?

写在前面这两天有看到几个用户朋友在生信札记讨论群中讨论了基因结构图的绘制.看到其他用户一直推荐 GSDS,我便也没有作声,毕竟 GSDS 确实是很优秀的网页软件.而现实情况是,近期 GSDS 网站无 ...
Atg5基因敲除小鼠构建策略

要敲除 Atg5 基因,我们可以选择 exon3 作为敲除区域,这与已经报道的 CKO 模型不谋而合. 为什么选 exon3 呢? 来看看 Atg5 基因的具体外显子序列信息吧. 图5. Atg5 外 ...
5' UTR,3' UTR

一段基因序列上包含外显子和内含子,转录的时候,pre-RNA就是前体RAN上会有内含子和外显子,成为成熟RNA时,内含子已经被剪切了,只保留外显子,所以内含子叫作非编码RNA(non-coding ...
稀有 | GXF Stat 一次统计物种的Gene/mRNA/Exon/Intron/CDS/UTR...信息

写在前面近日在鼓捣课题的过程中,遇到了一些数据整理需求.需要快速统计物种的序列特征情况,比如基因,转录本,外显子,内含子,CDS,UTR等.但我们其实都清楚,很多物种的基因结构注释信息比较粗糙,所以 ...
6套完整的开肩开髋序列详解

一起瑜伽中国瑜伽在线给伽人分享6套完整的开肩开髋为主题的练习序列. 提到开肩开髋,大家的第一反应都是难.疼这些消极的想法.其实开肩和开髋并不是一件很困难的事情,只要方法对,有足够的耐心, ...
怎样区分不同序列的磁共振图像？（图文详解）

刚接触影像学的新手,对于磁共振T1.T2尚可应付,可是对于区分flair序列.质子相.stir序列.DWI总是让偶丈二和尚摸不着头脑.那么面对一张磁共振片子,怎样通过它的外观和参数值(如TE,TR等) ...
详解NLP中的预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学习、语法分析、文...

NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生. 我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准 ...
自己练瑜伽不会开髋开肩？一口气为你详解6套完整的开肩开髋序列

第一套练习序列,开肩这是一套非常棒的开肩练习序列.充分利用瑜伽砖.墙壁和伸展带. 其中第4个动作靠墙倒立如果练习起来有困难可以用海豚式来代替,肩关节的活动方向是一致的. 最下面用伸展带的三个动作,建 ...
自己不会编排动作？详解瑜伽老师排课技巧和步骤（附多张序列图）

因各种原因没有条件去瑜伽馆练习的人,完全可以选择自我在家里练习. 自己在家里练习,可以跟着各种视频学习,也可在家里给自己编排一些适合自己的练习序列来练习,这样为自己定身量制的练习序列更有针对性. 今天 ...
【时空序列预测实战】详解时空序列常用数据集之MovingMnist数据集(demo代码)

前言开始准备着手写实战的系列了, 接下来每次代码可能比较多,希望大家可以hold住毋庸置疑在做时空序列模型的时候,oving数据集,或者说标准的数据集是必要的这篇文章我们主要介绍MovingMn ...
在家不懂练什么更不会编排？详解8套瑜伽序列图，总有一套适合你

自己在家里练习瑜伽的时候不知道练哪些动作不知道动作编排的规律和特点,这种情况跟着瑜伽序列图练习是非常好的方法.当然除了自己练习,瑜伽老师拿来排课也非常实用. 我们在跟着序列图练习的时候也可以观察思考一 ...
【中字详解】Richard Freeman 阿斯汤伽中级序列

理查德·弗里曼 Richard Freeman自1968年以来一直是瑜伽的学生,从禅宗传统中的一个简单的打坐开始.仍在学习. 他花了九年时间在亚洲学习瑜伽体式.苏非主义.梵语和印度哲学文本,将它们与那 ...
胎元命宫详解

胎元命宫详解胎元命宫 8.1 胎元胎, 指人受精怀胎的月份. 其起法是: 人生月后紧接着这个月的天干与生月后第三个月的地支相配, 就为胎元. 如1998年八月生人, 八月为辛酉, 辛后一干是壬, ...

真核cDNA序列详解

相关推荐