真核cDNA序列详解
我一直强调生物信息学工程师需要理解:
基因,转录本(transcripts,isoform,mRNA序列)、EXON区域,cDNA序列、UTR区域,ORF序列、CDS序列
这些概念,一个基因可以转录为多个转录本,真核生物里面每个转录本通常是由一个或者多个EXON组成,能翻译为蛋白的EXON区域是CDS区域,不能翻译的那些EXON的开头和结尾是UTR区域,翻译区域合起来是ORF序列,而转录本逆转录就是cDNA序列。
但是干巴巴的文字解释度不强,这里脚本代码带领大家探索一下。
我们都知道物种的所有基因的所有转录本的cDNA序列是可以下载的,这里首选:https://asia.ensembl.org/info/data/ftp/index.html
wget ftp://ftp.ensembl.org/pub/release-95/fasta/homo_sapiens/cds/Homo_sapiens.GRCh38.cds.all.fa.gz
wget ftp://ftp.ensembl.org/pub/release-95/gtf/homo_sapiens/Homo_sapiens.GRCh38.95.chr.gtf.gz
然后我发现其中一个:
ENST00000556645.5 cds chromosome:GRCh38:14:100334493:100376251:-1
gene:ENSG00000140105.17 gene_biotype:protein_coding transcript_biotype:protein_coding gene_symbol:WARS
description:tryptophanyl-tRNA synthetase [Source:HGNC Symbol;Acc:HGNC:12729]
其对应的序列是 1293 个碱基 :
ATGTTGGTGTCATTAAAAATGAGCTACAAAGCTGCCGCGGGGGAGGATTACAAGGCTGAC
TGTCCTCCAGGGAACCCAGCACCTACCAGTAATCATGGCCCAGATGCCACAGAAGCTGAA
GAGGATTTTGTGGACCCATGGACAGTACAGACAAGCAGTGCAAAAGGCATAGACTACGAT
AAGCTCATTGTTCGGTTTGGAAGTAGTAAAATTGACAAAGAGCTAATAAACCGAATAGAG
AGAGCCACCGGCCAAAGACCACACCACTTCCTGCGCAGAGGCATCTTCTTCTCACACAGA
GATATGAATCAGGTTCTTGATGCCTATGAAAATAAGAAGCCATTTTATCTGTACACGGGC
CGGGGCCCCTCTTCTGAAGCAATGCATGTAGGTCACCTCATTCCATTTATTTTCACAAAG
TGGCTCCAGGATGTATTTAACGTGCCCTTGGTCATCCAGATGACGGATGACGAGAAGTAT
CTGTGGAAGGACCTGACCCTGGACCAGGCCTATAGCTATGCTGTGGAGAATGCCAAGGAC
ATCATCGCCTGTGGCTTTGACATCAACAAGACTTTCATATTCTCTGACCTGGACTACATG
GGGATGAGCTCAGGTTTCTACAAAAATGTGGTGAAGATTCAAAAGCATGTTACCTTCAAC
CAAGTGAAAGGCATTTTCGGCTTCACTGACAGCGACTGCATTGGGAAGATCAGTTTTCCT
GCCATCCAGGCTGCTCCCTCCTTCAGCAACTCATTCCCACAGATCTTCCGAGACAGGACG
GATATCCAGTGCCTTATCCCATGTGCCATTGACCAGGATCCTTACTTTAGAATGACAAGG
GACGTCGCCCCCAGGATCGGCTATCCTAAACCAGCCCTGCTGCACTCCACCTTCTTCCCA
GCCCTGCAGGGCGCCCAGACCAAAATGAGTGCCAGCGACCCCAACTCCTCCATCTTCCTC
ACCGACACGGCCAAGCAGATCAAAACCAAGGTCAATAAGCATGCGTTTTCTGGAGGGAGA
GACACCATCGAGGAGCACAGGCAGTTTGGGGGCAACTGTGATGTGGACGTGTCTTTCATG
TACCTGACCTTCTTCCTCGAGGACGACGACAAGCTCGAGCAGATCAGGAAGGATTACACC
AGCGGAGCCATGCTCACCGGTGAGCTCAAGAAGGCACTCATAGAGGTTCTGCAGCCCTTG
ATCGCAGAGCACCAGGCCCGGCGCAAGGAGGTCACGGATGAGATAGTGAAAGAGTTCATG
ACTCCCCGGAAGCTGTCCTTCGACTTTCAGTAG
但是它在gtf文件记录是:
100334493 100376251 transcript
100375511 100376251 exon
100375283 100375350 exon
100361708 100361921 exon
100361708 100361897 CDS
100361895 100361897 start_codon
100360554 100360662 exon
100360554 100360662 CDS
100354447 100354566 exon
100354447 100354566 CDS
100353687 100353869 exon
100353687 100353869 CDS
100346746 100346846 exon
100346746 100346846 CDS
100343275 100343387 exon
100343275 100343387 CDS
100342398 100342571 exon
100342398 100342571 CDS
100337062 100337202 exon
100337062 100337202 CDS
100334493 100335036 exon
100334878 100335036 CDS
100334875 100334877 stop_codon
100375511 100376251 five_prime_utr
100375283 100375350 five_prime_utr
100361898 100361921 five_prime_utr
100334493 100334874 three_prime_utr
第一个外显子100375511 100376251
长度是 741,和第二个短的外显子,都不是CDS序列,所以它们不应该在cDNA序列里面。而且这个转录本是位于负链,所以它的坐标会越来越小。
第3个外显子开始才属于CDS序列,所以它们会被记录在cDNA序列里面,但是呢,我们对 Nucleotide Codes, Amino Acid Codes, and Genetic Codes 都不陌生,其中,真核生物的起始密码子一定是 AUG代表的Met , 位于第3个外显子(也就是第一个CDS序列)的最后一个3联体,就是cDNA序列开头的地方。
密码子参考:https://www.genome.jp/kegg/catalog/codes1.html
这个知识点非常重要,如果有人能绘制一个示意图,可能更方便理解。
外显子坐标如下:
CDS坐标如下:
CDS相比外显子缺失的地方是UTR区域。