同样的基因在不同数据库记录的位置信息差距好离谱

之前使用过 TxDb.Hsapiens.UCSC.hg38.knownGene 包来获取基因的坐标及长度,代码如下:

library(TxDb.Hsapiens.UCSC.hg38.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg38.knownGene
genes_txdb=genes(txdb)
tmp=as.data.frame(genes_txdb)

从来没有想过,这个包居然有可能是错误的,我在找寻外显子序列最长的基因的时候发现了下面这些基因诡异的都很长,而且长度还很相似。

gene_id length
102724594 589655
7307 589655
875 582547
1409 513284
102724652 513026
102723553 284605

NCBI记录

首先我去NCBI搜索了7307 这个基因:https://www.ncbi.nlm.nih.gov/gene/7307

发现其GRCh38.p12 (GCF_000001405.38) 21 NC_000021.9 (43092956..43108291, complement)是这样的记录,意味着,其就15kb的长度,不可能其外显子序列高达589kb,所以中间肯定有什么误会。

我继续查看坐标记录是:chr21从6484623到43107578

然后我继续查看另外一个基因,https://www.ncbi.nlm.nih.gov/gene/102724594 在NCBI记录是21号染色体的NC_000021.9 (6484623..6499969, complement) 也不可能是589kb,在TxDb.Hsapiens.UCSC.hg38.knownGene包里面也被记录错了。

GENCODE记录

https://www.gencodegenes.org/ 算是人类研究比较权威的了,下载最新版gtf文件,搜索

wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_29/gencode.v29.annotation.gtf.gz

发现其坐标与NCBI记录相差不多啦。

U2AF1L5    protein_coding  ENSG00000275895 chr21   6484623 6499261

U2AF1    protein_coding  ENSG00000160201 chr21   43092956    43107587

为什么bioconductor包错了呢?

现在两个源都反对bioconductor的 TxDb.Hsapiens.UCSC.hg38.knownGene 包,所以它大概率应该是错了,可是为什么它错了呢?

好纠结啊,有心的朋友继续探索下吧

跟10万人一起学生信

1.3个学生的linux视频学习笔记

2.生信人应该这样学R语言系列视频学习心得笔记分享

3.一万人陪你学习GEO数据库挖掘知识(公益视频听课笔4.记分享)

5.公共数据库挖掘视频学习心得体会

6.生信小技巧系列第一季完结版视频教程学习笔记分享

7.人类全外显子测序数据分析视频教程学习笔记

8.B站的11套生物信息学公益视频配套讲义,练习题及思维导图第一弹

9.转录组测序数据分析公益视频学习笔记分享

(0)

相关推荐