从一个被更新后的GTF文件得到geneID和gene类型的对应关系

(本文作者:drjimmiewen )

上个月听了jimmy老师的巡讲后,开始学习GEO数据挖掘,看了相关视频后,想实战一把,于是看了jimmy老师去年开始分享的GEO数据挖掘帖子,没想到第一期就碰到个钉子,还好自己解决了,以下是分享。

原帖在GEO数据挖掘-第一期-胶质母细胞瘤(GBM)

前面都一帆风顺,但是到第二步 得到geneID和gene类型的对应关系时,遇到了钉子

进入帖子说的网站,发现是这样的

于是根据自己的理解,点进去人类的GTF下载界面,发现是这样的

下载了Homo_sapiens.GRCh38.96.gtf.gz这个文件到shell然后解压,如图

好像跟老师原帖里的gtf不太一样,但我的感觉是,既然是这个网站,又是唯一的人类GTF文件,应该没错,于是按原帖的方式转化成了gene2type 格式,读入R,发现不对,于是开始请教jimmy老师,结果。。。

真是个善于诱导(甩锅)学生的好老师。。。

然后,我就开始研究老师原帖给的转化gene2type格式的代码

awk '{if(!NF || /^#/){next}}1'
/public/reference/gtf/gencode/gencode.v25lift37.annotation.gtf | cut -f9 | sed 's/\"//g'| sed 's/;//g' | awk '{ print $4"\t"$8 }' |awk '{if(/^E/){next}}1'|  awk '{ print $2"\t"$1 }' | sort -k 1 | uniq > gencode.v25lift37.annotation.gtf.gene2type

有所发现,需要的gtf其实就是gencode.v25lift37.annotation.gtf 这个文件,于是google了一哈,发现应该是在genecode 这个网站

于是点了右侧的GTF 按钮下载,然后按照源代码,修改转化文件的参数,转化为gene2type

这还没结束,导入R,发现有点不对劲

可以看到数目偏少(只有7641个),且gene和type出现了很多奇怪的内容,感觉肯定是转化的时候出问题了

然后又仔细研究了一下下载的网站,发现可以找到老师原帖的历史版本gtf文件

于是下载下来,跟新版的gtf文件对比,cat一下

发现,上面的是最新版的gtf,下面是老师写教程用的gtf,两者对比一下之后发现,只是最新版的gtf没有gene_status这一个项目,其他都一样,于是就简单了,修改下代码取得相应列数,提取gene_type和gene_name 就ok咯

awk '{if(!NF || /^#/){next}}1' gencode.v30lift37.annotation.gtf | cut -f9 | sed 's/\"//g'| sed 's/;//g' | awk '{ print $4"\t"$6 }'|awk '{if(/^E/){next}}1'|  awk '{ print $2"\t"$1 }' |sort -k 1 | uniq > gencode.v30new.annotation.gtf.gene2type

再导入R,一看,大功告成!

真是万事开头难,然后,残忍的jimmy老师竟然要我把这段探索经历 投稿给他做教程,我晕,还得自学下markdown ,我这么小的事,发出来肯定没人看啊,但是,看了下原帖的留言,我改变了看法

问这个开头第一步的同学还不只我一个。。。看来我这个探索经历还是挺有意义的哈哈

心得

最后是自己的一点体会吧,完事开头难,学生信需要智慧,更需要毅力和不断地探索,一个小的不能再小的问题也值得自己好好琢磨,你看看我,被jimmy老师一逼,起码,一,搞懂了两个网站以及GTF数据的下载和内容概要读取;二,转化文件的时候重温了下shell语言;最后,竟然还顺便学会了用markdown 交作业!!哈哈哈

(0)

相关推荐

  • GFF和GTF的异同及相互转换

    GFF(gff)全称为:general feature format GTF(gtf)全称为:gene transfer format 前者用来注释基因组,后者用来注释基因. 异同点: GTF文件和G ...

  • 转录组学习四(参考基因组及gtf注释探究)

    转录组学习一(软件安装)转录组学习二(数据下载)转录组学习三(数据质控)转录组学习四(参考基因组及gtf注释探究)转录组学习五(reads的比对与samtools排序)转录组学习六(reads计数与标 ...

  • 王者荣耀更新后黄忠霸气回归,前期爆炸节奏一炮一个脆皮不是梦

    我想大家都知道前段时间关于黄忠这名射手的修改,重做般的将大招削弱让很多黄忠玩家很不满意,而这次天美似乎并不在乎玩家的感觉,也就是说以后黄忠的大招技能时间肯定有变化,至于最终上线正式服的情况我们只能先从 ...

  • 微信新版本更新后,1GB大文件不限发送,还有3个功能期待已久

    微信最近更新频繁,加入了不少新功能,其中有几项非常实用. 这里要分享的几个是用户期待已久的,一定有你喜欢的那个,一起来看看吧. 1.1GB以内文件任意发送 微信大文件发送一直是用户关心的话题. 从最开 ...

  • mac电脑更新后,如何解决mac在文件夹中无权限新建文件?

    在使用mac时经常会遇到无权限导致创建文件.文件夹失败.尤其是在系统更新升级后,出现情况的机率更大,那我们该怎么解决呢? 快捷修改 我们可以通过右键 -> 显示简介 -> 共享与权限来查看 ...

  • 是bug吗?为什么更新后的小鲁班,一个技能可以触发2次吸血

     文/静海君 在之前的更新中,有这么一条消息,这条消息说修复了一个关于鲁班七号的bug. 这个消息的具体内容是:修复了鲁班二技能无法触发法术吸血的问题(我真的很好奇,这种bug是谁发现的). 今天有个 ...

  • 天使下凡飞升1V9 云顶热更新后T1阵容

    导语 哈喽,大家好,我是小马!近日云顶更新了热补丁,铁男妖姬等英雄相继削弱.今天小马给大家带来一套无敌天使阵容,只要成型就把鸡装进口袋!一起来看看吧! 云顶5月6日热更新(削弱为主) 羁绊 · [征服 ...

  • 更新后的微信不好用?简单一招教你用回旧版本

    首先是视频动态功能,这是一个类似于抖音短视频的功能,用户可以拍摄一个短视频展示在自己的个人主页上,你的朋友点开你的主页就能看到你的短视频. 但是如果你没有发布视频动态,你的个人主页就会如下图这样显示, ...

  • 纪念一个不再更新的指数

    纪念一个不再更新的指数港股那点事 2017-06-10✦ 一.明天就是A股股灾2周年.花开花落,月圆月缺,天下之事从来分和无常,盛衰不定.2015年6月12日,A股指数触摸5178点高点后,开始了持续 ...

  • 【同病不同命】一个因癌症留下终身遗憾,一个在癌后迎来圆满人生…

    什么是[英雄日记]?每一个不屈的生命,都是英雄.记录100个与重大疾病抗争的真实故事,本文是第029个. "那病是睡着的魔鬼,大声叫醒,它就暴跳如雷."这是著名作家毕淑敏在小说&l ...

  • 一个九零后操作系统从业者的思考

    格致论道讲坛 今天 以下文章来源于远川科技评论 ,作者芒果果粒橙 远川科技评论 饭统戴老板小伙伴们的科技后花园,用投资视角,扒巨头秘史,没有客气,只有硬核! 一个科技媒体的命运,既看自我的奋斗,也看历 ...