我的生信故事
Jimmy
一路走来,生信技能树帮助了很多人,今天一起来听听这位朋友的生信故事。
我一直在做基础生物医学研究工作,几个月前因为答辩评委的这一句话,一头扎进了生物信息学的浩瀚海洋,开始了自学之路。
回想起来,人生中其实有无数次与生信有过擦肩而过,却并没有正式踏入其中,系统地去学习,每一次都有各自的原因。
一
这次,非常幸运的让我认识了生信菜鸟团。这是生信自学者的乐园,上面有成百上千篇笔记和教程,结合B站的教学视频,认真跟着学的话,很容易上手。
在逛论坛的时候,发现很多在读的小朋友对自己在读的生物专业充满的质疑,对未来的考研和工作选择充满了迷茫,同时又有一个普遍的认识是:
生物行业做实验苦逼,没有前景;
生信行业前景好,容易找工作,工资高;
要是转IT行业,就更加牛气轰炸天。
真的是这样的吗?我带着这样的疑惑,给Jimmy发了邮件,询问他的看法以及目前生信就业的情况。
(向上滑动启阅)
jimmy关于生信就业的回复
生信就业的话,现在主要是有三块领域。
第一块领域是在各种各样的科研服务或健康服务的公司做售前、售后咨询。售前主要是进行科普宣传:为什么要做基因检测,科研项目里面为什么要做转录组、外显子这样的测序来辅助挖掘生物学问题。售后,就是指工程师分析好数据后,分析结果该如何传达给客户,包括科研院所的老师或者是一些普通消费者。
另外一块重要的就业方式就是数据分析人员。这里的数据分析很大程度上指的是研发相关的,因为目前大部分的常规分析都已经平台化了。只要是稍微大一点,有资金力量的公司,都是使用云平台进行流程化的数据分析。因此,这就对工程师提出了更高的要求,必须要会编程,学习新的流程,开发新的东西。这就是研发工程师。不管是在科研服务,还是健康相关领域,都称为研发工程师。
最后一块领域的需求不那么大,但要求非常高,那就是高精尖的生信工程师。他们涉足的是最前沿的领域,如三维基因组,单细胞基因组等领域。他们就像是在拓荒一般,非常具有创新性,充满挑战和机遇。一般会和软件开发者联合共同完成。而这里的软件开发者既可以算IT,也可以算生物信息学从业者,必须要具备生物学背景,开发出的软件才足够好用。
二
大概是看出了我的迷茫不局限在就业的选择上,Jimmy还给我分享了他自己的人生故事,也是上一个提问的人整理出的文字版,曾经发在了生信技能树的公众号上。有时候,在自己人生路口不知该往哪儿走的时候,看看别人的人生故事,也能有所启发。阅读请见《师兄和他的生信故事》。
Jimmy故事的开端非常具有代表性,从对传统生物学研究“提不起兴趣”,转而投入了生信分析的行业。因此在公众号和论坛上都获得了非常强烈的回应。
而我相信,肯定也会有一部分人,可能属于小众还爱潜水的一群人,和我一样,并不是在学生阶段开始涉足生信领域的,属于工作之后半路出家。而且和我一样并没有对传统生物学领域丧失兴趣,手头或许还有正在进行的课题。
那么生信于我们而言,在最开始的时候更像是一门需要掌握的工具。那么迷茫的地方可能就不是行业选择的问题,而是学习程度的问题 当然,如果你够强,够有兴趣,也可以考虑转行)。先学什么,后学什么。想要达到某个目的,需要学习什么?
学习投入的时间和精力与产出的效益总是要平衡的。学习生信到什么程度算是够用,可能还是需要根据实际情况来决定。
-是在没经费没课题的时候能够利用已有的数据库资源发发文章?
-还是能够个性化分析从公司拿回来的测序结果?
-抑或是为了做cohort研究时能更好的跟生信人员进行交流和沟通?
-甚至是在前沿基础学科研究中暂时还没有现成的生信人员能提供帮助,必须要自己掌编写程序来完成手头的课题?
这个只能根据自己的状况提出问题,然后自己解答。毕竟自己的路,还是要自己走。
只想总结自己的经历,强调一点:
请直面计算机编程语言的学习!
这一个坎可能是做惯了传统实验的人最难迈过的,我也曾无数次想绕开,因为它又难又花时间。但在看完Jimmy的GEO数据挖掘教学视频以后,发现这是绕不开的,它是基础。
三
秉承着Jimmy的分享精神,我也来贡献我的故事,希望也能给大家抉择自己人生路的时候提供一些思路。
我本科是生命科学专业出身,当时社会上大肆宣传的就是二十一世纪是生命科学和信息科学的时代。因此我们学校就特设了两个试验班,一个就是生命科学专业,另一个就是信息科学专业。而这两个特色班的其中一个特色就是他们要和我们一起修读分子生物学课程,而我们也要和他们一起修读计算机和C++语言课程。冥冥之中学了一些计算机编程的东西,还能想起来当时期末考试居然是在试卷上用笔写代码答题,这经历放到现在应该会觉得很奇特了吧。幸亏有这段经历,虽然C++已经被我忘光了,但是掌握了编程的基本思路,让我可以一上来就通过读和改别人的代码迅速上手。
后来研究生去了一家医院的研究所,做肿瘤方向的研究。实验室当时拥有全套Agilent芯片检测平台,属于非常有钱的那种,记得师姐经常说她一晚上又烧了几十万经费云云。学生分两拨,一波天天提RNA、杂芯片、分析数据,另一拨则在下游做筛选出来的基因的功能研究。我更喜欢做实验,于是就属于后面那一拨。当然这只是原因之一。
想当年芯片技术还是如日中天的时代,生物信息学算是比较新的学科,学校的课程就很少,更不像现在这样铺天盖地的学习资料、博客、培训班、公众号。
举个例子,当年的生物信息学教材里,2/3的内容是告诉你核酸是什么,蛋白质有几级结构的,1/3的内容是教你怎么浏览NCBI网站的,根本不沾边。学校里课程主要是教大家如何下载FASTA格式的DNA序列,用软件设计引物,构建载体。
师兄师姐们自己就是自学成才的,师弟师妹们除了自学,也不能从师兄师姐那里得到太多的辅导。即使是做芯片的那部分师兄师姐,也能够用公司做好的界面化软件进行一些数据分析,然后得到结果凑合毕业。因此,大家也没有那么大的热情去学习生物信息学,只要合作的人能做就好了。所以,既然一开始就分工好了,我自然也就专心做我的实验,养我的细胞。
等到我毕业那个时候,时代变了,测序的成本大大降低,二代测序挤掉基因芯片成了主流。生信公司遍地开花,如雨后春笋。整个生物医学行业对生信人才的需求呈现井喷的状态。但是由于生信入门较难,这个学科背景的人才却非常稀缺。很明显地,只要在简历里写自己会生信,工作就很好找,工资也很高。
大家都能体会,做实验的周期很长,并且充满了不确定的因素。有可能实验就是做不出来,有可能就是买不到好用的抗体,最可气的是养了一年的老鼠因为停电都死光了,拿不到数据,毕不了业。这时候实验室学生信的那一拨同学就显示出了他们的优势。在我们眼中,他们只需要每天下载数据、敲敲代码、跑跑程序就可以很好的发文章。文章不需要提出假设,大多是描述性研究。有一个师弟据说毕业时一口气发了5篇文章,找了个非常好的工作,让大家羡慕嫉妒恨。于是后面的学生开始一边倒的开始学习生信。
大家这么功利心的去蹭热点是可以理解的,但热度降下来之后呢?据我所知套路化的生信分析越来越难发高分文章了,这种只是整合别人的数据进行描述分析的文章分值也越来越低了。科学研究还是要回归到创新和假设的。所以学习生信会向两极分化,就像当年的统计学。简单的生信分析(像GEO数据挖掘、TCGA数据挖掘等)会演变成工具性的知识,在大多研究者中普及(你看现在哪个做研究的不需要学统计?)。而专职的生信分析人员,也就是上面Jimmy说的数据分析人员,则需要做出平台做不出的分析,要求更高。
Jimmy所说的生信就业第三块领域的情景,我其实遇到过了。那是我工作的时候,去的实验室自己有一套完整的生物芯片的平台,从制片到检测。芯片的载体不是核酸,也不是蛋白,而是多肽peptide,在基因芯片的光辉下显得比较冷门。所以它的检测和分析环节还比较空白。在低通量的情况下,一般是参照Western blot的方法进行检测和分析的。如果想做成高通量的检测技术,就必须借鉴和学习基因芯片的技术方法。我开始自学R语言和芯片分析。有C++的学习经历,R语言入门的比较快。多肽芯片的分析没有现成的R包,以我的水平连看明白基因芯片分析的过程就困难,更别提自己去编程分析多肽芯片数据,这需要的不仅仅是计算机的能力,还有数学的功底。这种事还是交给大神来做吧。于是我举白旗投降。顶多在提取芯片灰度值之后,套用网上的代码做了张热图,让老板高兴高兴。
再后来,这个项目跟着老板一起去了别的地方。我变成了三无科研人员,没课题,没经费,没文章,一切从零开始。翻了翻家底,写了个基金的申请书,想向基金委讨点钱做研究,在一次标书辅导会上,听到了答辩评委对我说的话,也是文章开头的那句。于是我决定开始学习生信分析。
这次是打算正式的开始学习了!
所以要对曾经无数次擦肩而过的生信说:
初次见面,请多关照!
以上都是我个人的经历和看法。如果雷同,欢迎过来一起聊聊。
福利时间:
如果需要组装自己的服务器;代办生物信息学服务器
如果需要帮忙下载海外数据(GEO/TCGA/GTEx等等),点我?
如果需要线下辅导及培训,看招学徒
如果需要个人电脑:个人计算机推荐
如果需要置办生物信息学书籍,看:生信人必备书单
如果需要实习岗位:实习职位发布