友达以上,恋人未满 | 生物信息学分析与生物学问题
写在前面
标题对部分人来说,可能稍有奇怪,不过我发现我似乎却找不到更好的词句来描述这一关系,难道是用暧昧?那似乎也不甚恰当。此处不做纠结。
最近我针对某个生物学问题,大体看了一些文献,多半还是看得细致。早上起来,看着看着,突然闪过了以前的一些思考。记录如下。
组学数据分析可以为生物学问题的探索明确了范围
十年前,我还在实验室设计兼并引物,只为了从杧果中克隆一个体胚发生相关基因的序列时,怎么也不会想到现在只需几百块钱,你可以几乎得到一个物种所有可能的转录本序列。更甚至,不用钱,因为已经有机构做了公益,测序并公布了杧果基因组序列信息。
克隆那条序列,原因其实很简单。那就是主观臆断,说得好听点,那么就是材料创新;说得通俗点,那么就是M2(Me too)实验。我甚至也相信,那会或者更早前,比如拟南芥上发现一个开花相关基因,那么在其他材料上,才会有人去发现其同源基因其作用。这个有意义吗?做来做去,就一个基因;这个又没意义吗?也不是啊,拟南芥开花是拟南芥的事情,但是水稻开花就不一样,那是我们吃饭的事情。再拓展开来,同源基因甚至说同一个基因在两个物种中表现就一定一致吗?很明显,现在有诸多证据已经给了否定答案。
无论如何,这是有意义的工作,但却存在极大的局限性。毕竟:
拟南芥的基因是有限的,但是其他功能是无限的(因为功能是我们人类自己定义的)
一个物种和另一个物种的基因集合本身就存在千差万别,几乎不可能完全重叠
....
于是人们有各种各样的方式去解决这类问题,比如那会做做抑制消减文库或者再高级一点,做基因芯片(那必然至少对华南农大的大多数实验室来说,是新技术)。再到后来,那么就是高通量测序。高通量测序的出现或发展,从某一角度来说,极大扩张了生物信息学数据分析的势力范围,以至于现在几乎每一个课题组,甚至说只要兜里有三五百块钱呢,你就可以对某个样品测序并获得其序列或表达信心。
于是,海量的数据出来了,让我们的极端的时间内,获得一些有趣的基因集合。
比如定位到某个区间,几十个基因;更比如宽泛点的转录组数据分析,挖掘到了数百个差异表达或共表达基因。
好了,那么手拉手,好朋友,有了分析结果,你就去做实验吧。
组学数据分析仅仅为生物学问题的探索明确了范围
做实验?!有趣的事情是,我大体在实验室待了十年,正好前五年接触的都是实验,覆盖了大田;组培;分子;后五年则几乎是搞数据。于是我很清楚,这个时候说去做实验,纯粹是扯淡!按照常见的分子生物学实验室(论文工厂)的工作模式:克隆,亚细胞定位;单杂双杂,互作.... 一套组合拳打下来最快也要个把星期。一般一个人最多一次就搞几个基因。所以,怎么可能?
这样看来,其实组学数据分析确实存在非常大的局限。因为只有极少数情况下,比如一些漂亮的GWAS数据分析能够非常准确的定位到某个基因或其附近;而在大多数情况下,几百个差异表达基因,其实仍然让人无从下手。
于是,那么手拉手,就是好朋友了吗?这个分析结果,做啥实验?
如何解决?
对自己 / 学生足够狠
啊,之前看一款综艺节目《奇葩说》,有一期还是比较搞笑,大体议题是:熬夜能不能促进成功?有一个人说了一句话,在此处可能适用。大体是
问:为什么我一直熬夜做实验,为什么还是发不了paper?
答:因为你没熬够,你要大熬特熬!
这其实确实是一类解决办法,至少存在实验室是这么干的。
做更多的更好的数据分析
生物学问题本身非常复杂。针对一个问题,只用一个维度的数据进行分析,不一定能很好的定位到,比如性状本身是由蛋白折叠变化而产生,你一直分析转录本的表达水平变化,本身就很难得到答案。所以,既然你不想做上述劳力密集型,那还可以走资金密集型。条条大路通罗马,CNS等着你。多少CNS不是两者之一或者两者综合?大佬没几个,没有话语权,就还是多干活多花钱。
不要忘了自己的身份 - 一个生物学家
碰到的人多了,慢慢就会发现,现在做生物学问题的人,有不少已经忘了自己的身份。身在湿实验课题组,做着组学数据分析,却忘了对生物学问题的敏感或者生物学性状的了解是对自身的基本要求 ,甚至不少人调调包,跑跑pipeline,不小心以为自己是搞生信的。其实,真的不是,我也不是,我认识的人,手指头数的过来几个应该是。
做组学数据分析的人员背景比较复杂,可以看到,有的开发算法(你搞不过数学/物理方向的生信),有些写软件(你搞不过软件工程方向的生信),有的开发实验流程的(你还是搞不过化学方向的生信)...
于是做湿实验的,搞生物学性状,做生物学问题的,最大的优势其实或许就是,可能充分理解生物学问题。不会缺少背景知识,因为起码对地里植物如何生长有所了解。你看苹果树不是树,而是苹果树....你也知道光照会让苹果着色更好,其中自然有一些关联。
所以即使,转录组数据分析筛选出来上千的差异表达基因,你会很快,过滤掉一些生长发育相关的基因,快速缩小方位到诸如光信号应答,甚至你知道他就是花青素相关通路的,你甚至会想到,直接做个共表达,尝试尽快确定到相关调控基因。
所以,不要太盲目。多多少少去看一些文献,就会发现,很多时候,缩小范围,还是依赖传统的生物学家的直觉。
只是以前是看到水就往里跳,反正别人跳,我也跳,他们跳泳池,我们跳海....
而现在,看到水先不跳,大体看看是河还是湖,有个深浅预估,然后 再跳,也至于呛水严重...
写在最后
扯来扯去,半个小时就过去了,还是就像表达一个思考或者小结。没有别的咯。与各位,尤其是湿实验室的朋友,共勉吧。