讲堂 | 刘铁岩:科研到底怎么做?什么是高质量研究?

编者按:科研,顾名思义,就是科学研究。小到生活用品,大到宇宙航天,生活中处处不缺由科学研究转化而来的成果。而在科学研究的背后,是一群默默无闻、专心学术的科学家们。从科研小白到科研大佬的科研之旅,这背后的故事,你了解多少?

在 Ada Camp 2021 上,微软亚洲研究院副院长刘铁岩博士,就“科学研究“这个话题结合自身科研之路,以及这一路以来的心得体会,为大家分享了科学研究到底该怎么做、想做好科研到底该具备哪些技能。希望即将走向或者正在进行科研的你,能够从这次讲堂中收获满满,为自己的科研之路增添更多色彩!


微软亚洲研究院副院长刘铁岩

非常荣幸参加“未来由妳 Ada Camp 2021”活动。今天,我想结合一下自己的求学和工作经历,来跟大家分享一下我们应该如何去做科学研究,以及在做科研中可能遇到的问题和疑惑,希望能给大家的科研生活带来一定的帮助和启发。

我本人的学术生涯非常简单,我是一个典型的科研工作者,如果用两个数字来形容的话,就是9和18 —— 9年的清华学习之旅和18年的微软亚洲研究院工作之路。在过去的这27年里,我跟大家一样,也是从一个懵懂的学生开始,之后在学术之路上不断攀登,一步一步取得了很多学术成果,逐渐被国际学术界所认可。


为什么我们要进行科学研究?

其实原因非常简单,我们都知道科学技术是第一生产力,而科学研究则可以推动和改变人类的社会,塑造我们的未来。大家可能都非常熟悉人类社会经历的4次工业革命,从机械化、电气化到现在的信息化、智能化。我们的生产效率得到了极大的提升,生活质量也有了巨大的改善。这4次工业革命的背后,都是科学技术的飞跃性发展,而这些技术的发明都离不开幕后的英雄——默默无闻地从事着科学研究的科学家们。

如果说工业革命塑造了我们的昨天、今天,甚至是明天,那么自然科学的发展则更决定了我们人类长久的未来。《科学(Science)》杂志在其125周年的时候刊发了一期专刊,列举了关乎宇宙奥秘、生命机理以及人类生存和可持续发展的125个最重要的现代科学问题。每一个问题都非常深刻,直击灵魂。比如,宇宙是由什么构成的?意识的生物基础是什么?人类为什么只有那么少量的基因,却有这么丰富的形态和这么高的智能?是否存在着大一统的物理定律等等。

虽然这些问题非常艰深,但是科学家们一直都没有停止探索这些问题的脚步,也不断地通过自己的努力推进着人类认识科学的边界。

这其中很多的女性科学家也为我们人类的发展做出了巨大的贡献。比如,居里夫人、迈特纳、埃利昂等等。当然还有我们中国的屠呦呦,因为发现了青蒿素,挽救了全球特别是发展中国家数百万人的生命。

可能有的同学会说,这些伟大的科学家离我们太伟大、太遥远了,我们实在没有勇气成为他们那样的人。的确,想要在科学领域成为有辉煌成就的科学家不是件容易的事情,不仅需要靠努力,而且还有一些运气的成分。

不过今天我想告诉大家,迈进科学的大门没有那么难,也没有那么遥远。我相信不少同学儿时都有一个成为科学家的梦想。而且我们每个人其实都有成为科学家的潜质,因为我们从孩提时就对周围的一切都充满了好奇心,对现实和虚幻的世界都充满了想象力。而这两点正是从事科学研究最最重要的特质。


当然,科学家还需要更多的素质,比如,观察敏锐,善于从细节中寻找到蛛丝马迹,发现被别人忽略的线索;大胆假说,针对这些发现勇于提出自己的假设,能够依据知识和直觉,指出这些发现背后可能存在的重大规律;小心求证,假说人人都可以提,但是只有被验证了的假说才是科学道理,这也是科学和迷信的分水岭;严谨勤奋,无论是假说还是求证,都要建立在大量的知识积累和严谨的推导之上;精确诚实,科学是没有捷径的,造假、抄袭、敷衍的行为绝对不会造就真正的科学家;最后就是长期坚持,科学之路不会一帆风顺。

我们经常说,如果你做10个研究项目,有9个失败了1个成功,这是正常规律。但是,如果你9个甚至10个都成功,那就说明你选的研究题目太简单。所以我们必须要理解科学研究背后的规律,它不是一蹴而成的,甚至可能需要几十年如一日的坚持,常常会大器晚成。

正是因为前面提到的这些原因,从事科学研究的人构成了一座金字塔。中国拥有博士学位的人数以百万计;在国际顶级会议或者期刊上发表过论文的中国学者可能只有几万名;而国际知名的中国学者则更少,可能也就几千人。从这个意义上讲,“研究”其实是存在着一定“风险系数”的职业。我们需要一步一步攀登高峰,才能够从获得博士学位逐步成长为一位国际知名的科学家。


什么是高质量研究?

为了实现这个目的,我们首先要来看一看什么是好的科学研究,然后再探讨如何能够做出这样的科学研究。

今天很多同学都是来自于计算机或者相关专业的,我们在这个行业里面是非常幸运的。因为计算机科学是发展最快的学科之一,它与国际接轨,影响面广,关注度高,就业前景宽广。

那么好的计算机研究到底是什么样子的?不知道大家有没有听过这样一种对学者层次的生动描述。

所谓一流学者,就是要去引领学术领域发展的,其可贵之处在于能够洞察趋势,提出重要问题。二流学者,虽然没有那么深的洞察力,但是有非常好的功底和知识技能,可以把别人提出的问题解得很好,这对于学术研究也是一个非常重要的推动力。而三流学者,通常是跟随潮流、小步慢跑。虽然他们的工作可能没有那么大的创新性,也没有解决重大的科学问题,但是他们也有很大的价值,因为他们试了很多错,对学术界也做出了一定的贡献。无论是哪种学者,我想大家内心里都希望能够做出高质量的研究。

到底什么是高质量的研究呢?我认为高质量的研究可以有很多种不同的类型,它既可以是提出全新的重要问题,也可以是首次解决一个公认的难题。这里举几个我自己的例子,让大家有个形象的认识。

第一个例子,发生在大约15年前,那个时候搜索引擎刚刚兴起,像 Google、百度这些公司都还是新兴公司。在那个年代,搜索引擎背后的技术其实是比较落后的,很多人都是靠拍脑袋,想出一些经验的、启发式的公式。针对这样的情况,包括我在内的一些学者共同提出了一个科学问题:我们能否用计算机自动学习一个性能优异的排序模型,而不是靠人为用启发式去定义排序公式呢?

这个问题后来就引出了一个新的学术分支,我们称之为 Learning to Rank(排序学习)。简而言之,就是利用机器学习的技术,依据人为标注的正确答案,或者用户在线与搜索引擎交互的点击数据,学到针对特定的查询词,对网页相关性进行排序的一个最优的模型。

在我们的倡导下,很多学者都加入了我们,一起在这些方面做了大量的研究。而所有这些学者的共同努力也成就了今天主流的商业搜索引擎,它们背后的技术几乎无一不是排序学习,而排序学习就是典型的“提出重要问题”的研究。

第二个例子,发生在大概五六年前,那时候人工智能的技术有着突飞猛进的发展,解决了很多实际的问题。不过,那时主流的机器学习技术,需要大量人为标注的样本。以机器翻译为例,通常需要上千万的双语语对来作为训练数据,才能训练出一个性能优良的机器翻译模型。然而,不是所有的人工智能任务都能够获得这样丰富的数据。比如,很多小语种全世界可能会讲这个语言的人都没有几个,更不要说找到人来标注大量的双语数据了。在这个背景下,我们就提出了一个科学问题:是否可以利用机器翻译这类人工智能任务的某种结构特点,在不需要大量标注样本,甚至不需要任何标注样本的前提下,就能够学到有效的人工智能模型?

这个问题的提出并不是天方夜谭。我们注意到,类似机器翻译这样的人工智能任务,其实是一个双向的交互任务,比如中英翻译的反向任务是英中翻译,语音识别的反向任务是语音合成。一旦我们有了双向的交互就可以形成一个闭环的信息流,而这种闭环就可能使得我们不需要任何人为标注,就能获得驱动机器学习模型训练的信号,我们称这个技术范式为对偶学习。我们开发了一系列对偶学习的技术,在机器翻译、图像识别、语音合成等多个领域达到了世界上当时最好的效果,超越了人类专家的水平。

另外,在新冠疫情肆虐全球的时候,我们利用新型的机器学习技术,精确预测了病毒抗原到人类免疫细胞之间的映射关系。基于这个核心技术,我们和合作伙伴一起完成了首个由 FDA 批准的基于人类免疫细胞的早期新冠疾病的检测系统,其安全性、准确性、及时性与常用的核酸检测和抗体检测相比都有明显的优势。

除了前面提到的几种高质量研究以外,如果你通过自己的不懈努力,显著地超越了前人的工作,比如比前人工作的精度更高,比前人工作的速度更快,或者是在某些层面上比前人的工作具有了更深的洞察,那么恭喜你,你的研究也是一份质量非常高的研究。

受时间所限,这里我就举几个速度显著超越前人工作的例子供大家参考。过去这几年里,坊间流传着一种方法论,就是所谓的“大力出奇迹”。也就是使用大量的计算资源去训练一个非常大的模型,用以解决现实中人类可能只需要用非常小的努力就能解决的问题。这种“大力出奇迹”的范式,从某种意义上讲,有它的科学价值。但是它的实用性是值得质疑的,因为我们不可能为了翻译一句话,使用几百美金、几千美金的成本。

心怀对“大力出奇迹”的质疑,我们微软亚洲研究院的研究员们从事了一系列“四两拨千斤”的研究,比如2015年我们的团队发明了 LightLDA,这是当时世界上速度最快、效率最高的主题模型。所谓主题模型,就是从文本数据中自动分析主题的一种算法。我们通过一项新技术把每个文本符号的采样复杂度降到了O(1),也就是和想要学出的主题的数目无关。在 LightLDA 出现之前,全球最大规模的主题模型用了1万个 CPU 核,挖掘出了大约10万个主题。而我们的 LightLDA 只需要300多个 CPU 核就可以挖掘出一百万个主题,并且可以处理的文本数据的大小也比前人的大一个数量级。之后,我们还陆续提出了 LightGBM,比之前最快的梯度提升决策树的算法快了将近10倍,FastSpeech 比之前最快的神经语音合成模型快了300倍,以及 FastBERT 比知名的预训练语言模型 BERT 快了大概10倍,而且所有这些模型的精度都几乎没有损失。

通过这些研究,我们把之前最好的算法的速度提高了一个到几个数量级,帮助人们节省了大量的计算成本,从而大大提升了这些技术的实用价值。从这个意义上讲,它们也是高质量的研究。


如何能够勇攀科研高峰?

刚刚我用了一些典型的例子给大家展示了什么是高质量的研究,那么如何才能做出这样的研究呢?今天我想跟大家分享一些科学研究的原则和思想。我觉得这些可能对于引导大家走上科研道路,真正有勇气去攀登学术高峰,会很有帮助。

在去年诺贝尔奖官方平台发布的一个视频*中,几位诺贝尔奖获得者与年轻学者分享了几个重要的做研究的原则,包括:Work Hard(努力),Learning by doing(边做边学),以及 do something you love(做你喜欢的事情)。(*感兴趣的读者,可点击链接观看:
https://www.youtube.com/watch?v=9GIsSn_LUh0)除了这些以外,我还为大家总结了以下几点。

第一、终身学习,是学者的宿命。回顾我自己20多年的研究历程,从最初的信号处理、视频内容分析、网络搜索、机器学习、算法博弈论、深度学习、强化学习、金融、物流、生物、制药、智能科学,一路走来没有停止过学习。在这个过程中,自己变得越来越博学、越来越丰富,对世界的影响也越来越大。所以我建议所有的同学们多学习、多了解,不要放弃学习的脚步。

第二、研究很苦,有很多的困难,具有好奇心、热情甚至信仰,才是驱动我们、支撑我们在研究道路上不断前行的动力。我给大家举一个例子,我们研究组在过去的两三年时间里,逐渐对计算生物学有了浓厚的兴趣,并且投入了很多的精力和资源。在这些方面的探索与我们的好奇心密切相关,因为我们发现生物领域有趣且深奥。比如微生物菌群,大家可能想象不到,你体内的微生物比你自己的细胞还多,我们从某种意义上讲是被这些微生物控制的,我们爱吃什么、我们的生活习惯、我们的健康状况,都与这些微生物息息相关。所以我们想要做到真正的精准医疗,必须对这些微生物有深入的了解。另一个例子是表观遗传,我们每个细胞里的基因都是相同的,可是有些细胞最终发展成了我们的皮肤,有些发展成了我们的大脑,有些变成了内脏。是谁对基因表达进行了如此神奇的调控呢?正是基于对这些问题的好奇心,我们在三年前成立了计算生物学组,并且在这些方向上取得了非常令人鼓舞的成果。

第三、研究对创新有着非常高的要求,这件事情说起来容易,做起来却很难。我发现很多同学特别愿意在自己的“小盒子”里面,如果你想要跳出这个小盒子,那么就必须要知道外面的世界是什么样子的,这与我们前面提到的终身学习密切相关。当你有了深入的研究,同时有了宽阔的视野时,你通常会做出可以让别人非常惊讶的研究成果。

第四、质重于量,精益求精。因为我们每个人的时间和精力是非常有限的,要学会合理分配。我们可以用同样的时间做100项不同的研究,每一项都浅尝辄止;也可以集中尽力做一件事,非常深入,取得世界瞩目的成绩。

最后,我想要鼓励大家不怕失败。人不可能不犯错,不可能没有失败,只要我们能够从失败中学习,其实失败会给你提供更多的经验,让你能够把事情做得更好。

科学研究是很神圣的,但是科学研究的道路并不是高不可攀的。我们只要有正确的动机,有效的方法论,完全可以在科研道路上不断地创造成功,不断做出自己的贡献。


(0)

相关推荐

  • 学术不端,原因何在?

    1998年5月4日,国家为了实现现代化,决定建设世界先进一流的大学(985工程).自那时起,中国的科学论文产量迅速增加.根据美国国家科学基金会(National Science Foundation, ...

  • 科学会议——城市“一本万利”的长线投资

    科学会议——城市“一本万利”的长线投资

  • 怎样释放科研人员的创新动力

    蒋高明 本文同时被中国科学院网"新闻.专家视点"引用 http://www.cas.cn/xw/zjsd/201307/t20130723_3903817.shtml 目前,中国科 ...

  • 给基础科研一个安静的治学环境

    李锋亮 最近,北京大学青年教师韦东奕的视频和相关事迹在网络上走红,很多网民表达了对韦东奕的喜爱.作为一颗国际数学领域耀眼的新星,韦东奕选择留在国内读博并且任教,一方面说明经过几十年艰苦卓越的发展,我国 ...

  • UC头条:消化科主任告诉你: 怎样才能做一次高质量的肠镜?

    肠镜检查室检查肠道疾病,发现大肠早癌的金标准.很多人下了好大的决心,终于去做一次肠镜. 但是,你知道吗?肠道准备的好坏,直接影响到检查的质量.准备不佳的肠道,可能会漏诊,还会增加检查的难度和风险. 所 ...

  • 如何做一场高质量的分享

    而现实情况呢? 二  什么是好的内容 好,相信看到此处的同学都是愿意利他的同学了.那新的问题又来了,我需要分享什么呢?什么样的内容才能支撑所谓的高质量分享,我理解是如下三种. 1  高度总结的知识 有 ...

  • 老杜告诉你:怎样才能做一次高质量的肠镜?

    肠镜检查室检查肠道疾病,发现大肠早癌的金标准.很多人下了好大的决心,终于去做一次肠镜. 但是,你知道吗?肠道准备的好坏,直接影响到检查的质量.准备不佳的肠道,可能会漏诊,还会增加检查的难度和风险. 所 ...

  • 如何做一份高质量的投标文件

    如何做一份高质量的投标文件

  • 消化科主任告诉你:怎样才能做一次高质量的肠镜?

    肠镜检查室检查肠道疾病,发现大肠早癌的金标准.很多人下了好大的决心,终于去做一次肠镜. 但是,你知道吗?肠道准备的好坏,直接影响到检查的质量.准备不佳的肠道,可能会漏诊,还会增加检查的难度和风险. 所 ...

  • 到了40岁,肠镜不做不行,质量不高=白做!怎样才能做一次高质量的呢?

    肠镜检查室检查肠道疾病,发现大肠早癌的金标准. 8月15日,国内著名内镜专业号<一泓小树林>,发表了一篇推文:14人体检,14个肠息肉,一个直肠癌. 我们总说,做一次肠镜检查,就能铲除这些 ...

  • 如何做一份高质量的竞品分析?掌握这几个核心要素!

    竞品分析是每个产品人都会面临的一项任务,也是大家必须掌握的一项基本技能.那么如何做一份高质量的竞品分析呢?主要包含以下几点,一起来看看吧! 1.行业分析或市场现状 分析内容:从行业全局分析,包括市场容 ...

  • 做一名高质量的财务经理

    对财务经理的定位,不同行业都不太一样.比如制造业,财务经理一般是财务负责人的角色,甚至总部CFO都只是财务总监.在软件.地产行业,财务经理可能只是制造业的会计角色.当然,还要看平台的架构设置,比如说有 ...

  • 如何做一场高质量的战略解码

    首先战略是什么?要明白,通俗地说战略是企业组织内部管理者和员工围绕企业愿景使命价值观努力前行的方向目标,是企业组织打硬仗打胜仗的谋略.策略和行动纲领. 不同成长期不同行业不同区域企业的战略自然不同.不 ...