对从事科学研究而言,统计学是一门特别重要的技能
2016年6月5日/生物谷BIOON/--当我16岁时,我在我的预修统计学(AP Statistics)课程中首次接触到统计学;我特别记得有一节课让我们学习区分带参数的t检验(t-test)和不带参数的曼惠特尼U检验(Mann-Whitney U test)的重要性。作为一名化学本科生,我继续使用相同的基础统计学原则分析某些分子是否能够作为癌症的潜在生物标志物,或者为何患有喂食障碍(feeding disorder)的儿童要比没有这种障碍的儿童给家庭带来更大的压力。
不幸的是,不是每个人在早年都有机会学习统计学,而且根据我的经历,很少有职业生涯早期的研究人员(early career researchers, ECRs)抽出时间独自地学习它,这样他们就能够在他们的研究中使用它。经常发现ECRs并不确定他们为何应当选择一种统计学检验方法而不是另一种,或者只是肤浅地理解统计学是什么和它如何能够最佳地有益于他们的科学研究。
统计学的本质
简而言之,统计学就是数学的一个分支,涵盖一系列用于采集、组织、分析和呈现定量数据的方法。它有两个主要的分支:描述统计学和推论统计学。描述统计学主要涉及描述定量数据。推论统计学被用来通过分析从单个样本收集的数据来对总体作出推论。由于随机性和不确定性,对单个样本的数据分析是通过对数据进行建模来进行的。
统计学的流行性和重要性
统计学用于大多数科学领域。比如,在近期的一篇发表在PLoS ONE期刊上的论文[1]中,Otero-Losada等采用生物统计学证实适度的跑步对喝可乐的大鼠的胰腺形态是有益的。在本月发表在PLoS ONE期刊上的另一篇论文[2]中,Young和Gobler进行单因素方差分析(One-way ANOVA test),发现在富营养化的河口,酸化能够促进大型藻类(macroalgae)过度生长。这几篇论文表明从哺乳动物到细菌,统计学是让结果变得有意义所必需的。
鉴于统计学能够应用于众多科学学科,它已演化出不同的分支。比如,天文统计学利用统计学原则理解天文数据,而计量经济学利用统计学方法对经济理论和经济关系进行实证研究。生物统计学利用统计学原则理解生物现象,而环境统计学利用统计学方法理解和评估我们周围的环境情况。这些只是统计学不同分支的一些例子。
考虑到若没有一种允许每个人对数据进行总结的标准化系统,社会不能够高效地运转,因此对每个研究员而言,将统计学原则放在他们的工具箱中是很重要的。研究人员将不仅需要统计学更高有效率地呈现和传达他们的发现,而且他们也将需要统计学来能够理解和评价他们领域中其他学术论文的可信性。统计学也有助研究人员控制变异来源、检测异常值、可视化观察他们的数据和设计有效的实验来协助解答他们的研究问题。
统计学分析中的常见问题
尽管统计学在科学研究中具有明确的价值,但是也经常发现统计学在研究中未正确地使用。研究人员可能无心地改变他们的数值范围从而改变他们的数据分布,或者忽略掉异常值以便更加一致性地呈现他们的数据。统计学分析中其他常见问题包括将关联作为因果关系,错误地报道数据中的估计误差,以及对结果进行太笼统地概括。
此外,为了促进科学发展而面临的发表压力能够导致研究人员收集或选择更多的数据样本直到非显著性结果变成显著性的。这种现象,也被称作“P值黑客(P-hacking)”,给发表显著性数据(即产生p值小于0.05的数据)的传统科学模式带来挑战。根据2012年发表在Psychological Science期刊上的一篇论文[3],在接受调查的2000名心理学家中,有一半以上的人承认“没有报道一项研究中的所有因变量测量值(dependent measures)”,以及“在观察研究结果是否存在显著性之后,决定是否收集更多的数据。”
另一个常见的由研究人员想要获得职业晋升所引发的科学问题是结果的不可复制性。根据2015年发表在Science期刊上的一篇论文[4],在对发表在三种心理学期刊上的100项实验性的相关性研究进行复制时,原始研究中的97%已报道统计学上显著性的结果,但是对它们进行复制时只有36%具有统计学上显著性的结果。
能够做什么?
迄今为止,研究人员还未确定如何能够改善针对基础科学研究人员和转化研究人员的统计学培训。一篇于2016年4月发表在发PLoS Biology期刊上的论文[5]概括了改善统计学教育的方法,包括鼓励院系开展统计学培训,根据学生的研究领域对课程进行修改,开发工具和策略促进统计学知识教育和传播。
再者,在一篇获得大量引用的发表在PLoS Biology期刊上的论文[6]中,Megan Head和同事们发现P值黑客,尽管在进化生物学上很猖獗,但是似乎并不影响最终的结果。Head等建议研究人员应当明确地遵守共同的分析标准,使用充足的样本大小,只要有可能就开展双盲数据分析,根据结果单独地对研究方法的质量进行评估。这些建议应当有助解决P值黑客的问题和让现代科学苦恼的不可复制性。
除了这些建议之外,我认为期刊还应当做三件事情来阻止P值黑客:(1)为完整地报道数据分析和结果提供明确的和详细的指导方针;(2)鼓励对方法进行说明;(3)促进开放获取原始数据。
尽管统计学教育可能并不是对所有科学家都是有用的,但是我们鼓励研究人员在职业生涯早期根据他们自己的研究领域考虑上一门统计学课程,或者当开展研究时咨询一名网上统计学指导者/统计员。对基础统计学原则进行更加深入地理解将不仅提高产生强有力的科学发现从而能够改善我们对世界的理解的科学使命感,而且也会鼓舞研究人员从事于有伦理道德的科学行为。(生物谷 Bioon.com)