开放科学对心理学理论发展的意义
可重复是检验研究可靠性的标准。2011年,达瑞·贝姆(Daryl Bem)关于“预知未来”的研究和德里克·斯塔佩尔(Diederik Stapel)的数据造假事件,引发了学界对于可重复性问题的反思。为应对可重复性危机,减少这种危机持续下去的可能性,学界发起了开放科学(open science)的革命。这场注定困难而又漫长的革命,打破了心理学研究人员开展科研工作的惯性思维和固有习惯。预注册(preregistration)可以防止研究者为达到统计学上0.05的显著标准而无所不用其极地分析数据,也迫使其在做实验之前把思路捋清楚;分享数据(data sharing)和分享代码(codes sharing)使整个科研过程变得更加透明和公开,能够防止故意篡改数据现象的出现,使研究者不得不更用心地整理数据和代码……毫无疑问,这些措施有助于提高心理学研究结果的可重复性,并使研究人员更加规范自己的科研行为。
心理科学的进步在于理论的发展
康明斯(Cummins)指出,在物理学中,科学发展的标杆就是定律、规律的发现,比如牛顿三大定律等。这些定律就是自然运作的模型本身,既是“是什么”,也是“为什么”。但心理学与物理学不同,心理学家的任务就是和人类的大脑“玩游戏”。在心理学中,我们发现的定律并不是“为什么”,它们不是解释、理论或模型本身,而是我们需要解释的二级对象。我们需要解释的一级对象是人类的各种功能,如感知觉、情绪、记忆和决策等。因此,心理学科学发展的标杆是对人类功能的解释,而做法是解析在人类功能下发现的规律和心理效应。
以学习与记忆研究中的测试效应为例。测试效应是指学习过一份材料后,将测试(testing)当作一种练习比单纯重复学习(restudying)的记忆效果会更好。这就是我们发现的一个规律,但发现测试效应并不直接等同于心理学的进步,因为效应的发现并不能使我们更好地理解任何一种人类所具有的功能。在这里,测试效应是二级解释对象,记忆是一级解释对象,而根据测试效应发展出来的记忆理论或者记忆模型,才是心理学发展进步中的一小步。
心理学研究不能只停留在对于现象、效应的发现,也不能把对规律的阐述当作一场胜利。心理学的目标不是发现或描述规律,而是解释规律反映的认知功能。这个解释规律的理论对于整个效应的发生必须有机制上的解释,而且最好是可以用数学体现的,能够数学化抽象的心理机制,量化模型表现,让人们能够客观准确地知道它到底是否能解释数据,以及预测的误差是多少。比如,情景提取模型(retrieved context model)对于测试效应的解释就是,尽管“学习—测试”和“学习—重复学习”两种操作都能使记忆变得更强,但前者过程中引发的情景变化比后者更大,有更多样化的情景信息被加工进记忆中,从而提供了更多提取记忆的途径。在未来的测试中,两种情景均能激活测试过的记忆;但如果是重复学习的话,则只有一种情景能激活记忆。异曲同工地,支架编码模型(scaffolded encoding model)认为,由于学习—测试下有更大的情景变化,记忆痕迹不仅变得更强(表征学习内容的重复),还能复制一份支架编码进入记忆中(表征学习内容在测试情景中重复),导致有两份更完整的记忆痕迹。于是,在下一次测试时,学习—测试的记忆痕迹比学习—重复学习的记忆痕迹有更多的途径被激活和提取,导致了测试效应的产生。这两个模型都对测试效应的产生有机制上的解释,都能在计算机上通过代码实现,而不是通过单纯地重复规律来解释效应:“测试效应发生的原因是学习—测试下的记忆表现比学习—重复学习更好”,也不是无法通过计算机语言客观审视的口头理论。
如此一来,我们不难得知,心理科学的进步在于理论的发展。那么,为了探讨开放科学革命对于心理学进步的意义,我们可以针对可重复性和预注册——开放科学所重视的标准和所提倡的政策,来讨论它们各自的完成是否等同于更完善理论的达成,从而推动心理学进步。
可重复数据不能直接用来解释规律
在“理论—一级解释对象(人类功能)—二级解释对象(规律)”这个框架下,可重复性能确保我们需要解释的二级对象是稳定出现的。从这一点上讲,它是有意义的。只有二级对象是稳定的,我们才不会把巧合当作测试理论和模型的效标。这就类似于我们在盖高楼大厦时,会对地基的牢固程度进行反复评估。例如,在测试效应中,心理学研究者已经在不同的记忆范式和记忆材料、不同的人群以及不同的场景(真实生活与实验室)中反复检验该效应,近乎无一例外地得到了相似的规律。尽管至今能较为准确预测这个效应的记忆数学模型屈指可数,但我们至少知道它稳定出现了,任何一个有用的记忆模型都应该能够解释、预测这个效应。
然而,可重复的数据对于理论发展并没有任何直接作用,并不能直接帮助我们解释规律和完善理论。甚至有认知科学家提出,在心理学界本就喜欢数据和实证研究多于理论和模型的窘境下,强调可重复性或者把可重复性误以为科学进步的标杆,对于心理学真正的进步是百害而无一利的。仍然以测试效应为例,这个心理现象在各种各样的情景下都被重复了,那又如何呢?这些数据只是记忆机制稳定且持续的外显表现,这些从海量范式中得到的海量重复数据并不能告诉我们人类的潜在心理机制是怎么样的。进一步讲,变换自变量的种类和数量、迁移学习场景、替换学习材料,唯一的作用(或许也是最重要的作用)就是学者们可以发论文从而养家糊口,但我们仍然不知道是何种记忆机制导致了记忆摄取过的信息比单调重复的信息更容易被记住这个现象。
其实,比起重复发现的数据,心理学界更迫切需要建立可被反复验证的理论。例如,针对测试效应、情景提取模型和支架编码模型,心理学界需要实现数学模型,把它们应用到某一个或某几个具有基础科学限度的实验中(实验室情景,正常成人被试,词语作为学习材料,自由回忆作为记忆范式等),首先看模型是否能从质上预测现象(qualitative prediction),再通过数据调试参数来看模型是否能从量上复制数据(quantitative prediction)。接着,再把它应用到其他实验中(学校情景,儿童被试或者记忆有缺失的被试,图片、数学公式作为学习材料等),来不断测试和优化模型。最理想的情况是,不同实验所对应的模型只在某一个或者某几个参数上有区别,由此我们可以推断出不同实验变量对应的记忆机制(比如,学校中可以引起的情景变化比实验室中更大,儿童比成年人对情景变化更敏感等)。如此,那些可重复的数据才能真正发挥它们的作用,对心理学的理论发展作出贡献。由此看来,反而是数据的分享对于推动心理学的可重复性和理论发展至关重要,而不是数据的可重复性本身。
预注册与理论发展无关
再来看预注册这个令人称道的开放科学政策,毫无疑问它鼓励科研人员思考实验的逻辑、自变量和因变量的属性、数据分析方法的选择等。但是,预注册与否,不能作为衡量该研究是否有利于心理学理论发展的标准。
让我们设想一下一个理想的行为研究是怎样的。首先,我们有两个(或多个)模型/理论(A vs B),它们都被认为能解释某个现象,又或者我们有两个起始的、对于某个心理机制的假设(注意,是对心理机制/一级解释对象的假设,而不是自变量是否能引起因变量变化的假设)。A认为,语义信息和情景信息共同影响再认记忆,而B认为,只有情景信息影响再认记忆。然后,在对这两个模型/理论/假设的深度剖析下,设计一个巧妙的实验,其中自变量X1对应控制语义信息的强弱,自变量X2对应情景信息的强弱。如果X1和X2都对Y(再认任务记忆表现)有影响,则A模型更优;如果只有X2对Y有影响,则B模型更优。假如前者成立,我们还可以继续分析X1和X2对Y是否有交互影响,进而完善A模型。于是,理论得到了发展。
这个“好”实验源于对理论的深度思考,它即使没有预注册,仍然可以为理论发展添砖加瓦。相反,“坏”实验源于实验和理论之间糟糕的联系和映射(如实验变量无法对应模型参数、实验结果无法区分理论等)。一个实验也有可能是纯粹探索性的,它没有任何理论依据,但却满足了我们的好奇心(假如我加了某个变量会发生什么?)。这样一个“坏”实验也可以被预注册,但即使它被实施了,甚至它的数据被重复了,它对于理论发展也是毫无意义的。而预注册执着的“好”的统计分析方法是没办法矫正源于“坏”实验中的“坏”数据的,毕竟统计只是工具,绝不是实验的灵魂。这样看来,预注册的确和理论发展无关,更大的意义在于防止科研工作者前后不一地作弊。
总体来说,开放科学中的可重复性和预注册对心理学进步的意义并不大,除非我们把可重复性的讨论从数据拓展到模型/理论上,把对模型/理论的思考当作心理学实验预注册的指标之一。当然,我们必须肯定开放科学革命在规范科研人员行为上的重要意义,其在现阶段对心理学仍大有裨益。
(作者单位:中国科学院心理研究所)
来源:《中国社会科学报》