学术打假有“新招”!斯坦福学者:文章给我读一遍,就能知道谁在造假
即使是最好的扑克牌手,也有“行为语言”,当他们用一只手虚张声势时,可能会泄露他们打牌时的想法。
造假的科学家也是一样。当他们在伪造数据时,一样会试图通过某种表述方式,来掩盖作品中的虚假之处。
斯坦福大学的一组研究人员发明了一种方法,能够识别这些书面上的线索。
这项发表在《语言与社会心理学杂志》(Journal of Language and Social Psychology)上的研究成果,能够帮助我们用一种独特的方法识别出那些伪造的研究。
为了理解说谎者的撒谎方式,学界已有相当数量的研究成果。这些研究表明,说谎者通常倾向于表达更多的消极情绪,使用更少的第一人称代词。
在财务报告领域中,与准确的报告相比,那些虚假的报告通常存在更高程度的混淆性语言,这些语言乃是旨在用来分散或隐藏虚假数据的措辞。
为了探知科学界是否也存在类似的模式,斯坦福大学传播学教授杰夫·汉考克(Jeff Hancock)和研究生大卫·马科维茨(David Markowitz)从1973年到2013年检索了生命科学期刊数据库PubMed的档案,找出了那些被撤稿的论文,以做研究。
他们确定了253篇主要来自生物医学期刊的论文,这些论文因发现存在造假而被撤稿。
然后,他们将这些论文与同一期刊和同一出版年份、涵盖相同主题的未被撤稿的论文进行了比较。
然后,他们用一个定制的“混淆指数”对每篇论文的欺诈程度进行了评级,该指数对作者试图掩盖虚假结论的程度进行了划分。
这个程度划分综合考虑了文章中的因果词、抽象语言、“行话”、积极的情感术语和易读性等。
该论文的主要作者马科维茨说:“混淆背后的潜在想法是蒙混事实。伪造数据的科学家知道他们是在进行不当行为,不想被抓。因此,规避这一点的一个策略,可能就是模糊文中的部分内容。我们认为,语言可以是区分伪科学和真正科学的众多变量之一。”
研究显示,因造假而导致撤稿的论文,“混淆指数”显著高于因其他情况而撤稿的论文。另外,在造假论文中,出现某些“行话”的比率比未撤稿论文高1.5%。
马科维茨说:“与未被撤稿的论文相比,撤稿论文每篇多出有大约60个类似’行话’的单词。这是一个不小的数字。”
研究人员说,科学家可能会因为各种原因而进行数据造假。先前的研究指出,一种“要么发表要么出局”(publish or perish)的压力,可能会激发研究人员改动他们的研究成果,或者干脆对之进行伪造。
在本研究中,研究人员发现了作者们的写作风格与他们试图通过操纵语言来掩盖谎言之目的的直接相关性。
例如,一个造假的作者可能会使用较少的积极情绪术语来抑制对所得数据的赞扬,因为他们害怕引起调查。
研究者表示,基于杂志对模糊语言的限制,未来可以开发一个计算机系统,用以识别新提交的论文,这样编辑们就可以在文章发表前,对它进行更为严格的评审。
但作者警告说,鉴于存在假阳性率,这种方法目前或许还不可行。
汉考克说:“科学造假在学术界越来越受到关注,自动识别造假的工具可能会有用。但在考虑使用这种方法之前,还需要更多的研究。”
“显然,需要解决的问题是,这其中存在一个非常高的错误率。但是,科学需建立在信任的基础上的,在出版过程中引入‘造假检测’工具,可能会破坏这种信任。”他说。