什么是统计显著性?女士品茶和章鱼保罗的故事

统计显著性和p值

统计显著性的提法最早应该是由英国统计学家 Ronald A Fisher(1890-1962) 提出来的,一个相关的概念是值。值是假设原假设正确情况下,得到观测数量或统计量的极端可能性。用数学公式表示:

值越大,说明数据来自于假设总体的可能性越大,越不能拒绝,相反,越小,我们越倾向于拒绝,但即使拒绝也不一定说明就是错的,这个是要注意的。

显著性检验类似于反证法。为了证明一个命题,我们先假设一个相反的命题正确,然后推出矛盾的结果,从而否定相反的命题。这里也是一样,不过是概率意义上的。我们通常想否定,但我们先假设正确,然后计算观测数据或统计量在假设总体中抽取到的极端可能性,即值,若值很小,我们发现矛盾,概率意义上的,即若正确,我们的数据或统计量来自该假设总体的可能性应该很高,但现在很小,所以我们倾向于怀疑我们的数据或统计量不是来自于原假设的总体,我们倾向于拒绝,但我们并不是100%的确定是错误的。因为,尽管概率很小,却仍然是有可能的,所以,这里我们需要谨慎。我们拒绝了,并不是说一定错了,只是说明我们的数据与兼容的可能性太低,我们倾向于否定。要证明是否错误,除了刚刚的统计证据之外,还需要其他证据,包括研究者的经验或其他先验知识。

检验的时候,通常取一个临界值,比如5%,p值若小于0.05,说明数据与$H_0$的兼容程度太低,我们通常拒绝$H_0$,通常称为是统计显著的。因而,0.05的标准也是很武断的,研究者根据自己的研究需要而设定。但我们要记住的就是,即使p值低于这一门槛,我们选择拒绝$H_0$,并没有说明$H_0$一定是错的。下面举两个例子。

女士品茶和章鱼保罗

女士品茶

女士品茶,大家可能都比较熟悉,最早来源于Fisher的经典著作《实验设计》一书中,故事是讲Fisher和其同事一起吃下午茶,其中一位女同事说奶茶制作中,加茶和奶的次序会影响奶茶的口味,Fisher就构造了一个随机化实验去检验该女士的说法。他提出制作8杯奶茶,其中4杯先奶后茶,另外4杯先茶后奶,然后随机拿出让该女士品尝。结果该女士正确的判断出了各杯奶茶的制作方法。请问该女士是否有鉴别能力,在统计上显著吗?

  • 原假设:假设该女士没有鉴别能力,因而,她只进行瞎猜。
  • 构造统计量:表示她猜对的杯数。
  • 计算值:

这里70是所有可能的分配向量数,即8杯奶茶,随机选择4杯先奶后茶,另外4杯先茶后奶,共,而女士完全猜对的对应次序只有1种,所以瞎猜猜对的可能性是。p值应该比较小了,所以,我们倾向于拒绝原假设,认为该女士具有鉴别能力。但这个结论我们不是100%的确定的,毕竟,就算原假设正确,该女士仍然有可能碰巧猜对的。那怎么办?在这个例子中,倒是比较好办,多做几次实验就可以了,如果每次实验该女士都能猜对,我们基本上就能确定拒绝原假设了。比如说做2次,两次实验时,该女士都猜对的概率将减小到1/4900。

章鱼保罗

我们再看一个例子,章鱼保罗的故事。

2008年1月26日,在英国出生的章鱼保罗在德国成长,居住在德国奥伯豪海洋生物馆。2010年6月起,章鱼保罗就德国队在出战南非世界杯小组赛及淘汰赛的所有赛事均成功“预测”出胜出队伍。同年7月9日,章鱼保罗成功地“预测”出西班牙为南非世界杯冠军队伍,也是它首次为非德国队参赛的赛事进行“预测”(更详细的故事,大家自行网络搜索)。

(来自维基百科)

我们可以用同样地方法进行检验

  • :章鱼保罗没有预测能力
  • 构造统计量:预测正确的场数
  • 计算值:

统计上非常显著,我们倾向于拒绝,认为章鱼保罗具有预测能力,你会接受这一结论吗?为什么?你的判断是不是使用了显著性检验以外的知识或其他先验知识?

其实,章鱼保罗2008年就做过一次预测,那次准确率差点。6次对了4次,也相当高了,也可以计算出p值,两次综合起来,统计上也是相当显著的。我们是否就会根据统计显著性拒绝呢?我相信各位的答案都应该是否定的。

对于章鱼保罗是否具有预测能力的判断,大家肯定不只是看上述实验的统计显著性的,还会利用其他的先验知识。

启示

经济学研究中也是如此,统计显著性最多是给我们提供了一定的统计证据,但我们不能完全依靠它,我们还需要其他的先验知识,而这些先验知识,对于经济学而言,很多可能是深入的调查,对所研究问题的深入理解,才能使我们得到更准确的判断,从而获得基本有用的知识。

下次进行实证分析的时候,遇到你估计的系数统计显著或统计不显著时,你该怎么办呢?从这篇小文章中你有没有什么启示?欢迎在下面留言发表你的看法。

(0)

相关推荐