什么是因果推断 | 集智百科

本文是对集智百科中“因果推断”词条的摘录,参考资料及相关词条请参阅百科词条原文。

目录

一、什么是因果推断?

二、因果推断在流行病学领域

三、因果推断在计算机科学领域

四、因果推断在统计学和经济学领域

五、因果推断在社会科学领域

六、相关资源推荐

七、集智百科词条志愿者招募

一、什么是因果推断?

因果推断 Causal inference  是基于某一事件发生的条件得出关于因果联系结论的过程。因果推断与关联推断 Inference of association 的主要区别在于前者分析了当原因改变时结果变量的响应。

定义

因果推断的定义被描述为:

  • 推论得出“某事是(或可能是)其他事情的原因”这一结论。

  • 通过确定原因与效果的共变性( covariation),前因后果的时序性,以及排除其它可能的替代原因,从而识别出现象的一个或多个原因。

通常情况下因果推断的过程,首先是提出一个假说,然后进行统计学假设检验来验证。这种统计学推断有助于判断数据是由偶然性(随机变化)引起的,还是确实相关(并测量相关性的强弱)。然而,相关不意味着因果,因此还需使用其他方法来推断其因果关系。

常见的因果推断框架有结构方程模型 structural equation modeling 和Rubin因果模型 Rubin causal model。

二、因果推断在流行病学领域

流行病学 epidemiology 研究特定生物群体的健康和疾病模式,以推断原因和结果。暴露于危险因素和感染疾病之间可能存在关联,但不等于确定性因果关系,因为相关不意味着因果。流行病学运用不同的方法来收集危险因素和结果的证据,以及判定两者之间的联系。

自19世纪,科赫法则 Koch's postulates 就被用来判断一种微生物是否是引起某种疾病的病因。在20世纪,布拉德福德·希尔准则 Bradford Hill criteria 已经被用来评估微生物学之外的变量的因果关系,尽管这些标准不是确定因果关系的唯一方法。

分子流行病学(molecular epidemiology)的现象,则都是在生物分子水平展开研究的,包括遗传学现象。其中生物标志物是判断原因或结果的证据。

在新兴的分子病理流行病学 molecular pathological epidemiology(MPE)这一交叉学科领域,最近趋势是确定“暴露”对于病变组织或细胞内分子病理学影响的证据。将暴露迹象与疾病的分子病理特征联系起来,可以帮助评估因果关系。基于特定疾病的异质性的固有特征、独特的疾病原理等,研究疾病表现型及其亚型现在是生物医学和公共卫生科学的趋势。比如个体化医疗和精准医疗等。

三、因果推断在计算机科学领域

基于X和Y这两个时间独立变量的联合观测数据,利用某些模型在X→Y和Y→X方向上的证据不对称性,就可以确定变量的因果关系。主要的方法基于算法信息理论模型和噪声模型。

算法信息模型

比较两个同时输出 X 和 Y 的程序:

  • 通过未压缩的Y存储Y和X的压缩型

  • 通过未压缩的X存储X和Y的压缩型

最短的此类程序表明,未压缩的存储变量更有可能引起计算变量。

噪声模型

在模型中引入一个独立的噪声项,以对比两个方向的证据。下面是一些假设 Y → X 且具有噪声 E 的噪声模型:

  • 加性噪声 Additive noise:Y=F(X) E

  • 线性噪声 Linear noise:Y=pX qE

  • 非线性后置 Post-non-linear:Y=G(F(X) E)

  • 异方差噪声 Heteroskedastic noise:Y=F(X) E.G(X)

  • 功能性噪声 Functional noise:Y=F(X,E)

上述模型均基于以下假设:

  • Y 不存在其他原因

  • X 和 E 不存在共同的原因

  • 原因的分布独立于因果机制

在直观层面很容易想到,从联合分布 P(起因 , 结果)到 P(起因)* P(结果 | 起因)的拆分产生的模型,其总复杂度低于从 P(起因 , 结果)到 P(结果)* P(起因 | 结果)的拆分。尽管“复杂度”的概念在直觉上很吸引人,但对于应该如何精确定义它却并不显而易见。另一组不同的方法尝试从大量标记数据中发现因果的“足迹”,从而能预测出更灵活的因果关系。

四、因果推断在统计学和经济学领域

在统计学和经济学中,因果关系通常通过回归分析来检验。有几种方法可以用来从假设的相关性中鉴别出真实的因果关系:

第一,经济学家根据经济理论(如计量经济学)构建回归模型,从而确定因果关系的方向。例如,如果研究降雨与商品未来价格之间的依赖关系,那么理论表明,降雨可以影响价格,但未来价格不能改变降雨量。

第二,工具变量 instrumental variables(IV)技术可以通过引入其他已知不受因变量影响的工具变量,来消除任何逆向因果关系。

第三,经济学根据时间先后,来选择合适的模型。由于偏相关(partial correlations)是对称的,不能仅仅基于相关性来确定因果关系的方向。基于因果关系的概率观点,经济学家假设,在时间上原因必须先于其结果。所以经济学家使用较早发生的现象作为自变量,并开发适用于时间序列分析的因果关系计量检验方法(例如,格兰杰因果检验 Granger-causality tests)。

第四,有些方法包括了其他回归因素,以确保混淆变量不会导致回归项出现明显的虚假。通过使用大规模样本和交叉验证,来检查在回归中未使用的数据之间是否保持了相关,这样可以排除由巧合造成而非反映实际内在依赖的相关性。但在遭受多重共线性问题困扰的领域,如宏观经济学,原则上不可能包括所有混淆因素,因此计量经济模型容易出现共因谬误 common-cause fallacy。

近年来,以设计为基础的计量经济学活动已经推广至使用自然实验和准实验研究设计来解决虚假相关 spurious correlations 问题。

五、因果推断在社会科学领域

社会科学越来越倾向用定量框架来评估因果关系。许多框架被认为是提供更严格的社会科学方法的手段。1994年,Gary King、Robert Keohane 和Sidney Verba 合著的《设计社会学问卷》对政治科学产生了重大影响。King、Keohane和Verba(通常缩写为 KKV)建议研究人员同时采用定量和定性方法,采用统计推断的语言,以便更清楚地了解他们感兴趣的主题和分析单位。定量方法的支持者也越来越多地采用 Donald Rubin 开发的潜在结果框架作为推断因果关系的标准。

适当应用定量方法来推断因果关系的相关争论导致了对研究可重复性的更多关注。对广泛使用的方法持批评态度的人认为,研究人员已经有技术性地“篡改” P 值,在虚假相关的基础上发表文章。

为了避免这种情况的发生,一些研究人员主张在进行研究之前预注册 preregister 他们的研究设计,这样他们就不会无意中过分强调一项不可复制的发现。这项发现并非最初的调查对象,却在数据分析过程中具有统计学意义。社会科学内部关于方法论和可重复性的争论有时是激烈的。

尽管在潜在结果框架中大部分重点仍然放在统计推论上,但社会科学方法学家已经开发出使用定性和定量方法进行因果推断的新工具,有时被称为混合方法。混合方法的持者认为它更适合不同主体的研究。社会学家 Herbert Smith 和政治学家 James Mahoney 、 Gary Goertz 引用了统计学家 Paul Holland 的观察结果,Paul Holland 在1986年发表了一篇名为《统计学和因果推断》的文章,认为统计推断更适合于评估“原因的影响”(effects of causes),而不是“影响的原因”(causes of effects)。

定性方法专家认为,形式化的因果关系模型(包括过程追踪和模糊集理论),通过在某个案例研究内识别关键因素或在多个案例研究之间比较过程,提供了推断因果关系的机会。这些方法对于那些潜在观察结果的数量有限,或混淆变量会影响统计推断适用性的课题,也是有价值的。

六、相关资源推荐

因果科学与 Causal AI 系列读书会 | 众包出书

Judea Pearl 认为当下正在进行一场改变数据科学的新革命 --- ”因果革命“。因果革命和以数据为中心的第一次数据科学革命,也就是大数据革命其不同之处在于,它以科学为中心,涉及从数据到政策、可解释性、机制的泛化,再到一些社会科学中的归因和公平性问题,甚至哲学中的创造性和自由意志。

于此,我们组织了关于因果科学与 Causal AI 的系列读书会,研读硬核论文书籍,分享学界前沿成果,并已经进行了许多次的论文研讨。

来源:集智百科
(0)

相关推荐

  • 会议侧记 | 比较政治中的案例选择

    嫩柳垂绿,湖波微皱,四月天气.2020年4月25日14时,比较历史分析系列活动之比较政治中的案例选择专题线上讨论如期而至.本次会议有幸邀请到了案例研究领域两位青年才俊与四位不同研究方向的实力嘉宾,共同 ...

  • 横向因果与纵向因果——计算社会科学的范式探讨

    摘要:"因果"是各学科共同关心的议题,近年来,大数据时代的到来和人工智能领域的发展使得因果研究受到愈加广泛的重视.自休谟以来,哲学家.科学家从"因果关系"和&q ...

  • 因果的革命与革命的因果

    摘要:亚里士多德的四因说,作为因果理论的肇始,界定了之后两千年因果讨论的范式,而休谟的因果理论和穆勒五法蕴含着现代因果推断的思想雏形:用反事实来分析因果.随着后牛顿物理学的兴起,因果概念本身的合法性与 ...

  • 我为你归纳了关于归纳的知识(图文版)

    欢迎回来,我们继续聊逻辑. 上期说,我们要在逻辑知识和逻辑能力之间搭一座桥,桥上有三把利剑.三枚盾牌和一面镜子,借助它们,我们将认识「三种推理」和「三类谬误」,澄清「逻辑与口语表达」之间的关系. 上期 ...

  • 4大方法,因果关系分析的总结,都在这了

    编辑导语:因果关系是一个事件(即"因")和第二个事件(即"果")之间的关系,其中后一事件被认为是前一事件的结果.一般来说,因果还可以指一系列因素(因)和一个现象 ...

  • 文献介绍:社会科学研究中的因果推论

    文献来源: 1. 中室牧子.津川友介『「原因と結果」の経済学: データから真実を見抜く思考法』ダイヤモンド社.2017 2.  飯田健.松林哲也「選挙研究における因果推論の研究動向」『選挙研究』27巻 ...

  • 因果推断——现代统计的思想飞跃

    转载自<数学文化>2021/第 12 卷第 2 期.已获得原刊和作者授权. 引言 探求事物的原因,是人类永恒的精神活动之一.从古希腊的哲学到中国先秦的诗歌,都充满了对原因的追问和对因果关系 ...

  • 生物网络 | 集智百科

    图1:生物网络示例 目录 一.什么是生物网络? 二.生物网络的相关概念 三.知名学者介绍 四.相关资源推荐 五.集智百科词条志愿者招募 1.什么是生物网络? 生物网络是对生物系统以图(graph)的方 ...

  • 什么是度,什么是握手定理 | 集智百科

    什么是度,什么是握手定理 | 集智百科

  • 什么是熵 | 集智百科

    目录 一.什么是熵? 二.熵增原理 三.熵与信息论 四.知名学者推介 五.相关资源推介 六.集智百科词条志愿者招募 一.什么是熵? 我们小时候玩玩具,如果没有家长管着,一定是搅得屋子里天翻地覆.无从下 ...

  • 混沌理论 | 集智百科

    "集智百科精选"是一个长期专栏,持续为大家推送复杂性科学相关的基本概念和资源信息.作为集智俱乐部的开源科学项目,集智百科希望打造复杂性科学领域最全面的百科全书,欢迎对复杂性科学感兴 ...

  • 什么是演化计算| 集智百科

    本文是对集智百科中"演化计算"词条的摘录,参考资料及相关词条请参阅百科词条原文. 本词条由集智俱乐部众包生产,难免存在纰漏和问题,欢迎大家留言反馈或者前往对应的百科词条页面进行修改 ...

  • 什么是涌现 | 集智百科

    本文是对集智百科中"涌现"词条的摘录,参考资料及相关词条请参阅百科词条原文. 本词条由集智俱乐部众包生产,难免存在纰漏和问题,欢迎大家留言反馈或者前往对应的百科词条页面进行修改,一 ...

  • 什么是重整化 | 集智百科

    本文是对集智百科中"重整化"词条的摘录,参考资料及相关词条请参阅百科词条原文. 本词条由集智俱乐部众包生产,难免存在纰漏和问题,欢迎大家留言反馈或者前往对应的百科词条页面进行修改, ...

  • 什么是对称性破缺 | 集智百科

    本文是对集智百科中"对称性破缺"词条的摘录,参考资料及相关词条请参阅百科词条原文. 本词条由集智俱乐部众包生产,难免存在纰漏和问题,欢迎大家留言反馈或者前往对应的百科词条页面进行修 ...

  • 什么是分形 | 集智百科

    本文是对集智百科中"分形几何"词条的摘录,参考资料及相关词条请参阅百科词条原文. 本词条由集智俱乐部众包生产,难免存在纰漏和问题,欢迎大家留言反馈或者前往对应的百科词条页面进行修改 ...