珀尔工作的雏形是图模型。直观上,这种模型用图来刻画条件分布,尤其是变量之间的条件独立性[9]。很多统计学家非常习惯用一个有向无环图 (directed acyclic graph ;DAG) 来表示数据的生成机制。珀尔创造性地赋予了它因果关系的解释,并给了一系列运算法则。为了描述珀尔的因果图理论,我们需要一些图的基本语言。一组随机变量 形成一个 DAG ,每个节点对应着一个随机变量。我们用 表示和节点 紧邻且处于箭头上游的变量集合(parent node),这个集合可能为空集。DAG 中变量的联合分布可以分解成:一个 DAG 的例子考虑上图中的 DAG。上面的联合分布的公式具体化成:用上面的图,如何思考因果关系的问题呢?珀尔引入了 do 算子,表示干预某个随机变量到某个值,这类似我们在实验中控制某个变量。我先给一般的公式,再给具体的例子。一般地:上面等式的左边定义的联合分布对应着一个新的DAG :在原来的 DAG 上强制 取 ,并且删除所有指向 的边(由于我们强制 取 ,那么 指向 的边不再起作用)。等式的右边展示了这个新 DAG 的联合分布和原始 DAG 联合分布的关系。从左边的联合分布,我们可以推出边缘分布,比如:他们两者的差,度量了干预 在两个不同的值, 分布的变化。我们可以用这两个边缘分布计算出对应的期望:他们之间的差,就是 对 的平均因果作用。这就是在因果图下,用 do 算子定义的 对 的平均因果作用。一个至关重要的点是:即 do 算子和通常的条件概率在一般情况下是不同的。这也说明了,仅仅用传统概率论的语言,不足以定义因果作用。内曼和鲁宾用潜在结果,珀尔则用 do 算子。来看一个具体的例子。从上面的 DAG 我们可以得到:从这个联合分布积分,我们可以得到边缘分布 。类似可得 。进一步可以计算 对 的平均因果作用。但是这个例子的趣味性还不够,因为上面的计算公式要求我们观测到所有变量的联合分布。珀尔给出了一些更加有趣的结果:某些情况下,我们并不需要观测到所有的变量,也可以识别因果作用。下面用上面的 DAG 作为例子,解释他提出的“后门准则”(backdoor criterion)和“前门准则”(frontdoor criterion)。更一般的数学结果需要更多的术语和技术细节;感兴趣的读者可以参见珀尔的文章和专著[10]。
从古希腊开始,西方的哲学家似乎就钟情于因果关系的讨论。这种传统一直流传至今。爱因斯坦曾说,西方科学的发展以两个伟大的成就为基础:一是希腊哲学家发明的形式逻辑体系,二是通过系统的实验寻找因果关系。前者集中体现在欧几里得几何学中,后者肇始于文艺复兴时期,以伽利略为代表。中国的文学作品,如屈原的《天问》和辛弃疾模仿而作的词《木兰花慢·可怜今夕月》,有一些对自然现象很感性的追问。佛教也有因果循环的理论。但是这些都没有和科学发生紧密联系。到了近代,中国学者受到了西方哲学的影响,也开始关注这个问题。比如,严复先生于1902 年翻译了约翰· 穆勒(John Stuart Mill)的名著《穆勒名学》[11],其中卷下第五章是“论因果”、第七章是“论观察试验”[12]。又如,洪谦先生师承奥地利逻辑实证主义学派(logical positivism)的莫里兹· 石里克(Moritz Schlick),于1934 年在维也纳大学完成博士论文,题为“现代物理学中的因果律问题”。再如,金岳霖先生也对休谟和穆勒的哲学有独到的见解。到了现代,越来越多的中国哲学家也参与了有关因果关系的话题的讨论。屈原的《天问》反映了中国古人对自然和历史的好奇心(图片来网络)欧美的统计因果推断研究有很早的萌芽,比如内曼在1923 年的论文,又如 Jerome Cornfield 等人于 1959 年关于吸烟和肺癌因果关系的研究,再如 William Cochran 对观察性研究的探索。但是,很多其他的统计学家则对因果推断充满了怀疑甚至敌意;仅有的这些早期研究也很零散、不成体系。鲁宾在 Cochran 的影响下,系统地研究因果推断,用数学的语言来描述一些应用统计学家已知的直觉和很多大家未知的奥妙。他在对因果推断充满敌意的氛围中,艰难地发表了一系列文章,坚持进行这方面的研究,培养了几代因果推断的学者。哈佛大学一直是因果推断研究的中心,这种状态持续到鲁宾退休、受聘到清华大学丘成桐数学中心。现在,美国各大统计系都有因果推断的研究者。在中国,北京大学数学科学学院的耿直教授,是国内统计因果推断研究的先驱,早在上世纪九十年代因果推断还是冷门话题的时候,就开始相关研究,坚持了三十多年,亲历了因果推断从冷门发展成热点的过程。在美国,鲁宾和珀尔学派相互批评对方的研究范式;但是在中国,耿直的研究整合了鲁宾和珀尔的研究范式,两者并行而不悖,在此基础上,产生了风格独特、思想深刻的研究成果。他曾应邀在国际工业与应用数学大会( International Congress on Industrial and Applied Mathematics, 2011)作一小时大会报告。另外,耿直还培养了很多年轻的、从事因果推断研究的学者,他们在国内外统计系担任教职,并且活跃于国内和北美的统计界,成为若干主流杂志非常重要的贡献者和这个领域的引领者。下面我简单评述一下耿直教授的一部分研究成果。学术界的“四世同堂”:耿直(右二)、学生郭建华(左二,东北师范大学副校长),学生的学生朱文圣(右一,东北师范大学数学与统计学院副院长),学生的学生的学生王鹏飞(左一,东北财经大学讲师)
混杂因素
统计学里有个很有名的 Yule-Simpson 悖论:由于忽略某个变量,使得两个变量间的相关关系出现逆反现象。例如,某药对男性有效,对女性也有效,但是合并男和女后,发现该药对总体无效。这个悖论与前面休谟的质疑有些联系,即,从经验归纳不出因果关系。在这个悖论中被忽略的那个变量,被称为混杂因素(confounder)。它是因果推断的关键。前面鲁宾的可忽略性也被称为无混杂性,即排除了未观测的混杂因素,他的理论才成立。因果推断需要关于混杂因素的假定,而判断某个变量是否是混杂因素,又需要关于因果关系的假定,这似乎有点循环论证。因此,确定什么是混杂因素是非常困难的。耿直探讨混杂因素的定义,提出了各种判断混杂因素的条件。其中一个结果是:如果不需要关于因果关系的假定,可以判断一个变量不是混杂因素,但不能确定一个变量是混杂因素。珀尔在《为什么》(The Book of Why)中写到,混杂因素问题的完整解决方案是因果革命的主要亮点之一。他声称利用因果图可以完美解决判断混杂因素的问题。但是,因果图常常是未知的,应该是因果推断的目标,而不是前提条件。耿直的研究,在一定程度上弥补了珀尔研究的缺陷。这一系列文章发表在统计学顶级期刊 Journal of the Royal Statistical Society, Series B 上[13]。
替代指标悖论和准则、统计和因果关系的传递性
替代指标悖论的图模型。此图表示一个随机化实验中,“吃药与否”是随机化的,所以和“未观测的变量”都独立,但是这些“未观测的变量”可能同时影响“替代指标”和“终点指标”。即使“吃药与否”对“终点指标”没有直接的影响,替代指标悖论也会发生:“吃药与否”对“替代指标”有正作用,“替代指标”对“终点指标”有正作用,但是“吃药与否”对“终点指标”的作用却是负的。这个悖论类似于前面提到的 Yule-Simpson 悖论, 它的关键是存在“未观测的变量”同时影响“替代指标”和“终点指标”。如果“吃药与否”对“终点指标”有直接的影响,那情况则更复杂,悖论更加不可以避免。注意,这个图和前面提到的“前门准则”有本质的不同。在科学研究中,由于终点指标很难观测,所以常常选择替代指标。例如,在艾滋病的临床试验中,关心的终点指标是患者的生存寿命,但是需要等待很长时间才能被观测到,因此,有一些研究采用免疫力细胞 CD4 数目作为替代指标,药物能提高 CD4 数目就被认为是有效的。在深入研究了 Yule-Simpson 悖论的基础上, 耿直教授发现了新的悖论,并称其为“替代指标悖论”:虽然新药对替代指标有正的因果作用, 替代指标对终点指标也有正的因果作用,但是新药对终点指标可能有负的因果作用。这项成果不仅有理论价值,而且对医学研究也有指导意义。有一本书《致命的药物》(Deadly Medicine)报告了一个真实的案例。医生的常识是,心律失常是猝死的危险因素,因此他们将纠正心律失常作为替代指标。一种新研制的药物能有效纠正心律失常,于是获得了美国食品药品监督管理局的批准。令人惊讶的是,该药物增加了数万人猝死,超过越南战争中美国士兵的死亡人数。这就是替代指标悖论的现实后果。几位杰出的统计学家,Ross Prentice, 唐纳德· 鲁宾,Steffen Lauritzen[14], 分别都提出了关于替代指标的准则,不过他们的准则都无法避免替代指标悖论。耿直的文章,澄清了这些准则的缺陷,并且提出了新的准则,可以避免悖论出现。这一系列文章发表在统计学顶级期刊 Journal of the Royal Statistical Society, Series B 上[15]。Tyler VanderWeele 在他的综述文章中[16],回顾并高度评价了耿直教授的这一系列工作。耿直在这方面的精深研究,不仅在统计和医学上有意义,还对科学哲学有所增进。上面介绍的替代指标悖论,在数学上是不可思议的:如果 且 都是单调增函数, 那么 一定是关于 的单调增函数。在统计和因果推断中,由于随机性和隐变量的存在,这种传递性(transitivity)一般情况是不成立的。但是,科学研究和人类认知常常依赖这种传递性。它的理论根基是不完整的。耿直做出了奠基性的工作。著名数学家陶哲轩,也对类似的问题表现出了兴趣,他曾在博客中讨论“相关性何时可传递?”(When is correlation transitive?)[17]。他回顾了一些基本的不等式,有助于研究传递性。但是,这方面的数学结果还不算丰富。
因果图的结构探索
如上面所述,珀尔关于因果作用可识别性的理论依赖一个完整已知的图模型。一个更有挑战性的问题是:如何从数据中学习未知的图模型?耿直提出了分解和局部学习的方法,化繁为简, 有针对性地构建图模型。在数据不能完全确定变量间因果图结构的情况下,他提出了一种实验设计的方法,干预最少的变量,将相关关系的图转变为因果关系的图。这对科学研究中的实验,有指导意义。这一系列文章发表在机器学习领域的顶级期刊 Journal of Machine Learning Research 上[18]。
A. Gelman and A. Vehtari, What are the most important statistical ideas of the past 50 years? 见https://arxiv.org/abs/2012.00174。第一作者曾获得年轻统计学家的最高奖 COPSS 奖章。
“[T]he sole end of science is the honor of the human mind.” —— Carl Jacobi(卡尔· 雅可比)
内曼的论文是用波兰语写成的。1990 年,D. M. Dabrowska 和 T. P. Speed 将论文翻译成英文,题目是 On the Applications of the Theory of Probability to Agricultural Experiments,发表于 Statistical Science。潜在结果的基本想法也许在历史中早就产生了,但是将它数学化、且正式地用于统计学,内曼的文章是首次。内曼是现代统计学的奠基人之一,他对假设检验、置信区间、抽样调查和实验设计等领域的研究,成为现代统计学的标准范式。我国概率论和数理统计学的先驱许宝騄教授是内曼在英国指导的学生之一。
这方面的文献综述是:Li, X. and Ding, P. (2017). General forms of finite population central limit theorems with applications to causal inference. Journal of the American Statistical Association, 112, 1759-1769。
见内曼的传记:C. Reid (1982), Neyman - From Life。注意,哥白尼和内曼都是波兰人。
文章是 Rosenbaum and Rubin (1983) The central role of the propensity score in observational studies for causal effects, Biometrika, 70, 41-55。在纪念 Biometrika 第一百期的时候,这篇文章的引用数在该杂志排名第二;参看 Titterington (2013) Biometrika highlights from volume 28 onwards, Biometrika, 100, 17-73。截至写作本文的时候,Google Scholar 显示这篇文章已经被引用了28392 次,已经超越了之前引用最高的文章 Liang and Zeger (1986) Longitudinal data analysis using generalized linear models, Biometrika, 73, 13–22(Google Scholar 显示引用了18345 次)。这种改变,反映了近十年来,因果推断的研究在学术界的极端活跃性。另外,Biometrika 创刊于 1901 年,是最早的理论统计杂志之一。
第一本是 Rubin (2006) Matched Sampling for Causal Effects。第二本是 Imbens and Rubin (2016) Causal Inference for Statistics, Social, and Biomedical Sciences: An Introduction。两书均由剑桥大学出版社出版。
比如 A. P. Dempster 就用一个无向图来表示联合正态分布中的条件独立性:给定其他变量,如果两个变量条件独立, 那么他们之间的边不存在。他的文章是: Dempster, A.P. (1972) Covariance selection. Biometrics, 157-175。
珀尔的开创性文章是:Pearl (1995) Causal diagrams for empirical research. Biometrika, 82, 669-688.他的专著是:Pearl (2009) Causality: Models, Reasoning and Inference, 剑桥大学出版社。
此书英文原名是 A System of Logic,直接翻译过来是《一个逻辑体系》,严复先生认为“逻辑学”就是中国的“名学”, 这一学派兴起于先秦,代表人物有公孙龙等。这本书在英语世界产生过很深远的影响,其中五条“穆勒方法”总结了归纳推理中,获得因果知识的一些准则。严复先生是北京大学从“京师大学堂”更名后的第一任校长,也曾任复旦大学校长。
原书这章的题目是“On observation and experiment”。按照现在的习惯,“experiment”统一翻译成“实验”。前面用到的“临床试验”对应着“clinical trial”。“实验”和“试验”的意思似乎差别不大;中文英文皆如此。
Geng (1992) pp. 585-593; Geng and Asano (1993), pp. 741–747; Guo and Geng (1995), pp. 263-267; Geng, Guo and Fung (2002), pp. 3-15; Ma, Xie and Geng (2006), pp. 127-133。