2021年6月9日 (三) 12:25的版本

比较两个竞争的因果模型(DCM，GCM)用于解释fMRI 图像^[1]

在科学哲学中， 因果模型 Causal Model或 结构因果模型 Structural Causal Model，是描述系统因果机制的概念模型。因果模型可以通过提供清晰的规则来决定需要考虑/控制哪些自变量，从而改进研究设计。

因果模型可以从现有的观察数据中回答一些问题，而无需进行随机对照实验等干预性研究。一些干预性研究由于伦理或实践的原因是不合适的，这意味着如果没有一个因果模型，一些假设就无法被检验。

因果模型可以帮助解决 外部有效性 External Validity问题（一项研究的结果是否适用于未研究的总体）。在某些情况下，因果模型可以允许多项研究的数据合并起来回答任何单个数据集都无法回答的问题。

因果模型是可证伪的，因为如果一些因果模型与数据不匹配，这些因果模型就必须作为无效模型而被拒绝接受。因果模型还必须使得研究相关现象的科学家们信服。^[2]

因果模型在信号处理、流行病学和机器学习中都有应用。^[3]

定义

因果模型是表示单个系统或群体内因果关系的数学模型。它有助于从统计数据中推断因果关系，可以教会我们关于因果关系的认识论，并展现因果关系和概率之间的关系。它还被应用于哲学家感兴趣的主题，例如反事实逻辑、决策理论和实际因果关系分析。^[4]

Judea Pearl将因果模型定义为一个有序的三元组[math]\displaystyle{ \langle U, V, E\rangle }[/math]，其中[math]\displaystyle{ U }[/math]是一组外生变量，其值由模型外部的因素决定；[math]\displaystyle{ V }[/math]是一组内生变量，其值由模型内部的因素决定；[math]\displaystyle{ E }[/math]是一组结构方程，把每个内生变量的值表示为[math]\displaystyle{ U }[/math] 和[math]\displaystyle{ V }[/math]中其他变量值的函数。^[3]

= 历史

亚里士多德定义了因果关系的分类法，包括质料因、形式因、动力因、目的因。休谟更偏爱反事实，他拒绝了亚里士多德的分类法。有段时间，他否认物体本身具有使得一个物体成为原因而另一个物体成为结果的“力量”。^[5]后来，他接受了“如果第一物体还没存在，第二个根本不存在”的观点（“but-for”因果关系）。^[5]

19世纪末，统计学学科开始形成。经过多年努力确定诸如生物遗传等领域的因果规则后，高尔顿引入了 均值回归 Mean Regression 的概念（以二年生症候群为缩影），后来这将他引向了非因果的相关性概念。^[5]

作为一个实证主义者，皮尔逊将因果的概念从许多科学中去除，他认为因果关系是一种无法证明的特殊的关联，并引入相关系数作为关联强度的度量方法。他写道: “作为运动原因的力，与作为成长原因的树神完全一样”，而因果关系只是“现代科学高深奥秘中的迷信”。皮尔逊在伦敦大学学院创立了期刊“Biometrika”和生物识别实验室，该实验室成为了统计领域的全球领军者。^[5]

1908年，Hardy和Weinberg通过重拾孟德尔遗传律，解决了导致高尔顿放弃因果关系的性状稳定问题。^[5]

1921年，Wright的路径分析成为因果模型和因果图的理论雏形。^[6]他开发了这种路径分析方法，试图同时阐明遗传、发育和环境对豚鼠皮毛模式的相对影响。他通过一个分析过程如何解释豚鼠出生体重、子宫内时间和产仔数之间的关系来支持他旁门左道的观点。杰出的统计学家对这些想法的反对使因果关系在接下来的40年中被家畜育种学家之外的科学家所忽略。取而代之的是，科学家们依赖于相关性，一定程度上是在批评Wright的领军统计学家Fisher的授意下。^[5]唯一的例外是一名叫Burks的学生，在1926年首先应用路径图来表示中介影响，并断言保持中介变量恒定会引起误差。她可能独立地发明了路径图。^[5]

1923年，Neyman提出了潜在结果(potential outcome)的概念，但是直到1990年他的论文才被从波兰语翻译成英语。^[5]

1958年，Cox警告说，仅当Z高概率不被自变量影响的时，控制变量Z才有效。^[5]

20世纪60年代，Duncan、Blalock、Goldberger等人重新发现了路径分析。Duncan在阅读Blalock关于路径图的著作时，想起了二十年前Ogburn的一次演讲，其中提到了Wright的论文，而后又提到了Burks。^[5]

社会学家最初将因果模型称为 结构方程模型 Structural Equation Modeling ，但一旦它成为教条式方法就失去了效用，导致一些从业者拒绝与因果关系的任何联系。经济学家采用了路径分析的代数部分，称其为 联立方程建模 Simultaneous Equation Modeling 。但是，经济学家仍然避免将因果含义赋予他们的方程式。^[5]

Wright在发表第一篇论文60年后，根据Karlin等人的批评，发表了一篇概述该论文的文章，该论文反对仅处理线性关系，而鲁棒的、非模型的数据表示方式则更具揭示性。^[5]

1973年，Lewis提倡用but-for因果关系（反事实）代替相关性。他提到了人类具有想象某个原因是否发生和结果仅在原因后发生的不同可选世界的能力。^[5]1974年Rubin引入了“潜在结果 potential outcome”的概念，作为询问因果问题的语言。^[5]

1983年，Cartwright提出与一个结果因果相关的任何因子都是有条件的，不再以简单的概率作为唯一指导。^[5]

1986年，Baron和Kenny引入了检测和评估线性方程系统中的中介的原理。截至2014年，他们的论文是有史以来被引用最多的第33篇。^[5]那年，Greenland和Robins通过考虑反事实，引入了“可交换性”方法，来处理混杂问题。他们提出评估如果治疗组没有接受治疗会给治疗组带来什么后果，并将其结果与对照组进行比较。如果结果一致，说明没有混杂因子。^[5]

哥伦比亚大学设有因果人工智能实验室，该实验室正试图将因果建模理论与人工神经网络联系起来。^[7]

因果关系之梯

Judea Pearl的因果元模型涉及三个层次的抽象，他称之为因果之梯。最低层的“关联”（看到/观察）需要感知输入数据中的规律性或模式，用相关性表示。中间层的“干预 ”（do）可以预测有意识行动的后果，用因果关系表示。最高层的“反事实”（想象）涉及构建部分世界的理论，该理论解释为什么特定行为会产生特定后果，以及在没有此行为的情况下会发生什么。^[5]

关联

如果观察一个对象改变了观察另一个对象的可能性，则这个对象与另一个对象相关联。例子：购买牙膏的购物者也更有可能购买牙线。数学上用

[math]\displaystyle{ P (买牙线 | 买牙膏) }[/math]

表示已知一个人购买牙膏时的其购买牙线的可能性。关联也可以通过计算两个事件的相关性来衡量。关联并不意味着因果。一个事件可能导致另一个事件，反过来也可能，或者两个事件都可能由某个第三事件引起（牙医对口腔健康的宣传使得购物者同时购买牙线和牙膏）。^[5]

干预

该层涉及事件之间的特定因果关系。因果是通过实验性地执行影响事件的一些动作来评估。例如：如果我们将牙膏的价格提高一倍，那么人们购买牙线的概率将是多少？因果无法通过检验历史信息来确定，因为可能存在其他因素同时影响这两个变量，比如存在牙膏价格变化的其他原因，而且这种原因会影响牙线的价格（例如两种商品的关税增加）。数学上用

[math]\displaystyle{ P (牙线价格 | do(牙膏价格)) }[/math]

表示这种概率。其中do是一个算子，表示对谁做实验性干预（如价格翻倍）。^[5]这个算子指示了要在创造所需效果的世界中进行最小的变化，即在现实模型上进行尽可能小的改变的“小手术”。^[8]

反事实

最高层的反事实涉及对过去事件的其他可能版本的考虑，或者考虑同一实验个体中在不同情况下会发生的情况。例如，如果当初那家商店的牙线价格翻了一番，那么当时那些购买牙膏的购物者仍然会购买牙线的可能性是多少？

[math]\displaystyle{ P (买牙线 | 买牙膏, 当初牙线价格翻倍) }[/math]

反事实可以表明存在因果关系。回答反事实的模型允许进行精确的干预，这些干预的后果可被预测。在极端情况下，这样的模型被人们认为是物理定律（如惯性：若不将力施加到静止物体上物体将不会移动）。^[5]

因果

因果和相关

统计学涉及分析多个变量之间的关系。传统上，这些关系被描述为相关性，即没有任何隐含因果关系的关联。因果模型试图通过添加因果关系的概念来扩展此框架，在因果关系中，一个变量的变化导致其他变量的变化。^[3]

20世纪因果的定义完全依赖于概率或关联。如果一个事件[math]\displaystyle{ X }[/math]增加了另一个事件[math]\displaystyle{ Y }[/math]的可能性，则认为它会导致另一个事件。在数学上，这表示为：

[math]\displaystyle{ P (Y | X) \gt P(Y) }[/math]

这样的定义是不充分的，因为可能有其他关系（例如，[math]\displaystyle{ X }[/math]和[math]\displaystyle{ Y }[/math]的共同原因）可以满足该条件。因果与因果之梯的第二层有关。关联处于第一层，仅向第二层提供证据。^[5]

之后的定义试图通过以背景因素为条件来解决这种歧义。数学上表示为：

[math]\displaystyle{ P (Y | X, K = k) \gt P(Y| K = k) }[/math]

其中[math]\displaystyle{ K }[/math]是背景变量的集合，[math]\displaystyle{ k }[/math]表示特定语境中背景变量的值。但是，只要概率是唯一准则，那么所需的背景变量集是难以确定的。^[5]

定义因果的其他尝试包括 格兰杰因果 Granger Causality ，这是一种统计假设检验，在经济学中，可以通过衡量用一个时间序列的过去值预测另一个时间序列的未来值的能力，来评估序列间的因果。^[5]

类型

原因可以是必要的、充分的、部分的以及它们的组合。^[9]

必要因

对于[math]\displaystyle{ y }[/math]的必要因[math]\displaystyle{ x }[/math]，[math]\displaystyle{ y }[/math]的存在意味着[math]\displaystyle{ x }[/math]在此前发生了。但是[math]\displaystyle{ x }[/math]的存在不意味着y会发生。必要因也被称为“若非(but-for)”因，即[math]\displaystyle{ y }[/math]不会发生若非[math]\displaystyle{ x }[/math]发生。^[5]

充分因

对于[math]\displaystyle{ y }[/math]的充分因[math]\displaystyle{ x }[/math]，[math]\displaystyle{ x }[/math]的存在意味着[math]\displaystyle{ y }[/math]接下来会发生。然而另一个原因[math]\displaystyle{ z }[/math]也可能独立地造成[math]\displaystyle{ y }[/math]的发生。即[math]\displaystyle{ y }[/math]的发生不要求[math]\displaystyle{ x }[/math]的发生。 ^[10]

部分因

对于[math]\displaystyle{ y }[/math]的部分因[math]\displaystyle{ x }[/math]，[math]\displaystyle{ x }[/math]的存在会增加[math]\displaystyle{ y }[/math]的似然。如果似然是100%，那么[math]\displaystyle{ x }[/math]就是充分的。部分因也是必要的。^[11]

模型

因果图

因果图是一个有向图，它显示了因果模型中变量间的因果关系。因果图包括一组变量（或节点），每个节点通过箭头连接到一个或多个对其具有因果效应的其他节点。箭头描绘了因果的方向，例如，将变量[math]\displaystyle{ A }[/math]和变量[math]\displaystyle{ B }[/math] 以指向 [math]\displaystyle{ B }[/math] 的箭头相连表示A的变化以某种概率导致[math]\displaystyle{ B }[/math]的变化。一条路径是两个节点间沿着因果箭头的图的遍历。^[5]

因果图包括 因果环图 Causal Loop Diagrams ， 有向无环图 Directed Acyclic Graphs 和 鱼骨图 Ishikawa diagrams。^[5]

因果图和它们的定量概率无关，对这些概率的更改不需要修改因果图。^[5]

模型元素

因果模型具有形式结构，其元素具有特定的属性。^[5]

连接方式

三个节点的连接类型有三种，分别是线型的链，分支型的叉和合并型的对撞。^[5]

链

链（结构）是直线连接，箭头从原因指向结果。在这个模型中，[math]\displaystyle{ B }[/math]是中介变量，因为它调节了[math]\displaystyle{ A }[/math] 对[math]\displaystyle{ C }[/math] 的影响。^[5]

[math]\displaystyle{ A \rightarrow B \rightarrow C }[/math]

叉

在叉（结构）中，一个原因有多种结果，这两种结果有一个共同的原因。 [math]\displaystyle{ A }[/math]和[math]\displaystyle{ C }[/math] 之间存在非因果的虚假相关性，可以通过把[math]\displaystyle{ B }[/math] 作为条件（选取[math]\displaystyle{ B }[/math]的特定值）来消除虚假相关性。^[5]

[math]\displaystyle{ A \leftarrow B \rightarrow C }[/math]

“把B作为条件”是指“给定B”（即B取某个值）。某些情况下叉（结构）是混杂因子：

[math]\displaystyle{ A \leftarrow B \rightarrow C \rightarrow A }[/math]

在这样的模型中，[math]\displaystyle{ B }[/math]是[math]\displaystyle{ A }[/math]和[math]\displaystyle{ C }[/math]的共同原因（ [math]\displaystyle{ C }[/math] 也是[math]\displaystyle{ A }[/math]的原因），这使[math]\displaystyle{ B }[/math]成为 混杂因子 Confounder 。^[5]

对撞

在对撞（结构）中，多种原因会影响一种结果。以 [math]\displaystyle{ B }[/math] 为条件（ [math]\displaystyle{ B }[/math] 取特定值）通常会揭示 [math]\displaystyle{ A }[/math] 与[math]\displaystyle{ C }[/math] 之间的非因果的负相关。这种负相关被称为对撞偏差和“辩解”效应，即 [math]\displaystyle{ B }[/math] 解释了[math]\displaystyle{ A }[/math] 与 [math]\displaystyle{ C }[/math] 之间的相关性。^[5] [math]\displaystyle{ A }[/math] 和[math]\displaystyle{ C }[/math] 两者都是影响 [math]\displaystyle{ B }[/math] 的必要因时，该相关性是正的。^[5]

[math]\displaystyle{ A \rightarrow B \leftarrow C }[/math]

节点类型

中介变量

中介变量节点修改了其他原因对结果的影响（这与原因简单地影响结果不同）。^[5]例如，在上面的链结构中，[math]\displaystyle{ B }[/math]是中介变量，因为它修改了 [math]\displaystyle{ C }[/math] 的间接原因[math]\displaystyle{ A }[/math] 对结果变量 [math]\displaystyle{ C }[/math] 的影响。

混杂因子

混杂因子节点影响多个结果，从而在它们之间产生正相关。^[5]

工具变量

满足如下条件的是工具变量：^[5]

有通往结果变量的路径
没有通往其他原因变量（解释变量）的路径
对结果没有直接影响

回归系数可以用作工具变量对结果的因果影响的估计，只要该影响不被混杂即可。通过这种方式，工具变量允许对因果因子进行量化，而无需有关混杂因子的数据。^[5]例如，给定模型：

[math]\displaystyle{ Z \rightarrow X \rightarrow Y \leftarrow U \rightarrow X }[/math]

[math]\displaystyle{ Z }[/math]是一种工具变量，因为它有一条通往结果[math]\displaystyle{ Y }[/math]的路径，并且不受[math]\displaystyle{ U }[/math]的混杂。

在上面的例子中，如果Z和X是二进制值，那么Z=0，X=1不出现的假设称为单调性。

对该技术的改进包括通过调节其他变量来创建工具变量，以阻断工具变量和混杂因子之间的路径，并组合多个变量以形成单个工具变量。^[5]

孟德尔随机化

定义：孟德尔随机化使用已知功能的基因，来观察研究中可改变的部分对疾病的因果关系。^[12]^[13]

由于基因在人群中随机变化，基因的存在通常可以视为工具变量。这意味着在许多情况下，可以使用观察性研究中的回归来量化因果关系。^[5]

关联

独立性条件

独立性条件是用于确定两个变量是否彼此独立的规则。如果一个变量的值不直接影响另一个变量的值，则两个变量是独立的。多个因果模型可以共享独立条件。例如，模型

[math]\displaystyle{ A \rightarrow B \rightarrow C }[/math]

和

[math]\displaystyle{ A \leftarrow B \rightarrow C }[/math]

具有相同的独立条件，因为[math]\displaystyle{ B }[/math]作为条件时[math]\displaystyle{ A }[/math]和[math]\displaystyle{ C }[/math]独立。但是，这两个模型的含义不同，还可能与数据不符（也就是说，如果观测数据显示在[math]\displaystyle{ B }[/math]作为条件后显示了[math]\displaystyle{ A }[/math]和[math]\displaystyle{ C }[/math]之间的关联，那么这两个模型都是不正确的）。相反，数据无法显示这两个模型中的哪个是正确的，因为它们具有相同的独立性条件。

将变量作为条件是进行假设实验的一种机制。将变量作为条件即在条件变量的给定值下分析其他变量的值。在第一个示例中，[math]\displaystyle{ B }[/math]作为条件意味着给定[math]\displaystyle{ B }[/math] 的取值的观察，此时不应显示出[math]\displaystyle{ A }[/math]和[math]\displaystyle{ C }[/math] 之间的依赖关系。如果存在这种依赖关系，则该模型是不正确的。非因果模型无法进行这种区分的，因为它们不会做出因果断言。^[5]

混杂/去混杂

设计相关性研究的基本要素是确定对所研究变量的潜在混杂影响。控制这些变量是为了消除这些影响。但是，这些混杂变量无法被先验地正确确定。因此，一项研究可能会控制不相关的变量，甚至（间接地）控制了所研究的变量。^[5]

因果模型为识别恰当的混杂变量提供了一种鲁棒的技术。形式上，如果“ [math]\displaystyle{ Y }[/math] 通过不经过[math]\displaystyle{ X }[/math] 的路径与 [math]\displaystyle{ Z }[/math] 关联”，则[math]\displaystyle{ Z }[/math] 是混杂因素。这些混杂变量通常可以使用其他研究所收集的数据来确定。数学上，如果

[math]\displaystyle{ P(Y|X) \neq P(Y|do(X)) }[/math]

那么X是Y的混杂因子。^[5]

在此之前，混杂因子的不正确的定义包括：^[5]

“与[math]\displaystyle{ X }[/math]和[math]\displaystyle{ Y }[/math]都相关的任何变量。”
[math]\displaystyle{ Y }[/math]和未观测变量[math]\displaystyle{ Z }[/math]有关联
不相容性：“原始相对风险和潜在混杂因素调整后产生的相对风险”之间的差异
流行病学：在大范围总体中与 [math]\displaystyle{ X }[/math] 相关的变量，而在未接触[math]\displaystyle{ X }[/math] 的人群中与[math]\displaystyle{ Y }[/math]相关的变量。

在如下模型中，上述定义是有缺陷的：

[math]\displaystyle{ X \rightarrow Z \rightarrow Y }[/math]

[math]\displaystyle{ Z }[/math]符合定义，但 [math]\displaystyle{ Z }[/math] 是中介变量，而不是混杂因子，并且是控制结果的一个例子。

在模型中

[math]\displaystyle{ X \leftarrow A \rightarrow B \leftarrow C \rightarrow Y }[/math]

传统上，[math]\displaystyle{ B }[/math] 被认为是混杂因子，因为它与[math]\displaystyle{ X }[/math]和[math]\displaystyle{ Y }[/math] 关联，但 [math]\displaystyle{ B }[/math] 既不在因果路径上，也不是因果路径上任何节点的后代。控制 [math]\displaystyle{ B }[/math] 将使[math]\displaystyle{ B }[/math] 成为混杂因子。这被称为M偏差。^[5]

后门调整

为了分析因果模型中[math]\displaystyle{ X }[/math]对[math]\displaystyle{ Y }[/math]的因果效应，我们需要针对所有混杂变量进行调整（去混杂）。^[5]为了确定混杂变量的集合，我们需要

通过该集合阻塞[math]\displaystyle{ X }[/math]和[math]\displaystyle{ Y }[/math]之间的每个非因果路径
不破坏任何原有的因果路径
不创建任何虚假路径

定义：从[math]\displaystyle{ X }[/math]到[math]\displaystyle{ Y }[/math]的后门路径是指，从从[math]\displaystyle{ X }[/math] 到[math]\displaystyle{ Y }[/math] 的任何以指向[math]\displaystyle{ X }[/math] 的箭头为开始的路径。^[5]

定义：给定模型中的一对有序变量[math]\displaystyle{ (X,Y) }[/math]，如果

混杂变量集[math]\displaystyle{ Z }[/math]中没有[math]\displaystyle{ X }[/math]的后代，

[math]\displaystyle{ X }[/math]和[math]\displaystyle{ Y }[/math]之间的所有后门路径都被[math]\displaystyle{ Z }[/math]中的混杂变量阻断，

则称混杂变量集[math]\displaystyle{ Z }[/math]满足后门准则。

如果[math]\displaystyle{ (X,Y) }[/math]满足后门准则，则在控制混杂变量集[math]\displaystyle{ Z }[/math] 时[math]\displaystyle{ X }[/math] 和[math]\displaystyle{ Y }[/math] 是无混杂的。除了混杂变量外，没有必要控制其他任何变量。^[5]后门准则是找到混杂变量[math]\displaystyle{ Z }[/math]的集合的充分条件，但不是分析[math]\displaystyle{ X }[/math]对[math]\displaystyle{ Y }[/math]的因果效应必要条件。

当因果模型是现实的合理表示并且满足后门准则时，则对于线性关系可以将 偏回归系数 Partial Regression Coefficients 作为 （因果）路径系数 (Causal) Path Coefficients 。^[5] ^[14]

[math]\displaystyle{ P(Y|do(X))=\sum_z{P(Y|X,Z=z)P(Z=z)} }[/math]

前门调整 Frontdoor Adjustment

如果阻塞路径的所有元素都不可观测，则后门路径不可计算，但是如果所有从[math]\displaystyle{ X }[/math]到[math]\displaystyle{ Y }[/math]的路径都有元素[math]\displaystyle{ z }[/math] ，并且[math]\displaystyle{ z }[/math] 到[math]\displaystyle{ Y }[/math]没有开放的路径，那么我们可以使用[math]\displaystyle{ z }[/math]的集合[math]\displaystyle{ Z }[/math]来测量[math]\displaystyle{ P(Y|do(X)) }[/math]。实际上[math]\displaystyle{ Z }[/math]作为[math]\displaystyle{ X }[/math]的代理时有一些条件。

定义^[15]：前门路径是这样的直接因果路径^[5]

[math]\displaystyle{ Z }[/math]阻断了所有[math]\displaystyle{ X }[/math]到[math]\displaystyle{ Y }[/math]的有向路径
[math]\displaystyle{ X }[/math]到[math]\displaystyle{ Y }[/math]没有后门路径
所有[math]\displaystyle{ Z }[/math]到[math]\displaystyle{ Y }[/math]的后门路径都被[math]\displaystyle{ X }[/math]阻断

以下式子通过将前门路径上的变量集[math]\displaystyle{ Z }[/math]作条件，将含有do的表达式转化成不含do的表达式：^[5]

[math]\displaystyle{ P(Y|do(X))=\sum_z{[P(Z=z|X)\sum_x{P(Y|X=x,Z=z)P(X=x)}]} }[/math]

假定上述概率涉及到的观察数据可用，则无需进行实验即可计算出最终概率，而不管是否存在其他混杂路径且无需进行后门调整。^[5]

干预

查询

查询是根据特定模型提出的问题。通常通过进行干预实验来回答这些问题。“干预”会设定模型中一个变量的值并观察结果。从数学上讲，此类查询采用以下形式（例子）：^[5]

[math]\displaystyle{ P(牙线价格|do(牙膏价格)) }[/math]

其中do算子表示该实验明确修改牙膏的价格。图模型上看，这可以阻止任何可能影响该变量的因果变量。这消除了所有指向实验变量（牙膏价格）的因果箭头。^[5]

do算子也可以应用于多个变量（使它们取值固定）进行更复杂的查询。

Do演算

Do演算是一组可用于将一个表达式转换为另一个表达式的一系列操作，其总体目标是将包含do算子的表达式转换为不包含do算子的表达式。不含do算子的表达式可以仅从观察数据中估计出来，而无需进行实验干预；而实验干预可能是代价大，耗时长甚至是不道德的（例如，要求受试者吸烟）。^[5]Do演算的规则集是完备的，可用于推导出该系统中的每个真命题。有一种算法可以确定对于给定模型，是否可以在多项式时间内求解。^[5]

do演算规则集

该运算包括了三条涉及do算子的条件概率变换规则。其中规则1和3都是显然的，但规则2有些微妙。下面给出表达do演算规则集的三种版本。

版本1

该版本是维基百科上do演算的表达方式。

规则1用来增删观测：^[5]

[math]\displaystyle{ P(Y|do(X),Z,W)=P(Y|do(X),Z) }[/math]

在删除所有指向[math]\displaystyle{ X }[/math]的箭头的图中，[math]\displaystyle{ Z }[/math]阻塞了所有从[math]\displaystyle{ W }[/math]到[math]\displaystyle{ Y }[/math]的路径。^[5]

规则2用来互换干预和观测：^[5]

[math]\displaystyle{ P(Y|do(X),Z)=P(Y|X,Z) }[/math]

在原图中[math]\displaystyle{ Z }[/math]满足后门准则。^[5]

规则3用来增删干预：^[5]

[math]\displaystyle{ P(Y|do(X))=P(Y) }[/math]

在原图中[math]\displaystyle{ X }[/math]和[math]\displaystyle{ Y }[/math]间没有因果路径。^[5]

版本2

该版本是Judea Pearl的《Causality: Models, Reasoning and Inference (2nd Edition)》中的表达方式。

规则1用于增删观测：在 [math]\displaystyle{ G_{\overline{X}} }[/math] 中，当给定[math]\displaystyle{ X }[/math]和[math]\displaystyle{ W }[/math]，有[math]\displaystyle{ Y }[/math]和[math]\displaystyle{ Z }[/math]条件独立时，则

[math]\displaystyle{ P(Y|do(X),Z,W)=P(Y|do(X),Z) }[/math]

规则2用于互换干预和观察：在 [math]\displaystyle{ G_{\overline{X}\underline{Z}} }[/math] 中，当给定[math]\displaystyle{ X }[/math]和[math]\displaystyle{ W }[/math]，有[math]\displaystyle{ Y }[/math]和[math]\displaystyle{ Z }[/math]条件独立时，则

[math]\displaystyle{ P(Y|do(X),do(Z),W)=P(Y|do(X),Z,W) }[/math]

规则3用于增删干预：在 [math]\displaystyle{ G_{\overline{X}\underline{Z(W)}} }[/math] 中，当给定[math]\displaystyle{ X }[/math]和[math]\displaystyle{ W }[/math]，有[math]\displaystyle{ Y }[/math]和[math]\displaystyle{ Z }[/math]条件独立时，则

[math]\displaystyle{ P(Y|do(X),do(Z),W)=P(Y|do(X),W) }[/math]

其中 [math]\displaystyle{ Z(W) }[/math] 表示 [math]\displaystyle{ Z - An(W)_{ G_{ \overline{X} } } }[/math] ， [math]\displaystyle{ An(W)_{G} }[/math] 表示[math]\displaystyle{ W }[/math]在图[math]\displaystyle{ G }[/math]中的祖先集（[math]\displaystyle{ W }[/math]及其祖先节点构成的点集）， [math]\displaystyle{ G_{\overline{X}} }[/math] 表示删除[math]\displaystyle{ G }[/math]中所有指向[math]\displaystyle{ X }[/math]节点的边后得到的子图， [math]\displaystyle{ G_{\overline{X}\underline{Z}} }[/math] 表示删除[math]\displaystyle{ G }[/math]中所有指向[math]\displaystyle{ X }[/math]节点的边和从[math]\displaystyle{ Z }[/math]指向其他节点的边后得到的子图。

版本3

该版本是Daphne Koller和Nir Friedman的《概率图模型：原理与技术》中的表达方式。

规则1用于增删观测：在 [math]\displaystyle{ G_{\overline{Z}}^{+} }[/math] 中，当给定[math]\displaystyle{ Z }[/math]和[math]\displaystyle{ X }[/math]，有[math]\displaystyle{ W }[/math]和[math]\displaystyle{ Y }[/math] 有向分离 d-seperated 时，则

[math]\displaystyle{ P(Y|do(Z),X,W)=P(Y|do(Z),X) }[/math]

规则2用于互换干预和观察：在 [math]\displaystyle{ G_{\overline{Z}}^{+} }[/math] 中，当给定[math]\displaystyle{ X }[/math]、[math]\displaystyle{ Z }[/math]、[math]\displaystyle{ W }[/math]，有[math]\displaystyle{ Y }[/math]和 [math]\displaystyle{ \hat{X} }[/math] 有向分离时，则

[math]\displaystyle{ P(Y|do(Z),do(X),W)=P(Y|do(Z),X,W) }[/math]

规则3用于增删干预：在 [math]\displaystyle{ G_{\overline{Z}}^{+} }[/math] 中，当给定[math]\displaystyle{ Z }[/math]和[math]\displaystyle{ W }[/math]，有[math]\displaystyle{ Y }[/math]和 [math]\displaystyle{ \hat{X} }[/math] 有向分离时，则

[math]\displaystyle{ P(Y|do(Z),do(X),W)=P(Y|do(Z),W) }[/math]

其中 [math]\displaystyle{ G_{\overline{Z}}^{+} }[/math] 表示删除[math]\displaystyle{ G }[/math]中所有指向[math]\displaystyle{ Z }[/math]节点的边，添加独立决策变量[math]\displaystyle{ \hat{Z} }[/math]唯一指向[math]\displaystyle{ Z }[/math]，从而得到的G子图的拓展图。

扩展

这些规则并不意味着任何查询都能移除do算子。有些情况下，将一个不能进行的操作换成另一个可以进行的操作也是有意义的。例如：

[math]\displaystyle{ P(心脏病|do(血胆固醇))=P(心脏病|do(饮食)) }[/math]

反事实

反事实考虑那些无法从数据中得到的概率，如一个不吸烟的人在过去重度吸烟的话，他现在会不会得癌症。

潜在结果 Potential Outcome

定义：Y的潜在结果是“如果[math]\displaystyle{ X }[/math]被赋值为[math]\displaystyle{ x }[/math]，对于个体[math]\displaystyle{ u }[/math]来说[math]\displaystyle{ Y }[/math]会怎么样”。数学上可以表达为^[5]

[math]\displaystyle{ Y_X=Y_x(u) }[/math]

潜在结果是在个体[math]\displaystyle{ u }[/math]的层次定义的。^[5]

传统的潜在结果是数据驱动的，而非模型驱动的，这限制了它辨析因果关系的能力。它将因果问题当作数据缺失问题，甚至在标准场景下都会给出错误的回答。^[5]

因果推断

在因果模型的语境中，潜在结果是被从因果角度解释的，而非从统计角度解释。

因果推断的第一定律意味着潜在结果

[math]\displaystyle{ Y_x(u) }[/math]

可以被这样计算：将因果模型[math]\displaystyle{ M }[/math]中指向[math]\displaystyle{ X }[/math]的箭头删除，计算特定的[math]\displaystyle{ x }[/math]的结果。形式上，^[5]

[math]\displaystyle{ Y_x(u)=Y_{M_x}(u) }[/math]

计算反事实 Conducting a counterfactual

用一个因果模型计算反事实包括三步。这种方法不管模型是线性还是非线性都有效。当因果关系确定时，可以计算出一个点估计。在其他情况下（如仅能计算概率时），可以计算出一个概率区间，如原本不吸烟的人如果吸烟会增加10-20%的癌症概率。给定下列模型，

[math]\displaystyle{ Y \leftarrow X \rightarrow M \rightarrow Y \leftarrow U }[/math]

归因 Abduct

应用归纳推理（使用观察来找到最简单/最可能的解释的逻辑推理）来估计[math]\displaystyle{ u }[/math]，它是支持反事实的特定观察上未观察到的变量的代理。根据命题证据计算[math]\displaystyle{ u }[/math]的概率。

行动 Act

对于特定观察，使用do算子建立反事实（如令[math]\displaystyle{ m = 0 }[/math]），从而相应地修改方程式。

预测 Predict

使用修改后的公式计算输出（[math]\displaystyle{ y }[/math]）的值。

中介Mediation

直接原因和间接原因（中介）可以通过执行反事实区分。理解中介需要在干预直接原因时保持中介恒定。在模型

[math]\displaystyle{ Y \leftarrow M \leftarrow X \rightarrow Y }[/math]

中，M是X对Y影响的中介，X对Y也有非中介影响。这样保持M恒定，就可以计算[math]\displaystyle{ do(X) }[/math]。对于线性模型，可以通过取中介路径上所有路径系数的乘积来计算间接效应。总间接效应是通过各个间接效应的和计算得出的。对于线性模型，当拟合的不包括中介的方程式的系数与包含中介的方程式的系数显着不同时，这就意味着中介发生了。

直接效应 Direct effect

在这样模型的实验中，受控直接效应（CDE）通过将M强行赋值（do(M=0)）和随机化（do(X=0),do(X=1),...），然后观察Y的结果值获得。

[math]\displaystyle{ CDE(0)=P(Y=1|do(X=1),do(M=0))-P(Y=1|do(X=0),do(M=0)) }[/math]

每个中介因子有一个相应的受控直接效应（CDE）。然而，更好的实验时计算自然直接效应（NDE）。 This is the effect determined by leaving the relationship between X and M untouched while intervening on the relationship between X and Y。

[math]\displaystyle{ NDE(0)=P(Y_{M=M0}=1|do(X=1))-P(Y_{M=M0}=1|do(X=0)) }[/math]

例如，考虑每年或几年去看牙科医生的次数（X）的直接效应，去看牙科医生会使牙科医生鼓励人们使用牙线（M）。牙龈（Y）因此变得更健康，这归因于牙科医生（直接）或牙线（中介/间接）。需要进行的实验是继续使用牙线，但不去看牙科医生。

间接效应 Indirect effect

X对Y的间接效应是increase we would see in Y while holding X constant and increasing M to whatever value M would attain under a unit increase in X 。间接效应不能被控制，因为不能通过保持另一个变量恒定来禁用直接路径。自然间接效应（NIE）是使用牙线（M）对牙龈健康（Y）的影响。自然间接效应NIE的计算方式为（使用无牙线和无牙线的情况）给定牙医和没有牙医的情况下使用牙线的概率微分的和，或

[math]\displaystyle{ NIE=\sum _{m}[P(M=m|X=1)-P(M=m|X=0)]P(Y=1|X=0,M=m) }[/math]

自然直接效应NDE计算包括了反事实步骤(:[math]\displaystyle{ Y_{M=M0} }[/math])。对于非线性模型，下列看上去显然的等式

[math]\displaystyle{ Total effect=Direct effect + Indirect effect }[/math]

是不成立的，因为 anomalies such as threshold effects and binary values。然而，

[math]\displaystyle{ Total effect(X=0\rightarrow X=1)=NDE(X=0\rightarrow X=1)-NIE(X=1\rightarrow X=0) }[/math]

对于所有线性和非线性模型都是可以生效的。它允许NDE直接从观测的数据计算出了，不需要干预或使用反事实下标。

-->

可移植性 Transportability

即使因果模型及对应的相关数据不同，因果模型也提供了一种工具来集成跨数据集的数据，称为移植。例如，调查数据可以与随机对照实验数据合并。^[5]移植提供了一个外部有效性问题的解决方案，即一项研究是否可以在不同的背景下应用。

一，如果两个模型在所有相关变量上都匹配，并且已知来自其中一个模型的数据是无偏的，则可以使用一个总体的数据得出关于另一个总体的结论。

二，已知数据存在偏差，则重加权可以允许模型在数据集间移植。

三，可以从不完整的数据集中得出结论。

四，可以组合（移植）来自多个总体的研究数据，以得出有关未观测总体的结论。

五，结合多个研究的估计值（例如[math]\displaystyle{ P(W|X) }[/math]）可以提高结论的准确性。^[5]

do演算为移植提供了一个一般性准则：目标变量可以通过一系列不涉及任何“差异”变量（能够区分两个总体的变量）的do运算转换为另一个表达式。^[5]有一个类似的规则适用于参与者相对不同的研究。^[5]

贝叶斯网络 Bayesian network

因果模型可以用贝叶斯网实现。贝叶斯网络可用于提供事件的逆概率（给定结果，反推具体原因的概率是多少）。这就需要准备一个条件概率表，显示所有可能的输入和结果以及相关的概率。^[5]

例如，给定疾病和针对疾病的检验的两变量模型，条件概率表的形式为：^[5]

特定疾病检测为阳性的概率
	Test
疾病	阳性	阴性
阴性	12	88
阳性	73	27

根据该表，当患者没有疾病时，测试为阳性的可能性为12％。尽管这对于小问题很容易解决，但是随着变量数量及其相关状态的增加，概率表（以及相关的计算时间）呈指数增长。^[5] 贝叶斯网络在商业上可用于如无线数据纠错和DNA分析之类的应用中。^[5]

不变量/语境Invariants/Context

因果的不同概念涉及不变关系的概念。在识别手写数字的情况下，数字形状决定含义，因此形状和含义是不变量，改变形状会改变含义。其他属性则没有此性质（如颜色）。此不变性对于在各种非不变量所构成语境中生成的数据集都应满足。与其使用汇总的数据集进行学习评估因果关系，不如对一个数据集进行学习并对另一数据集进行测试，这可以帮助将变化属性与不变量区分开。^[16]

其他词条

反事实 – 因果之梯第三层

引用

↑ Karl Friston (Feb 2009). "Causal Modelling and Brain Connectivity in Functional Magnetic Resonance Imaging". PLOS Biology. 7 (2): e1000033. doi:10.1371/journal.pbio.1000033. PMC 2642881. PMID 19226186.
↑ Barlas, Yaman; Carpenter, Stanley (1990). "Philosophical roots of model validation: Two paradigms". System Dynamics Review (in English). 6 (2): 148–166. doi:10.1002/sdr.4260060203.
↑ ^3.0 ^3.1 ^3.2 Pearl 2009
↑ Hitchcock, Christopher (2018), "Causal Models", in Zalta, Edward N. (ed.), The Stanford Encyclopedia of Philosophy (Fall 2018 ed.), Metaphysics Research Lab, Stanford University, retrieved 2018-09-08
↑ ^5.00 ^5.01 ^5.02 ^5.03 ^5.04 ^5.05 ^5.06 ^5.07 ^5.08 ^5.09 ^5.10 ^5.11 ^5.12 ^5.13 ^5.14 ^5.15 ^5.16 ^5.17 ^5.18 ^5.19 ^5.20 ^5.21 ^5.22 ^5.23 ^5.24 ^5.25 ^5.26 ^5.27 ^5.28 ^5.29 ^5.30 ^5.31 ^5.32 ^5.33 ^5.34 ^5.35 ^5.36 ^5.37 ^5.38 ^5.39 ^5.40 ^5.41 ^5.42 ^5.43 ^5.44 ^5.45 ^5.46 ^5.47 ^5.48 ^5.49 ^5.50 ^5.51 ^5.52 ^5.53 ^5.54 ^5.55 ^5.56 ^5.57 ^5.58 ^5.59 ^5.60 ^5.61 ^5.62 ^5.63 ^5.64 ^5.65 ^5.66 ^5.67 ^5.68 ^5.69 ^5.70 ^5.71 ^5.72 ^5.73 ^5.74 Pearl, Judea; Mackenzie, Dana (2018-05-15). The Book of Why: The New Science of Cause and Effect. Basic Books. ISBN 9780465097616.
↑ Okasha, Samir (2012-01-12). "Causation in Biology". In Beebee, Helen (in en). [[[:模板:Google books]] The Oxford Handbook of Causation]. 1. OUP Oxford. ISBN 9780191629464. http://www.oxfordhandbooks.com/view/10.1093/oxfordhb/9780199279739.001.0001/oxfordhb-9780199279739-e-0036.
↑ Bergstein, Brian. "What AI still can't do". MIT Technology Review (in English). Retrieved 2020-02-20.
↑ Pearl, Judea (29 Oct 2019). "Causal and Counterfactual Inference" (PDF). Retrieved 14 December 2020. {{cite journal}}: Cite journal requires |journal= (help)
↑ Epp, Susanna S. (2004) (in en). [[[:模板:Google books]] Discrete Mathematics with Applications]. Thomson-Brooks/Cole. pp. 25–26. ISBN 9780534359454. 模板:Google books.
↑ "Causal Reasoning". www.istarassessment.org. Retrieved 2 March 2016.
↑ Riegelman, R. (1979). "Contributory cause: Unnecessary and insufficient". Postgraduate Medicine. 66 (2): 177–179. doi:10.1080/00325481.1979.11715231. PMID 450828.
↑ Katan MB (March 1986). "Apolipoprotein E isoforms, serum cholesterol, and cancer". Lancet. 1 (8479): 507–8. doi:10.1016/s0140-6736(86)92972-7.
↑ Smith, George Davey; Ebrahim, Shah (2008). Mendelian Randomization: Genetic Variants as Instruments for Strengthening Causal Inference in Observational Studies. National Academies Press. https://www.ncbi.nlm.nih.gov/books/NBK62433/.
↑ chapter 3-3 Controlling Confounding Bias
↑ Pearl, Judea; Glymour, Madelyn; Jewell, Nicholas P. Causal Inference in Statistics: A Primer. ISBN 978-1-119-18684-7.
↑ Hao, Karen (May 8, 2019). "Deep learning could reveal why the world works the way it does". MIT Technology Review (in English). Retrieved February 10, 2020.

源

Pearl, Judea (2009-09-14) (in en). [[[:模板:Google books]] Causality]. Cambridge University Press. ISBN 9781139643986. 模板:Google books.

外部链接

Pearl, Judea (2010-02-26). "An Introduction to Causal Inference". The International Journal of Biostatistics. 6 (2): Article 7. doi:10.2202/1557-4679.1203. ISSN 1557-4679. PMC 2836213. PMID 20305706.
causal-modeling
Falk, Dan (2019-03-17). "AI Algorithms Are Now Shockingly Good at Doing Science". Wired. ISSN 1059-1028. Retrieved 2019-03-20.
Maudlin, Tim (2019-08-30). "The Why of the World". Boston Review (in English). Retrieved 2019-09-09.
Hartnett, Kevin. "To Build Truly Intelligent Machines, Teach Them Cause and Effect". Quanta Magazine. Retrieved 2019-09-19.
Learning Representations using Causal Invariance (in English), ICLR, February 2020, retrieved 2020-02-10

编者推荐

书籍推荐

《统计因果推理入门》封面

统计因果推理入门对应英文Causal Inference in Statistics: A Primer

这本书非常适合初学者入门因果科学，这里面涉及到对结构因果模型的详细定义和阐述，非常清晰易懂。

为什么-关于因果的新科学

《为什么-关于因果关系的新科学》封面

在本书中，人工智能领域的权威专家朱迪亚·珀尔及其同事领导的因果关系革命突破多年的迷雾，厘清了知识的本质，确立了因果关系研究在科学探索中的核心地位。

关于这本书集智俱乐部邀请白楚研究员用100分钟，为大家详细介绍了Judea Pearl绘制的因果科学蓝图，作为一个起点，去拥抱因果革命。可以查看对应的视频分享解读《为什么》：攀登因果之梯

课程推荐

两套因果框架深度剖析：潜在结果模型与结构因果模型

这个视频内容来自集智俱乐部读书会-因果科学与Causal AI读书会第二季内容的分享，由英国剑桥大学及其学习组博士陆超超详细的阐述了潜在结果模型和结果因果模型，并介绍了两个框架的相互转化规律。

1. 讲述因果推断的两大框架：潜在结果模型和结构因果模型，讨论他们各自的优缺点以及他们之间的联系，详细介绍他们之间的转化规律。

2. 与大家一起深入探讨因果推断中最基本的概念、定理以及它们产生的缘由，了解每个概念背后的故事，从而建立起对因果更全面的感知。

3. 分享它们在不同学科中的具体的应用，包括社会科学、经济学、医学、机器学习等，借助这些应用，进一步启发大家用因果科学思维来思考和解决问题。

如何用信息视角理解现代因果模型框架？

这个视频内容来自集智俱乐部读书会-因果科学与Causal AI读书会第一季内容的分享，这个视频为大家串讲因果推理的相关论文，着眼与因果研究的源头，简单介绍哲学中的因果思考。其次重点是用因果之梯（她的信息视角--回答因果问题需要相应的信息）和一个例子，来理解现代因果建模框架；最后梳理因果推理和 AI 领域的融合，以及Causal AI 的强人工智能之路。

文章总结

因果科学入门读什么书？Y. Bengio博士候选人的研读路径推荐

前沿综述：因果推断与因果性学习研究进展

因果表征学习最新综述：连接因果科学和机器学习的桥梁

历时3个月，全球32位讲者，共同讲述因果科学与Causal AI的全景框架！

崔鹏：稳定学习——挖掘因果推理和机器学习的共同基础

因果科学：连接统计学、机器学习与自动推理的新兴交叉领域

因果观念新革命？万字长文，解读复杂系统背后的暗因果

周晓华：因果推断的数学基础和在医学中的应用

@@ 第441行： / 第441行： @@
 直接原因和间接原因（中介）可以通过执行反事实区分。理解中介需要在干预直接原因时保持中介恒定。在模型
 :<math> Y \leftarrow M \leftarrow X \rightarrow Y</math>
-中，M是X对Y影响的中介，X对Y也有非中介影响。这样保持M恒定，就可以计算do(X)。
+中，M是X对Y影响的中介，X对Y也有非中介影响。这样保持M恒定，就可以计算<math>do(X)</math>。
-<font color="#32cd32"> The Mediation Fallacy instead involves conditioning on the mediator if the mediator and the outcome are confounded, as they are in the above model.</font>
+对于线性模型，可以通过取中介路径上所有路径系数的乘积来计算间接效应。总间接效应是通过各个间接效应的和计算得出的。对于线性模型，当拟合的不包括中介的方程式的系数与包含中介的方程式的系数显着不同时，这就意味着中介发生了。
-对于线性模型，可以通过取中介路径上所有路径系数的乘积来计算间接效应。总间接效应是通过各个间接效应的和计算得出的。对于线性模型，当拟合的不包括中介的方程式的系数与包含中介的方程式的系数显着不同时，<font color="#32cd32"> For linear models mediation is indicated when the coefficients of an equation fitted without including the mediator vary significantly from an equation that includes it</font>
 ===直接效应 Direct effect===

“结构因果模型”的版本间的差异