因果度量

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
跳到导航 跳到搜索

不同领域的科学家在选择因果度量方法时可能存在主观偏好,对是否存在因果关系的判定存在主观性。但这些因果度量方法在许多条件下表现却非常相似,对相同的基本属性也非常敏感,并数学上存在相似性或一致性,这些相同的基本属性可以称作 “因果基元”。“因果基元”的敏感性和它所捕捉到的不确定性导致了因果度量中普遍存在因果涌现。

历史渊源

John Locke在他1690年发表的著作《人类理解论》中首次正式提出了因和果的概念:把产生观念的事物叫做原因,把所产生的东西叫做结果。在18世纪David Hume进一步发展了这个概念,提出因果不是事实之间的概念,而是经验之间的习惯性联想。他强调判断因果关系的三条准则:空间邻近性、时间连续性、恒常连结性。20世纪70年代David Lewis推广了David Hume对因果关系的定义,提出了判断因果关系的反事实推理法:“如果原因发生了,结果就会发生;如果原因不发生,结果就不会发生。”和这差不多的时间Ellery Eells和Patrick Suppes等人从概率论的角度给出了因果关系的定义,原因c成为结果e的原因的一个条件是,在c存在的情况下e的概率必须高于在c不存在的情况下e的概率。20世纪末Judea Pearl基于概率论和反事实的概念提出了结构因果模型和潜在结果模型,将因果关系划分为关联、干预、反事实三个层级,使得因果推理更加精确和实用。进入21世纪初Giulio Tononi 和 Olaf Sporns 提出有效信息 (EI)的概念,它可以用来衡量一个马尔科夫动力学的因果效应强度。最近的2022年Erik hoel发表的一篇论文中总结了各类因果度量方法中存在的相同基本属性,发现在大多数因果度量方法中都存在因果涌现。

因果关系的形式化

在一个给定的空间[math]\displaystyle{ Ω }[/math],即所有可能发生的情况的集合,在这个空间中,事件的单个原因记作[math]\displaystyle{ c }[/math],单个结果记作[math]\displaystyle{ e }[/math],,一组原因记作[math]\displaystyle{ C }[/math] ,一组结果记作[math]\displaystyle{ E }[/math],其中假定[math]\displaystyle{ c }[/math][math]\displaystyle{ e }[/math]之前,并满足[math]\displaystyle{ c∈Ω 、 e∈Ω 、C ⊆ Ω 、 E ⊆ Ω }[/math] 。为了衡量因果关系,把没有发生[math]\displaystyle{ c }[/math]的情况下获得[math]\displaystyle{ e }[/math]的概率写成[math]\displaystyle{ P (e|C\c) }[/math],其中[math]\displaystyle{ P }[/math]代表概率,[math]\displaystyle{ C\c }[/math]代表[math]\displaystyle{ c }[/math]的补集,指的是在[math]\displaystyle{ C }[/math]中的任何原因都可能产生[math]\displaystyle{ e }[/math]的情况下,除了[math]\displaystyle{ c }[/math]之外,[math]\displaystyle{ e }[/math]的概率,用公式表示为

[math]\displaystyle{ P(e\mid C)=\sum_{c\in C}P(c)P(e\mid c) }[/math]

主要因果度量方法

David Hume的恒常连结

David Hume将因果定义为“一个对象,后面跟着另一个对象,并且所有与第一个对象相似的对象后面跟着与第二个对象相似的对象”[1]。换句话说,因果关系源于事件之间的这种连续规律性模式[2]。 总体而言,事件 c 后面跟着事件 e 的“恒常连结”会让我们预期一旦观察到 c,就会发生 e,因此推断 c 是 e 的原因。在这里,我们遵循 Judea Pearl 的观点,他将David Hume的连续规律性概念解释为我们今天所说的事件之间的相关性[3]。这可以形式化为候选原因 c 和结果 e 之间观察到的统计协方差:

[math]\displaystyle{ \operatorname{Cov}(X, Y)=E(X Y)-E(X) E(Y) }[/math]

[math]\displaystyle{ E(X) }[/math]和[math]\displaystyle{ E(Y) }[/math]分别是随机变量[math]\displaystyle{ X }[/math]和[math]\displaystyle{ Y }[/math]的期望值,即各自独立时的平均结果。[math]\displaystyle{ E(XY) }[/math]这是随机变量[math]\displaystyle{ X }[/math]和[math]\displaystyle{ Y }[/math]乘积的期望值,表示在多次实验中,[math]\displaystyle{ X }[/math]和[math]\displaystyle{ Y }[/math]乘积的平均结果。如果我们用指示函数

[math]\displaystyle{ X_{c} }[/math](以及​[math]\displaystyle{ Y_{e} }[/math])来替换上述方程中的变量,其中[math]\displaystyle{ X_{c} }[/math](以及​[math]\displaystyle{ Y_{e} }[/math])在[math]\displaystyle{ c }[/math](或[math]\displaystyle{ e }[/math])发生时取值为1,否则取值为0,那么就可以得到一个新的方程:

[math]\displaystyle{ \begin{aligned} Cov(X_{c},Y_{e})& =P(c,e)-P(c)P(e) \\ &=P(c)P(e\mid c)-P(c)[P(c)P(e\mid c)+P(\bar{c})P(e\mid C\backslash c)] \\ &=P(e\mid c)P(c)[1-P(c)]+P(c)P(C\backslash c)P(e\mid C\backslash c) \\ &=P(e\mid c)P(c)P(C\backslash c)]+P(c)P(C\backslash c)P(e\mid C\backslash c) \\ &=P(c)P(C\backslash c)[P(e\mid c)-P(e\mid C\backslash c)]) \end{aligned} }[/math]

我们利用了这样一个事实:[math]\displaystyle{ P(e\mid c) }[/math]可以分解为两个加权和,即[math]\displaystyle{ c }[/math][math]\displaystyle{ C\c }[/math]。按照其他人的命名法[4],我们将其称为因果强度的“高尔顿测度(Galton measure)”,因为它与生物学中性状遗传的形式非常相似,也是统计协方差的一种形式,最后得到David Hume的恒常连结形式化公式:

[math]\displaystyle{ CS_{Galton}(e,c)=P(c)P(C\backslash c)[P(e\mid c)-P(e\mid C\backslash c)] }[/math]

Eells 的因果关系度量是概率提升

Ellery Eells提出[5][math]\displaystyle{ c }[/math]成为[math]\displaystyle{ e }[/math]的原因的一个条件是,[math]\displaystyle{ c }[/math]存在时[math]\displaystyle{ e }[/math]发生的概率必须高于其不存在时[math]\displaystyle{ e }[/math]发生的概率,这可以用因果强度的度量形式化为两个量之间的差:

[math]\displaystyle{ CS_{Eells}=P(e\mid c)-P(e\mid C\backslash c) }[/math]

Suppes将因果关系度量为概率提升

哲学家和科学家Patrick Suppes将因果关系定义为概率增加[6]。用我们的形式化方法可以表示为:

[math]\displaystyle{ CS_{Suppes}(c,e)=P(e\mid c)-P(e\mid C) }[/math]

[math]\displaystyle{ CS_{Eells} }[/math][math]\displaystyle{ CS_{Suppes} }[/math]测量方法之间的区别在于,从测量[math]\displaystyle{ c }[/math][math]\displaystyle{ e }[/math]的因果必要性(即[math]\displaystyle{ c }[/math]是否可以由[math]\displaystyle{ c }[/math]以外的其他原因产生)转变为评估产生[math]\displaystyle{ e }[/math]的方法的多样性(它衡量的是通过多少种不同的方式可以实现[math]\displaystyle{ e }[/math])。两者都是有效的措施,事实上在某些情况下是等效的[7]

程氏的因果归因

Patricia Cheng 提出了一个广受欢迎的因果归因心理学模型,在这个模型中,推理者不仅要评估事件之间的纯粹共变关系(即两个事件是否同时发生或变化),还要估计候选原因产生(或阻止)结果的 “因果能力”[8],它衡量的是[math]\displaystyle{ c }[/math][math]\displaystyle{ e }[/math]的影响程度。在这一模型中,[math]\displaystyle{ c }[/math]产生[math]\displaystyle{ e }[/math]的因果能力由以下公式给出:

[math]\displaystyle{ CS_{Cheng}(c,e)=\frac{P(e\mid c)-P(e\mid C\backslash c)}{1-P(e\mid C\backslash c)} }[/math]

Lewis的反事实因果理论

David Lewis基于反事实(counterfactuals)对因果关系进行了另一种实质性的、有影响力的解释[9]。Lewis给因果关系下的定义是:如果给定事件的[math]\displaystyle{ c }[/math][math]\displaystyle{ e }[/math]都发生了,当且仅当“[math]\displaystyle{ c }[/math]没有发生,那么[math]\displaystyle{ e }[/math]就不会发生”这一情况成立时,[math]\displaystyle{ c }[/math]才是[math]\displaystyle{ e }[/math]的原因。刘易斯还把他的理论扩展到了 “不确定的世界”,在这种世界里[10][math]\displaystyle{ e }[/math]可能只是以一定的概率跟随[math]\displaystyle{ c }[/math]发生。在这种情况下,[math]\displaystyle{ c }[/math]仍然可以被视为[math]\displaystyle{ e }[/math]的原因,但这种因果关系是概率性的,而不是确定性的。按照Fitelson和Hitchcock提出的一种使用概率来度量因果强度的方法[11],,我们将Lewis的因果强度正式表述为比率:[math]\displaystyle{ \frac{P(e\mid c)}{P(e\mid C\setminus c)} }[/math]。这个定义也被称为 “相对风险”:“它是指有 c 时发生 e 的风险与没有 c 时发生 e 的风险的比较”[11]。利用[math]\displaystyle{ p/q\to(p-q)/p }[/math]映射,可以对这一指标进行归一化处理,得到一个在-1到1范围内的度量:

[math]\displaystyle{ CS_{Lewis}(c,e)=\frac{P(e\mid c)-P(e\mid C\backslash c)}{P(e\mid c)} }[/math]

因果基元的形式化

当我们讨论因果关系时,不应该简单地认为它只是一个简单的原因导致结果的关系。实际上,这种关系可以从两个不同的角度来看:一个是充分性,另一个是必要性。充分性是指一个原因是否总是能导致一个特定的结果,而必要性是指为了得到这个结果,是否需要这个特定的原因。我们可以把这两个概念看作是理解因果关系的基本元素,称为因果基元。在更广泛的意义上,充分性和必要性分别反映了因果关系之间的确定性和简并性。

1.充分性:这里指的是原因[math]\displaystyle{ c }[/math]对产生结果[math]\displaystyle{ e }[/math]的充分程度。如果每当原因[math]\displaystyle{ c }[/math]发生时,结果[math]\displaystyle{ e }[/math]总是随之发生,那么我们可以说[math]\displaystyle{ c }[/math]是产生[math]\displaystyle{ e }[/math]的充分条件。换句话说,[math]\displaystyle{ c }[/math]的存在足以确保[math]\displaystyle{ e }[/math]的发生。充分性用表示公式为

[math]\displaystyle{ suff (e, c) = P (e | c) }[/math]

2.必要性:这里指指原因[math]\displaystyle{ c }[/math]对产生结果[math]\displaystyle{ e }[/math]的必要性程度。如果只有通过[math]\displaystyle{ c }[/math]才能产生[math]\displaystyle{ e }[/math],那么[math]\displaystyle{ c }[/math]是产生[math]\displaystyle{ e }[/math]的必要条件。这意味着没有[math]\displaystyle{ c }[/math][math]\displaystyle{ e }[/math]就不会发生。必要性用表示公式为

[math]\displaystyle{ nec(e, c) = 1 – P (e | C\c) }[/math]

3.确定性:如果原因只有一个结果,即[math]\displaystyle{ P=1 }[/math],则该熵项为零;如果原因具有完全随机的结果,则熵最大,即[math]\displaystyle{ log_2n }[/math],其中[math]\displaystyle{ n }[/math]为所有可能结果的数量,用[math]\displaystyle{ H (e | c) }[/math]表示原因导致结果的概率分布的熵,用公式表示为

[math]\displaystyle{ \begin{aligned}H(e\mid c)=\sum_{e\in E}P(e\mid c)\log_2\frac{1}{P(e\mid c)}\end{aligned} }[/math]

因此,我们将原因[math]\displaystyle{ c }[/math]的确定性定义为[math]\displaystyle{ log_2n - H (e | c) }[/math]。我们将它做归一化处理,可以创建一个确定性系数[math]\displaystyle{ det }[/math],对于给定的原因,该系数的范围与充分性一样,在 0(完全随机)和 1(完全确定性)之间,公式为

[math]\displaystyle{ det(c)=1-\frac{H(e\mid c)}{\log_2n} }[/math]

通过这个公式,我们可以定义一个单个因果转换的确定性系数

[math]\displaystyle{ det(e,c)=1-\frac{\log_2\frac{1}{P(e|c)}}{\log_2n} }[/math]

以及系统级确定性系数

[math]\displaystyle{ det=\sum\limits_{c\in C}P(c) det(c)=\sum\limits_{e\in E, c\in C}P(e,c) det(e,c)=1-\frac{\sum\limits_{c\in C}P(c) H(e\mid c)}{\log_2n} }[/math]

4.简并性:简并性是必要性的一种推广,如果所有可能的结果都有相同的概率,即没有任何一个结果比其他结果更有可能,那么简并性为零。如果某些特定的结果由更多的原因引起,那么这些特定的结果就更有可能发生,从而导致简并性增加。简并性的量化可以用一组原因[math]\displaystyle{ C }[/math]导致[math]\displaystyle{ e }[/math]发生的条件概率的熵来衡量,公式为

[math]\displaystyle{ \begin{aligned}H(e\mid C)=\sum_{e\in E}P(e\mid C)\log_2\frac{1}{P(e\mid C)}\end{aligned} }[/math]

通过这个公式,我们可以定义一个单个因果效应的简并性系数

[math]\displaystyle{ deg(e)=1-\frac{\log_2\frac{1}{P(e|C)}}{\log_2n} }[/math]

以及系统级简并性系数

[math]\displaystyle{ deg=\sum_{e\in E}P(e\mid c) deg(e)=1-\frac{H(e\mid C)}{\log_{2}n} }[/math]

因果度量方法中的因果基元

各种因果度量方法及其形式化公式
序号 名称 形式化公式及其与因果基元的关系 备注
1 David Hume的恒常连结 [math]\displaystyle{ CS_{Galton}(e,c)=P(c)P(C\backslash c)[P(e\mid c)-P(e\mid C\backslash c)]=P(c)P(C\backslash c)[suff(e,c)+nec(e,c)-1] }[/math]
2 Eells 的因果关系度量是概率提升 [math]\displaystyle{ CS_{Eells}=P(e\mid c)-P(e\mid C\backslash c)=suff(e,c)+nec(e,c)-1 }[/math]
3 Suppes将因果关系度量为概率提升 [math]\displaystyle{ CS_{Suppes}(c,e)=P(e\mid c)-P(e\mid C)=suff(e,c)-nec^{\dagger}(e) }[/math]
4 程氏的因果归因 [math]\displaystyle{ CS_{Cheng}(c,e)=\frac{P(e\mid c)-P(e\mid C\backslash c)}{1-P(e\mid C\backslash c)}=\frac{suff(e,c)+nec(e,c)-1}{nec(e,c)} }[/math]
5 Lewis的反事实因果理论 [math]\displaystyle{ CS_{Lewis}(c,e)=\frac{P(e\mid c)-P(e\mid C\backslash c)}{P(e\mid c)}=\frac{suff(e,c)+nec(e,c)-1}{suff(e,c)} }[/math]
6 Judea Pearl的因果关系测量方法 [math]\displaystyle{ \mathrm{PNS}=P(e\mid c)-P(e\mid C\backslash c)=suff(e,c)+nec(e,c)-1 }[/math]

[math]\displaystyle{ \mathrm{PN}=\frac{P(e\mid c)-P(e\mid C\backslash c)}{P(e\mid c)}=\frac{suff(e,c)+nec(e,c)-1}{suff(e,c)} }[/math]

[math]\displaystyle{ \mathrm{PS}=\frac{P(e\mid c)-P(e\mid C\backslash c)}{1-P(e\mid C\backslash c)}=\frac{suff(e,c)+nec(e,c)-1}{nec(e,c)} }[/math]

PNS对应关联层级,等价于[math]\displaystyle{ CS_{Eells} }[/math]PN对应干预层级,等价于[math]\displaystyle{ CS_{Lewis} }[/math]

PS对应反事实层级,等价于[math]\displaystyle{ CS_{cheng} }[/math]

7 最接近的可能世界因果关系 [math]\displaystyle{ CS_{Lewis CPW}=\frac{P(e\mid c)-P(e\mid\bar{c}_{CPW})}{P(e\mid c)} }[/math] 其中[math]\displaystyle{ \bar{c}_{CPW}=\min_{c'}D_H(c,c') }[/math]

[math]\displaystyle{ D_H(c,c') }[/math][math]\displaystyle{ c }[/math][math]\displaystyle{ c' }[/math]之间的汉明距离

8 位翻转措施 [math]\displaystyle{ CS_{bit-flip}(e,c)=\frac{1}{N}\sum_{i}^{N}\sum_{e^{\prime}\in E}P(e^{\prime}\mid c_{[i]})D_{H}(e,e^{\prime}) }[/math] 其中[math]\displaystyle{ c_{[i]} }[/math]对应于第[math]\displaystyle{ i^{th} }[/math]位被翻转的状态,

(例如,如果 c = 000,则 c[3] = 001),

[math]\displaystyle{ D_H(e,e') }[/math][math]\displaystyle{ e }[/math][math]\displaystyle{ e' }[/math]之间的汉明距离

9 实际因果关系和结果信息 [math]\displaystyle{ ei(c,e)=\log_2\frac{P(e\mid c)}{P(e\mid C)}=\log_2n[det(e,c)-deg(c)] }[/math]
10 有效信息(EI) [math]\displaystyle{ EI=\sum_{e\in E,c\in C}P(e,c)ei(c,e)=\log_{2}n[det-deg] }[/math]

因果基元对因果度量的敏感性

在我们研究的每一种因果关系度量中,两个基元(充分性和必要性)或它们的广义形式(确定性和简并性性)都被明确地置于某种关系中,通常是差异、比率或权衡的关系。唯一缺乏因果基元明确基础的是比特翻转测量,但作为对扰动敏感性的测量,似乎有可能存在某种基础或关系(在这里并没有寻求分解)。

我们并不是第一个指出因果关系有两个维度的人,例如,Judea Pearl [1] 就说过: “显然,必须在因果解释的必要成分和充分成分之间取得某种平衡"。麦基(J. L. Mackie)虽然没有提出因果关系强度的定量衡量标准,但他在提出原因应满足的 INUS 条件时,考虑到了必要性和充分性两个方面,即作为一个条件的(i)充分但(n)必要的部分,而这个条件本身对于一个结果的发生是(u)必要但(s)充分的[44]。然而,据我们所知,这是第一次从这个角度对一整套流行的测量方法进行评估,因此我们明确指出:因果关系测量方法的实质性一致性表明,我们应该期望因果关系强度的测量方法以这两种因果关系基元为基础。

  1. David Hume. An Enquiry concerning Human Understanding. 1748.
  2. Phyllis Illari and Federica Russo. Causality: Philosophical Theory meets Scientific Practice. Oxford University Press, Oxford, New York, December 2014.
  3. Judea Pearl. Causality. Cambridge University Press, Cambridge, 2 edition, 2009.
  4. Branden Fitelson and Christopher Hitchcock. Probabilistic Measures of Causal Strength. Causality in the Sciences, January 2010.
  5. Ellery Eells. Probabilistic Causality. Cambridge University Press, 1991.
  6. Patrick Suppes. A Probabilistic Theory of Causality. Amsterdam: North-Holland Pub. Co., 1968.
  7. Christopher Hitchcock. Probabilistic Causation. In Edward N. Zalta, editor, The Stanford Encyclopedia of Philosophy.Metaphysics Research Lab, Stanford University, spring 2021 edition, 2018.
  8. Patricia W. Cheng and Laura R. Novick. Causes versus enabling conditions. Cognition, 40(1):83–120, August 1991.
  9. David Lewis. Causation. Journal of Philosophy, 70(17):556–567, 1973.
  10. David Lewis. Postscripts to ’Causation’. Philosophical Papers Vol. Ii, 1986.
  11. 11.0 11.1 Branden Fitelson and Christopher Hitchcock. Probabilistic Measures of Causal Strength. Causality in the Sciences,January 2010.