“因果度量”的版本间的差异

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
跳到导航 跳到搜索
第24行: 第24行:
 
我们利用了这样一个事实:<math>P(e\mid c)</math>可以分解为两个加权和,即<math>c</math>和<math>C\c</math>。按照其他人的命名法<ref>Branden Fitelson and Christopher Hitchcock. Probabilistic Measures of Causal Strength. ''Causality in the Sciences'',
 
我们利用了这样一个事实:<math>P(e\mid c)</math>可以分解为两个加权和,即<math>c</math>和<math>C\c</math>。按照其他人的命名法<ref>Branden Fitelson and Christopher Hitchcock. Probabilistic Measures of Causal Strength. ''Causality in the Sciences'',
  
January 2010.</ref>,我们将其称为因果强度的“高尔顿测度(Galton measure)”,因为它与生物学中性状遗传的形式非常相似,也是统计协方差的一种形式:
+
January 2010.</ref>,我们将其称为因果强度的“高尔顿测度(Galton measure)”,因为它与生物学中性状遗传的形式非常相似,也是统计协方差的一种形式,最后得到David Hume的恒常连结形式化公式:
  
 
<math>CS_{Galton}(e,c)=P(c)P(C\backslash c)[P(e\mid c)-P(e\mid C\backslash c)]</math>
 
<math>CS_{Galton}(e,c)=P(c)P(C\backslash c)[P(e\mid c)-P(e\mid C\backslash c)]</math>

2024年11月14日 (四) 18:29的版本

不同领域的科学家在选择因果度量方法时可能存在主观偏好,对是否存在因果关系的判定存在主观性。但这些因果度量方法在许多条件下表现却非常相似,对相同的基本属性也非常敏感,并数学上存在相似性或一致性,这些相同的基本属性可以称作 “因果基元”。“因果基元”的敏感性和它所捕捉到的不确定性导致了因果度量中普遍存在因果涌现。

历史渊源

John Locke在他1690年发表的著作《人类理解论》中首次正式提出了因和果的概念:把产生观念的事物叫做原因,把所产生的东西叫做结果。在18世纪David Hume进一步发展了这个概念,提出因果不是事实之间的概念,而是经验之间的习惯性联想。他强调判断因果关系的三条准则:空间邻近性、时间连续性、恒常连结性。20世纪70年代David Lewis推广了David Hume对因果关系的定义,提出了判断因果关系的反事实推理法:“如果原因发生了,结果就会发生;如果原因不发生,结果就不会发生。”和这差不多的时间Ellery Eells和Patrick Suppes等人从概率论的角度给出了因果关系的定义,原因c成为结果e的原因的一个条件是,在c存在的情况下e的概率必须高于在c不存在的情况下e的概率。20世纪末Judea Pearl基于概率论和反事实的概念提出了结构因果模型和潜在结果模型,将因果关系划分为关联、干预、反事实三个层级,使得因果推理更加精确和实用。进入21世纪初Giulio Tononi 和 Olaf Sporns 提出有效信息 (EI)的概念,它可以用来衡量一个马尔科夫动力学的因果效应强度。最近的2022年Erik hoel发表的一篇论文中总结了各类因果度量方法中存在的相同基本属性,发现在大多数因果度量方法中都存在因果涌现。

因果关系的形式化

在一个给定的空间Ω,即所有可能发生的情况的集合,在这个空间中,事件的单个原因记作[math]\displaystyle{ c }[/math],单个结果记作[math]\displaystyle{ e }[/math],,一组原因记作[math]\displaystyle{ C }[/math] ,一组结果记作[math]\displaystyle{ E }[/math],其中假定[math]\displaystyle{ c }[/math][math]\displaystyle{ e }[/math]之前,并满足[math]\displaystyle{ c∈Ω 、 e∈Ω 、C ⊆ Ω 、 E ⊆ Ω }[/math] 。为了衡量因果关系,把没有发生[math]\displaystyle{ c }[/math]的情况下获得[math]\displaystyle{ e }[/math]的概率写成[math]\displaystyle{ P (e|C\c) }[/math],其中[math]\displaystyle{ P }[/math]代表概率,[math]\displaystyle{ C\c }[/math]代表[math]\displaystyle{ c }[/math]的补集,指的是在[math]\displaystyle{ C }[/math]中的任何原因都可能产生[math]\displaystyle{ e }[/math]的情况下,除了[math]\displaystyle{ c }[/math]之外,[math]\displaystyle{ e }[/math]的概率,用公式表示为

[math]\displaystyle{ P(e\mid C)=\sum_{c\in C}P(c)P(e\mid c) }[/math]

主要因果度量方法

David Hume的恒常连结

David Hume将因果定义为“一个对象,后面跟着另一个对象,并且所有与第一个对象相似的对象后面跟着与第二个对象相似的对象”[1]。换句话说,因果关系源于事件之间的这种连续规律性模式[2]。 总体而言,事件 c 后面跟着事件 e 的“恒常连结”会让我们预期一旦观察到 c,就会发生 e,因此推断 c 是 e 的原因。在这里,我们遵循 Judea Pearl 的观点,他将David Hume的连续规律性概念解释为我们今天所说的事件之间的相关性[3]。这可以形式化为候选原因 c 和结果 e 之间观察到的统计协方差:

[math]\displaystyle{ \operatorname{Cov}(X, Y)=E(X Y)-E(X) E(Y) }[/math]

[math]\displaystyle{ E(X) }[/math]和[math]\displaystyle{ E(Y) }[/math]分别是随机变量[math]\displaystyle{ X }[/math]和[math]\displaystyle{ Y }[/math]的期望值,即各自独立时的平均结果。[math]\displaystyle{ E(XY) }[/math]这是随机变量[math]\displaystyle{ X }[/math]和[math]\displaystyle{ Y }[/math]乘积的期望值,表示在多次实验中,[math]\displaystyle{ X }[/math]和[math]\displaystyle{ Y }[/math]乘积的平均结果。如果我们用指示函数

[math]\displaystyle{ X_{c} }[/math](以及​[math]\displaystyle{ Y_{e} }[/math])来替换上述方程中的变量,其中[math]\displaystyle{ X_{c} }[/math](以及​[math]\displaystyle{ Y_{e} }[/math])在[math]\displaystyle{ c }[/math](或[math]\displaystyle{ e }[/math])发生时取值为1,否则取值为0,那么就可以得到一个新的方程:

[math]\displaystyle{ \begin{aligned} Cov(X_{c},Y_{e})& =P(c,e)-P(c)P(e) \\ &=P(c)P(e\mid c)-P(c)[P(c)P(e\mid c)+P(\bar{c})P(e\mid C\backslash c)] \\ &=P(e\mid c)P(c)[1-P(c)]+P(c)P(C\backslash c)P(e\mid C\backslash c) \\ &=P(e\mid c)P(c)P(C\backslash c)]+P(c)P(C\backslash c)P(e\mid C\backslash c) \\ &=P(c)P(C\backslash c)[P(e\mid c)-P(e\mid C\backslash c)]) \end{aligned} }[/math]

我们利用了这样一个事实:[math]\displaystyle{ P(e\mid c) }[/math]可以分解为两个加权和,即[math]\displaystyle{ c }[/math][math]\displaystyle{ C\c }[/math]。按照其他人的命名法[4],我们将其称为因果强度的“高尔顿测度(Galton measure)”,因为它与生物学中性状遗传的形式非常相似,也是统计协方差的一种形式,最后得到David Hume的恒常连结形式化公式:

[math]\displaystyle{ CS_{Galton}(e,c)=P(c)P(C\backslash c)[P(e\mid c)-P(e\mid C\backslash c)] }[/math]

因果基元的形式化

当我们讨论因果关系时,不应该简单地认为它只是一个简单的原因导致结果的关系。实际上,这种关系可以从两个不同的角度来看:一个是充分性,另一个是必要性。充分性是指一个原因是否总是能导致一个特定的结果,而必要性是指为了得到这个结果,是否需要这个特定的原因。我们可以把这两个概念看作是理解因果关系的基本元素,称为因果基元。在更广泛的意义上,充分性和必要性分别反映了因果关系之间的确定性和简并性。

1.充分性:这里指的是原因[math]\displaystyle{ c }[/math]对产生结果[math]\displaystyle{ e }[/math]的充分程度。如果每当原因[math]\displaystyle{ c }[/math]发生时,结果[math]\displaystyle{ e }[/math]总是随之发生,那么我们可以说[math]\displaystyle{ c }[/math]是产生[math]\displaystyle{ e }[/math]的充分条件。换句话说,[math]\displaystyle{ c }[/math]的存在足以确保[math]\displaystyle{ e }[/math]的发生。充分性用表示公式为

[math]\displaystyle{ suff (e, c) = P (e | c) }[/math]

2.必要性:这里指指原因[math]\displaystyle{ c }[/math]对产生结果[math]\displaystyle{ e }[/math]的必要性程度。如果只有通过[math]\displaystyle{ c }[/math]才能产生[math]\displaystyle{ e }[/math],那么[math]\displaystyle{ c }[/math]是产生[math]\displaystyle{ e }[/math]的必要条件。这意味着没有[math]\displaystyle{ c }[/math][math]\displaystyle{ e }[/math]就不会发生。必要性用表示公式为

[math]\displaystyle{ nec(e, c) = 1 – P (e | C\c) }[/math]

3.确定性:如果原因只有一个结果,即[math]\displaystyle{ P=1 }[/math],则该熵项为零;如果原因具有完全随机的结果,则熵最大,即[math]\displaystyle{ log_2n }[/math],其中[math]\displaystyle{ n }[/math]为所有可能结果的数量,用[math]\displaystyle{ H (e | c) }[/math]表示原因导致结果的概率分布的熵,用公式表示为

[math]\displaystyle{ \begin{aligned}H(e\mid c)=\sum_{e\in E}P(e\mid c)\log_2\frac{1}{P(e\mid c)}\end{aligned} }[/math]

因此,我们将原因[math]\displaystyle{ c }[/math]的确定性定义为[math]\displaystyle{ log_2n - H (e | c) }[/math]。我们将它做归一化处理,可以创建一个确定性系数[math]\displaystyle{ det }[/math],对于给定的原因,该系数的范围与充分性一样,在 0(完全随机)和 1(完全确定性)之间,公式为

[math]\displaystyle{ det(c)=1-\frac{H(e\mid c)}{\log_2n} }[/math]

通过这个公式,我们可以定义一个单个因果转换的确定性系数

[math]\displaystyle{ det(e,c)=1-\frac{\log_2\frac{1}{P(e|c)}}{\log_2n} }[/math]

以及系统级确定性系数

[math]\displaystyle{ det=\sum\limits_{c\in C}P(c) det(c)=\sum\limits_{e\in E, c\in C}P(e,c) det(e,c)=1-\frac{\sum\limits_{c\in C}P(c) H(e\mid c)}{\log_2n} }[/math]

4.简并性:简并性是必要性的一种推广,如果所有可能的结果都有相同的概率,即没有任何一个结果比其他结果更有可能,那么简并性为零。如果某些特定的结果由更多的原因引起,那么这些特定的结果就更有可能发生,从而导致简并性增加。简并性的量化可以用一组原因[math]\displaystyle{ C }[/math]导致[math]\displaystyle{ e }[/math]发生的条件概率的熵来衡量,公式为

[math]\displaystyle{ \begin{aligned}H(e\mid C)=\sum_{e\in E}P(e\mid C)\log_2\frac{1}{P(e\mid C)}\end{aligned} }[/math]

通过这个公式,我们可以定义一个单个因果效应的简并性系数

[math]\displaystyle{ deg(e)=1-\frac{\log_2\frac{1}{P(e|C)}}{\log_2n} }[/math]

以及系统级简并性系数

[math]\displaystyle{ deg=\sum_{e\in E}P(e\mid c) deg(e)=1-\frac{H(e\mid C)}{\log_{2}n} }[/math]

因果度量方法中的因果基元

各种因果度量方法及其形式化公式
序号 名称 形式化公式及其与因果基元的关系 备注
1 David Hume的恒常连结 [math]\displaystyle{ CS_{Galton}(e,c)=P(c)P(C\backslash c)[P(e\mid c)-P(e\mid C\backslash c)]=P(c)P(C\backslash c)[suff(e,c)+nec(e,c)-1] }[/math]
2 Eells 的因果关系度量是概率提升 [math]\displaystyle{ CS_{Eells}=P(e\mid c)-P(e\mid C\backslash c)=suff(e,c)+nec(e,c)-1 }[/math]
3 Suppes将因果关系度量为概率提升 [math]\displaystyle{ CS_{Suppes}(c,e)=P(e\mid c)-P(e\mid C)=suff(e,c)-nec^{\dagger}(e) }[/math]
4 程氏的因果归因 [math]\displaystyle{ CS_{Cheng}(c,e)=\frac{P(e\mid c)-P(e\mid C\backslash c)}{1-P(e\mid C\backslash c)}=\frac{suff(e,c)+nec(e,c)-1}{nec(e,c)} }[/math]
5 Lewis的反事实因果理论 [math]\displaystyle{ CS_{Lewis}(c,e)=\frac{P(e\mid c)-P(e\mid C\backslash c)}{P(e\mid c)}=\frac{suff(e,c)+nec(e,c)-1}{suff(e,c)} }[/math]
6 Judea Pearl的因果关系测量方法 [math]\displaystyle{ \mathrm{PNS}=P(e\mid c)-P(e\mid C\backslash c)=suff(e,c)+nec(e,c)-1 }[/math]

[math]\displaystyle{ \mathrm{PN}=\frac{P(e\mid c)-P(e\mid C\backslash c)}{P(e\mid c)}=\frac{suff(e,c)+nec(e,c)-1}{suff(e,c)} }[/math]

[math]\displaystyle{ \mathrm{PS}=\frac{P(e\mid c)-P(e\mid C\backslash c)}{1-P(e\mid C\backslash c)}=\frac{suff(e,c)+nec(e,c)-1}{nec(e,c)} }[/math]

PNS对应关联层级,等价于[math]\displaystyle{ CS_{Eells} }[/math]PN对应干预层级,等价于[math]\displaystyle{ CS_{Lewis} }[/math]

PS对应反事实层级,等价于[math]\displaystyle{ CS_{cheng} }[/math]

7 最接近的可能世界因果关系 [math]\displaystyle{ CS_{Lewis CPW}=\frac{P(e\mid c)-P(e\mid\bar{c}_{CPW})}{P(e\mid c)} }[/math] 其中[math]\displaystyle{ \bar{c}_{CPW}=\min_{c'}D_H(c,c') }[/math]

[math]\displaystyle{ D_H(c,c') }[/math][math]\displaystyle{ c }[/math][math]\displaystyle{ c' }[/math]之间的汉明距离

8 位翻转措施 [math]\displaystyle{ CS_{bit-flip}(e,c)=\frac{1}{N}\sum_{i}^{N}\sum_{e^{\prime}\in E}P(e^{\prime}\mid c_{[i]})D_{H}(e,e^{\prime}) }[/math] 其中[math]\displaystyle{ c_{[i]} }[/math]对应于第[math]\displaystyle{ i^{th} }[/math]位被翻转的状态,

(例如,如果 c = 000,则 c[3] = 001),

[math]\displaystyle{ D_H(e,e') }[/math][math]\displaystyle{ e }[/math][math]\displaystyle{ e' }[/math]之间的汉明距离

9 实际因果关系和结果信息 [math]\displaystyle{ ei(c,e)=\log_2\frac{P(e\mid c)}{P(e\mid C)}=\log_2n[det(e,c)-deg(c)] }[/math]
10 有效信息(EI) [math]\displaystyle{ EI=\sum_{e\in E,c\in C}P(e,c)ei(c,e)=\log_{2}n[det-deg] }[/math]

因果基元对因果度量的敏感性

二元模型的因果度量中存在因果涌现

  1. David Hume. An Enquiry concerning Human Understanding. 1748.
  2. Phyllis Illari and Federica Russo. Causality: Philosophical Theory meets Scientific Practice. Oxford University Press, Oxford, New York, December 2014.
  3. Judea Pearl. Causality. Cambridge University Press, Cambridge, 2 edition, 2009.
  4. Branden Fitelson and Christopher Hitchcock. Probabilistic Measures of Causal Strength. Causality in the Sciences, January 2010.