其它因果度量上的因果涌现
不同领域的科学家在选择因果度量方法时可能存在主观偏好,对是否存在因果关系的判定存在主观性。但这些因果度量方法在许多条件下表现却非常相似,对相同的基本属性也非常敏感,并数学上存在相似性或一致性,这些相同的基本属性可以称作 “因果基元”。“因果基元”的敏感性和它所捕捉到的不确定性导致了因果度量中普遍存在因果涌现。
历史渊源
John Locke在他1690年发表的著作《人类理解论》中首次正式提出了因和果的概念:把产生观念的事物叫做原因,把所产生的东西叫做结果。
David Hume进一步发展了这个概念,提出因果不是事实之间的概念,而是经验之间的习惯性联想。他强调判断因果关系的三条准则:空间邻近性、时间连续性、恒常连结性。
20世纪70年代David Lewis推广了David Hume对因果关系的定义,提出了判断因果关系的反事实推理法:“如果原因发生了,结果就会发生;如果原因不发生,结果就不会发生。”
Ellery Eells和Patrick Suppes等人从概率论的角度给出了因果关系的定义,原因c成为结果e的原因的一个条件是,在c存在的情况下e的概率必须高于在c不存在的情况下e的概率。
20世纪末Judea Pearl基于概率论和反事实的概念提出了结构因果模型和潜在结果模型,将因果关系划分为关联、干预、反事实三个层级,使得因果推理更加精确和实用。
21世纪初Giulio Tononi 和 Olaf Sporns 提出有效信息 (EI)的概念,它可以用来衡量一个马尔科夫动力学的因果效应强度。
2022年Eric hoel发表的一篇论文中总结了各类因果度量方法中存在的相同基本属性,发现在大多数因果度量方法中都存在因果涌现。
因果关系和因果基元的形式化
1.因果关系的形式化
在一个给定的空间Ω,即所有可能发生的情况的集合,在这个空间中,事件的单个原因记作[math]\displaystyle{ c }[/math],单个结果记作[math]\displaystyle{ e }[/math],,一组原因记作[math]\displaystyle{ C }[/math] ,一组结果记作[math]\displaystyle{ E }[/math],其中假定[math]\displaystyle{ c }[/math]在[math]\displaystyle{ e }[/math]之前,并满足[math]\displaystyle{ c∈Ω 、 e∈Ω 、C ⊆ Ω 、 E ⊆ Ω }[/math] 。为了衡量因果关系,把没有发生[math]\displaystyle{ c }[/math]的情况下获得[math]\displaystyle{ e }[/math]的概率写成[math]\displaystyle{ P (e|C\c) }[/math],其中[math]\displaystyle{ P }[/math]代表概率,[math]\displaystyle{ C\c }[/math]代表[math]\displaystyle{ c }[/math]的补集,指的是在[math]\displaystyle{ C }[/math]中的任何原因都可能产生[math]\displaystyle{ e }[/math]的情况下,除了[math]\displaystyle{ c }[/math]之外,[math]\displaystyle{ e }[/math]的概率,用公式表示为
[math]\displaystyle{ P(e\mid C)=\sum_{c\in C}P(c)P(e\mid c) }[/math]
2.因果基元的形式化
当我们讨论因果关系时,不应该简单地认为它只是一个简单的原因导致结果的关系。实际上,这种关系可以从两个不同的角度来看:一个是充分性,另一个是必要性。充分性是指一个原因是否总是能导致一个特定的结果,而必要性是指为了得到这个结果,是否需要这个特定的原因。我们可以把这两个概念看作是理解因果关系的基本元素,称为因果基元。在更广泛的意义上,充分性和必要性分别反映了因果关系之间的确定性和简并性。
1.充分性:这里指的是原因[math]\displaystyle{ c }[/math]对产生结果[math]\displaystyle{ e }[/math]的充分程度。如果每当原因[math]\displaystyle{ c }[/math]发生时,结果[math]\displaystyle{ e }[/math]总是随之发生,那么我们可以说[math]\displaystyle{ c }[/math]是产生[math]\displaystyle{ e }[/math]的充分条件。换句话说,[math]\displaystyle{ c }[/math]的存在足以确保[math]\displaystyle{ e }[/math]的发生。充分性用表示公式为
[math]\displaystyle{ suff (e, c) = P (e | c) }[/math]
2.必要性:这里指指原因[math]\displaystyle{ c }[/math]对产生结果[math]\displaystyle{ e }[/math]的必要性程度。如果只有通过[math]\displaystyle{ c }[/math]才能产生[math]\displaystyle{ e }[/math],那么[math]\displaystyle{ c }[/math]是产生[math]\displaystyle{ e }[/math]的必要条件。这意味着没有[math]\displaystyle{ c }[/math],[math]\displaystyle{ e }[/math]就不会发生。必要性用表示公式为
[math]\displaystyle{ nec(e, c) = 1 – P (e | C\c) }[/math]
3.确定性:如果原因只有一个结果,即[math]\displaystyle{ P=1 }[/math],则该熵项为零;如果原因具有完全随机的结果,则熵最大,即[math]\displaystyle{ log_2n }[/math],其中[math]\displaystyle{ n }[/math]为所有可能结果的数量,用[math]\displaystyle{ H (e | c) }[/math]表示原因导致结果的概率分布的熵,用公式表示为
[math]\displaystyle{ \begin{aligned}H(e\mid c)=\sum_{e\in E}P(e\mid c)\log_2\frac{1}{P(e\mid c)}\end{aligned} }[/math]
因此,我们将原因[math]\displaystyle{ c }[/math]的确定性定义为[math]\displaystyle{ log_2n - H (e | c) }[/math]。我们将它做归一化处理,可以创建一个确定性系数[math]\displaystyle{ det }[/math],对于给定的原因,该系数的范围与充分性一样,在 0(完全随机)和 1(完全确定性)之间,公式为
[math]\displaystyle{ det(c)=1-\frac{H(e\mid c)}{\log_2n} }[/math]
通过这个公式,我们可以定义一个单个因果转换的确定性系数
[math]\displaystyle{ det(e,c)=1-\frac{\log_2\frac{1}{P(e|c)}}{\log_2n} }[/math]
以及系统级确定性系数
[math]\displaystyle{ det=\sum\limits_{c\in C}P(c) det(c)=\sum\limits_{e\in E, c\in C}P(e,c) det(e,c)=1-\frac{\sum\limits_{c\in C}P(c) H(e\mid c)}{\log_2n} }[/math]
4.简并性:简并性是必要性的一种推广,如果所有可能的结果都有相同的概率,即没有任何一个结果比其他结果更有可能,那么简并性为零。如果某些特定的结果由更多的原因引起,那么这些特定的结果就更有可能发生,从而导致简并性增加。简并性的量化可以用一组原因[math]\displaystyle{ C }[/math]导致[math]\displaystyle{ e }[/math]发生的条件概率的熵来衡量,公式为
[math]\displaystyle{ \begin{aligned}H(e\mid C)=\sum_{e\in E}P(e\mid C)\log_2\frac{1}{P(e\mid C)}\end{aligned} }[/math]
通过这个公式,我们可以定义一个单个因果效应的简并性系数
[math]\displaystyle{ deg(e)=1-\frac{\log_2\frac{1}{P(e|C)}}{\log_2n} }[/math]
以及系统级简并性系数
[math]\displaystyle{ deg=\sum_{e\in E}P(e\mid c) deg(e)=1-\frac{H(e\mid C)}{\log_{2}n} }[/math]
因果度量方法中的因果基元
序号 | 名称 | 形式化公式及其与因果基元的关系 | 备注 |
---|---|---|---|
1 | David Hume的恒常连结 | [math]\displaystyle{ CS_{Galton}(e,c)=P(c)P(C\backslash c)[P(e\mid c)-P(e\mid C\backslash c)]=P(c)P(C\backslash c)[suff(e,c)+nec(e,c)-1] }[/math] | |
2 | Eells 的因果关系度量是概率提升 | [math]\displaystyle{ CS_{Eells}=P(e\mid c)-P(e\mid C\backslash c)=suff(e,c)+nec(e,c)-1 }[/math] | |
3 | Suppes将因果关系度量为概率提升 | [math]\displaystyle{ CS_{Suppes}(c,e)=P(e\mid c)-P(e\mid C)=suff(e,c)-nec^{\dagger}(e) }[/math] | |
4 | 程氏的因果归因 | [math]\displaystyle{ CS_{Cheng}(c,e)=\frac{P(e\mid c)-P(e\mid C\backslash c)}{1-P(e\mid C\backslash c)}=\frac{suff(e,c)+nec(e,c)-1}{nec(e,c)} }[/math] | |
5 | Lewis的反事实因果理论 | [math]\displaystyle{ CS_{Lewis}(c,e)=\frac{P(e\mid c)-P(e\mid C\backslash c)}{P(e\mid c)}=\frac{suff(e,c)+nec(e,c)-1}{suff(e,c)} }[/math] | |
6 | Judea Pearl的因果关系测量方法 | [math]\displaystyle{ \mathrm{PNS}=P(e\mid c)-P(e\mid C\backslash c)=suff(e,c)+nec(e,c)-1 }[/math],
[math]\displaystyle{ \mathrm{PN}=\frac{P(e\mid c)-P(e\mid C\backslash c)}{P(e\mid c)}=\frac{suff(e,c)+nec(e,c)-1}{suff(e,c)} }[/math], [math]\displaystyle{ \mathrm{PS}=\frac{P(e\mid c)-P(e\mid C\backslash c)}{1-P(e\mid C\backslash c)}=\frac{suff(e,c)+nec(e,c)-1}{nec(e,c)} }[/math] |
PNS对应关联层级,等价于[math]\displaystyle{ CS_{Eells} }[/math]
PN对应干预层级,等价于[math]\displaystyle{ CS_{Lewis} }[/math] PS对应反事实层级,等价于[math]\displaystyle{ CS_{cheng} }[/math] |
7 | 最接近的可能世界因果关系 | [math]\displaystyle{ CS_{Lewis CPW}=\frac{P(e\mid c)-P(e\mid\bar{c}_{CPW})}{P(e\mid c)} }[/math] | 其中[math]\displaystyle{ \bar{c}_{CPW}=\min_{c'}D_H(c,c') }[/math] ,
[math]\displaystyle{ D_H(c,c') }[/math]为[math]\displaystyle{ c }[/math]和[math]\displaystyle{ c' }[/math]之间的汉明距离 |
8 | 位翻转措施 | [math]\displaystyle{ CS_{bit-flip}(e,c)=\frac{1}{N}\sum_{i}^{N}\sum_{e^{\prime}\in E}P(e^{\prime}\mid c_{[i]})D_{H}(e,e^{\prime}) }[/math] | 其中[math]\displaystyle{ c_{[i]} }[/math]对应于第[math]\displaystyle{ i^{th} }[/math]位被翻转的状态,
(例如,如果 c = 000,则 c[3] = 001), [math]\displaystyle{ D_H(e,e') }[/math]为[math]\displaystyle{ e }[/math]和[math]\displaystyle{ e' }[/math]之间的汉明距离 |
9 | 实际因果关系和结果信息 | [math]\displaystyle{ ei(c,e)=\log_2\frac{P(e\mid c)}{P(e\mid C)}=\log_2n[det(e,c)-deg(c)] }[/math] | |
10 | 有效信息(EI) | [math]\displaystyle{ EI=\sum_{e\in E,c\in C}P(e,c)ei(c,e)=\log_{2}n[det-deg] }[/math] |