基于有效信息的因果涌现理论
基于有效信息的因果涌现理论是因果涌现领域最早提出的一种用于定量刻画因果涌现强度的方法。该方法由Erik Hoel等人提出,其基本方法是将微观系统进行粗粒化后使用一种因果效应度量指标有效信息(EI)来量化一个马尔科夫动力学的因果性强弱。
起源
2013年,Erik Hoel首次使用“有效信息”指标定量刻画涌现,并提出了因果涌现理论。
2016年,针对多时空尺度的系统提出新的Umax因果效能度量指标
2017年,因果容量与信息通道:将有效信息与信息论中经典概念香农的信道容量进行类比。
2021年,提出因果几何框架,将有效信息概念从离散马尔可夫动力系统拓展至连续系统,
主要理论
马尔科夫动力系统
最初,基于有效信息的因果涌现理论是基于离散状态的马尔科夫动力学,即马尔科夫链展开定量化描述的。
马尔科夫链是指一种状态离散、时间离散的平稳随机过程,描述的是一组随机变量[math]X_t[/math]在状态空间[math]\mathcal{X}=\{1,2,\cdots,N\}[/math]上的取值,其中[math]t[/math]通常表示时间。其动力学一般可以用转移概率矩阵描述(Transitional Probability Matrix),简称TPM。该矩阵是一个概率矩阵,其中第[math]i[/math]行,第[math]j[/math]列元素[math]p_{ij}[/math],表示任意时刻[math]t[/math],系统在[math]i[/math]状态的条件下,下一时刻转移到[math]j[/math]状态的概率。因此,转移概率矩阵每一行均满足归一化条件:
[math]\displaystyle{ \sum_{j=1}^Np_{ij}=1, }[/math]
任意时刻[math]t+1[/math]上的状态概率分布,即[math]Pr(X_{t+1})[/math],可以被上一时刻的状态概率分布,即[math]Pr(X_t)[/math]和状态转移矩阵唯一确定,即满足:
[math]\displaystyle{ Pr(X_{t+1}=j)=\sum_{i=1}^N p_{ij}\cdot Pr(X_t=i), }[/math]
这里的[math]i,j\in \mathcal{X}[/math],是[math]\mathcal{X}[/math]中的任意状态,且[math]N=\#(\mathcal{X})[/math],即[math]\mathcal{X}[/math]中的总状态数。
量化方法
有效信息
do操作
因果涌现度量
有效信息(EI)指标主要用来度量马尔科夫动力学的因果效应强度。与一般的因果推断理论不同,EI主要用于动力学(马尔科夫的转移概率矩阵)已知,且不存在未知变量即混杂因子的情况。其核心目标是度量因果关联强度,而并非是否存在因果效应。也就是说,EI更适用于已经确知了因果变量X和Y之间存在着因果联系的场合。
更正式地,EI是因果机制(在离散状态的马尔科夫链中,是这个马尔科夫链的概率转移矩阵)的函数,而与其它因素无关。EI的正式定义为:
[math]\displaystyle{ EI(P)\equiv I(Y;X|do(X\sim U)) }[/math]
这里,P代表X到Y的因果机制,它是一个概率转移矩阵,即[math]p_{ij}\equiv Pr(Y=j|X=i)[/math];X是因变量,Y是果变量,[math]do(X\sim U)[/math]表示对因变量X进行do干预,将X的分布变为均匀分布。在这一干预下,同时假设X到Y的因果机制P保持不变,那么,Y就会间接地受到X的do干预的影响而发生变化。则EI度量的是经过干预后的X和Y之间的互信息。
之所以引入do操作,目的是为了消除数据X的分布对EI的影响,以使得最后的EI度量仅仅是因果机制f的函数,而与数据X无关。
这里,[math]do(X\sim U(\mathcal{X}))[/math]代表对[math]X[/math]实施do干预(或称do操作,英文是do-operator),使其服从[math]\mathcal{X}[/math]上的均匀分布[math]U(\mathcal{X})[/math],也即是最大熵分布。[math]\tilde{X}[/math]与[math]\tilde{Y}[/math]分别代表在经过[math]do[/math]干预后的[math]X[/math]和[math]Y[/math]变量,其中,
下面,给出三个马尔科夫链的例子,以及相应的EI数值也放到了下面:
[math]\displaystyle{ P_1=\begin{pmatrix} &0 &0 &1 &0& \\ &1 &0 &0 &0& \\ &0 &0 &0 &1& \\ &0 &1 &0 &0& \\ \end{pmatrix} }[/math], |
[math]\displaystyle{ P_2=\begin{pmatrix} &1/3 &1/3 &1/3 &0& \\ &1/3 &1/3 &1/3 &0& \\ &1/3 &1/3 &1/3 &0& \\ &0 &0 &0 &1& \\ \end{pmatrix} }[/math], |
[math]\displaystyle{ P_3=\begin{pmatrix} &0 &0 &1 &0& \\ &1 &0 &0 &0& \\ &1 &0 &0 &0& \\ &1 &0 &0 &0& \\ \end{pmatrix} }[/math]. |
[math]\begin{aligned}&EI(P_1)=2\ bits,\\&Det(P_1)=2\ bits,\\&Deg(P_1)=0\ bits\end{aligned}[/math] | [math]\begin{aligned}&EI(P_2)=0.81\ bits,\\&Det(P_2)=0.81\ bits,\\&Deg(P_2)=0\ bits\end{aligned}[/math] | [math]\begin{aligned}&EI(P_3)=0.81\ bits\\&Det(P_3)=2\ bits,\\&Deg(P_3)=1.19\ bits.\end{aligned}[/math] |
-
(example)
我们可以看到,第一个矩阵[math]P_1[/math]的EI比第二个[math]P_2[/math]的高,这是因为这一概率转移是一个完全确定性的转移,也就是从某一个状态出发,它会以100%的概率转移到另外某一个状态。然而,并不是所有的确定性转移的矩阵都会对应较大的EI,比如[math]P_3[/math]这个矩阵,虽然它的转移概率也都是100%或0,但是因为所有后面三种状态都会转移到第1个状态,因此我们将无法区分它上一时刻是处于何种状态的。这种情况下它的EI也会比较低,我们称这种情况存在着简并性。于是,如果一个转移矩阵具有较高的确定性和较低的简并性,则它的EI就会很高。进一步,存在如下对EI的分解:
[math]\displaystyle{ EI=Det-Deg }[/math]
这里,Det是对确定性(Determinism)的缩写,而Deg是对简并性(Degeneracy)的缩写,EI是二者之差。在上面的表格中,我们将矩阵所对应的Det和Deg数值也都列在了下面。
第一个转移概率矩阵是一个排列矩阵(Permutation),它是可逆的,因此确定性最高,没有简并性,因而EI最大;第二个矩阵的前三个状态都会以1/3的概率跳转到彼此,因此确定性程度最低,而简并性也很低,EI是0.81;第三个矩阵虽然也是非0即1的转移概率,因而确定性最高,但是由于后三个状态都跳转到1,因此,从1状态不能推知它来自于哪个状态,因此简并性最高,最终的EI与第二个相同,仍然是0.81。
尽管在原始文献中[1],有效信息大多应用于离散状态的马尔科夫链,但是,张江、刘凯威、杨明哲等人将EI的定义扩展到了更一般的连续变量的情形[2][3][4]。这一扩充的基本思想是从EI的原始定义出发,将因变量x干预为一个足够大的有界区间,即[math][-\frac{L}{2},\frac{L}{2}]^n[/math]上的均匀分布,然后再假设因果机制为一种满足高斯分布的条件概率,其均值为确定值映射[math]f(x)[/math],协方差矩阵为[math]\Sigma[/math],从而在此基础上,再度量因果变量之间的有效信息。这里的因果机制是由映射[math]f(x)[/math]和协方差矩阵共同决定的,也就是条件概率[math]Pr(y|x)[/math]来决定的。
下面,我们将进行更详细地讲解。
因此,所谓一个因果机制[math]f[/math]的有效信息EI,就是被干预后的因变量[math]\tilde{X}[/math]和果变量[math]\tilde{Y}[/math]之间的互信息。
粗粒化映射
微观元素状态集[math]S_m[/math]通过[math]M: S_m \rightarrow S_M[/math]映射构成宏观元素状态集[math]S_M[/math],映射方法可以针对微观元素的空间或(和)时间维度。空间映射的对象是不同微观元素状态,时间映射针对的是同一微观元素不同时间步的状态。
例如,两个微观布尔元素有四种状态[math]S_m = \{00,01,10,11\}[/math],按照[math]M:[[00,01,10] = off, [11] = on][/math]的映射规则,可以得到宏观尺度一个元素的两种状态,即[math]S_M = \{on, off\}[/math]。
具体要求:粗粒化映射对微观元素而言,必须是穷尽(exhaustive)和互斥的(disjunctive),即一个微观元素的所有状态必须映射到同一个宏观元素的各种状态。粗粒化映射会带来系统的状态空间减小,但也允许宏观元素可以由单个微观元素组成。
状态空间的因果涌现
变量角度的因果涌现
下面从变量角度,分别给出了空间、时间和时空因果涌现的布尔网络实例,从系统机制、微观尺度分析、粗粒化映射和宏观尺度分析四个方面进行描述和分析。注:[math]S_m[/math]表明微观系统;[math]S_M[/math]表明粗粒化后的微观系统。微观元素是布尔值的且用拉丁字母[math]\{A, B, C…\}[/math]标记,宏观元素用希腊字母[math]\{α, β, γ. .\}[/math]标记。微观状态标记为[math]\{1,0\}[/math],宏观状态标记为{“on”,“bursting”,“quiet”…}。
空间因果涌现
空间因果涌现的产生,可能来自于粗粒化过程中不确定性减少,或者简并性抵消。
1.减少不确定性实例分析
系统机制:考虑一个由四个0或1元素组成的微观系统[math]S_m = \{ABCD\}[/math] (图A)。每个微观机制都是一个针对两个输入的带噪声的AND门。通过将系统以等概率设置为从[0000]到[1111]的所有可能的微观状态来构建16 × 16 [math]S_m[/math] 状态转移矩阵(图B)。
微观尺度:[math]S_m[/math]的有效信息[math]EI(S) = 1.15 \text{ bits}[/math](最大取值为[math]4 \text{ bits}[/math]),[math]Eff(S_m) = 0.29[/math]。
粗粒化映射:宏观尺度[math]S_M[/math](图D)由两个元素[math]{α, β}[/math]组成,每个元素都有状态{"on" ,"off"},是由图2C中的映射M定义的[math]S_m[/math]的粗粒化方法。通过将系统以等概率设置为从[off, off]到[on, on]的所有可能的宏观状态,可以得到4 × 4 的[math]S_M[/math] 状态转移矩阵(图2E)。
宏观尺度:宏观尺度下[math]EI(S_M) = 1.55 \text{ bits}[/math],高于微观尺度的[math]EI(S_m) = 1.15 \text{ bits}[/math]。因此,因果涌现[math]CE(S) = 0.40 \text{ bits}[/math],说明在这种情况下,宏观[math]S_M[/math]的因果性优于微观[math]S_m[/math],构成了系统的最优因果模型。这是因为[math]S_M[/math]的概率转移矩阵更接近于完美的有效性[[math]Eff(S_M) = 0.78[/math]],并且粗粒化映射过程中,有效性提升增加的信息量[math]\Delta I_{Eff} = 0.97 \text{ bits}[/math]超过了元素空间减小而损失的信息量[math]\Delta I_{Size} = - 0.57 \text{ bits}[/math]。本例中,在宏观尺度的有效性[math]\Delta I_{Eff}[/math]的增益(91%)主要来自于抵消噪声干扰[确定性系数:[math]S_m = 0.34[/math];[math]S_M = 0.78[/math]],少部分(9%)来源于简并性减少[简并系数:[math]S_m = 0.05[/math];[math]S_M = 0.006[/math]]。
注:以状态空间的角度比较[math]S_m[/math]和[math]S_M[/math],也可以得出宏观尺度的有效性更高。下图中,将[math]S_m[/math]状态{ABCD} =[0001]与相应[math]S_M[/math]状态{αβ} = [off, off]的因果分布进行对比。将[math]S_m =[0001][/math]的因果分布与无约束库(使用[math]D_{KL}[/math]散度)进行比较,得到[math]0.83 bits[/math]的原因信息和[math]0.43 \text{ bits}[/math]的结果信息。而对于宏观[math]S_M[/math],原因信息为[math]2 \text{ bits}[/math],结果信息为[math]1.35 \text{ bits}[/math]。因此,[math]{αβ} = [off, off][/math]比[math]{ABCD} =[0001][/math]更有选择性和可信度,宏观战胜了微观。
2.抵消简并性实例分析
系统机制:微观元素A-F是确定性AND门,连接方式对应了高简并度(图A,确定性为1;简并度为0.6)
微观尺度:[math]Eff(S_m) = 0.4[/math], [math]EI(S_m) = 2.43 \text{ bits}[/math](图C)。
粗粒化映射:最优宏观粗粒化分组映射为将6个微观AND门组合成3个宏观COPY门(αβγ)(图B)。
宏观尺度:该系统中宏观和微观都是完全确定性的,但简并性减小 [math]\Delta I_{Eff} = 1.79 \text{ bits}[/math]> - [math]\Delta I_{Size} = 1.22 \text{ bits}[/math]。所以宏观尺度下 [math]Eff(S_M) = 1[/math], [math]EI(S_M) = 3 \text{ bits}[/math],宏观因果涌现([math]CE = 0.57 \text{ bits}[/math])。
时间因果涌现
对时间进行微观状态分组也会有涌现现象发生,具体形式为:将微观时间步([math]t_x[/math]) 粗粒化为宏观时间步([math]T_x[/math])。下面对图中的时间因果涌现实例进行分析:
系统机制:所有微观元素接收到两个尖峰的输入“发放(burst)”时,会响应一个输出发放,即遵循二阶马尔可夫机制(图A)。
微观尺度:基于一个微观时间步分析(图B),可以得到 [[math]EI(S_m) = 0.16 \text{ bits}[/math];[math]Eff(S_m) = 0.03[/math]],因果相互作用较弱。由于系统是二阶机制,进而开展基于两个微观时间步的因果分析(图C),可以得到 [math]EI(S_m) = 1.38 \text{ bits}[/math],[math]Eff(S_m) = 0.34[/math]。
粗粒化映射:将微观状态在时间上分组为宏观状态[math]α = {A_t, A_{t+1}}[/math]和[math]β = {B_t, B_{t+1}}[/math](图D)。
宏观尺度:在宏观时间尺度下的 [math]EI(S_M) = 2 \text{ bits}[/math],[math]Eff(S_M) = 1[/math], [math]CE(S) = 0.62 \text{ bits}[/math],系统变得完全确定性和非简并 (图E, F)。
时空因果涌现
因果涌现还可以在空间、时间上同步发生,下面对图中实例进行具体分析:
系统机制:
- 元素机制:所有微观元素也遵循二阶马尔可夫机制,整合两个微时间步([math]t_{-2}[/math], [math]t_{-1}[/math]和[math]t_0[/math], [math]t_{+1}[/math])的输入,作出响应。所有微观元素自发活动(发放状态:0,1),具有非均匀的发放概率:[math]p(A/D/G) = 0.45[/math];[math]p(B/E/H) = 0.5[/math];[math]p(C/F/I) = 0.55[/math]。
- 组机制:所有元素被划分为三组[math]{ABC, DEF, GHI}[/math],在每组内,如果两个时间步内组内连接之和[math]\sum(intra) = 0[/math],接下来的两个时间步所有元素保持为0。然而,如果在两个时间步中,与另外两组中的组间连接之和[math]\sum(inter) = 6[/math],则在接下来的两个时间步中,发放概率提高0.5。
微观尺度:微观尺度下的系统具有 [[math]EI(S_m) = 0.59 \text{ bits}[/math]; [math]Eff(S_m) = 0.033[/math]]
粗粒化映射:在宏观尺度[math]S_M[/math],三组神经元分组为宏观成分,两个微观时间步长([math]t_x[/math])聚合为一个宏观时间步长([math]T_x[/math])(图B)。
宏观尺度:粗粒化后的系统具有更高的[math]EI(S_M) = 3.51 \text{ bits}[/math],和[math]Eff(S_M) = 0.74[/math]。时空因果涌现发生,[math]CE(S) = 2.92 \text{ bits}[/math],即粗粒化过后系统确定性的增加,增加程度远超简并性的增加与状态集的减小。
注:本例对应于真实神经元中,宏观成分可表示为有三种状态的“微柱”:“抑制态inhibited”(所有微柱神经元均在Tx时静默),“感受态receptive”(部分在Tx时放电)和“爆发态bursting”(所有均在Tx处放电)。相应地,宏观的因果相互作用可以总结为,如果其中一个宏观成分处于抑制态,那么只有接收到一次发放才能转换到接受态或(不太可能的)爆发态;否则,它将一直保持抑制态。
应用
复杂网络,生物系统
缺陷与争议
1.依赖粗粒化方法 2.实际适用性