基于有效信息的因果涌现理论

基于有效信息的因果涌现理论是该领域最早提出的一种用于定量刻画因果涌现强度的方法。该方法由Erik Hoel等人提出，其基本思想是将微观系统进行粗粒化后，使用一种因果效应度量指标有效信息来量化一个马尔科夫动力学的因果性强弱改变。如果粗粒化后的宏观系统的有效信息大于微观系统，那么就认为发生了因果涌现。

起源

2013年，Erik Hoel首次使用“有效信息”指标定量刻画涌现，并提出了因果涌现理论。

2016年，针对多时空尺度的系统提出新的Umax因果效能度量指标

2017年，因果容量与信息通道：将有效信息与信息论中经典概念香农的信道容量进行类比。

2021年，提出因果几何框架，将有效信息概念从离散马尔可夫动力系统拓展至连续系统，

主要理论

马尔科夫动力系统

最初，基于有效信息的因果涌现理论是基于离散状态的马尔科夫动力学，即马尔科夫链展开定量化描述的。

马尔科夫链是指一种状态离散、时间离散的平稳随机过程，描述的是一组随机变量[math]X_t[/math]在状态空间[math]\mathcal{X}=\{1,2,\cdots,N\}[/math]上的取值，其中[math]t[/math]通常表示时间。其动力学一般可以用转移概率矩阵描述(Transitional Probability Matrix)，简称TPM。该矩阵是一个概率矩阵，其中第[math]i[/math]行，第[math]j[/math]列元素[math]p_{ij}[/math]，表示任意时刻[math]t[/math]，系统在[math]i[/math]状态的条件下，下一时刻转移到[math]j[/math]状态的概率。因此，转移概率矩阵每一行均满足归一化条件：

[math]\displaystyle{ \sum_{j=1}^Np_{ij}=1, }[/math]

任意时刻[math]t+1[/math]上的状态概率分布，即[math]Pr(X_{t+1})[/math]，可以被上一时刻的状态概率分布[math]Pr(X_t)[/math]和状态转移矩阵唯一确定，即满足：

[math]\displaystyle{ Pr(X_{t+1}=j)=\sum_{i=1}^N p_{ij}\cdot Pr(X_t=i), }[/math]

这里的[math]i,j\in \mathcal{X}[/math]，是[math]\mathcal{X}[/math]中的任意状态，且[math]N=\#(\mathcal{X})[/math]，即[math]\mathcal{X}[/math]中的总状态数。

量化方法

下面将引入有效信息这一关键指标，介绍如何基于该指标量化马尔科夫动力系统的因果效应。

有效信息

有效信息（Effective Information，简称EI）是因果涌现理论中的一个核心概念，它可以用来度量一个马尔科夫动力学的因果效应强度。

EI定义

首先，我们先定义一般情况下的有效信息。因果效应度量的是系统动力学机制的有效性，即在给定动力学的情况下，因、果变量状态分布之间的关联程度（其中不能有混淆变量干扰）。由此可见，EI核心目标并非衡量是否存在因果效应，而是关注效应的强度，且更适用于已经明确存在因果关联的场合。更正式地，EI是因果机制的函数，而与其它因素无关，定义如下：

[math]\displaystyle{ EI(P)\equiv I(Y;X|do(X\sim U)) }[/math]

这里，[math]X[/math]是因变量，[math]Y[/math]是果变量，[math]P[/math]表示[math]X[/math]到[math]Y[/math]的因果机制。当[math]X, Y[/math]均为离散状态分布的情境下，[math]P[/math]为概率转移矩阵，[math]p_{ij}\equiv Pr(Y=j|X=i)[/math]。[math]do(X\sim U(\mathcal{X}))[/math]代表对[math]X[/math]实施do干预(或称do操作，英文是do-operator），使其服从[math]\mathcal{X}[/math]上的均匀分布[math]U(\mathcal{X})[/math]，也即是最大熵分布。在这一干预下，因果机制P保持不变。EI指标度量的是经过do干预后的因变量X与果变量Y之间的互信息。

do干预这一步是根据Judea Pearl的因果阶梯理论^[1]提出的。该理论中，因果推断包含了三个层次，分别是：关联、干预和反事实。阶梯层级越高，因果特征越明显。在EI的定义中引入了[math]do[/math]操作上升到干预层级，即设定变量为某个值或服从某个分布，使得EI能够比直接计算互信息更能体现因果特征。从实际意义上来讲，在EI的计算中引入do操作，可以把数据和动力学分开，消除数据分布（即[math]X[/math]的分布）对EI度量所带来的影响，均匀分布也避免了对数据分布的“偏见”。从因果图角度来看，do操作可以消除EI中的所有指向因变量[math]X[/math]的因果箭头，包括其它变量（包括不可观测的变量）对[math]X[/math]的影响，从而使得EI更能够刻画动力学本身的特性。

马尔科夫动力系统EI

回到离散状态的马尔科夫链中，任意时刻的状态变量[math]X_t[/math]可以看作是原因，而下一时刻的状态变量[math]X_{t+1}[/math]就可以看作是结果，马尔科夫链的状态转移矩阵就是它的因果机制。因此，马尔科夫链的有效信息定义如下：

[math]\displaystyle{ \begin{aligned} EI &= I(X_t,X_{t+1}|do(X_t\sim U(\mathcal{X})))=I(\tilde{X}_t,\tilde{X}_{t+1}) \\ &= \sum^N_{i=1}\sum^N_{j=1}Pr(\tilde{X}_t=i,\tilde{X}_{t+1}=j)\log \frac{Pr(\tilde{X}_t=i,\tilde{X}_{t+1}=j)}{Pr(\tilde{X}_t=i)Pr(\tilde{X}_{t+1}=j)}\\ &= \sum^N_{i=1}Pr(\tilde{X}_t=i)\sum^N_{j=1}Pr(\tilde{X}_{t+1}=j|\tilde{X}_t=i)\log \frac{Pr(\tilde{X}_{t+1}=j|\tilde{X}_t=i)}{Pr(\tilde{X}_{t+1}=j)}\\ &= \frac{1}{N}\sum^N_{i=1}\sum^N_{j=1}p_{ij}\log\frac{N\cdot p_{ij}}{\sum_{k=1}^N p_{kj}} \end{aligned} }[/math]

同理，其中[math]\displaystyle{ \tilde{X}_t,\tilde{X}_{t+1} }[/math]分别为把[math]X_t[/math]干预为均匀分布后，[math]t[/math]时刻与下一时刻的状态。[math]\displaystyle{ p_{ij} }[/math]为第i个状态转移到第j个状态的转移概率，N为总状态数。从这个式子，不难看出，EI仅仅是概率转移矩阵[math]P[/math]的函数。

进一步，为方便计算，我们也可以将转移概率矩阵[math]P[/math]写成[math]N[/math]个行向量拼接而成的形式，即：

[math]\displaystyle{ P=(P_1^T,P_2^T,\cdots,P_N^T)^T }[/math]

其中，[math]P_i[/math]矩阵[math]P[/math]的第[math]i[/math]个行向量，且满足条件概率的归一化条件：[math]||P_i||_1=1[/math]，这里的[math]||\cdot||_1[/math]表示向量的1范数。那么EI可以写成如下的形式：

[math]\displaystyle{ \begin{aligned} EI &= \frac{1}{N}\sum^N_{i=1}\sum^N_{j=1}p_{ij}\log\frac{N\cdot p_{ij}}{\sum_{k=1}^N p_{kj}}\\ &=\frac{1}{N}\cdot \sum_{i=1}^N\left(P_i\cdot \log P_i - P_i\cdot\log \bar{P}\right)\\ &=\frac{1}{N}\sum_{i=1}^N D_{KL}(P_i||\bar{P}) \end{aligned} }[/math]

(2)

将矩阵每列求均值，可得到平均转移向量[math]\displaystyle{ \overline{P}=\sum_{k=1}^N P_k/N }[/math]。[math]D_{KL}[/math]便是两个分布的KL散度。因此，EI是转移矩阵每个行转移向量[math]P_i[/math]与平均转移向量[math]\bar{P}[/math]的KL散度的均值。

EI分解

计算实例

下面，给出三个马尔科夫链的例子，以及相应的EI数值也放到了下面：

马尔科夫链示例

[math]\displaystyle{ P_1=\begin{pmatrix} &0 &0 &1 &0& \\ &1 &0 &0 &0& \\ &0 &0 &0 &1& \\ &0 &1 &0 &0& \\ \end{pmatrix} }[/math],	[math]\displaystyle{ P_2=\begin{pmatrix} &1/3 &1/3 &1/3 &0& \\ &1/3 &1/3 &1/3 &0& \\ &1/3 &1/3 &1/3 &0& \\ &0 &0 &0 &1& \\ \end{pmatrix} }[/math],	[math]\displaystyle{ P_3=\begin{pmatrix} &0 &0 &1 &0& \\ &1 &0 &0 &0& \\ &1 &0 &0 &0& \\ &1 &0 &0 &0& \\ \end{pmatrix} }[/math].
[math]\begin{aligned}&EI(P_1)=2\ bits,\\&Det(P_1)=2\ bits,\\&Deg(P_1)=0\ bits\end{aligned}[/math]	[math]\begin{aligned}&EI(P_2)=0.81\ bits,\\&Det(P_2)=0.81\ bits,\\&Deg(P_2)=0\ bits\end{aligned}[/math]	[math]\begin{aligned}&EI(P_3)=0.81\ bits\\&Det(P_3)=2\ bits,\\&Deg(P_3)=1.19\ bits.\end{aligned}[/math]

(example)

我们可以看到，第一个矩阵[math]P_1[/math]的EI比第二个[math]P_2[/math]的高，这是因为这一概率转移是一个完全确定性的转移，也就是从某一个状态出发，它会以100%的概率转移到另外某一个状态。然而，并不是所有的确定性转移的矩阵都会对应较大的EI，比如[math]P_3[/math]这个矩阵，虽然它的转移概率也都是100%或0，但是因为所有后面三种状态都会转移到第1个状态，因此我们将无法区分它上一时刻是处于何种状态的。这种情况下它的EI也会比较低，我们称这种情况存在着简并性。于是，如果一个转移矩阵具有较高的确定性和较低的简并性，则它的EI就会很高。进一步，存在如下对EI的分解：

有效信息通常可以分解为两个部分：确定性（Determinism）和简并性（Degeneracy）。确定性是指，在动力学的作用下，我们根据系统前一时刻的状态会以多大程度预测它下一时刻状态；简并性是指：我们能够以多大程度从下一时刻的状态预测上一时刻的状态。如果确定性越大，或简并性越小，则系统的有效信息就会越大。

[math]\displaystyle{ EI=Det-Deg }[/math]

这里，Det是对确定性（Determinism）的缩写，而Deg是对简并性（Degeneracy）的缩写，EI是二者之差。在上面的表格中，我们将矩阵所对应的Det和Deg数值也都列在了下面。

第一个转移概率矩阵是一个排列矩阵（Permutation），它是可逆的，因此确定性最高，没有简并性，因而EI最大；第二个矩阵的前三个状态都会以1/3的概率跳转到彼此，因此确定性程度最低，而简并性也很低，EI是0.81；第三个矩阵虽然也是非0即1的转移概率，因而确定性最高，但是由于后三个状态都跳转到1，因此，从1状态不能推知它来自于哪个状态，因此简并性最高，最终的EI与第二个相同，仍然是0.81。

因果涌现度量

粗粒化映射

微观元素状态集[math]S_m[/math]通过[math]M: S_m \rightarrow S_M[/math]映射构成宏观元素状态集[math]S_M[/math]，映射方法可以针对微观元素的空间或（和）时间维度。空间映射的对象是不同微观元素状态，时间映射针对的是同一微观元素不同时间步的状态。

例如，两个微观布尔元素有四种状态[math]S_m = \{00,01,10,11\}[/math]，按照[math]M:[[00,01,10] = off, [11] = on][/math]的映射规则，可以得到宏观尺度一个元素的两种状态，即[math]S_M = \{on, off\}[/math]。

具体要求：粗粒化映射对微观元素而言，必须是穷尽(exhaustive)和互斥的(disjunctive)，即一个微观元素的所有状态必须映射到同一个宏观元素的各种状态。粗粒化映射会带来系统的状态空间减小，但也允许宏观元素可以由单个微观元素组成。

状态空间的因果涌现

变量角度的因果涌现

下面从变量角度，分别给出了空间、时间和时空因果涌现的布尔网络实例，从系统机制、微观尺度分析、粗粒化映射和宏观尺度分析四个方面进行描述和分析。注：[math]S_m[/math]表明微观系统；[math]S_M[/math]表明粗粒化后的微观系统。微观元素是布尔值的且用拉丁字母[math]\{A, B, C…\}[/math]标记，宏观元素用希腊字母[math]\{α， β， γ. .\}[/math]标记。微观状态标记为[math]\{1,0\}[/math]，宏观状态标记为{“on”，“bursting”，“quiet”…}。

空间因果涌现

空间因果涌现的产生，可能来自于粗粒化过程中不确定性减少，或者简并性抵消。

1.减少不确定性实例分析

系统机制：考虑一个由四个0或1元素组成的微观系统[math]S_m = \{ABCD\}[/math] (图A)。每个微观机制都是一个针对两个输入的带噪声的AND门。通过将系统以等概率设置为从[0000]到[1111]的所有可能的微观状态来构建16 × 16 [math]S_m[/math] 状态转移矩阵(图B)。

微观尺度：[math]S_m[/math]的有效信息[math]EI(S) = 1.15 \text{ bits}[/math](最大取值为[math]4 \text{ bits}[/math])，[math]Eff(S_m) = 0.29[/math]。

粗粒化映射：宏观尺度[math]S_M[/math](图D)由两个元素[math]{α, β}[/math]组成，每个元素都有状态{"on" ,"off"}，是由图2C中的映射M定义的[math]S_m[/math]的粗粒化方法。通过将系统以等概率设置为从[off, off]到[on, on]的所有可能的宏观状态，可以得到4 × 4 的[math]S_M[/math] 状态转移矩阵(图2E)。

宏观尺度：宏观尺度下[math]EI(S_M) = 1.55 \text{ bits}[/math]，高于微观尺度的[math]EI(S_m) = 1.15 \text{ bits}[/math]。因此，因果涌现[math]CE(S) = 0.40 \text{ bits}[/math]，说明在这种情况下，宏观[math]S_M[/math]的因果性优于微观[math]S_m[/math]，构成了系统的最优因果模型。这是因为[math]S_M[/math]的概率转移矩阵更接近于完美的有效性[[math]Eff(S_M) = 0.78[/math]]，并且粗粒化映射过程中，有效性提升增加的信息量[math]\Delta I_{Eff} = 0.97 \text{ bits}[/math]超过了元素空间减小而损失的信息量[math]\Delta I_{Size} = - 0.57 \text{ bits}[/math]。本例中，在宏观尺度的有效性[math]\Delta I_{Eff}[/math]的增益(91%)主要来自于抵消噪声干扰[确定性系数：[math]S_m = 0.34[/math];[math]S_M = 0.78[/math]]，少部分(9%)来源于简并性减少[简并系数：[math]S_m = 0.05[/math];[math]S_M = 0.006[/math]]。

注：以状态空间的角度比较[math]S_m[/math]和[math]S_M[/math]，也可以得出宏观尺度的有效性更高。下图中，将[math]S_m[/math]状态{ABCD} =[0001]与相应[math]S_M[/math]状态{αβ} = [off, off]的因果分布进行对比。将[math]S_m =[0001][/math]的因果分布与无约束库(使用[math]D_{KL}[/math]散度)进行比较，得到[math]0.83 bits[/math]的原因信息和[math]0.43 \text{ bits}[/math]的结果信息。而对于宏观[math]S_M[/math]，原因信息为[math]2 \text{ bits}[/math]，结果信息为[math]1.35 \text{ bits}[/math]。因此，[math]{αβ} = [off, off][/math]比[math]{ABCD} =[0001][/math]更有选择性和可信度，宏观战胜了微观。

2.抵消简并性实例分析

系统机制：微观元素A-F是确定性AND门，连接方式对应了高简并度(图A，确定性为1；简并度为0.6)

微观尺度：[math]Eff(S_m) = 0.4[/math], [math]EI(S_m) = 2.43 \text{ bits}[/math](图C)。

粗粒化映射：最优宏观粗粒化分组映射为将6个微观AND门组合成3个宏观COPY门(αβγ)(图B)。

宏观尺度：该系统中宏观和微观都是完全确定性的，但简并性减小 [math]\Delta I_{Eff} = 1.79 \text{ bits}[/math]> - [math]\Delta I_{Size} = 1.22 \text{ bits}[/math]。所以宏观尺度下 [math]Eff(S_M) = 1[/math], [math]EI(S_M) = 3 \text{ bits}[/math]，宏观因果涌现([math]CE = 0.57 \text{ bits}[/math])。

时间因果涌现

对时间进行微观状态分组也会有涌现现象发生，具体形式为：将微观时间步([math]t_x[/math]) 粗粒化为宏观时间步([math]T_x[/math])。下面对图中的时间因果涌现实例进行分析：

系统机制：所有微观元素接收到两个尖峰的输入“发放(burst)”时，会响应一个输出发放，即遵循二阶马尔可夫机制(图A)。

微观尺度：基于一个微观时间步分析(图B)，可以得到 [[math]EI(S_m) = 0.16 \text{ bits}[/math];[math]Eff(S_m) = 0.03[/math]]，因果相互作用较弱。由于系统是二阶机制，进而开展基于两个微观时间步的因果分析(图C)，可以得到 [math]EI(S_m) = 1.38 \text{ bits}[/math]，[math]Eff(S_m) = 0.34[/math]。

粗粒化映射：将微观状态在时间上分组为宏观状态[math]α = {A_t, A_{t+1}}[/math]和[math]β = {B_t, B_{t+1}}[/math](图D)。

宏观尺度：在宏观时间尺度下的 [math]EI(S_M) = 2 \text{ bits}[/math]，[math]Eff(S_M) = 1[/math], [math]CE(S) = 0.62 \text{ bits}[/math]，系统变得完全确定性和非简并 (图E, F)。

时空因果涌现

因果涌现还可以在空间、时间上同步发生，下面对图中实例进行具体分析：

系统机制：

元素机制：所有微观元素也遵循二阶马尔可夫机制，整合两个微时间步([math]t_{-2}[/math], [math]t_{-1}[/math]和[math]t_0[/math], [math]t_{+1}[/math])的输入，作出响应。所有微观元素自发活动（发放状态：0，1），具有非均匀的发放概率:[math]p(A/D/G) = 0.45[/math];[math]p(B/E/H) = 0.5[/math];[math]p(C/F/I) = 0.55[/math]。
组机制：所有元素被划分为三组[math]{ABC, DEF, GHI}[/math]，在每组内，如果两个时间步内组内连接之和[math]\sum(intra) = 0[/math]，接下来的两个时间步所有元素保持为0。然而，如果在两个时间步中，与另外两组中的组间连接之和[math]\sum(inter) = 6[/math]，则在接下来的两个时间步中，发放概率提高0.5。

微观尺度：微观尺度下的系统具有 [[math]EI(S_m) = 0.59 \text{ bits}[/math]; [math]Eff(S_m) = 0.033[/math]]

粗粒化映射：在宏观尺度[math]S_M[/math]，三组神经元分组为宏观成分，两个微观时间步长([math]t_x[/math])聚合为一个宏观时间步长([math]T_x[/math])(图B)。

宏观尺度：粗粒化后的系统具有更高的[math]EI(S_M) = 3.51 \text{ bits}[/math]，和[math]Eff(S_M) = 0.74[/math]。时空因果涌现发生，[math]CE(S) = 2.92 \text{ bits}[/math]，即粗粒化过后系统确定性的增加，增加程度远超简并性的增加与状态集的减小。

注：本例对应于真实神经元中，宏观成分可表示为有三种状态的“微柱”:“抑制态inhibited”(所有微柱神经元均在Tx时静默)，“感受态receptive”(部分在Tx时放电)和“爆发态bursting”(所有均在Tx处放电)。相应地，宏观的因果相互作用可以总结为，如果其中一个宏观成分处于抑制态，那么只有接收到一次发放才能转换到接受态或（不太可能的）爆发态；否则，它将一直保持抑制态。

应用

复杂网络，生物系统

缺陷与争议

1.依赖粗粒化方法 2.实际适用性

参考文献

↑ 引用错误：无效<ref>标签；未给name属性为pearl_causality的引用提供文字

[pearl_causality-1] 引用错误：无效<ref>标签；未给name属性为pearl_causality的引用提供文字

[1]