基于有效信息的因果涌现理论

基于有效信息的因果涌现理论是该领域最早提出的一种用于定量刻画因果涌现强度的方法。该方法由Erik Hoel等人提出，其基本思想是将微观系统进行粗粒化后，使用一种因果效应度量指标有效信息来量化一个马尔科夫动力学的因果性强弱改变。如果粗粒化后的宏观系统的有效信息大于微观系统，那么就认为发生了因果涌现。

简介

2013年，Erik Hoel首次使用有效信息指标定量刻画涌现现象，并提出了因果涌现理论。

2016年，针对多时空尺度的系统提出新的Umax因果效能度量指标

2017年，因果容量与信息通道：将有效信息与信息论中经典概念香农的信道容量进行类比。

2021年，提出因果几何框架，将有效信息概念从离散马尔可夫动力系统拓展至连续系统，

主要理论

马尔科夫动力系统

最初，基于有效信息的因果涌现理论是基于离散状态的马尔科夫动力学，即马尔科夫链展开定量化描述的。

马尔科夫链是指一种状态离散、时间离散的平稳随机过程，描述的是一组随机变量[math]X_t[/math]在状态空间[math]\mathcal{X}=\{1,2,\cdots,N\}[/math]上的取值，其中[math]t[/math]通常表示时间。其动力学一般可以用转移概率矩阵描述(Transitional Probability Matrix)，简称TPM。该矩阵是一个概率矩阵，其中第[math]i[/math]行，第[math]j[/math]列元素[math]p_{ij}[/math]，表示任意时刻[math]t[/math]，系统在[math]i[/math]状态的条件下，下一时刻转移到[math]j[/math]状态的概率。因此，转移概率矩阵每一行均满足归一化条件：

[math]\displaystyle{ \sum_{j=1}^Np_{ij}=1, }[/math]

任意时刻[math]t+1[/math]上的状态概率分布，即[math]Pr(X_{t+1})[/math]，可以被上一时刻的状态概率分布[math]Pr(X_t)[/math]和状态转移矩阵唯一确定，即满足：

[math]\displaystyle{ Pr(X_{t+1}=j)=\sum_{i=1}^N p_{ij}\cdot Pr(X_t=i), }[/math]

这里的[math]i,j\in \mathcal{X}[/math]，是[math]\mathcal{X}[/math]中的任意状态，且[math]N=\#(\mathcal{X})[/math]，即[math]\mathcal{X}[/math]中的总状态数。

量化方法

下面将引入有效信息这一关键指标，介绍如何基于该指标量化马尔科夫动力系统的因果效应。

有效信息

有效信息（Effective Information，简称EI）是因果涌现理论中的一个核心概念，它可以用来度量一个马尔科夫动力学的因果效应强度。

EI定义

首先，我们先定义一般情况下的有效信息。因果效应度量的是系统动力学机制的有效性，即在给定动力学的情况下，因、果变量状态分布之间的关联程度（其中不能有混淆变量干扰）。由此可见，EI核心目标并非衡量是否存在因果效应，而是关注效应的强度，且更适用于已经明确存在因果关联的场合。更正式地，EI是因果机制的函数，而与其它因素无关，定义如下：

[math]\displaystyle{ EI(P)\equiv I(Y;X|do(X\sim U)) }[/math]

这里，[math]X[/math]是因变量，[math]Y[/math]是果变量，[math]P[/math]表示[math]X[/math]到[math]Y[/math]的因果机制。当[math]X, Y[/math]均为离散状态分布的情境下，[math]P[/math]为概率转移矩阵，[math]p_{ij}\equiv Pr(Y=j|X=i)[/math]。[math]do(X\sim U(\mathcal{X}))[/math]代表对[math]X[/math]实施do干预(或称do操作，英文是do-operator），使其服从[math]\mathcal{X}[/math]上的均匀分布[math]U(\mathcal{X})[/math]，也即是最大熵分布。在这一干预下，因果机制P保持不变。EI指标度量的是经过do干预后的因变量X与果变量Y之间的互信息。

do干预这一步是根据Judea Pearl的因果阶梯理论^[1]提出的。该理论中，因果推断包含了三个层次，分别是：关联、干预和反事实。阶梯层级越高，因果特征越明显。在EI的定义中引入了[math]do[/math]操作上升到干预层级，即设定变量为某个值或服从某个分布，使得EI能够比直接计算互信息更能体现因果特征。从实际意义上来讲，在EI的计算中引入do操作，可以把数据和动力学分开，消除数据分布（即[math]X[/math]的分布）对EI度量所带来的影响，均匀分布也避免了对数据分布的“偏见”。从因果图角度来看，do操作可以消除EI中的所有指向因变量[math]X[/math]的因果箭头，包括其它变量（包括不可观测的变量）对[math]X[/math]的影响，从而使得EI更能够刻画动力学本身的特性。

马尔科夫动力系统EI

回到离散状态的马尔科夫链中，任意时刻的状态变量[math]X_t[/math]可以看作是原因，而下一时刻的状态变量[math]X_{t+1}[/math]就可以看作是结果，马尔科夫链的状态转移矩阵就是它的因果机制。因此，马尔科夫链的有效信息定义如下：

[math]\displaystyle{ \begin{aligned} EI &= I(X_t,X_{t+1}|do(X_t\sim U(\mathcal{X})))=I(\tilde{X}_t,\tilde{X}_{t+1}) \\ &= \sum^N_{i=1}\sum^N_{j=1}Pr(\tilde{X}_t=i,\tilde{X}_{t+1}=j)\log \frac{Pr(\tilde{X}_t=i,\tilde{X}_{t+1}=j)}{Pr(\tilde{X}_t=i)Pr(\tilde{X}_{t+1}=j)}\\ &= \sum^N_{i=1}Pr(\tilde{X}_t=i)\sum^N_{j=1}Pr(\tilde{X}_{t+1}=j|\tilde{X}_t=i)\log \frac{Pr(\tilde{X}_{t+1}=j|\tilde{X}_t=i)}{Pr(\tilde{X}_{t+1}=j)}\\ &= \frac{1}{N}\sum^N_{i=1}\sum^N_{j=1}p_{ij}\log\frac{N\cdot p_{ij}}{\sum_{k=1}^N p_{kj}} \end{aligned} }[/math]

同理，其中[math]\displaystyle{ \tilde{X}_t,\tilde{X}_{t+1} }[/math]分别为把[math]X_t[/math]干预为均匀分布后，[math]t[/math]时刻与下一时刻的状态。[math]\displaystyle{ p_{ij} }[/math]为第i个状态转移到第j个状态的转移概率，N为总状态数。从这个式子，不难看出，EI仅仅是概率转移矩阵[math]P[/math]的函数。

进一步，为方便计算，我们也可以将转移概率矩阵[math]P[/math]写成[math]N[/math]个行向量拼接而成的形式，即：

[math]\displaystyle{ P=(P_1^T,P_2^T,\cdots,P_N^T)^T }[/math]

其中，[math]P_i[/math]矩阵[math]P[/math]的第[math]i[/math]个行向量，且满足条件概率的归一化条件：[math]||P_i||_1=1[/math]，这里的[math]||\cdot||_1[/math]表示向量的1范数。那么EI可以进一步写成如下的形式：

[math]\displaystyle{ \begin{aligned} EI &= \frac{1}{N}\sum^N_{i=1}\sum^N_{j=1}p_{ij}\log\frac{N\cdot p_{ij}}{\sum_{k=1}^N p_{kj}}\\ &=\frac{1}{N}\cdot \sum_{i=1}^N\left(P_i\cdot \log P_i - P_i\cdot\log \bar{P}\right)\\ &=\frac{1}{N}\sum_{i=1}^N D_{KL}(P_i||\bar{P}) \end{aligned} }[/math]

(2)

将矩阵每列求均值，可得到平均转移向量[math]\displaystyle{ \overline{P}=\sum_{k=1}^N P_k/N }[/math]。因此，EI是概率转移矩阵每个行转移向量[math]P_i[/math]与平均转移向量[math]\bar{P}[/math]的KL散度的均值。

EI分解

在行向量形式表示的马尔科夫链中，EI可以进一步拆解：

[math]\displaystyle{ \begin{aligned} EI &=\frac{1}{N}\sum_{i=1}^N D_{KL}(P_i||\bar{P}) \\ &= \frac{1}{N}\cdot \sum_{i=1}^N\left(P_i\cdot \log P_i - P_i\cdot\log \bar{P}\right)\\ &=\underbrace{-\langle H(P_i)\rangle}_{确定性项}+\underbrace{H(\bar{P})}_{非简并性项} \end{aligned} }[/math]

(tow_terms)

其中，第一项：[math]-\langle H(P_i)\rangle\equiv \frac{1}{N}\sum_{i=1}^N H(P_i)[/math]为每个行向量[math]P_i[/math]的负熵的平均值，它刻画了整个马尔科夫转移矩阵的确定性（determinism），即在动力学的作用下，可以在多大程度上根据系统前一时刻的状态预测它下一时刻状态。确定性高对应，很大程度可以成功预测下一状态。

第二项：[math]H(\bar{P})[/math]为平均行向量的熵，其中[math]\bar{P}\equiv \frac{1}{N}\sum_{i=1}^N P_i [/math]为所有N个行向量的平均行向量，它刻画了整个马尔科夫转移矩阵的非简并性或非退化性(non-degeneracy)，即在动力学的作用下，能够以多大程度从下一时刻的状态推断上一时刻的状态。非简并性高对应，很大程度可以正确推断上一时刻状态。

因此，有效信息通常可以分解为两个部分：[math]\displaystyle{ EI=Det-Deg }[/math]，Det是确定性（Determinism）的缩写，Deg是简并性（Degeneracy）的缩写。因此，如果一个转移矩阵具有较高的确定性和较低的简并性，则它的EI就会很高。

EI归一化

显然，EI的大小和状态空间大小有关，这一性质在我们比较不同尺度的马尔科夫链的时候非常不方便，我们需要一个尽可能不受尺度效应影响的因果效应度量。因此，我们需要对有效信息EI做一个归一化处理，得到和系统尺寸无关的一个量化指标。

根据Erik Hoel和Tononi等人的工作，要用均匀分布即最大熵分布下的熵值，即[math]\displaystyle{ \log N }[/math]来做分母对EI进行归一化，这里的[math]N[/math]为状态空间[math]\mathcal{X}[/math]中的状态的数量^[2]。那么归一化后的EI便等于：

[math]\displaystyle{ Eff=\frac{EI}{\log N} }[/math]

进一步定义归一化指标也称为有效性（effectiveness）。

然而，在处理连续状态变量的时候，这种使用状态空间中状态数量的对数值进行归一化的处理方式并不是非常合适，因为这一状态数往往受到变量的维度和实数分辨率的影响。

计算实例

下面，给出三个马尔科夫链的例子，以及相应的EI数值也放到了下面：

马尔科夫链示例

[math]\displaystyle{ P_1=\begin{pmatrix} &0 &0 &1 &0& \\ &1 &0 &0 &0& \\ &0 &0 &0 &1& \\ &0 &1 &0 &0& \\ \end{pmatrix} }[/math],	[math]\displaystyle{ P_2=\begin{pmatrix} &1/3 &1/3 &1/3 &0& \\ &1/3 &1/3 &1/3 &0& \\ &1/3 &1/3 &1/3 &0& \\ &0 &0 &0 &1& \\ \end{pmatrix} }[/math],	[math]\displaystyle{ P_3=\begin{pmatrix} &0 &0 &1 &0& \\ &1 &0 &0 &0& \\ &1 &0 &0 &0& \\ &1 &0 &0 &0& \\ \end{pmatrix} }[/math].
[math]\begin{aligned}&EI(P_1)=2\ bits,\\&Det(P_1)=2\ bits,\\&Deg(P_1)=0\ bits\end{aligned}[/math]	[math]\begin{aligned}&EI(P_2)=0.81\ bits,\\&Det(P_2)=0.81\ bits,\\&Deg(P_2)=0\ bits\end{aligned}[/math]	[math]\begin{aligned}&EI(P_3)=0.81\ bits\\&Det(P_3)=2\ bits,\\&Deg(P_3)=1.19\ bits.\end{aligned}[/math]

(example)

我们可以看到，第一个转移概率矩阵是一个排列矩阵（Permutation），因此该矩阵可逆。它是一个完全确定性的转移，即从任意状态出发，下一时刻会以100%的概率转移到另外某一个状态；也是完全非简并的，从下一时刻可以100%回推得到上一时刻的状态。因此确定性最高，没有简并性，EI最大；

第二个矩阵的前三个状态都会以1/3的概率跳转到彼此，因此确定性程度最低，而简并性也很低，EI是0.81；

第三个矩阵虽然也是非0即1的转移概率，因而确定性最高，但是由于后三个状态都跳转到1，因此，从1状态不能推知它来自于哪个状态，因此简并性最高，最终的EI与第二个相同，仍然是0.81。

粗粒化映射

微观元素状态集[math]S_m[/math]通过[math]M: S_m \rightarrow S_M[/math]映射构成宏观元素状态集[math]S_M[/math]，映射方法可以针对微观元素的空间或（和）时间维度。空间映射的对象是不同微观元素状态，时间映射针对的是同一微观元素不同时间步的状态。

以布尔元素为例，两个微观元素共有四种状态[math]S_m = \{00,01,10,11\}[/math]，按照[math]M:[[00,01,10] = off, [11] = on][/math]的映射规则，可以得到宏观尺度一个元素的两种状态，即[math]S_M = \{on, off\}[/math]。

具体要求：粗粒化映射对微观元素而言，必须是穷尽(exhaustive)和互斥的(disjunctive)，即一个微观元素的所有状态必须映射到同一个宏观元素的各种状态。粗粒化映射会带来系统的状态空间减小，但也允许宏观元素可以由单个微观元素组成。

关于如何对马尔科夫概率转移矩阵实施粗粒化的方法，往往体现为两步：1、对微观状态做归并，将N个微观态，归并为M个宏观态；2、对马尔科夫转移矩阵做约简。关于具体的粗粒化马尔科夫链的方法，请参考马尔科夫链的粗粒化。

因果涌现度量

基于有效信息的定义，结合对系统粗粒化的操作，我们可以量化系统粗粒化后因果效应的变化，即度量因果涌现。下面给出了因果涌现框架的抽象示意图。其中，横坐标表示时间，纵坐标表示尺度（Scale）。该框架可以看成是对同一个动力系统在微观和宏观两种尺度上的描述。其中，[math]f_m[/math]表示微观动力学，[math]f_M[/math]表示宏观动力学，二者通过一个粗粒化函数[math]\phi[/math]相连。在一个离散状态的马尔科夫动力系统中，[math]f_m[/math]和[math]f_M[/math]都是马尔科夫链，对[math]f_m[/math]进行马尔科夫链的粗粒化，就可以得到[math]f_M[/math]。[math]\displaystyle{ EI }[/math]是有效信息的度量。由于微观态可能具有更大的随机性，这导致微观动力学的因果性比较弱，所以通过对每一个时刻的微观态进行合理的粗粒化，就有可能得到因果性更强的宏观态。所谓的因果涌现，就是指当我们对微观态进行粗粒化的时候，宏观动力学的有效信息会增加这一现象，并且宏观态与微观态的有效信息之差被定义为因果涌现的强度。

因果涌现指标CE的定义为：

[math]\displaystyle{ CE = EI(P') - EI(P) }[/math]

这里[math]P[/math]为微观状态的马尔科夫概率转移矩阵，维度为：[math]N\times N[/math]，这里N为微观的状态数；而[math]P'[/math]为对[math]P[/math]做粗粒化操作之后得到的宏观态的马尔科夫概率转移矩阵，维度为[math]M\times M[/math]，其中[math]M<N[/math]为宏观状态数。

如果计算得出的CE>0，则称该系统发生了因果涌现，否则没有发生。

有时，我们也会根据归一化的EI来计算因果涌现度量，即：

[math]\displaystyle{ ce=Eff(P_M)-Eff(P_m) }[/math]

由于归一化的EI消除了系统尺寸的影响，因此这种方式得到的因果涌现度量值更大。

状态空间的因果涌现

一个简单的基于状态空间因果涌现实例如下：一条离散的马尔科夫链[math]S_m[/math]，共有4个可能的状态，状态转移概率矩阵[math]P_m[/math]如下所示：

马尔科夫链示例
[math]\displaystyle{ P_m=\begin{pmatrix} &1/3 &1/3 &1/3 &0& \\ &1/3 &1/3 &1/3 &0& \\ &1/3 &1/3 &1/3 &0& \\ &0 &1 &0 &1& \\ \end{pmatrix} }[/math],	[math]\displaystyle{ P_M=\begin{pmatrix} &1 &0 & \\ &0 &1 & \\ \end{pmatrix} }[/math].
[math]\begin{aligned}&Det(P_m)=0.81\ bits,\\&Deg(P_m)=0\ bits,\\&EI(P_m)=0.81\ bits\end{aligned}[/math]	[math]\begin{aligned}&Det(P_M)=1\ bits,\\&Deg(P_M)=0\ bits,\\&EI(P_M)=1\ bits\end{aligned}[/math]

在这个例子中，微观态的转移矩阵[math]P_m[/math]是一个4*4的矩阵，其中前三个状态彼此以1/3的概率相互转移，这导致该转移矩阵具有较小的确定性，因此EI也不是很大为0.81。然而，当我们对该矩阵进行粗粒化，也就是把前三个状态合并为一个状态a，而最后一个状态转变为一个宏观态b。这样所有的原本三个微观态彼此之间的转移就变成了宏观态a到a内部的转移了。因此，转移概率矩阵也就变成了[math]P_M[/math]，它的EI为1。在这个例子中，可以计算它的因果涌现度量为：

[math]\displaystyle{ CE=EI(P_M)-EI(P_m)=1-0.81=0.19\ bits }[/math]

[math]\displaystyle{ ce=Eff(P_M)-Eff(P_m)=1-0.405=0.595 }[/math]

即存在着0.19比特的因果涌现，或用有效性度量得到0.595的因果涌现。

变量角度的因果涌现

下面从变量角度，分别给出了空间、时间和时空因果涌现的布尔网络实例，从微观系统机制、粗粒化映射和宏观尺度分析三个方面进行描述和分析。注：[math]S_m[/math]表示微观系统；[math]S_M[/math]表示粗粒化得到的宏观系统。微观元素是布尔值且用拉丁字母[math]\{A, B, C…\}[/math]标记，宏观元素用希腊字母[math]\{α， β， γ. .\}[/math]标记。微观状态标记为[math]\{1,0\}[/math]，宏观状态标记为{“on”，“bursting”，“quiet”…}。

注意：以下实例图中的确定性(Determinism)和简并性(Degeneracy)计算均进行了归一化，即除以[math]log_2 N[/math]，其中N为状态空间的大小。

空间因果涌现

根据前文，因果涌现量化指标可以拆分为确定性和简并性两项。接下来，分别对由确定性和简并性主导的因果涌现给出一个实例，介绍空间因果涌现。

1.提高确定性实例分析

微观尺度：微观系统由四个布尔元素组成[math]S_m = \{ABCD\}[/math] (图A)，其中AB一组，CD一组，每个元素[math]t+1[/math]时刻的状态由另一组两个元素[math]t[/math]时刻的状态决定。机制是一个带噪声的AND门，图A右侧为详细的对应关系，例如[math]t[/math]时刻另一组元素的状态均为0，则该被输入元素[math]t+1[/math]时刻有70%的概率为0，30%的概率为1。将系统以等概率设置为所有可能的微观状态（共[math]2^4=16[/math]个），可以得到16 × 16 [math]S_m[/math] 的概率转移矩阵(图C)。根据EI的定义可以计算得到有效信息[math]EI(S_m) = 1.15 \text{ bits}[/math]，[math]Eff(S_m) = 0.29[/math]。

粗粒化映射：根据系统的分组机制，同组元素的状态之间不会互相影响，接受相同元素的输入且机制相同，因此同组元素是lumpable的，可以被映射为同一个宏观元素。微观系统[math]S_m = \{ABCD\}[/math]可以被粗粒化为有两个宏观元素[math]{α, β}[/math]的宏观系统[math]S_M[/math](图B)。考虑微观状态的转移机制(图A右侧)，输入值00，01和10决定状态的规则相同，输入值11对应另一种，因此宏观元素状态可以对应映射为{"off" ,"on"}两种(图D)。

宏观尺度：将系统以等概率设置为从[off, off]到[on, on]的所有可能的宏观状态，可以得到 4 × 4 的[math]S_M[/math] 宏观状态转移矩阵(图E)，计算得到宏观尺度下[math]EI(S_M) = 1.55 \text{ bits}[/math]，高于微观尺度的[math]EI(S_m) = 1.15 \text{ bits}[/math]。因此，因果涌现度量[math]CE(S) = EI(S_M) - EI(S_m) 0.40 \text{ bits}[/math]，宏观的因果性优于微观，因果涌现发生。

[math]S_M[/math]的概率转移矩阵更接近于完美的有效性（[math]Eff(S_M) = 0.78[/math]）。本例中，在宏观尺度的有效性[math]\Delta I_{Eff}[/math]的增益主要来自于减少噪声干扰，即确定性(Det)提高（[math]Det(S_m) = 0.34[/math]; [math]Det(S_M) = 0.78[/math]），少部分来源于简并性(Deg)减少（[math]Deg(S_m) = 0.05[/math]; [math]Deg(S_M) = 0.006[/math]）。

2.抵消简并性实例分析

微观机制：微观系统由6个布尔元素[math]S_m = \{ABCDEF\}[/math]构成，其中A、B接受E和F的输入，C、D接受A和B的输入，E、F接受C和D输入。连接机制为确定性AND门，对应完全确定性和高简并度(图A)。微观系统的概率转移矩阵如图B所示，可以得到[math]EI(S_m) = 2.43 \text{ bits}[/math]，[math]Eff(S_m) = 0.4[/math](图B)。

粗粒化映射：同上例，根据微观机制的lumpability，接受相同输入的元素可以被分为同一组，因此可以分为3个宏观元素。根据机制的同类性，{[00,01,10], [11]}可分别对应宏观态{"off" ,"on"}，确定性AND门映射为COPY门，即宏观元素完全复制输入元素的状态(图C左侧)。最优粗粒化方案即为将6个微观AND门映射为3个宏观COPY门(图C的αβγ)。

宏观尺度：该系统中宏观和微观都是完全确定性的，但简并性减小 [math]\Delta I_{Eff} = 1.79 \text{ bits}[/math]> - [math]\Delta I_{Size} = 1.22 \text{ bits}[/math]。所以宏观尺度下 [math]Eff(S_M) = 1[/math], [math]EI(S_M) = 3 \text{ bits}[/math]，宏观因果涌现([math]CE = 0.57 \text{ bits}[/math])。

时间因果涌现

对时间进行微观状态分组也会有涌现现象发生，具体形式为：将微观时间步([math]t_x[/math]) 粗粒化为宏观时间步([math]T_x[/math])。下面对图中的时间因果涌现实例进行分析：

系统机制：所有微观元素接收到两个尖峰的输入“发放(burst)”时，会响应一个输出发放，即遵循二阶马尔可夫机制(图A)。

微观尺度：基于一个微观时间步分析(图B)，可以得到 [[math]EI(S_m) = 0.16 \text{ bits}[/math];[math]Eff(S_m) = 0.03[/math]]，因果相互作用较弱。由于系统是二阶机制，进而开展基于两个微观时间步的因果分析(图C)，可以得到 [math]EI(S_m) = 1.38 \text{ bits}[/math]，[math]Eff(S_m) = 0.34[/math]。

粗粒化映射：将微观状态在时间上分组为宏观状态[math]α = {A_t, A_{t+1}}[/math]和[math]β = {B_t, B_{t+1}}[/math](图D)。

宏观尺度：在宏观时间尺度下的 [math]EI(S_M) = 2 \text{ bits}[/math]，[math]Eff(S_M) = 1[/math], [math]CE(S) = 0.62 \text{ bits}[/math]，系统变得完全确定性和非简并 (图E, F)。

时空因果涌现

因果涌现还可以在空间、时间上同步发生，下面对图中实例进行具体分析：

系统机制：

元素机制：所有微观元素也遵循二阶马尔可夫机制，整合两个微时间步([math]t_{-2}[/math], [math]t_{-1}[/math]和[math]t_0[/math], [math]t_{+1}[/math])的输入，作出响应。所有微观元素自发活动（发放状态：0，1），具有非均匀的发放概率:[math]p(A/D/G) = 0.45[/math];[math]p(B/E/H) = 0.5[/math];[math]p(C/F/I) = 0.55[/math]。
组机制：所有元素被划分为三组[math]{ABC, DEF, GHI}[/math]，在每组内，如果两个时间步内组内连接之和[math]\sum(intra) = 0[/math]，接下来的两个时间步所有元素保持为0。然而，如果在两个时间步中，与另外两组中的组间连接之和[math]\sum(inter) = 6[/math]，则在接下来的两个时间步中，发放概率提高0.5。

微观尺度：微观尺度下的系统具有 [[math]EI(S_m) = 0.59 \text{ bits}[/math]; [math]Eff(S_m) = 0.033[/math]]

粗粒化映射：在宏观尺度[math]S_M[/math]，三组神经元分组为宏观成分，两个微观时间步长([math]t_x[/math])聚合为一个宏观时间步长([math]T_x[/math])(图B)。

宏观尺度：粗粒化后的系统具有更高的[math]EI(S_M) = 3.51 \text{ bits}[/math]，和[math]Eff(S_M) = 0.74[/math]。时空因果涌现发生，[math]CE(S) = 2.92 \text{ bits}[/math]，即粗粒化过后系统确定性的增加，增加程度远超简并性的增加与状态集的减小。

注：本例对应于真实神经元中，宏观成分可表示为有三种状态的“微柱”:“抑制态inhibited”(所有微柱神经元均在Tx时静默)，“感受态receptive”(部分在Tx时放电)和“爆发态bursting”(所有均在Tx处放电)。相应地，宏观的因果相互作用可以总结为，如果其中一个宏观成分处于抑制态，那么只有接收到一次发放才能转换到接受态或（不太可能的）爆发态；否则，它将一直保持抑制态。

应用

复杂网络，生物系统

缺陷与争议

依赖粗粒化策略

根据上述实例可以发现，得到宏观动力学的有效信息，需要基于给定的粗粒化策略。在状态、变量较少，且转移概率矩阵有明显的规律可循时，可以相对容易定义粗粒化策略并识别因果涌现。但对于情况复杂的实际系统时，例如生物系统，通常需要穷尽所有粗粒化方案得到最大宏观有效信息，相应的计算复杂度极高。

为了避免对粗粒化策略的依赖，Rosas等人引入了一种新的不依赖于粗粒化方法的因果涌现的定量定义，即为基于信息分解的因果涌现理论。该定义借鉴了部分信息分解理论（PID），旨在将目标变量和源变量之间的互信息分解为不重叠的三种信息原子：特有信息、冗余信息和协同信息。在此基础上，Rosas进一步发展了这一概念，并引入了称为φlD的理论来分解多个目标变量和源变量之间的互信息。该框架基于系统的固有特征来定量刻画因果涌现，通过测量源变量和目标变量之间的协同信息，如果协同信息值大于零，即可判定发生了因果涌现。

实际适用性

参考文献

↑ 引用错误：无效<ref>标签；未给name属性为pearl_causality的引用提供文字
↑ 引用错误：无效<ref>标签；未给name属性为hoel_2013的引用提供文字

[pearl_causality-1] 引用错误：无效<ref>标签；未给name属性为pearl_causality的引用提供文字

[hoel_2013-2] 引用错误：无效<ref>标签；未给name属性为hoel_2013的引用提供文字

[1]

[2]