基于有效信息的因果涌现理论
基于有效信息的因果涌现理论是因果涌现领域最早提出的定量刻画因果涌现强度的方法。该方法由Erik Hoel等人提出[1],文章定义了一种因果效应度量指标有效信息,用于量化一个马尔科夫动力学的因果性强弱,并在此基础上定义了因果涌现。
因果涌现具体定义为粗粒化后的宏观动力学比原始的微观动力学具有更大的有效信息的现象。通常,针对一个系统的粗粒化方案有很多,该理论中因果涌现的定义是基于使宏观动力学有效信息最大的最优粗粒化方法,即,如果经过最优粗粒化的宏观动力学的有效信息大于微观动力学有效信息,则表明发生了因果涌现。
起源
2013年,Erik Hoel在文章[1]中首次使用有效信息指标,用来定量描述涌现现象,在有效信息指标的基础上提出了因果涌现理论。根据这一理论,一个马尔科夫动力系统中微观层次元素的状态转移规则,即因果机制是已知的,在此基础上,将多个微观元素或者元素状态进行合并,文中表述为粗粒化映射,可以得到宏观层次的系统。对比这两种情况可知,微观的因果机制是最完整的,宏观的所有因果机制都随附于微观机制产生。根据涌现现象,粗粒化后的宏观层次因果机制可以优于微观层次,作者提出有效信息这一指标度量系统因果机制的有效性。量化方式为将系统中的原因变量干预为均匀分布,然后计算原因变量和结果变量之间的互信息大小,即为Erik Hoel定义的有效信息,反映因果机制对原因和结果状态的约束强度,也就是因果相互作用强度。
2017年,Erik Hoel[2]引入信息论中香农定义的“信道容量”概念,提出系统中也存在类似“因果容量”。香农发现,信道上的信息传输速率对输入信号概率分布非常敏感,因此选择使系统输入输出互信息最大化的输入集合来定义信道容量,反映信道允许可靠传输信息的最大速率。类似地,在因果性度量中,根据定义,改变干预分布也会改变系统的有效信息,从微观映射到宏观层次的过程中实际改变了干预分布,因而发生因果性变化。除13年提出粗粒化用于改变干预分布之外[1],作者还提出设置部分变量为外生变量的方式,例如设置其一直保持初始状态,或允许其“黑盒”式在干预下变化但无法查看,可以组合使用这些方法以提升系统的因果性。因此,因果容量被定义为一个系统以最大信息量和最有效的方式将干预转化为结果的能力,Erik Hoel还提出一个普遍的原则:系统使用的改变干预分布方式越多,因果容量就越接近信道容量。
主要理论
马尔科夫动力系统
最初,基于有效信息的因果涌现理论是基于离散状态的马尔科夫动力学,即马尔科夫链展开定量化描述的。
马尔科夫链是指一种状态离散、时间离散的平稳随机过程,描述的是一组随机变量[math]X_t[/math]在状态空间[math]\mathcal{X}=\{1,2,\cdots,N\}[/math]上的取值,其中[math]t[/math]通常表示时间。其动力学一般可以用转移概率矩阵描述(Transitional Probability Matrix),简称TPM。该矩阵是一个概率矩阵,其中第[math]i[/math]行,第[math]j[/math]列元素[math]p_{ij}[/math],表示任意时刻[math]t[/math],系统在[math]i[/math]状态的条件下,下一时刻转移到[math]j[/math]状态的概率。因此,转移概率矩阵每一行均满足归一化条件:
[math]\displaystyle{ \sum_{j=1}^Np_{ij}=1, }[/math]
任意时刻[math]t+1[/math]上的状态概率分布,即[math]Pr(X_{t+1})[/math],可以被上一时刻的状态概率分布[math]Pr(X_t)[/math]和状态转移矩阵唯一确定,即满足:
[math]\displaystyle{ Pr(X_{t+1}=j)=\sum_{i=1}^N p_{ij}\cdot Pr(X_t=i), }[/math]
这里的[math]i,j\in \mathcal{X}[/math],是[math]\mathcal{X}[/math]中的任意状态,且[math]N=\#(\mathcal{X})[/math],即[math]\mathcal{X}[/math]中的总状态数。
量化方法
下面将引入有效信息这一关键指标,介绍如何基于该指标量化马尔科夫动力系统的因果效应。
有效信息
有效信息(Effective Information,简称EI)是因果涌现理论中的一个核心概念,它可以用来度量一个马尔科夫动力学的因果效应强度,通常可以分解为两个部分:确定性(Determinism)和简并性(Degeneracy)。EI是因果机制的函数,而与其它因素无关,定义如下:
[math]\displaystyle{ EI(P)\equiv I(Y;X|do(X\sim U)) }[/math]
这里,[math]X[/math]是因变量,[math]Y[/math]是果变量,[math]P[/math]表示[math]X[/math]到[math]Y[/math]的因果机制。当[math]X, Y[/math]均为离散状态分布的情境下,[math]P[/math]为概率转移矩阵,[math]p_{ij}\equiv Pr(Y=j|X=i)[/math]。[math]do(X\sim U(\mathcal{X}))[/math]表示对[math]X[/math]实施do干预(或称do操作,使其服从[math]\mathcal{X}[/math]上的均匀分布[math]U(\mathcal{X})[/math],也即是最大熵分布。在这一干预下,因果机制P保持不变。EI指标度量的是经过do干预后的因变量X与果变量Y之间的互信息。
粗粒化映射
宏观系统[math]S_M[/math]是由微观系统[math]S_m[/math]通过一定的映射方式[math]M: S_m \rightarrow S_M[/math]得到,宏观集[math]S_M[/math]的状态空间比微观集[math]S_m[/math]的小。粗粒化按操作对象可以分为基于状态空间、基于概率转移矩阵的粗粒化两种,详细描述见马尔科夫链的粗粒化。其中,状态空间的粗粒化又可以分为基于变量和基于状态进行两小类,本质都是对系统状态进行划分,区别在于基于变量操作对状态划分有一定约束,属于同一个变量的态被绑定在一起进行划分,不能分割开。
Erik在提出因果涌现时,并未显式地定义粗粒化,并且都是基于变量进行归并操作。他主要提出几种粗粒化方式,包括:直接针对变量进行的空间粗粒化,对变量的动力学进行的时间粗粒化,以及将变量“移出”系统动力学的变量外部化操作,下面将举例展开介绍这几种粗粒化是如何进行的。
1.空间粗粒化:针对微观元素变量进行粗粒化。以两个布尔元素为例,共有四种微观状态[math]S_m = \{00,01,10,11\}[/math],现将这两个微观元素粗粒化一个宏观元素。微观状态按照[math]M:[[00,01,10] = off, [11] = on][/math]的规则归并,可以保持宏观元素的布尔属性。粗粒化的结果是一个宏观元素,和两个宏观状态[math]S_M = \{on, off\}[/math]。
2.时间粗粒化:针对微观元素的时间步进行粗粒化,通常取决于微观系统的状态转移时间机制。例如,一个系统下一时刻的状态不仅依赖当前时刻的状态,还依赖于之前一个时间步的状态,这种情况通常称为二阶马尔科夫性质。这种性质下,可以将两个微观时间步粗粒化为一个宏观时间步,再按照类似空间粗粒化的步骤,对微观状态进行概率归并,可得到时间粗粒化后的宏观系统。图中黑色箭头表示二阶马尔科夫性质,蓝色箭头为时间粗粒化的过程。
3.变量外部化:这种方法不涉及状态的合并,而是试图通过改变初始do干预的均匀分布的方式,将系统中部分元素移出考虑的范畴。Erik Hoel在2017年的文章中称此类变量为外生元素(exogenous element),并提出了两种具体的操作方式:一种方式称为将外生元素“冻结”,将其设定为特定的状态,在机制的作用下,该元素在后续变化中将一直保持该初始状态,不影响系统中其他元素的变化;另一种是将外生元素设为“黑箱”(black boxing),允许其在初始分布后随时间变化,但是具体变化情况和对系统的影响都无法查看。变量外部化的方式通过减少系统中元素的方式,也达到了和粗粒化后一样的效果,即系统总的状态空间减小。
在“冻结”外生元素的布尔实例中,元素D的输入仅来自于自身,且为COPY机制,故系统变化过程中元素D将一直保持初始的状态。A接受D和C的输入,响应方式为OR门,元素B,C的变化方式与A同理。由此,不难看出D的变化模式独立于另外三个元素。“冻结”操作就是改变do操作的分布,将D的初始状态仅设置为0,那么A,B,C接受输入的其中一个元素固定为0,那么状态更新就完全取决于另一个输入元素,OR机制变为COPY机制。(D也可以为1,但这种情况A,B,C也被固定为1,也满足“冻结”后的COPY机制)。
在“黑盒”布尔元素实例中,与前面例子不同之处在于,元素D接受来自另外三个元素的输入,响应门为逻辑判断“三个输入加和是否等于3”。我们简单分析一下D的情况,当D为0时,和“冻结”例子就非常相似,A,B,C之间的响应变为COPY机制,COPY循环也不会带来总和的变化,D将持续为0;当D为1时,说明A,B,C也将全为1,也等价于COPY机制。所以在当前的实例中,可以忽略D的影响,当作黑盒,只关注A,B,C的变化。
实现步骤
对马尔科夫概率转移矩阵实施粗粒化,主要体现为三步:
1. 对状态空间进行粗粒化:对微观状态做粗粒化分组,将N个微观态,归并为M个宏观态。
2. 对转移概率进行粗粒化:基于上一步的分组方式,对马尔科夫转移概率矩阵做约简。
3. 判断两步粗粒化方案的性质:粗粒化后的状态空间和转移矩阵都需要满足马尔科夫定义,还有粗粒化的交换律和动力学的一致性等规则,详见马尔科夫链的粗粒化。
关于具体的粗粒化马尔科夫链的方法,请参考马尔科夫链的粗粒化。
最优粗粒化
通常,一个微观系统可以有很多种粗粒化的方式。衡量一个粗粒化方案的好坏,需要计算粗粒化得到的宏观系统的有效信息,有效信息最大的宏观系统,对应的粗粒化方案被认为是最优的。在Erik Hoel的因果涌现理论中,因果涌现是定义在最优粗粒化方案上的,即粗粒化后有效信息增益为正,即发生了因果涌现。注:下面给出的Erik Hoel论文实例,提供的也是最优粗粒化策略,即对应的宏观TPM有效信息最大。
在一些构成元素和动力学简单的系统中,有机会可以直接找出合适或最优的粗粒化方案,但在复杂网络中这是非常困难的。为此,Klein 等人[3]和 Griebenow [4]等人提出算法尝试寻找复杂网络的最优粗粒化方案,自动识别复杂网络中因果涌现。其核心思路是将复杂网络上的随机游走模型视作一个马尔科夫链,使用包括贪婪算法、谱分解方法以及梯度下降方法对马尔科夫链进行粗粒化分组,三种方法最大的不同就在于节点分组方案。在如何归并节点和网络上,除了梯度下降方法以外,另外两种都采用了高阶依赖项建模(HOMs)处理手段,保证宏观网络与原微观网络具有相同的随机游走动力学特性。使用贪婪算法对节点进行分组,该方法将分组和归并合并在一起执行了,这对于大规模网络来说效率很低。后来提出的一种基于谱分解的方法来对原始网络节点进行分组,并将这种方法应用于偏好依附网络。相较于贪婪算法以及梯度下降算法,谱分解算法的计算时间更少,同时找到的宏观网络EI更大。算法的实现细节可参考复杂网络中的因果涌现。
张江等人进一步提出了基于奇异值分解的因果涌现理论[5],该理论克服因果涌现理论中需要预先指定粗粒化策略的限制,通过对系统的马尔科夫转移矩阵进行奇异值分解,计算奇异值的[math]\displaystyle{ \alpha }[/math]次方之和[math]\displaystyle{ \Gamma_{\alpha} }[/math],从而量化系统的近似动力学可逆性。[math]\displaystyle{ \Gamma_{\alpha} }[/math]与有效信息EI近似相关,使其能够用来衡量因果效应程度,实现无需粗粒化的因果涌现量化。理论进一步区分了“清晰的因果涌现”和“模糊的因果涌现”,提供了一种更加客观的方法来评估系统的因果涌现程度,但也存在计算复杂度较高等问题。
因果涌现度量
基于有效信息的定义,我们可以量化系统粗粒化前后因果效应的变化,即度量因果涌现。下面给出了因果涌现框架的示意图。其中,横坐标表示时间(time),纵坐标表示尺度(scale)。该框架可以看成是对同一个动力系统在微观和宏观两种尺度上的描述。其中,[math]f_m[/math]表示微观动力学,[math]f_M[/math]表示宏观动力学,二者通过一个粗粒化函数[math]\phi[/math]相连。在一个离散状态的马尔科夫动力系统中,[math]f_m[/math]和[math]f_M[/math]都是马尔科夫链,对[math]f_m[/math]进行马尔科夫链的粗粒化,就可以得到[math]f_M[/math]。[math]\displaystyle{ EI }[/math]是有效信息的度量。由于微观态可能具有更大的随机性,这导致微观动力学的因果性比较弱,所以通过对每一个时刻的微观态进行合理的粗粒化,就有可能得到因果性更强的宏观态。
因果涌现指标CE的定义为:
[math]\displaystyle{ CE = EI(P_M) - EI(P_m) }[/math]
这里[math]P_m[/math]为微观状态的马尔科夫概率转移矩阵,维度为:[math]N\times N[/math],N为微观的状态数;而[math]P_M[/math]为对[math]P_m[/math]做粗粒化操作之后得到的宏观态的马尔科夫概率转移矩阵,维度为[math]M\times M[/math],其中[math]M<N[/math]为宏观状态数。
如果计算得出的CE>0,则称该系统发生了因果涌现,否则没有发生。有时,我们也会根据归一化的EI来计算因果涌现度量,消除系统尺寸的影响,即:
[math]\displaystyle{ ce = Eff(P_M) - Eff(P_m) }[/math]
因果涌现的度量可以拆解出两种效应:1.系统机制有效性的提升 [math]\displaystyle{ \Delta{I_{Eff}} }[/math];2.状态空间的尺度效应 [math]\displaystyle{ \Delta{I_{Size}} }[/math]。
[math]\displaystyle{ CE = \Delta{I_{Eff}} + \Delta{I_{Size}} }[/math]
[math]\displaystyle{ \Delta{I_{Eff}}=(Eff(P_M)-Eff(P_m)) \cdot log_2(n_M) }[/math]
[math]\displaystyle{ \Delta{I_{Size}}=Eff(P_m) \cdot (log_2(n_M) -l og_2(n_m)) }[/math]
由于粗粒化的过程带来状态空间减小,所以[math]\displaystyle{ \Delta{I_{Size}} }[/math]总是为负;若要CE>0,即因果涌现发生,那么[math]\displaystyle{ \Delta{I_{Eff}} }[/math]必须为正值,且粗粒化带来的有效性提升幅度要超过状态空间导致的EI减小。
因果涌现与因果容量
Erik Hoel还提出 EI 与 Claude Shannon 的信息论之间的联系[2]。信息论中信息传输需要经过信道,信道由两个有限集合X和Y组成,分别为信道的输入和输出,对于每个[math]x \in X[/math],有一个转移概率[math]p(y|x)[/math]的集合,使得对于每个X和Y, [math]p(y|x) \geq 0[/math],对于每个X,[math]\sum_y p(y|x) = 1[/math],这个集合称为通道矩阵。信道由通道矩阵控制,矩阵是固定不变的。同样,因果结构由干预与其效果之间的关系控制,这种关系也是固定不变的。信道和因果结构都可以表示为转移概率矩阵。在某些情况下,如果一个信道矩阵的转移概率与因果结构中某组状态之间转换的转移概率相同,那么它们的TPM将是相同的。因果结构实际上是一个矩阵,用于将前一状态转化为下一状态。
而以上提到的因果涌现都建立在将初始分布do干预成均匀分布的情况下,即干预分布的熵最大。回顾有效信息的计算公式:
[math]EI = I(I_D;E_D) = H(I_D) - H(I_D|E_D) = H(I_D) - ((1-eff) * H(I_D)) = eff * H(I_D)[/math]
其中[math]I_D[/math]是干预分布,[math]E_D[/math]是效果分布,即TPM作用于干预分布后的结果,[math]eff[/math]是有效性。由公式可以看出EI的大小与干预的概率分布有关。
Claude Shannon 在信息论中提出信道具有一定的容量。信道容量是指信道以最具信息性和可靠性的方式将输入转化为输出的能力,信道中信息传输的速率对输入概率分布 p(X) 的变化非常敏感。信道容量 (C) 定义为使互信息达到最大值的输入集合,这也是信道能够可靠传输信息的最大速率:[math]C = \max_{p(X)} I(X; Y)[/math],其中[math]I(X; Y)[/math]是输入和输出之间的互信息。因果涌现理论揭示了系统存在一种类似的因果容量(Causal Capacity, CC)。因果容量是指系统以最具信息性和最有效的方式将干预转化为效果的能力,定义为:[math]CC = \max_{I_D} I(I_D; E_D)[/math]。
状态空间的因果涌现
一个简单的基于状态空间因果涌现实例如下:一条离散的马尔科夫链[math]S_m[/math],共有4个可能的状态,状态转移概率矩阵[math]P_m[/math]如下所示:
[math]\displaystyle{ P_m=\begin{pmatrix} &1/3 &1/3 &1/3 &0& \\ &1/3 &1/3 &1/3 &0& \\ &1/3 &1/3 &1/3 &0& \\ &0 &0 &0 &1& \\ \end{pmatrix} }[/math], |
[math]\displaystyle{ P_M=\begin{pmatrix} &1 &0 & \\ &0 &1 & \\ \end{pmatrix} }[/math]. |
[math]\begin{aligned}&Det(P_m)=0.81\ bits,\\&Deg(P_m)=0\ bits,\\&EI(P_m)=0.81\ bits\end{aligned}[/math] | [math]\begin{aligned}&Det(P_M)=1\ bits,\\&Deg(P_M)=0\ bits,\\&EI(P_M)=1\ bits\end{aligned}[/math] |
在这个例子中,微观态的转移矩阵[math]P_m[/math]是一个4*4的矩阵,其中前三个状态彼此以1/3的概率相互转移,这导致该转移矩阵具有较小的确定性,因此EI也不是很大为0.81。然而,当我们对该矩阵进行粗粒化,也就是把前三个状态合并为一个状态a,而最后一个状态转变为一个宏观态b。这样所有的原本三个微观态彼此之间的转移就变成了宏观态a到a内部的转移了。因此,转移概率矩阵也就变成了[math]P_M[/math],它的EI为1。在这个例子中,可以计算它的因果涌现度量为:
[math]\displaystyle{ CE=EI(P_M)-EI(P_m)=1-0.81=0.19\ bits }[/math]
[math]\displaystyle{ ce=Eff(P_M)-Eff(P_m)=1-0.405=0.595 }[/math]
即存在着0.19比特的因果涌现,或用有效性度量得到因果涌现的大小为0.595。
变量角度的因果涌现
下面从变量角度,分别给出了空间、时间和时空因果涌现的布尔网络实例,从微观系统机制、粗粒化映射和宏观尺度分析三个方面进行描述和分析。注:[math]S_m[/math]表示微观系统;[math]S_M[/math]表示粗粒化得到的宏观系统。微观元素是布尔值且用拉丁字母[math]\{A, B, C…\}[/math]标记,宏观元素用希腊字母[math]\{α, β, γ. .\}[/math]标记。微观状态标记为[math]\{1,0\}[/math],宏观状态标记为{“on”,“off”,“bursting”,“quiet”…}。
空间因果涌现
根据前文,因果涌现量化指标可以拆分为确定性和简并性两项。接下来,分别对由确定性和简并性主导的因果涌现给出一个实例,介绍空间因果涌现。
1.提高确定性实例分析
微观尺度:微观系统由四个布尔元素组成[math]S_m = \{ABCD\}[/math] (图A),其中A和B一组,C和D一组,其中一个组中的每个元素[math]t+1[/math]时刻的状态由另一组两个元素[math]t[/math]时刻的状态决定。机制是一个带噪声的AND门,图A中间表格为详细的对应关系。举例来看,假设[math]t[/math]时刻CD = {00},则[math]t+1[/math]时刻,A和B每个元素有0.7的概率为0,0.3的概率为1,AB组水平的状态总共可能有以下四种:{00},{01},{10},{11},每种组状态概率由组成元素单独的状态概率相乘得到,所以分别对应为0.49(0.7x0.7),0.21(0.7x0.3),0.21(0.3x0.7),0.09(0.3x0.3),满足概率之和为1。
考虑到每个元素都有两个可能状态,则系统总共有[math]2^4=16[/math]个可能的状态。接着上面的例子,假设[math]t[/math]时刻CD = {cd},而且AB = {ab}(这里a,b,c,d指代元素状态,可取0或1),可以按照上述机制分别计算[math]t+1[/math]时刻AB和CD的状态分布{a'b'}和{c'd'},又因为AB和CD的状态在同一时刻是互相独立的,那么系统[math]t+1[/math]时刻状态取{a'b'c'd'}的概率等于两组元素分别{a'b'}和{c'd'}的概率相乘,也就可以得到状态转移之间的关系。避免先验信息和其他因果关系的影响,我们将[math]t[/math]时刻系统以等概率设置为所有可能的微观状态,即每种状态概率都为1/16,可以根据上述计算方式得到状态之间的概率转移矩阵 16 × 16 [math]S_m[/math]。再根据EI的公式可以计算得到有效信息[math]EI(S_m) = Det(S_m) - Deg(S_m) = 1.35 - 0.20 =1.15 \text{ bits}[/math],[math]Eff(S_m) = EI(S_m)/ \log N = 1.15/4 = 0.29[/math]。
粗粒化映射:从上图TPM可以看出,这个概率转移矩阵非常复杂,但同时矩阵也有一些规律可循,比如前12行和后4行的模式差异较大,前12行中每4行的模式都是重复的。因此思考是否可以提炼出其中的规律,更加高效地表达系统间的状态转移模式。首先可以看系统内是有分组机制,四个元素被分为了两组,每组都接受另一组元素的输入且响应机制相同,同组元素的状态之间不会互相影响,因此同组元素之间是独立等价的,可以被映射或归类为同一个宏观元素。微观系统[math]S_m = \{ABCD\}[/math]可以被粗粒化为有两个元素[math]{α, β}[/math]的宏观系统[math]S_M[/math]。考虑微观状态的转移机制,输入值00,01和10决定状态的规则相同,输入值11对应另一种,因此每个宏观元素状态可以映射为{"off" ,"on"}两种。
宏观尺度:宏观系统现在由2个元素组成,每个元素由2个状态,所以宏观系统整体共有[math]2^2=4[/math]个可能的状态。将系统以等概率设置为所有可能的宏观状态,根据宏观的转移规则,可以得到 4 × 4 的[math]S_M[/math] 概率转移矩阵(图E)。由图E可见,矩阵规模减小,但是状态间的转移规律更明确。宏观尺度下[math]EI(S_M) = Det(S_M) - Deg(S_M) = 1.56 - 0.01 = 1.55 \text{ bits}[/math],[math]Eff(S_M) = 0.78[/math],高于微观尺度的[math]EI(S_m) = 1.15 \text{ bits}[/math]。因此,因果涌现度量[math]CE(S) = EI(S_M) - EI(S_m) = 0.40 \text{ bits}[/math],宏观的因果性优于微观,因果涌现发生。
本例中,在宏观尺度的有效性[math]\Delta I_{Eff}[/math]的增益主要来自于减少噪声干扰,即确定性提高(归一化后:[math]Det(S_m) = 0.34[/math]; [math]Det(S_M) = 0.78[/math]),少部分来源于简并性减少(归一化后:[math]Deg(S_m) = 0.05[/math]; [math]Deg(S_M) = 0.006[/math])。
2.抵消简并性实例分析
微观机制:微观系统由6个布尔元素[math]S_m = \{ABCDEF\}[/math]构成,其中A、B接受E和F的输入,C、D接受A和B的输入,E、F接受C和D输入。响应机制为确定性AND门,对应完全确定性(元素根据输入转移至完全确定的状态)和高简并度(输入00,01,10转移至相同状态)。微观系统的概率转移矩阵可以按照上述例子的方法计算,如下图所示,前一时刻很多状态下一时刻转移到相同状态,简并性较高。根据有效信息计算,得到[math]EI(S_m) = 2.43 \text{ bits}[/math],[math]Eff(S_m) = 0.4[/math]。
粗粒化映射:同上例,根据微观机制的分组,接受相同输入的元素可以被分为同一组,因此可以分为3个宏观元素。根据机制的同类性,{[00,01,10], [11]}可归并为宏观态{"off" ,"on"},输入宏观态为”off“时,宏观元素响应也为”off“,反之亦然。确定性AND门映射为宏观COPY门,即宏观元素完全复制输入元素的状态。
宏观尺度:宏观尺度的概率转移矩阵下图所示,可得到宏观[math]EI(S_M) = 3 \text{ bits}[/math],[math]Eff(S_M) = 1[/math],[math]CE = EI(S_M) - EI(S_m) = 0.57 \text{ bits}[/math],因果涌现发生。进一步拆解分析可知,微观和宏观机制都是完全确定性的,但粗粒化后宏观简并性明显减小 [math]\Delta Deg = -0.6[/math],对应图中不同行的状态下一时刻转移至不同状态。在本实例中粗粒化映射抵消简并性主导了因果涌现的发生。
时间因果涌现
对时间变量进行粗粒化映射也会有涌现现象发生,具体形式为:将微观时间步([math]t_x[/math]) 粗粒化为宏观时间步([math]T_x[/math])。下面对一个时间因果涌现实例进行分析:
微观机制:微观系统有A和B两个元素,元素[math]t[/math]和[math]t+1[/math]的状态由另一元素[math]t-2[/math]和[math]t-1[/math]时刻的状态决定,即遵循二阶马尔可夫机制(图A)。具体的状态决定机制如图C所示,当B前两时刻([math]t-2[/math],[math]t-1[/math])状态为{11}时,A当前和后一时刻([math]t[/math],[math]t+1[/math])状态可确定为{11};当B前两时刻状态为其余三种情况{00,01,10},A当前和后一时刻状态会以等概率出现这三种情况中的一种。基于一个微观时间步分析(图B),得到 [[math]EI(S_m) = 0.16 \text{ bits}[/math];[math]Eff(S_m) = 0.03[/math]],因果相互作用较弱,因为忽略了系统二阶性质。开展两个微观时间步的因果分析(图C),可以得到 [math]EI(S_m) = 1.38 \text{ bits}[/math],[math]Eff(S_m) = 0.34[/math]。
粗粒化映射:根据二阶马尔科夫性质,将微观状态的时间步分组为宏观状态[math]α = {A_t, A_{t+1}}[/math]和[math]β = {B_t, B_{t+1}}[/math](图D);同空间因果涌现实例,图C概率转移矩阵中状态间明显的界限,可以将{[00,01,10],[11]}分别映射为{"off","on"}两个宏观状态。
宏观尺度:时间步粗粒化后得到的宏观机制如图E所示,此时机制为完全确定和非简并的,即宏观时间尺度下 [math]EI(S_M) = 2 \text{ bits}[/math],[math]Eff(S_M) = 1[/math], [math]CE(S) = EI(S_M) - EI(S_m) = 0.62 \text{ bits}[/math],因果涌现发生。
时空因果涌现
因果涌现现象还可以基于对空间、时间同时进行粗粒化产生,下面对图中实例进行具体分析:
微观机制:
- 时间机制:所有微观元素也遵循二阶马尔可夫机制,整合前两个时间步([math]t_{-2}[/math],[math]t_{-1}[/math])的输入,决定后两个时间步([math]t_0[/math], [math]t_{+1}[/math])的状态。所有微观元素自发活动(0/1),1为发放状态,每个元素具有非均匀的发放概率:[math]p(A/D/G) = 0.45[/math];[math]p(B/E/H) = 0.5[/math];[math]p(C/F/I) = 0.55[/math]。
- 组机制:所有元素被划分为三组[math]{ABC, DEF, GHI}[/math],每个元素都接收组内和组间元素的输入,图中分别以圆箭头和常规箭头表示。在每组内,如果两个时间步内组内输入之和[math]\sum(intra) = 0[/math],接下来的两个时间步所有元素保持为0。然而,如果在两个时间步中,与另外两组中的元素输入之和[math]\sum(inter) = 6[/math],则在接下来的两个时间步中,发放概率提高0.5。
微观尺度下,系统机制的 [math]EI(S_m) = 0.59 \text{ bits}[/math];[math]Eff(S_m) = 0.033[/math]。
粗粒化映射:根据组机制,三组神经元在空间上映射为三个宏观成分,对应空间粗粒化映射;根据二阶马尔科夫性质,将两个微观时间步长整合为一个宏观时间步长,对应时间粗粒化映射(图B)。
宏观尺度:时空粗粒化后的系统具有比微观更高的[math]EI(S_M) = 3.51 \text{ bits}[/math],和[math]Eff(S_M) = 0.74[/math],[math]CE(S) = 2.92 \text{ bits}[/math],因果涌现发生。粗粒化过后系统确定性的增加,增加程度远超过简并性的增加。
注:本实例可对应真实神经元活动上的解释。宏观层面可理解为神经元“微柱”(minicolumn)的三种状态:“抑制态”(“微柱中神经元均在Tx时静默),“感受态”(部分在Tx时放电)和“爆发态”(所有均在Tx处放电)。宏观的因果相互作用可以解释为,如果一个宏观成分处于抑制态,那么只有接收到一次其他微柱的发放才能转换到“感受态”,以及不太可能的“爆发态”;否则,它将一直保持抑制态。
代码
这里提供了基于有效信息计算的因果涌现的python代码,以供参考:https://github.com/KellyPPeng/effective-information-calculation
代码包括两部分:第一部分上述实例的实现,即给定微观机制和粗粒化方案,分别在状态空间和变量空间计算因果涌现;第二部分是参考https://github.com/jkbren/einet,提供的使用贪婪算法和谱分解方法,在微观转移概率矩阵中学出最优粗粒化方案,算法实现步骤拆解可参考复杂网络中的因果涌现。
应用
- 复杂网络
2020年,Klein和Hoel改进马尔科夫链上定量化因果涌现的方法以应用到复杂网络中[3],作者借助随机游走子来定义网络中的马尔科夫链,将随机游走子放在节点上等价于对节点做干预,然后基于随机游走概率定义节点间的转移概率矩阵。同时作者将有效信息与网络的连通性建立联系,连通性可以通过节点的出边和入边的权重的不确定性来表征,基于此定义复杂网络中的有效信息。详细方法可以参考复杂网络中的因果涌现。
作者在随机网络(ER)、偏好依附网络模型(PA)等人工网络以及四类真实网络中进行了实验比较,发现:对于ER网络来说,有效信息的大小只依赖于连接概率[math]\displaystyle{ p }[/math],并且随着网络规模的增大会收敛到数值[math]\displaystyle{ -\log_2p }[/math]。同时一个关键发现表明,EI数值存在一个相变点,该相变点近似在网络的平均度([math]\displaystyle{ \lt k\gt }[/math])等于[math]\displaystyle{ \log_2N }[/math]的位置出现,同样对应于ER网络随着连接概率增加而出现巨连通集团的相变点位置,超过该相变点随机网络结构不会随着其规模的增加而包含更多的信息。对于偏好依附模型网络来说,当网络度分布的幂律指数[math]\displaystyle{ \alpha\lt 1.0 }[/math]时,有效信息的大小会随着网络规模的增加而增大;当[math]\displaystyle{ \alpha\gt 1.0 }[/math]时,结论相反;[math]\displaystyle{ \alpha=1.0 }[/math]刚好对应的无标度网络则是增长的临界边界。对于真实网络来说,作者们发现,生物网络因为具有很大的噪音,所以有效信息最低。然而,我们可以通过有效的粗粒化去除这些噪音,这就使得生物网络相比于其他类型网络能够展现出更显著的因果涌现现象;而因为技术类型网络是更稀疏、非退化,因此,平均效率更高,节点关系也更加具体,所有有效信息也最高,但是难以通过粗粒化来增加因果涌现度量。
在该文章中,作者使用贪婪算法来粗粒化网络,然而对于大规模网络来说,这种算法效率很低。随后,Griebenow等[4]提出了一种基于谱聚类的方法来识别偏好依附网络中的因果涌现。相比贪婪算法以及梯度下降算法,谱聚类算法的计算时间更少,同时找到的宏观网络的因果涌现也更加显著。
- 生物系统
进一步,Klein等人将复杂网络中的因果涌现方法扩展到了更多的生物网络中。前文已经指出,生物网络具有更大的噪音,这使得我们很难理解其内部的运作原理,这种噪音一方面来自系统的固有噪音,另一方面是由于测量或观察引入的。Klein等[6]进一步探索了生物网络中的噪声、简并性和确定性三者之间的关系以及具体含义,得出了一些有趣的结论。
例如,基因表达网络中的高确定性可以理解为一个基因几乎肯定会导致另一个基因的表达。同时生物系统在进化过程中也普遍存在高简并性现象。这两个因素共同导致,目前人们尚不清楚应该在何种尺度上分析生物系统才能更好理解它们的功能。Klein等[7]分析了超过1800个物种的蛋白质相互作用网络,发现宏观尺度的网络具有更小的噪音和简并性,同时与不参与宏观尺度的节点相比,组成宏观尺度网络中的节点更具有弹性。因此,生物网络为了适应进化的要求,需要演化出宏观尺度以提高确定性来增强网络弹性以及提高信息传输的有效性。
Hoel等在文章[8]中借助有效信息理论进一步研究了生物系统中的因果涌现。作者将有效信息应用到基因调控网络上,以识别最能提供信息的心脏发育模型从而控制哺乳动物的心脏发育。通过量化酿酒酵母基因网络的最大连通集团中的因果涌现,文章揭示了富有信息的宏观尺度在生物学中是普遍存在的,以及生命机制本身也经常运行在宏观尺度上。该文章也为生物学家提供了一种可计算的工具来识别最具有信息的宏观尺度,并且可以在此基础上建模、预测、控制和理解复杂的生物系统。
Swain等在文章[9]中探索了蚁群的交互历史对任务分配和任务切换的影响,使用有效信息研究噪声如何在蚂蚁之间传播。结果发现,蚁群之间历史交互程度影响任务的分配,并且具体交互中蚂蚁群体的类型决定了交互中的噪音。此外,即使当蚂蚁切换功能群时,蚁群涌现出来的凝聚力也能保证群体的稳定,同时不同功能蚁群在维持蚁群凝聚力方面也发挥着不同的作用。
缺陷与争议
根据上述实例可以发现,得到宏观动力学的有效信息,依赖给定的粗粒化策略。但是,Erik的文章只是针对每个设计的情景,给出了最优粗粒化的方案,文章中并没有深入探讨粗粒化本身;给出的粗粒化只是针对状态空间进行归并,归并后具体应该如何对概率转移矩阵进行操作并未提及。状态归并本身也有一定的前提条件需要满足,比如状态分类是否满足Lumpability?该如何进行合并?粗粒化和动力学是否满足可交换性?文章都没有涉及这些问题的探讨,只停留用比较直觉方法进行概率归并,难以指导在其他系统中使用。详细严谨的粗粒化介绍详见马尔科夫链的粗粒化。
此外,像在上述状态、变量较少,且转移概率矩阵有明显的规律可循时,可以相对容易定义粗粒化策略并识别因果涌现。但对于情况复杂的实际系统时,例如生物系统,从可观测数据中辨别系统是否发生了因果涌现是一个更为重要的问题。为此,Rosas等人提出基于信息分解的因果涌现理论,张江等人提出的基于奇异值分解的因果涌现理论以及张江等人还提出了一些自动识别涌现的神经信息压缩方法NIS,NIS+,有兴趣的读者可以进一步查阅这些词条。
参考文献
- ↑ 1.0 1.1 1.2 Hoel, E.P., Albantakis, L. and Tononi, G. Quantifying causal emergence shows that macro can beat micro[J]. Proceedings of the National Academy of Sciences, 2013, 110(49), 19790-19795.
- ↑ 2.0 2.1 Hoel, E.P. When the map is better than the territory[J]. Entropy, 2017, 19(5), p.188.
- ↑ 3.0 3.1 Klein B, Hoel E. The emergence of informative higher scales in complex networks[J]. Complexity, 2020, 20201-12.
- ↑ 4.0 4.1 Griebenow R, Klein B, Hoel E. Finding the right scale of a network: efficient identification of causal emergence through spectral clustering[J]. arXiv preprint arXiv:190807565, 2019.
- ↑ Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.
- ↑ Klein B, Swain A, Byrum T, et al. Exploring noise, degeneracy and determinism in biological networks with the einet package[J]. Methods in Ecology and Evolution, 2022, 13(4): 799-804.
- ↑ Klein B, Hoel E, Swain A, et al. Evolution and emergence: higher order information structure in protein interactomes across the tree of life[J]. Integrative Biology, 2021, 13(12): 283-294.
- ↑ Hoel E, Levin M. Emergence of informative higher scales in biological systems: a computational toolkit for optimal prediction and control[J]. Communicative & Integrative Biology, 2020, 13(1): 108-118.
- ↑ Swain A, Williams S D, Di Felice L J, et al. Interactions and information: exploring task allocation in ant colonies using network analysis[J]. Animal Behaviour, 2022, 18969-81.
编者推荐
下面是一些链接能够帮助读者更好的了解基于有效信息的因果涌现理论的相关信息:
因果涌现读书会
文章推荐
- Hoel, E.P., Albantakis, L. and Tononi, G. Quantifying causal emergence shows that macro can beat micro[J]. Proceedings of the National Academy of Sciences, 2013, 110(49), 19790-19795.
- Hoel, E.P. When the map is better than the territory[J]. Entropy, 2017, 19(5), p.188
路径推荐
- 张江老师根据因果涌现读书会第一季梳理的关于因果涌现的学习路径:https://pattern.swarma.org/article/153
- 张江老师根据因果涌现前五季读书会整理的因果涌现入门路径:https://pattern.swarma.org/article/296
此词条由彭晨编写,xx整理和审校。
本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。