基于有效信息的因果涌现理论

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
跳到导航 跳到搜索

所谓的因果涌现是指对于同一个系统,其宏观的因果效应强度大于微观的现象。而基于有效信息的因果涌现理论是一种最早定量刻画因果涌现现象的理论,该理论由Erik Hoel等人于[1]一文中提出,文章定义了一种因果效应度量指标,即有效信息,并将之用于量化一个马尔科夫动力学的因果性强弱,并在此基础上定义了因果涌现。在这个框架下,因果涌现被定义为伴随着我们对同一个系统的观察尺度从微观过渡到宏观,它的马尔科夫动力学有效信息度量会提高的现象。其中,宏观动力学可以由对微观动力学的粗粒化操作而得到。通常,针对一个系统的粗粒化方案有很多,而Hoel的因果涌现框架需要找到使宏观动力学有效信息最大的最优粗粒化方法,即,如果经过最优粗粒化的宏观动力学的有效信息大于微观动力学的有效信息,则表明系统发生了因果涌现现象。

历史起源

因果涌现的基本思想,即通过粗粒化而得到因果效应更强的系统可以追溯到Crutchfield等人的计算力学理论,以及Seth等人提出的格兰杰涌现等理论框架。然而,正式的因果涌现理论的提出则要等到2013年。

这一年,Erik Hoel在美国科学院院刊(PNAS)上发表文章[1],首次使用了有效信息指标用来定量描述涌现现象,并提出了因果涌现理论。其中,有效信息这一指标的提出可以追溯到Giulio Tononi等人在2003年的文章[2]。在这篇文章中,有效信息是作为整合信息论中度量复杂系统信息整合能力的一部分而提出的。2013年,Erik Hoel与Tononi和Albantakis合作将有效信息应用到了因果涌现概念的刻画上。

根据因果涌现理论,一个马尔科夫动力系统中微观状态的转移规则,即微观动力学或微观的因果机制(Causal Mechanism)是已知的。在此基础上,将多个微观状态进行合并,即文中所表述的粗粒化映射,可以得到相应的宏观状态,而微观动力学也被相应地粗粒化为宏观动力学。其中,微观动力学或因果机制是富含所有信息的,宏观动力学或因果机制是随附于(Supervene)微观因果机制的。因果涌现现象被描述为:粗粒化后的宏观动力学的因果效应高于微观动力学的因果效应。其中,因果效应的度量是使用有效信息这一指标完成的。这一指标被定义为干预下的互信息,即将系统上一时刻的状态(即因变量)干预为均匀分布,然后计算上一时刻和下一时刻状态(即动力学的因变量和果变量)之间的互信息大小。这种定义反映了因与果状态被动力学即因果机制约束的强度,也就是因果效应的强度。通过这种干预操作,最终的有效信息仅仅是动力学即因果机制的函数,而与因变量的分布无关。

2017年,Erik Hoel在[3]中引入了信息论中香农定义的“信道容量”(information channel capacity)这一概念,提出动力系统中也存在类似的“因果容量”(Causal Capacity)的概念。

香农发现,信道上的信息传输速率对输入信号概率分布非常敏感,因此选择使系统输入输出互信息最大化的输入分布来定义信道容量,这一定义反映了信道允许可靠传输信息的最大速率。

类似地,在因果性度量中,根据定义,改变粗粒化操作也会改变系统宏观动力学的有效信息,这是因为粗粒化操作在从微观映射到宏观层次的过程中实际改变了动力学,因而发生了因果机制的变化,这是因果涌现现象存在的前提。除了13年提出的粗粒化方式,即通过合并一些变量为宏观变量[1]这一方式以外,作者还提出了另一种粗粒化系统的方式,即将部分变量视为外生变量,例如设置这些变量的取值,让它们一直保持初始状态,或视其为“黑盒”从而随机取值,这样的设置可以提升系统本身的因果效应强度,因此是另一种因果涌现现象。这种方式也可以看作是一种粗粒化操作,这是系统的状态变量随着将一些变量外部化而减少了。那么,因果容量就被定义为一个系统以粗粒化的方式而改变动力学因果效应强度的能力。Erik Hoel还提出一个普遍的原则:系统中可使用的改变干预分布的方式越多,因果容量就越接近信道容量。

基本概念

复杂系统在宏观尺度和微观尺度有着不同的刻画和描述,体现为从不同的尺度去看一个复杂系统的时候,会得到完全不同的模式与动力学。当一个系统在宏观尺度能够展现出比它的微观尺度更强的因果效应,我们就称之为发生了因果涌现。

根据Erik Hoel的基于“有效信息”(Effective Information)的理论,如果系统的动力学——即马尔科夫转移矩阵,以及粗粒化策略给定,就可以通过分别计算原马尔科夫矩阵和粗粒化后的马尔科夫矩阵的有效信息(EI),从而判断因果涌现是否发生。

因果涌现概念框架

下图是对该理论的一个抽象框架,其中,横坐标表示时间,纵坐标表示尺度(Scale)。该框架可以看成是对同一个动力系统在微观和宏观两种尺度上的描述。

因果涌现理论抽象框架

其中,[math]f_m[/math] 表示微观动力学,[math]f_M[/math] 表示宏观动力学,宏观的状态和微观的状态通过一个粗粒化函数 [math]\phi[/math]相连。在一个离散状态的马尔科夫动力系统中,[math]f_m[/math] 和 [math]f_M[/math] 都是马尔科夫链,对 [math]f_m[/math] 进行马尔科夫链的粗粒化,就可以得到 [math]f_M[/math]。[math]\displaystyle{ EI }[/math]有效信息的度量。由于微观动力学可能具有更大的随机性,这导致微观动力学的因果效应强度比较弱,所以通过粗粒化,就有可能得到一个因果效应更强的宏观动力学。所谓的因果涌现,就是指粗粒化操作使得动力学的有效信息会增加这一现象,并且宏观动力学与微观动力学的有效信息之差被定义为因果涌现强度

下面将进一步分模块展开介绍基于有效信息的因果涌现理论所涉及到的核心内容。

马尔科夫链

最初,基于有效信息的因果涌现理论是建立在离散状态的马尔科夫动力学,即马尔科夫链基础上的。

马尔科夫链是指一种状态离散、时间离散的平稳随机过程,描述的是一组随机变量[math]X_t[/math]在状态空间[math]\mathcal{X}=\{1,2,\cdots,N\}[/math]上的取值随时间变化的过程,其中[math]t[/math]通常表示时间。其动力学一般可以用转移概率矩阵描述(Transitional Probability Matrix),简称TPM。该矩阵是一个概率矩阵,其中第[math]i[/math]行,第[math]j[/math]列的[math]p_{ij}[/math],表示任意时刻[math]t[/math],系统在[math]i[/math]状态的条件下,[math]t+1[/math]时刻转移到[math]j[/math]状态的概率。因此,转移概率矩阵每一行均满足归一化条件:[math]\displaystyle{ \sum_{j=1}^Np_{ij}=1 }[/math]

[math]t+1[/math]时刻上的状态概率分布,即[math]Pr(X_{t+1})[/math],可以被上一时刻的状态概率分布[math]Pr(X_t)[/math]和状态转移矩阵唯一确定,即满足:

[math]\displaystyle{ Pr(X_{t+1}=j)=\sum_{i=1}^N p_{ij}\cdot Pr(X_t=i), }[/math]

这里的[math]i,j\in \mathcal{X}[/math],是[math]\mathcal{X}[/math]中的任意状态,且[math]N=\#(\mathcal{X})[/math],即[math]\mathcal{X}[/math]中的总状态数。


举例来看,状态转移矩阵

[math]\displaystyle{ P_{ij}=\begin{pmatrix} &1/3 &1/3 &1/3 &0& \\ &1/3 &1/3 &1/3 &0& \\ &1/3 &1/3 &1/3 &0& \\ &0 &0 &0 &1& \\ \end{pmatrix} }[/math]

 

 

 

 

(1)

首先需要满足每一行的和为1,即归一化条件。由矩阵大小可知,系统共有4个状态。以[math]\displaystyle{ p_{23}=1/3 }[/math]为例,表示第2个状态下一时刻转移到第3个状态的概率为1/3。

有效信息

下面将引入有效信息这一关键指标,介绍如何基于该指标量化马尔科夫动力系统的因果效应。

有效信息(Effective Information,简称EI)是因果涌现理论中的核心概念,它可以用来度量一个马尔科夫动力学因果效应强度,定义如下:

[math]\displaystyle{ \begin{aligned} EI &= I(X_t,X_{t+1}|do(X_t\sim U(\mathcal{X})))=I(\tilde{X}_t,\tilde{X}_{t+1}) \\ &= \sum^N_{i=1}\sum^N_{j=1}Pr(\tilde{X}_t=i,\tilde{X}_{t+1}=j)\log \frac{Pr(\tilde{X}_t=i,\tilde{X}_{t+1}=j)}{Pr(\tilde{X}_t=i)Pr(\tilde{X}_{t+1}=j)}\\ &= \sum^N_{i=1}Pr(\tilde{X}_t=i)\sum^N_{j=1}Pr(\tilde{X}_{t+1}=j|\tilde{X}_t=i)\log \frac{Pr(\tilde{X}_{t+1}=j|\tilde{X}_t=i)}{Pr(\tilde{X}_{t+1}=j)}\\ &= \frac{1}{N}\sum^N_{i=1}\sum^N_{j=1}p_{ij}\log\frac{N\cdot p_{ij}}{\sum_{k=1}^N p_{kj}} \end{aligned} }[/math]

其中[math]\displaystyle{ \tilde{X}_t,\tilde{X}_{t+1} }[/math]分别为把t时刻的[math]X_t[/math]干预均匀分布后,前后两个时刻的状态,而EI度量的就是在干预操作后,系统前后两个时刻状态之间的互信息。[math]\displaystyle{ p_{ij} }[/math]为第i个状态转移到第j个状态的转移概率。从这个式子,不难看出,EI仅仅是概率转移矩阵[math]P[/math]的函数。进一步,如果马尔科夫链TPM按照行向量形式处理,EI可以写成更加简便的形式[math]\displaystyle{ EI =\frac{1}{N}\cdot \sum_{i=1}^N\left(P_i\cdot \log P_i - P_i\cdot\log \bar{P}\right) }[/math],其中,[math]P_i[/math]是矩阵[math]P[/math]的第[math]i[/math]个行向量(推导过程见有效信息)。

针对马尔科夫链中列举的TPM例子,即式1,代入上述计算公式,它的有效信息如下:

[math]\displaystyle{ \begin{aligned} EI &= \frac{1}{N}\sum^N_{i=1}\sum^N_{j=1}p_{ij}\log\frac{N\cdot p_{ij}}{\sum_{k=1}^N p_{kj}} \\ &= \frac{1}{4}(\log\frac{4}{3} + \log\frac{4}{3} + \log\frac{4}{3} + log(4)) \\ &\approx 0.81 \end{aligned} }[/math]


EI实际上可以被分解为两项,在马尔科夫链的情景下的分解如下:

[math]\displaystyle{ \begin{aligned} EI &= \frac{1}{N}\cdot \sum_{i=1}^N\left(P_i\cdot \log P_i - P_i\cdot\log \bar{P}\right)\\ &=\underbrace{-\langle H(P_i)\rangle}_{确定性项}+\underbrace{H(\bar{P})}_{非简并性项} \end{aligned} }[/math]

其中,第一项:[math]-\langle H(P_i)\rangle\equiv \frac{1}{N}\sum_{i=1}^N H(P_i)[/math]为每个行向量[math]P_i[/math]的负熵的平均值,它刻画了整个马尔科夫转移矩阵的确定性(determinism)程度;

第二项:[math]H(\bar{P})[/math]为平均行向量的熵,其中[math]\bar{P}\equiv \frac{1}{N}\sum_{i=1}^N P_i [/math]为所有N个行向量的平均行向量,它刻画了整个马尔科夫转移矩阵的非简并性非退化性(non-degeneracy)程度。关于有效信息的更多详细讨论,请参考有效信息词条。

粗粒化映射

对于一个给定的马尔科夫链[math]\chi[/math],它的状态空间为[math]S_m[/math],其中状态数为[math]N[/math],动力学,即转移概率矩阵为[math]f_m[/math]。

粗粒化的一般性讨论

对马尔科夫概率转移矩阵实施粗粒化的步骤,可分为三步:

1. 对状态空间进行粗粒化[math]\phi[/math]:即一种对微观状态做粗粒化分组的方案[math]\phi:S_m\rightarrow S_M[/math],其中[math]S_M[/math]代表宏观态集合,该集合的元素个数为([math]M\leq N[/math])。值得注意的是,这种状态空间的划分方法可以分为基于状态和基于变量这两类。虽然二者本质上是一样的,即基于变量的划分也是对状态划分的一个特例,但基于变量时,属于同一个变量的状态需绑定在一起进行划分,不能分割开。

2. 状态空间的分组[math]\phi[/math]自然诱导了一个状态空间上的状态分布的映射,即:[math]\phi:P(s_m)\rightarrow P(s_M)[/math],其中[math]s_m\in S_m, s_M\in S_M[/math]为微观或宏观的状态变量,P为概率。

3. 对转移概率矩阵(TPM)进行粗粒化:基于第一步的分组方式,状态合并后的概率转移矩阵也必须发生相应的变化,即需要对整个马尔科夫转移概率矩阵做粗粒化。这实际上定义了一个新的映射[math]\Phi: F_m\rightarrow F_M[/math],其中[math]F_m,F_M[/math]分别为状态空间[math]S_m[/math]和[math]S_M[/math]上定义的所有可能的转移概率矩阵。

基于变量的粗粒化

上述粗粒化的定义是针对状态空间进行的,它是最普适的情况。然而,需要注意的是,在Erik Hoel的2013年原始文章中,作者们的讨论却是从基于变量的粗粒化方案出发的,即对变量空间进行分组、归并(原文使用“grouping分组”来描述这一过程)。这种粗粒化方案又包括:直接针对变量进行的空间粗粒化,和对变量的动力学(即,概率转移矩阵TPM)进行的时间粗粒化,以及将变量“移出”系统的变量外部化操作三种,下面将详细介绍这几种粗粒化是如何进行的。

1.空间粗粒化:针对微观变量进行分组归并,将原状态空间进行粗粒化映射得到合并后的变量的状态空间。以两个布尔变量为例,这两个变量共有四种微观态[math]S_m = \{00,01,10,11\}[/math],首先将这两个微观变量归并为一个宏观变量,再对变量状态空间按照[math]M:[00,01,10] = off[/math], [math][11] = on[/math]的规则归并,最终保持宏观变量的布尔属性。粗粒化的结果是一个宏观变量,对应两个宏观态[math]S_M = \{on, off\}[/math]。

2.时间粗粒化:粗粒化针对的不再是微观变量,而是微观动力学,即归并两个接续时间步的微观动力学,从而重新定义马尔科夫动力学。在这种操作中,首先需要扩充变量的状态空间,使得任意两步接续的状态打包在一起作为一个微观变量,其次再考虑这个新微观变量的粗粒化形成宏观变量,最后考虑这个宏观变量的动力学。例如,一个系统下一时刻的微观态不仅依赖当前时刻的状态,还依赖于前一个时间步的状态,这种情况通常称为二阶马尔科夫性质。这种性质下,可以将两个微观动力学时间步粗粒化为一个宏观时间步,可以得到时间粗粒化后的宏观系统(详细讨论见下面时间因果涌现实例部分)。

3.变量外部化:这种方法不涉及状态的合并,而是试图将系统中的部分变量移出考虑的范畴,从而减少变量的数量,形成一个新的待考察的内部系统。

Erik Hoel在2017年的文章中称此类变量为外生变量(exogenous element),并提出了两种具体处理外部化变量的方式:一种方式称为将外生变量“冻结”,即将其设定为特定的状态,该变量在后续变化中将一直保持该初始状态,不影响系统中其他变量;另一种是将外生变量设为“黑箱”(black boxing),允许其随机变化,但是具体变化情况和对系统的影响都无法查看(不在最后模型的考虑范围内)。变量外部化方式是通过减少系统的状态变量的方式,达到了和一般的将变量归并分组的粗粒化方式一样的效果,即让系统总的状态空间减小,且可能导致EI增大。

最优粗粒化

通常,我们可以有很多方式对一个系统的微观动力学进行粗粒化。我们可以通过粗粒化后得到的宏观动力学的有效信息来衡量不同粗粒化方案的优劣,有效信息最大的宏观动力学,对应的粗粒化方案被认为是最优的。在Erik Hoel的因果涌现理论中,因果涌现是定义在最优粗粒化方案上的,即最优粗粒化方案下的动力学的有效信息增加了,即发生了因果涌现。注:Erik Hoel论文中的因果涌现实例,都是最优粗粒化方案的结果,即对应的宏观TPM有效信息是最大化的。

在一些动力学相对简单的系统中,我们可以直接找出合适或最优的粗粒化方案,但在更复杂的系统中,包括复杂网络上,这是非常困难的。为此,Klein 等人[4]和 Griebenow [5]等人提出了寻找复杂网络的最优粗粒化方案的不同方法。其核心思路是将复杂网络上的随机游走模型视作一个马尔科夫链,使用包括贪婪算法谱分解方法以及梯度下降等方法对马尔科夫链进行粗粒化。关于复杂网络上的因果涌现以及粗粒化方案,具体可参考复杂网络中的因果涌现

张江等人进一步发现最大化宏观动力学的有效信息的一个必要条件是让向量化的粗粒化分组方案尽可能地与微观动力学TPM的最大奇异值对应的奇异向量平行,因此他们主张可以绕过最优粗粒化的搜寻操作,而重新建立一种因果涌现理论,即基于动力学可逆性的因果涌现理论[6],该理论克服了因果涌现理论中需要预先指定粗粒化策略的限制,通过对系统的马尔科夫转移矩阵进行奇异值分解,计算奇异值,并由此定义系统的近似动力学可逆性指标[math]\displaystyle{ \Gamma_{\alpha} }[/math]([math]\alpha[/math]为一参数)。进一步,作者们发现该指标与有效信息EI近似等价,因此也能够用来衡量系统的因果效应程度。理论进一步区分了“清晰的因果涌现”和“模糊的因果涌现”,提供了一种更加客观的方法来评估系统的因果涌现程度,但也存在计算复杂度较高等问题。

同时,值得指出的是,并不是任意的粗粒化方案都是良定义的。所谓的良定义是指,我们要求粗粒化后的TPM仍然是一个合法的TPM,而且粗粒化后的宏观动力学应该与微观动力学保持一致性——即先进行演化操作然后粗粒化和先进行粗粒化操作再演化应该得到一致的宏观态分布。通过最大化粗粒化后的TPM的有效信息这一方案,并不一定满足宏观TPM仍然是良定义的,因此,关于马尔科夫链粗粒化的方法存在着较大的争议。详见论文[7]以及因果涌现词条。更详细具体的描述,请参考马尔科夫链的粗粒化

因果涌现度量

基于有效信息的定义,我们可以量化系统粗粒化前后因果效应的变化值,并用此变化值来度量因果涌现的强度。

因此,一个马尔科夫动力系统的因果涌现指标CE可以被定义为:

[math]\displaystyle{ CE = EI(f_M) - EI(f_m) }[/math]

这里[math]f_m[/math]为微观态的马尔科夫概率转移矩阵,维度为:[math]N\times N[/math],N为微观态数;而[math]f_M[/math]为对[math]f_m[/math]做粗粒化操作之后得到的宏观态的马尔科夫概率转移矩阵,维度为[math]M\times M[/math],其中[math]M<N[/math]为宏观态数。

如果计算得出的CE>0,则称该系统发生了因果涌现,否则没有发生。有时,我们也会根据归一化的EI来计算因果涌现度量,消除系统尺寸的影响,即定义:

[math]\displaystyle{ ce = Eff(f_M) - Eff(f_m) }[/math]

这里[math]Eff(f)\equiv EI/\log_2 N[/math]定义为动力学f的有效性,N为f中的状态数。

因此,因果涌现的度量可以拆解出两种效应:1.系统动力学的有效性(Eff)的提升 [math]\displaystyle{ \Delta{I_{Eff}} }[/math];2.状态空间的尺度效应 [math]\displaystyle{ \Delta{I_{Size}} }[/math]


即我们有:

[math]\displaystyle{ CE = \Delta{I_{Eff}} + \Delta{I_{Size}} }[/math]

其中,

[math]\displaystyle{ \Delta{I_{Eff}}=(Eff(f_M)-Eff(f_m)) \cdot \log_2 M=ce\cdot \log_2 M }[/math]


为由系统动力学的有效性提升而引发的因果涌现效应,其中[math]M[/math]为宏观状态数。

以及:

[math]\displaystyle{ \Delta{I_{Size}}=Eff(f_m) \cdot (\log_2 M -\log_2 N) }[/math]

即由系统的状态空间的减小而引发的因果涌现效应。

由于粗粒化的过程带来状态空间减小,所以[math]\displaystyle{ \Delta{I_{Size}} }[/math]总是为负;若要CE>0,即因果涌现发生,那么[math]\displaystyle{ \Delta{I_{Eff}} }[/math]必须为正值,且粗粒化带来的有效性提升幅度要超过状态空间缩减所导致的EI减小的幅度。

因果涌现与因果容量

Erik Hoel还提出因果涌现理论与Claude Shannon信息论之间的联系[3]。信息论中信息传输需要经过信道,信道由两个变量X和Y组成,分别为信道的输入和输出。对于任意的[math]X[/math]和[math]Y[/math]的取值[math]x,y[/math],我们可以定义一个转移概率[math]p(y|x)[/math],且满足:[math]p(y|x) \geq 0[/math],以及对于每个x,[math]\sum_y p(y|x) = 1[/math]。因此,由所有X和Y的取值,我们可以定义一个信道矩阵(即TPM)。信道的性质显然由该TPM决定。

同样,对于一个马尔科夫动力学的前后两个状态是受限于动力学的,这种因果关系关系也是固定不变的。信道和动力学都可以用转移概率矩阵所描述。因此,一个动力学也可以被看作是一个通信信道。

而以上提到的因果涌现都建立在将初始分布do干预成均匀分布的情况下,即干预分布的熵最大。回顾有效信息的计算公式:

[math]\displaystyle{ EI = I(\tilde{X}_t;\tilde{X}_{t+1}) = H(\tilde{X}_t) - H(\tilde{X}_t|\tilde{X}_{t+1}) = H(\tilde{X}_t) - ((1-Eff) * H(\tilde{X}_t)) = Eff * H(\tilde{X}_t) }[/math]

其中[math]\tilde{X}_t[/math]和[math]\tilde{X}_{t+1}[/math]是干预后的因果变量,[math]Eff[/math]为动力学的有效性。由公式可以看出EI的大小与干预的概率分布的熵有关。


Claude Shannon在信息论中提出信道具有一定的容量。信道容量是指信道以最具信息性和可靠性的方式将输入转化为输出的能力,信道中信息传输的速率对输入概率分布 [math]p(X)[/math] 的变化非常敏感。信道容量 (C) 定义为使互信息达到最大值的输入变量分布,这也是信道能够可靠传输信息的最大速率:

[math] C \equiv \max_{p(X)} I(X; Y), [/math]

其中[math]I(X; Y)[/math]是输入和输出之间的互信息


相应的,因果涌现理论揭示了系统存在一种类似的因果容量(Causal Capacity, CC),因为粗粒化操作本质上可以看作是对输入干预分布的改变,因果容量就是指系统以最具信息性和最有效的方式将干预转化为效果的能力,定义为:

[math] CC = \max_{\tilde{X_t}} I(\tilde{X_t}; \tilde{X}_{t+1}). [/math]

同上有效信息计算中,[math]\tilde{X}_t[/math]和[math]\tilde{X}_{t+1}[/math]是经过粗粒化干预后的因果变量,CC对应的是最有效的干预下,因果变量之间互信息的最大值。

因果涌现实例

基于状态空间的粗粒化计算因果涌现实例

一个简单的基于系统状态空间计算因果涌现的实例如下:一条离散的马尔科夫链[math]\chi[/math],共有4个可能的状态[math]S_m=\{0,1,2,3\}[/math],状态转移概率矩阵[math]P_m[/math]如下所示:

马尔科夫链示例

[math]\displaystyle{ P_m=\begin{pmatrix} &1/3 &1/3 &1/3 &0& \\ &1/3 &1/3 &1/3 &0& \\ &1/3 &1/3 &1/3 &0& \\ &0 &0 &0 &1& \\ \end{pmatrix} }[/math],

[math]\displaystyle{ P_M=\begin{pmatrix} &1 &0 & \\ &0 &1 & \\ \end{pmatrix} }[/math].

[math]\begin{aligned}&Det(P_m)=0.81\ bits,\\&Deg(P_m)=0\ bits,\\&EI(P_m)=0.81\ bits\end{aligned}[/math] [math]\begin{aligned}&Det(P_M)=1\ bits,\\&Deg(P_M)=0\ bits,\\&EI(P_M)=1\ bits\end{aligned}[/math]

在这个例子中,微观态的转移概率矩阵[math]P_m[/math]是一个4*4的矩阵,其中前三个状态彼此以1/3的概率相互转移,这导致该转移矩阵具有较小的确定性,因此EI也较小,为0.81。

然而,当我们进行如下粗粒化:也就是把前三个状态合并为一个状态a,而最后一个状态转变为一个宏观态b。这样所有的原本三个微观态彼此之间的转移就变成了宏观态a到a内部的转移了。然后,相应再计算得到转移概率矩阵[math]P_M[/math],它的EI为1。可以证明,这一粗粒化方案就是最优的粗粒化方案。

在这个例子中,我们可以计算它的因果涌现度量为:

[math]\displaystyle{ CE=EI(P_M)-EI(P_m)=1-0.81=0.19\ bits }[/math]

[math]\displaystyle{ ce=Eff(P_M)-Eff(P_m)=1-0.405=0.595 }[/math]

即存在着0.19比特的因果涌现,或用有效性度量得到因果涌现的大小为0.595。

基于变量空间的粗粒化计算因果涌现实例

下面,我们从变量的角度,分别给出了空间、时间和时空角度的布尔网络马尔科夫链系统因果涌现的实例。我们将从微观动力学、粗粒化映射和宏观动力学三个方面进行描述和分析。

在下面的讨论中,[math]X_m[/math]表示微观变量的集合;[math]X_M[/math]表示宏观变量的集合。微观变量的取值集合为[math]\{0,1\}[/math],即都是布尔值变量,我们用拉丁字母[math]\{A, B, C…\}[/math]来表示,宏观变量则用希腊字母[math]\{α, β, γ. .\}[/math]表示。每个微观变量的状态标记为[math]\{0,1\}[/math],宏观变量的状态标记为[math]\{“on”,“off”\}[/math]或[math]\{“bursting”,“quiet”\}[/math]。微观态对应的转移概率矩阵(TPM)为[math]P_m[/math],宏观态对应的转移概率矩阵(TPM)为[math]P_M[/math]。

注:下面涉及到的TPM行列对应的系统状态排列,均按照以下python代码生成,其中num_nodes是网络中布尔变量的个数。

state_space = list(np.array(np.meshgrid(*[[0, 1]] * num_nodes)).T.reshape(-1, num_nodes))

空间因果涌现

所谓的空间因果涌现,是指对系统的粗粒化方案是基于对同一时刻的状态空间进行划分作为基础的粗粒化方案,并且该粗粒化最终导致了因果涌现的发生。

根据前文,因果涌现量化指标可以拆分为确定性和简并性两项。接下来,我们对由确定性和由简并性主导的因果涌现分别给出一个实例,介绍空间因果涌现。

提高确定性实例分析

由于有效信息包括了确定性和简并性,因此二者任意一个的提高都可能导致因果涌现发生。首先,我们考虑确定性的提升导致的因果涌现现象。

微观态与微观动力学:系统由四个布尔变量组成[math]X_m = \{A,B,C,D\}[/math] 组成(如图1)。其中,变量A和B一组,变量C和D一组,其中一个组中的每个变量[math]t+1[/math]时刻的状态由另一组两个变量[math]t[/math]时刻的状态决定。

在这个例子中,系统的动力学最原始的表达为一种微观变量的因果机制(如图1中的中间的表格),由每个单独变量的因果机制,我们便可以展开得到整个系统的动力学,即因果机制。

  • 首先,对于单独任意一个变量(图1(a)中的节点),它的微观机制可以被看做一个带噪声的AND门操作。图1(a)中的表格可以被解读为:假设[math]t[/math]时刻CD = {00}的条件下,则[math]t+1[/math]时刻,A和B每个变量有0.7的条件概率为0,0.3的条件概率为1。
  • 其次,由单个变量的微观机制,我们可以进一步得到AB联合变量的动力学机制,即在给定C、D变量的取值条件下,A,B变量的联合状态总共可能有以下四种:{00},{01},{10},{11},每种联合状态的条件概率由A和B单独状态所对应的条件概率的乘积得到。所以这四种联合状态的条件概率分别对应为0.49(0.7x0.7),0.21(0.7x0.3),0.21(0.3x0.7),0.09(0.3x0.3),且满足概率之和为1的归一化条件。类似地,我们可以考虑在CD={01,10,11}条件下,AB联合变量的条件概率。
  • 进一步,我们也可以对称地得到在A和B在t时刻的取值为AB={00,01,10,11}的条件下,CD联合变量分别取00,01,10,11的条件概率。
  • 然后,将所有这些t时刻的状态综合在一起,我们便可以得到在ABCD四变量形成的联合状态下(总共有[math]2^4=16[/math]种可能性,即16个微观态),ABCD在t+1取16种可能状态值的条件概率(因为在给定t时刻状态的条件下,ABCD的取值彼此独立,因此联合变量ABCD的条件概率取值可以将上述每一个条件概率乘到一起得到),从而得到微观态的16 × 16的概率转移矩阵 [math]P_m[/math]——即微观动力学(如图1(b)所示)。
  • 最后,根据EI的公式可以计算得到有效信息[math]EI(P_m) = Det(P_m) - Deg(P_m) = 1.35 - 0.20 = 1.15 \text{ bits}[/math],[math]Eff(P_m) = EI(P_m)/ \log N = 1.15/4 = 0.29[/math],其中Det表示确定度,Deg表示简并度。

空间因果涌现例1-微观2.png


粗粒化映射:Hoel等人给出的具体的粗粒化方案为:将微观变量集合[math]X_m = \{ABCD\}[/math]归并为两个宏观变量,即[math]X_M = {α, β}[/math],其中[math]\alpha=AB[/math],[math]\beta=CD[/math]。并且,[math]\alpha,\beta[/math]的取值集合为:{"off" ,"on"}。同时,我们可以定义微观变量取值到宏观变量取值的对应规则,如图2(a)中的映射所示。

宏观动力学:粗粒化后,系统现在由2个宏观变量组成,每个宏观变量有2个态,所以共有[math]2^2=4[/math]个宏观态。根据系统微观态的TPM和粗粒化映射规则,我们可以得到一个衍生的宏观态的机制(如图2(a)中表格所示),或等价的一个 4 × 4 的概率转移矩阵(TPM,如图2(b)所示):[math]P_M[/math]。粗粒化后,宏观态的概率转移矩阵规模减小,但是状态间的转移规律更明确。宏观动力学[math]EI(P_M) = Det(P_M) - Deg(P_M) = 1.56 - 0.01 = 1.55 \text{ bits}[/math],[math]Eff(P_M) = 0.78[/math],高于微观动力学的[math]EI(P_m) = 1.15 \text{ bits}[/math]。因此,因果涌现度量[math]CE = EI(P_M) - EI(P_m) = 0.40 \text{ bits}[/math],宏观动力学的因果性优于微观动力学,因果涌现发生。

本例中,在宏观动力学的有效性[math]\Delta I_{Eff}[/math]的增益主要来自于减少噪声干扰,即确定性提高(归一化后:[math]Det(P_m) = 0.34[/math]; [math]Det(P_M) = 0.78[/math]),少部分来源于简并性减少(归一化后:[math]Deg(P_m) = 0.05[/math]; [math]Deg(P_M) = 0.006[/math])。

空间因果涌现例1-宏观2.png

抵消简并性实例分析

让EI提高的第二种方式就是减小简并性,因此第二个例子即来自简并性的减小导致的因果涌现。

微观动力学:在这个例子中,原始的系统(微观态)中有6个布尔变量[math]X_m = \{ABCDEF\}[/math](如图3(a)所示),其中A、B接受E和F的输入,C、D接受A和B的输入,E、F接受C和D输入。响应机制为确定性AND门,对应完全确定性(变量根据输入转移至完全确定的状态)和高简并度(输入00,01,10转移至相同状态)。微观态的概率转移矩阵可以按照上述例子的方法计算,如下图所示。由于前一时刻的很多状态会转移至下一时刻的相同状态,因此系统的简并性较高。根据有效信息计算,可以得到[math]EI(P_m) = 2.43 \text{ bits}[/math],[math]Eff(P_m) = 0.4[/math]。


空间因果涌现例2-微观2.png


粗粒化映射:同上例,根据微观机制的分组,接受相同输入的变量可以被分为同一组,因此可以分为3个宏观变量。根据机制的同类性,{[00,01,10], [11]}可归并为宏观变量状态{"off" ,"on"},输入宏观变量状态为”off“时,宏观变量响应也为”off“,反之亦然。确定性AND门映射为宏观COPY操作,即粗粒化后的宏观变量完全复制输入变量的状态。

宏观动力学:宏观态的概率转移矩阵如图4(b)所示,可得到宏观动力学[math]EI(P_M) = 3 \text{ bits}[/math],[math]Eff(P_M) = 1[/math],[math]CE = EI(P_M) - EI(P_m) = 0.57 \text{ bits}[/math],因果涌现发生。进一步拆解分析可知,微观和宏观机制都是完全确定性的,但粗粒化后宏观简并性明显减小 [math]\Delta Deg = -0.6[/math],对应图中不同行的状态下一时刻转移至不同宏观态。在本实例中,粗粒化映射消除了系统的简并性,因此这是一种简并性主导的因果涌现。


空间因果涌现例2-宏观2.png

时间因果涌现

如果我们将接续多个时刻的状态合并到一起形成一个联合状态,将([math]t_x[/math]) 个微观时间步粗粒化为([math]T_x[/math])个宏观时间步,从而得到衍生的多个时间步合并的新的高阶马尔科夫动力学,则我们可以定义对时间进行粗粒化映射而导致的涌现现象。

下面对一个时间因果涌现实例进行分析:

微观动力学:系统有A和B两个变量,每个变量[math]t[/math]和[math]t+1[/math]的状态由另一变量[math]t-2[/math]和[math]t-1[/math]时刻的状态决定,即遵循二阶马尔可夫机制(图5(a))。具体的状态决定机制如图5中间的表格所示,当B前两时刻([math]t-2[/math],[math]t-1[/math])状态为{11}时,A当前和后一时刻([math]t[/math],[math]t+1[/math])状态可确定为{11};当B前两时刻状态为其余三种情况{00,01,10},A当前和后一时刻状态会以等概率出现这三种情况中的一种。基于一个微观时间步分析,得到 [[math]EI(S_m) = 0.16 \text{ bits}[/math];[math]Eff(S_m) = 0.03[/math]],因果相互作用较弱,因为忽略了系统二阶性质。计算这个二阶马尔科夫链的 [math]EI(S_m) = 1.38 \text{ bits}[/math],[math]Eff(S_m) = 0.34[/math]。


时间因果涌现-微观2.png

粗粒化映射:根据二阶马尔科夫性质,将微观态的时间步分组为宏观状态[math]α = {A_t, A_{t+1}}[/math]和[math]β = {B_t, B_{t+1}}[/math](图6(a));同空间因果涌现实例,图5(b)概率转移矩阵中状态间明显的界限,可以将{[00,01,10],[11]}分别映射为{"off","on"}两个宏观状态。

宏观动力学:对二阶马尔科夫过程进行粗粒化后得到的宏观机制如图6(b)所示,此时机制为完全确定和非简并的,即宏观时间尺度下 [math]EI(P_M) = 2 \text{ bits}[/math],[math]Eff(P_M) = 1[/math], [math]CE = EI(P_M) - EI(P_m) = 0.62 \text{ bits}[/math],因而因果涌现发生。

时间因果涌现-宏观2.png

时空因果涌现

因果涌现现象还可以基于对空间、时间同时进行粗粒化而产生,下面给出一个时空同时粗粒化得到因果涌现的例子。

如图7所示(描述神经元的发放状态如何由其它神经元决定[8]),系统中一共有9个微观态变量,分别记为A~I,它们都是布尔型变量,并彼此之间都相互影响,具体的影响机制描述为:

微观动力学:

  • 动力学机制:所有微观变量也遵循二阶马尔可夫机制,整合前两个时间步([math]t_{-2}[/math]和[math]t_{-1}[/math])的变量状态,得到后两个时间步([math]t_0[/math], [math]t_{+1}[/math])的变量状态。所有微观变量自发活动(0/1),1为发放状态,每个变量具有非均匀的自发放概率:[math]p(A/D/G) = 0.45[/math];[math]p(B/E/H) = 0.5[/math];[math]p(C/F/I) = 0.55[/math]。
  • 变量分组:所有变量被划分为三组:[math]{ABC, DEF, GHI}[/math],每个变量都接收组内(也包含该变量自身)和组间变量的输入。在每组内,如果两个时间步内组内输入之和为0,则接下来的两个时间步所有变量保持为0。然而,如果在两个时间步中,另外有一组(或者两组)变量提供的组间输入之和为6,且该组内输入之和不为0时,则在接下来的两个时间步中,自发放概率提高为0.5;否则,还是遵循自发活动的发放概率。

可以计算得到:微观动力学对应的 [math]EI(P_m) = 0.59 \text{ bits}[/math];[math]Eff(P_m) = 0.033[/math]。

粗粒化映射:根据二阶马尔科夫性质,将两个微观时间步长整合为一个宏观时间步长,这便对应为时间粗粒化映射;进一步,根据动力学中的分组机制,三组变量在空间上映射可以被划分为三个宏观变量(如图6(b)所示),这便对应为空间粗粒化映射。从上述组机制中可以看出,一组变量的状态全为0和全为1会影响发放概率,这两种情况之外,每个微观变量都遵循自发活动;因此,每个宏观变量所对应的微观变量可以归并出三种状态:全为0的状态(这对应的宏观态为抑制态)、全为1的状态(这对应为宏观的爆发态),以及介于二者之间的所有状态(这对应为宏观的感受态)。

宏观动力学:时空粗粒化后的宏观动力学具有比微观动力学更高的[math]EI(P_M) = 3.51 \text{ bits}[/math],和[math]Eff(P_M) = 0.74[/math],[math]CE = 2.92 \text{ bits}[/math],因果涌现发生。粗粒化过后系统确定性的增加,增加程度远超过简并性的增加。


时空因果涌现2.png


注:本实例可对应真实神经元活动上的解释。神经元可以理解为图中的微观变量,而粗粒化后的宏观变量可理解为神经元组成的“微柱”(minicolumn),对应有三种状态:“抑制态”,微柱中神经元均在t时刻静默,对应组内神经元状态全为0;“感受态”,部分神经元在t时刻放电,对应部分为1;“爆发态”:所有神经元均在t时刻放电,对应全为1。宏观的因果相互作用可以解释为,如果一个宏观“微柱”处于“抑制态”,那么只有接收到一次其他微柱的”爆发“式发放才能转换到“感受态”,极小可能转换为“爆发态”;否则,它将一直保持“抑制态”。

变量外部化导致的因果涌现

在Hoel的2017年的文章[3]中,他定义了另外一种变量粗粒化的方式,这就是将系统中的某些变量外部化(Marginalization),即将其视为系统的外部变量。这样,当计算EI的时候,do干预操作便不会影响这些外部变量,从而也可能导致EI增加的可能性,即外部化导致的因果涌现现象。

冻结外部化变量

外部化变量通常包括两种方式,即“冻结”外部化变量方式,如下图:

图中的每个变量仍然都是布尔型的变量,且我们将图中的变量D视为一个外部变量,即我们考察的系统为A、B、C三个变量。假设在粗粒化之前,系统的微观动力学机制为:被“冻结”的变量D的输入仅来自于自身,且为COPY机制,故系统变化过程中变量D将一直保持初始的状态不变。另外,A接受D和C的输入,响应方式为OR门,变量B,C的状态变化方式与A同理。由此,不难看出D的动力学变化模式独立于另外三个变量。

接下来,粗粒化方案则体现为将D变量“冻结”,而将A,B,C视作我们考察的系统(即重新定义系统边界)。而在动力学的粗粒化上,所谓的“冻结”操作可以被看作是改变这些变量分布的一种干预操作,即将D的初始状态干预为0,其它三个变量干预为均匀分布。而由于A、B、C三个变量在微观动力学中都是接受两个变量输入的,其中一个输入D被固定为了0,所以,A,B,C三个变量的状态更新就完全取决于另一个输入变量,而与D无关了。因此,粗粒化后,这三个变量的OR机制变为了COPY机制。

黑盒化外部变量

另一种方式则是“黑盒化”外部变量,如下图:

其中,A,B,C,D,E五个变量的微观动力学与上例相同,而“黑盒”外部化变量F则与前面例子不同,不同之处在于,变量F接受来自另外五个变量的输入,并且它的响应方式为逻辑判断“五个输入加和是否等于5”,也就是只有A,B,C,D,E同时为1的时候,F才转移至1。

在所有变量都是内生变量时,所有状态都发生的是确定性转移,因为机制是完全确定的。在将变量D做黑盒化处理后,相当于我们不再关注它的变化了。举例来说,假设采样发现F取0和1的概率为是11:1(可人为设定,但要注意取0的概率远大于1),当{ABCDE}的状态为{01011}时,那么下一时刻,有11/12的概率继续保持{01011}(对应当前黑盒D的状态为0),而有1/12的概率转移至{11111}(对应当前黑盒的D状态为1)。相比于原系统,黑盒化F后的五变量系统的转移不再是确定性的,F的变化仅视作系统的噪声。从原TPM得到黑盒化后的TPM,需要将转移概率对黑盒变量的概率做边际化(marginalize),在新的TPM中不再出现F的状态,可参考如下三步操作:

(1)行向量处理:a. 将F=0和1的行向量乘以对应概率,即11/12和1/12;b. 对应ABCDE状态相同的行向量两两相加,例如{ABCDEF} = {110001} 和 {ABCDEF} = {110000}相加合并,得到的即为{ABCDE} = {11000}下一时刻向各状态转移的概率情况,操作后的TPM行数量减半;

(2)列向量处理:同上步骤b,对应ABCDE状态相同的列向量两两相加,完成后列数量也减半;

(3)归一化:行归一化新TPM,得到{ABCDE}各状态之间的转移概率矩阵。

应用

总体来说,基于有效信息因果涌现理论基本都定义在离散状态空间之上,它的应用范围除了马尔科夫链和布尔网络以外,还可以推广到各式复杂网络之上。

复杂网络

2020年,Klein和Hoel改进马尔科夫链上定量化因果涌现的方法以应用到复杂网络[4],作者借助随机游走子来定义网络中的马尔科夫链,将随机游走子放在节点上等价于对节点变量做干预为均匀分布,然后基于随机游走的转移概率定义节点间的转移概率矩阵。同时作者将有效信息与复杂网络的邻接矩阵建立了联系,即通过节点的出边和入边的权重的不确定性(以香农熵为刻画)来表征,基于此定义复杂网络中的有效信息。详细方法可以参考复杂网络中的因果涌现

作者在随机网络(ER)、偏好依附网络模型(PA)等人工网络以及四类真实复杂网络中进行了计算,他们发现:对于ER网络来说,有效信息的大小只依赖于节点间的随机连接概率[math]\displaystyle{ p }[/math],并且随着网络规模的增大会收敛到数值[math]\displaystyle{ -\log_2p }[/math]。同时一个关键发现表明,EI数值存在一个相变点,该相变点近似在网络的平均度[math]\displaystyle{ \langle k\rangle }[/math])等于[math]\displaystyle{ \log_2N }[/math]的位置出现。这个相变点的位置与ER网络出现巨连通集团相变点位置相同。这一发现表明,超过该相变点以后,随着随机网络规模的增加,它的结构中不会包含更多的信息。对于偏好依附模型网络来说,当网络度分布的幂律指数[math]\displaystyle{ \alpha\lt 1.0 }[/math]时,有效信息的大小会随着网络规模的增加而增大;当[math]\displaystyle{ \alpha\gt 1.0 }[/math]时,则结论相反;当[math]\displaystyle{ \alpha=1.0 }[/math]时,对应的无标度网络则是有效信息随规模增长与否的临界边界。对于真实网络来说,作者们发现,生物网络因为具有很大的噪音,所以有效信息相对较低。然而,我们可以通过有效的粗粒化去除这些噪音,这就使得生物网络相比于其他类型网络能够展现出更显著的因果涌现现象;而因为技术类型网络是更稀疏、非退化的网络,因此,平均的信息效率更高,节点关系也更加具体,所以有效信息也最高,但是难以通过粗粒化来增加因果涌现度量。

在该文章中,作者使用贪婪算法来粗粒化网络,然而对于大规模网络来说,这种算法效率很低。随后,Griebenow等[5]提出了一种基于谱聚类的粗粒化方法,从而更好地识别偏好依附网络中的因果涌现。相比贪婪算法以及梯度下降算法谱聚类算法的计算时间更少,同时找到的宏观网络的因果涌现度量也更加显著。

生物系统

进一步,Klein等人将复杂网络中的因果涌现方法扩展到了更多的生物网络中。前文已经指出,生物网络具有更大的噪音,这使得我们很难理解其内部的运作原理,这种噪音一方面来自系统的固有噪音,另一方面是由于测量或观察引入的。Klein等[9]进一步探索了生物网络中的噪声、简并性确定性三者之间的关系以及具体含义,得出了一些有趣的结论。

例如,基因表达网络中的高确定性可以理解为一个基因几乎肯定会导致另一个基因的表达。同时生物系统在进化过程中也普遍存在高简并性现象。这两个因素使得人们目前尚不清楚应该在何种尺度上分析生物系统才能更好理解它们的功能。

另外,Klein等在文献[10]中分析了超过1800个物种的蛋白质相互作用网络,发现宏观尺度的网络具有更小的噪音和简并性,同时与不参与宏观尺度的节点相比,组成宏观尺度网络中的节点更具有弹性。因此,生物网络为了适应进化的要求,需要演化出宏观尺度以提高确定性来增强网络弹性以及提高信息传输的有效性。

Hoel等在文章[11]中借助有效信息概念进一步研究了生物系统中的因果涌现。作者将有效信息应用到基因调控网络上,以识别最能提供有效信息的心脏发育模型从而控制哺乳动物的心脏发育。通过量化酿酒酵母基因网络的最大连通集团中的因果涌现,文章揭示了富有信息的宏观尺度在生物学网络中是普遍存在的,以及生命机制本身也经常运行在宏观尺度上。该文章也为生物学家提供了一种可计算的工具来识别最具有信息的宏观尺度,并且可以在此基础上建模、预测、控制和理解复杂的生物系统。

Swain等在文章[12]中探索了蚁群的交互历史对任务分配和任务切换的影响,使用有效信息研究噪声如何在蚂蚁之间传播。结果发现,蚁群之间历史交互程度影响任务的分配,并且具体交互中蚂蚁群体的类型决定了交互中的噪音。此外,即使当蚂蚁切换功能群时,蚁群涌现出来的凝聚力也能保证群体的稳定,同时不同功能蚁群在维持蚁群凝聚力方面也发挥着不同的作用。

缺陷与争议

根据前面的讨论我们不难发现,不同的粗粒化方案会导致不同的宏观动力学,从而导致它的有效信息不同,因此,最终的因果涌现量化结果会依赖于给定的粗粒化策略。Hoel等人虽然试图通过最优粗粒化(即让宏观动力学的有效信息最大)以消除这种粗粒化对因果涌现最终结果的影响,并针对每个具体的情景,给出了具体的最优粗粒化的方案,但是他们并没有深入探讨马尔科夫链的粗粒化;特别是针对于基于状态的因果涌现讨论中,给出的粗粒化只是针对状态空间进行归并,归并后具体应该如何对概率转移矩阵进行操作则并未提及。状态归并本身也有一定的前提条件需要满足,比如状态分类是否满足马尔科夫链的成块性?粗粒化操作和动力学演化操作是否满足可交换性?文章都没有涉及这些问题的探讨,只停留用比较直觉方法进行概率归并,因此该理论难以指导人们在其他系统中的使用。详细严谨的粗粒化介绍详见马尔科夫链的粗粒化

此外,在状态、变量较少,且转移概率矩阵有明显的规律可循时,我们可以相对容易地定义粗粒化策略并识别因果涌现。但面对情况复杂的实际系统时,例如生物系统,从可观测数据中辨别系统是否发生因果涌现是一个更为重要的问题。为此,Rosas等人提出基于信息分解的因果涌现理论张江等人提出的基于奇异值分解的因果涌现理论以及张江等人还提出了一些自动识别涌现的神经网络计算方法,例如神经信息压缩方法NIS和基于此的改进方法NIS+,有兴趣的读者可以进一步查阅相关词条。

附录:由布尔网络动力学转换为马尔科夫链的TPM的代码

在Hoel的原始论文[1]中,所有的微观动力学都是针对布尔网络中的每个变量(即节点)定义其微观动力学机制完成的。而为了计算布尔网络的有效信息和因果涌现度量,我们必须要将这种微观动力学机制转变为系统整体的概率转移矩阵(即TPM)。因此,这里的一个关键问题是,如何将一个定义在局部变量上的动力学机制,转变为一个全局的TPM。这里给出一种一般性的算法:

输入:有向图形式的布尔网络G(包括N个节点、连边),节点动力学机制(即,单个节点对父节点输入的响应机制);输出:布尔网络G全局概率转移矩阵P

  1. 生成布尔网络的状态空间,共有状态数[math]\displaystyle{ 2^N }[/math]个,N为网络中的节点数
  2. 初始化全局概率转移矩阵[math]\displaystyle{ P }[/math],大小为[math]\displaystyle{ 2^N * 2^N }[/math][math]\displaystyle{ P_{ij} }[/math]为第i个全局状态转移到第j个全局状态的转移概率
  3. 遍历当前时刻每个全局状态i,遍历下一时刻每个全局状态j,计算i->j的转移概率[math]\displaystyle{ P_{ij} }[/math]
    1. 遍历每个节点n,获取它的父节点及其状态
    2. 获取j中节点n下一时刻状态next_state,根据上一步获取的父节点状态,应用该节点的动力学机制,计算n转移至next_state的概率[math]\displaystyle{ p(n) }[/math]
    3. 各节点到下一时刻状态转移概率是相互独立的,因此全局状态i转移至j的概率是所有节点[math]\displaystyle{ p(n) }[/math]的乘积,即[math]\displaystyle{ P_{ij} = \prod_{n=1}^{N} p(n) }[/math]
    4. 重复上述过程,计算所有[math]\displaystyle{ P_{ij} }[/math][math]\displaystyle{ i,j \in \{1, 2, 3, \ldots, 2^N\} }[/math]
  4. 行归一化[math]\displaystyle{ P }[/math],完成由局部节点机制到全局概率转移矩阵的转换


以下给出空间因果涌现中带噪声的AND门实例的python实现代码:

import numpy as np
import networkx as nx

def bool2tpm(G, noise_prob=0.3):
	def update_state(node, state, G, noise_prob):
		"""
		布尔机制可修改,这里使用的是空间因果涌现实例中带噪声的AND门
		result:该节点下一时刻状态返回为1的概率
		"""

		predecessors = list(G.predecessors(node))
		pred_state = [state[nodes.index(pred)] for pred in predecessors]

		result = 1
		for val in pred_state:
			result &= val  # AND

		if result < 1:
			result += noise_prob  # 机制:带噪音的AND门

		return result

	# 构建布尔网络的状态空间
	nodes = list(G.nodes())
	num_nodes = len(nodes)
	state_space = list(np.array(np.meshgrid(*[[0, 1]] * num_nodes)).T.reshape(-1, num_nodes))

	# 计算TPM
	num_states = len(state_space)
	TPM = np.zeros((num_states, num_states))
	for idx, state in enumerate(state_space):
		p1 = np.zeros((1, num_nodes))

		# 为每个节点更新下一时刻为1的概率p1
		for node in nodes:
			p1[0, nodes.index(node)] = update_state(node, state, G, noise_prob)

		for next_idx, next_state in enumerate(state_space):
			TrueP = p1 * next_state + (1-p1) * (1-next_state)
			TPM[idx, next_idx] = np.prod(TrueP)

	# 归一化TPM
	TPM /= TPM.sum(axis=1, keepdims=True)
	return TPM


# 创建布尔网络
G = nx.DiGraph()
G.add_nodes_from(['A', 'B', 'C', 'D'])
G.add_edges_from([('A', 'C'), ('A', 'D'), ('B', 'C'), ('B', 'D'), ('C', 'A'), ('C', 'B'), ('D', 'A'), ('D', 'B')])
TPM = bool2tpm(G, noise_prob=0.3)

后续可以使用有效信息词条中的源代码,计算TPM的有效信息。

参考文献

  1. 1.0 1.1 1.2 1.3 Hoel, E.P., Albantakis, L. and Tononi, G. Quantifying causal emergence shows that macro can beat micro[J]. Proceedings of the National Academy of Sciences, 2013, 110(49), 19790-19795.
  2. Tononi, G.; Sporns, O. (2003). "Measuring information integration". BMC Neuroscience. 4 (31).
  3. 3.0 3.1 3.2 Hoel, E.P. When the map is better than the territory[J]. Entropy, 2017, 19(5), p.188.
  4. 4.0 4.1 Klein B, Hoel E. The emergence of informative higher scales in complex networks[J]. Complexity, 2020, 20201-12.
  5. 5.0 5.1 Griebenow R, Klein B, Hoel E. Finding the right scale of a network: efficient identification of causal emergence through spectral clustering[J]. arXiv preprint arXiv:190807565, 2019.
  6. Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.
  7. Eberhardt, F., & Lee, L. L. (2022). Causal emergence: When distortions in a map obscure the territory. Philosophies, 7(2), 30.
  8. Buxhoeveden, D. P., & Casanova, M. F. (2002). The minicolumn hypothesis in neuroscience. Brain, 125(5), 935-951.
  9. Klein B, Swain A, Byrum T, et al. Exploring noise, degeneracy and determinism in biological networks with the einet package[J]. Methods in Ecology and Evolution, 2022, 13(4): 799-804.
  10. Klein B, Hoel E, Swain A, et al. Evolution and emergence: higher order information structure in protein interactomes across the tree of life[J]. Integrative Biology, 2021, 13(12): 283-294.
  11. Hoel E, Levin M. Emergence of informative higher scales in biological systems: a computational toolkit for optimal prediction and control[J]. Communicative & Integrative Biology, 2020, 13(1): 108-118.
  12. Swain A, Williams S D, Di Felice L J, et al. Interactions and information: exploring task allocation in ant colonies using network analysis[J]. Animal Behaviour, 2022, 18969-81.

编者推荐

下面是一些链接能够帮助读者更好的了解基于有效信息的因果涌现理论的相关信息:

因果涌现读书会

文章推荐

  • Hoel, E.P., Albantakis, L. and Tononi, G. Quantifying causal emergence shows that macro can beat micro[J]. Proceedings of the National Academy of Sciences, 2013, 110(49), 19790-19795.
  • Hoel, E.P. When the map is better than the territory[J]. Entropy, 2017, 19(5), p.188

路径推荐

此词条由彭晨编写,王志鹏、张江整理审校。

本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。