基于信息分解的因果涌现理论

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
跳到导航 跳到搜索

基于信息分解的因果涌现理论是一种用于理解和量化复杂系统中因果关系的理论框架。该理论通过信息分解的方法,将系统中多个目标变量与源变量之间的互信息分解为不重叠的信息原子,包括独特信息冗余信息协同信息。基于这些信息原子的内在特性,该理论提供了一种量化因果涌现的定义,即通过测量源和目标变量之间的协同信息来量化因果涌现。该理论不仅能够识别出数据中的因果涌现现象,还能够基于特定的宏观动态来量化数据中的因果涌现。这为理解复杂系统中的因果涌现现象提供了新的视角。

历史

因果涌现理论是一种试图用基于因果的定量研究方法,从现象学的角度回答什么是涌现这一问题的理论,因此因果涌现的发展与人们对涌现和因果等概念的认识和发展密切相关。


涌现

涌现一直是复杂系统中的一个重要特性,是许多关于系统复杂性,以及宏微观之间关系讨论的核心概念[1][2]。涌现可以简单理解为整体大于部分之和,即整体上展现出构成它的个体所不具备的新特性[3]。尽管学者们在各个领域都指出存在涌现的现象[2][4],如鸟类的群体行为[5],大脑中的意识形成,以及大语言模型的涌现能力[6],但目前还没有对这一现象普遍认可的统一理解。以往对涌现的研究大多停留在定性的阶段,如 Bedau等人[7][8]对涌现进行了分类研究,即将涌现分为名义涌现[9][10]、弱涌现[7][11]与强涌现[12][13]

因果涌现

涌现和因果是相互联系的。具体来说,联系存在于以下方面:一方面,涌现本身可以看做为一种因果作用的结果,它刻画了复杂系统中各组成部分之间复杂的非线性相互作用;另一方面,涌现出的特性也会对复杂系统中的单个个体产生因果作用。此外,以往人们习惯于将宏观因素归因为微观因素的影响,但是宏观涌现出来的模式,往往无法找到微观的归因,所以也就无法找到对应的原因。由此可见,涌现与因果存在着深刻的联系。再者,虽然我们有了对涌现的定性分类,然而却无法定量的刻画涌现的发生。因此,我们可以借助因果来定量刻画涌现的发生。


2013年,美国理论神经生物学家 Erik Hoel 尝试将因果引入涌现的衡量,提出了因果涌现这一概念,并且使用有效信息(Effective Information,简称 EI)来量化系统动力学的因果效应强弱[14][15]。因果涌现可以描述为:当一个系统在宏观尺度相较其在微观尺度上具有更强的因果效应的时候,就产生了因果涌现。因果涌现很好的刻画了系统宏观和微观状态之间的区别与联系,同时把人工智能中的因果和复杂系统中的涌现这两个核心概念结合起来,因果涌现也为学者回答一系列的哲学问题提供了一个定量化的视角。比如,可以借助因果涌现框架讨论生命系统或者社会系统中的自上而下的因果特性。这里的自上而下因果指的是向下因果(downward causation),表示存在宏观到微观的因果效应。例如,壁虎断尾现象,当遇到危险时,壁虎不管自己的尾巴怎样,直接将它断掉。这里整体是因,尾巴是果,那么就存在一个整体指向部分的因果力

基于信息分解的因果涌现理论

然而,Erik Hoel基于有效信息的因果涌现理论存在着一定的弊端。首先,尽管因果涌现的量化定义为宏观和微观动力学的有效信息之差,但是这其中的宏观动力学变量依然有可能包含微观变量的部分信息,因而并不严格保证宏观变量的不可约简的特性;其次,为了得到宏观变量和动力学,我们必须指定粗粒化策略,即使可以通过最大化有效信息从而消除对粗粒化策略的依赖,但是这个最大化策略的搜索仍然是一个计算上的难题;最后,这种对于涌现现象的量化,难以刻画“整体大于部分之和”的效应。

因此,2020 年,Rosas 等[16]信息理论视角出发,提出一种基于信息分解的方法来定义系统中的因果涌现,基于协同信息或者特有信息来定量的刻画涌现,这一方面部分回避了基于有效信息因果涌现理论的上述弊端。所谓的信息分解是分析复杂系统中各个变量复杂相互关系的一种新方法,通过对互信息进行分解,用信息原子来表示每个部分信息,同时借助信息晶格图将每个部分信息投射到信息原子中,其中协同信息以及冗余信息都可以用对应的信息原子来表示。该方法建立在 Williams 和 Beer 等[17]提出的多元信息非负分解理论的基础之上,文中使用部分信息分解(PID)将系统上下时刻的互信息进行分解。然而,PID 框架只能分解关于多个源变量和一个目标变量之间的互信息,Rosas 扩展了该框架,提出整合信息分解方法 [math]\displaystyle{ \Phi ID }[/math][18]来处理多个源变量和多个目标变量之间的互信息,作者基于分解后的信息提出了两种因果涌现的定义方法。

相关概念

部分信息分解

信息熵互信息的基础上,部分信息分解(Partial Information Decomposition)是信息论的进一步扩展,旨在将信息论所关注的成对关系拓展到多个变量间的复杂相互作用。


在两变量场景下,信息论可以通过相互信息 [math]\displaystyle{ I(X_1;Y) }[/math] 量化单个源变量 [math]\displaystyle{ X_1 }[/math] 对目标变量 [math]\displaystyle{ Y }[/math] 的信息量。如果我们考虑加入第三个变量 [math]\displaystyle{ X_2 }[/math]并探讨其中某一变量与另两个变量的关系时,经典信息论则只能描述联合变量 [math]\displaystyle{ \{X_1,X_2\} }[/math][math]\displaystyle{ Y }[/math] 的相互信息,由 [math]\displaystyle{ I(X_1,X_2;Y) }[/math] 给出,而无法深入探究 [math]\displaystyle{ X_1 }[/math][math]\displaystyle{ X_2 }[/math] 及其相互作用与 [math]\displaystyle{ Y }[/math] 间存在何种关系。


这种传统测度局限性的一个体现就是变量间的协同效应:假设我们有两个独立的布尔变量作为源变量 [math]\displaystyle{ X_1, X_2 \in \{0,1\} }[/math] 和一个通过对源变量进行异或操作所得到的目标变量 [math]\displaystyle{ Y=XOR(X_1,X_2) }[/math]。在这种情况下,总互信息 [math]\displaystyle{ I(X_1,X_2;Y)=1 }[/math],而个体互信息 [math]\displaystyle{ I(X_1;Y)=I(X_2;Y)=0 }[/math]。也就是说,[math]\displaystyle{ X_1,X_2 }[/math] 关于 [math]\displaystyle{ Y }[/math] 的相互作用产生了协同信息,而这无法用经典信息论中的互信息或是信息熵轻易捕捉到。


对于更加一般的三变量场景而言,部分信息分解将源变量 [math]\displaystyle{ \{X_1,X_2\} }[/math] 与目标变量 [math]\displaystyle{ Y }[/math] 之间的互信息分解为如下图所示的四个部分:

[math]\displaystyle{ I(X_1,X_2;Y)=\text{Unq}(X_1;Y \setminus X_2) + \text{Unq}(X_2;Y \setminus X_1) + \text{Syn}(X_1,X_2;Y) + \text{Red}(X_1,X_2;Y) }[/math]


此处各个符号的定义为

  • [math]\displaystyle{ \text{Unq}(X_1;Y \setminus X_2) }[/math] 表示特有信息,是指每一个微观态变量单独给宏观态提供的信息:[math]\displaystyle{ X_1 }[/math] 具有的关于 [math]\displaystyle{ Y }[/math] 的“独特”信息,而 [math]\displaystyle{ X_2 }[/math] 中没有这些信息。
  • [math]\displaystyle{ \text{Syn}(X_1,X_2;Y) }[/math] 表示协同信息,是指所有微观态 [math]\displaystyle{ X_1 }[/math][math]\displaystyle{ X_2 }[/math] 联合在一起给宏观态 [math]\displaystyle{ Y }[/math] 提供的信息。
  • [math]\displaystyle{ \text{Red}(X_1,X_2;Y) }[/math] 表示冗余信息,是指两个微观态[math]\displaystyle{ X_1 }[/math][math]\displaystyle{ X_2 }[/math]重复地给宏观态 [math]\displaystyle{ Y }[/math] 的“冗余”信息。

它们每一项都称为一个信息原子

并且,这些信息原子满足如下约束关系:

[math]\displaystyle{ \text{Red}(X_1,X_2;Y) + \text{Unq}(X_1;Y \setminus X_2) = I(X_1;Y) }[/math],

[math]\displaystyle{ \text{Red}(X_1,X_2;Y) + \text{Unq}(X_2;Y \setminus X_2) = I(X_2;Y) }[/math]


信息分解除了能够被韦恩图所直观的呈现以外,更常被表示为晶格图的形式以在更多变量的情况下维持其简洁的结构。晶格图(lattice)是抽象代数中研究的一种抽象结构,它由一个偏序集组成。信息分解所得到的信息原子也可以被描述为一种晶格结构,这一晶格结构被称为冗余晶格(redundancy lattice)。冗余晶格是用来系统化地列举并组织所有可能信息源组合的结构。具体是由反链(antichain)和反链之间的偏序关系构成。


反链是信息源的非空子集作为元素所组合出的所有集合中元素间两两互不包含(即互相不为子集)的组合。 对于源变量集合[math]\mathbf{S} = \{S_1,\dots,S_N\}[/math],冗余晶格定义为 [math]\mathcal{A}(\mathbf{S}) = \{\alpha \in \mathcal{P}_1(\mathcal{P}_1(\mathbf{S})):\forall A_i,A_j \in \alpha, A_i \not \subset A_j\}[/math], 这里 [math]\mathcal{P}_1(\mathbf{S}) = \mathcal{P}(\mathbf{S}) \setminus \{\varnothing\}[/math] 是 [math]\mathbf{S}[/math] 的所有非空子集。


将所有反链收集起来后,它们之间的偏序关系定义为:给定两条反链 [math]\displaystyle{ \alpha }[/math]和 [math]\displaystyle{ \beta }[/math],定义 [math]\displaystyle{ \alpha \le \beta \iff \forall B \in \beta, \exists A \in \alpha, s.t. A\subseteq B }[/math]. 也就是说, [math]\displaystyle{ \alpha }[/math] “高于”  [math]\displaystyle{ \beta }[/math] 当且仅当  [math]\displaystyle{ \alpha }[/math] 中的每个集合都是  [math]\displaystyle{ \beta }[/math]中某个集合的子集。在冗余晶格上定义的每个节点对应一种“冗余信息份额”,而格的上下结构则刻画了不同冗余成分之间的包含与分解关系,从而为 PID 提供了一个清晰的代数化视角。


以两变量 [math]\displaystyle{ \{X_1,X_2\} }[/math] 为例,集合 [math]\displaystyle{ \{1,2\} }[/math]的所有非空子集包含 [math]\displaystyle{ \{1,2\} \quad \{2\} }[/math][math]\displaystyle{ \{1\} }[/math],因此所能构成的无重复变量的集合包括 [math]\displaystyle{ \{\{1,2\}\} }[/math] [math]\displaystyle{ \{\{2\}\} }[/math] [math]\displaystyle{ \{\{1\}\} }[/math][math]\displaystyle{ \{\{1\}\{2\}\} }[/math]。如下图所示,这些反链(anti-chain)与上图的信息原子一一对应,既[math]\displaystyle{ \{\{1,2\}\} }[/math] 对应协同信息,[math]\displaystyle{ \{\{2\}\} }[/math][math]\displaystyle{ \{\{1\}\} }[/math] 对应特有信息,[math]\displaystyle{ \{\{1\}\{2\}\} }[/math]对应冗余信息。

整合信息分解

整合信息分解(Integrated Information Decomposition)是Rosas等[14]对于信息分解理论的进一步拓展。与部分信息分解关注一组变量与一个变量间的互信息不同,整合信息分解关注于两组变量间互信息的更细致划分。具体而言,该框架对两组变量间的互信息进行了两次不同方向的部分信息分解,分别是


1)将第一组的变量视为源变量,第二组的联合变量视作目标变量进行部分信息分解。

2)反之,将第二组的变量视为源变量,第一组的联合变量视作目标变量进行部分信息分解。


由于两次分解都是针对相同的两组变量间的互信息,因此我们得到了对该互信息的两种划分方式,通过对这两种划分方式进行组合,我们便得到了更加细粒度的信息分解框架。该框架对部分信息分解框架中目标变量的数量进行了进一步的拓展,使得我们能够分析源变量等于目标变量的场景。而其中最重要的应用场景之一就是马尔科夫系统的上下时刻间子系统间的关系,这也奠定了整合信息分解框架作为因果涌现框架的理论基础的可能性。


以两变量系统 [math]\displaystyle{ \{X_1,X_2\} }[/math] 为例,下图a中是前后向视角下分别对系统上下时刻互信息的分解结果,通过对这两种视角进行结合便得到了下图b中的16个信息原子。其中,左图中的彩色连边对应了右图中的彩色格点,例如左侧最上方{12}到{12}的绿色线条对应右图中最上方{12}->{12}格点。该图中的记号与部分信息分解中冗余晶格的记号含义相同。

由于整合信息分解框架是对信息分解框架的进一步划分,因此在整合信息原子计算时需要引入新的整合信息计算方法,该方法相比于已有的信息分解方法额外新增了一个自由度,因此需要在原有信息分解方法的基础上定义一个新的(比如冗余到冗余原子)的计算方法。具体的计算方法,如部分信息分解框架一样,也有很多广泛的讨论,但目前仍没有一个被普遍接受的方法。(可进一步补充)

基于信息分解的因果涌现

Rosas等[16] 从信息分解理论的视角出发,提出了一套基于信息原子定义因果涌现的方法。该方法可被分为两个部分:首先是关于系统是否产生因果涌现的定义,包括指定宏观态特征与不指定宏观态特征的两种场景。以及在此基础上,基于整合信息分解(PhiID)的因果涌现类型划分:即因果解耦(Causal Decoupling)和向下因果(Downward Causation)。以下分别是因果涌现定义,因果涌现分类框架以及基于部分信息分解和整合信息分解的即因果解耦和向下因果具体定义。


基于协同信息的因果涌现定义

在研究因果涌现(Causal Emergence)的框架下,我们考虑一个多变量动力系统,其中系统的状态随时间演化,并可以从微观层级(microscopic level)和宏观层级(macroscopic level)进行观察和建模。基于部分信息分解(PID)框架,作者提出了系统在未指定宏观变量情况下分别定义因果涌现的方法.

在每个时间步 [math]\displaystyle{ t }[/math],设系统的微观状态(microscopic state) 由 [math]\displaystyle{ X_t }[/math] 表示,其中:[math]\displaystyle{ X_t = (X_t^1, X_t^2, ..., X_t^n) }[/math]。这里,[math]\displaystyle{ X_t^i }[/math] 代表该系统在时间 [math]\displaystyle{ t }[/math] 时刻的第 [math]\displaystyle{ i }[/math] 个微观变量,整个状态空间可以视为一个高维随机变量,描述系统在该时刻的完整状态。


基于协同信息的因果涌现定义:假设系统当前时刻的微观态 [math]\displaystyle{ X_t }[/math] 和下一时刻的微观态 [math]\displaystyle{ X_{t+1} }[/math],定义指标 [math]\displaystyle{ Syn^{(k)}(X_t^1,...,X_t^n;X_{t+1})\gt 0 }[/math]为对该系统因果涌现的量化指标,其中[math]\displaystyle{ Syn^{(k)}(X_t^1,...,X_t^n;X_{t+1})\gt 0 }[/math]指的是系统内任何大于等于k的子集所能产生的所有协同效用的总效果。且若该信息大于零,则先前时刻与后续时刻变量之间存在不可约的协同效应(irreducible synergy),即系统发生因果涌现。

指标[math]\displaystyle{ Syn^{(k)}(X_t^1,...,X_t^n;X_{t+1})\gt 0 }[/math]指的是系统内任何大于等于k的子集所能产生的所有协同效用的总效果,而非PID框架中的特定协同信息原子。在系统只包含两个微观变量,且k=1的情况下,该定义等价于两源变量系统的协同信息。以三变量系统为例,当源变量是当前时刻三个微观变量,目标变量为下一时刻联合变量时,系统的信息分解晶格图如下所示。对于信息分解框架,三变量对自身联合变量的协同信息应当为下图中的[math]\displaystyle{ \{123\} }[/math],但是该定义包含下图中的粉色区域所有晶格。

案例

以下是一个四变量布尔网络案例,其每个节点遵循如下的动力学规则:

A、B、C、D是四个布尔类型的变量,它们的连边情况如上图所示,其中A节点受到C、D两个节点的影响;B节点受到C、D两个节点的影响;C节点受到A、B的影响;D节点受到A、B的影响。右侧的表格给出了节点彼此的相互作用规则。

进一步,根据上图右侧中的规则遍历所有的状态,我们可以得到系统转移到另一个状态的概率值,进而绘制出属于该马尔科夫链的状态转移图。其中每个节点代表一种可能的状态,箭头的灰度代表概率值的大小,如下所示:

其中,每个节点代表一种系统状态,连边表示状态彼此之间的概率转移,灰度代表概率大小。

我们可以用William和Beer的方法计算冗余信息和这个四变量系统的冗余晶格。由于这是一个四节点的系统,因此冗余晶格过于庞杂而无法画出。但我们可以列举出所有非零的信息原子和相应的信息量:

信息原子及其对应的原子信息量与注释
信息原子 原子信息量 标注
{A,B,C,D} 0.3507 A,B,C,D协同
{A,B,C},{A,B,D} 0.0177 A,B,C的组合与A,B,D的组合之间共享的冗余
{A,C,D},{B,C,D} 0.0177 A,C,D的组合与B,C,D的组合之间共享的冗余
{A,B} 0.0196 A,B构成的协同
{C,D} 0.0196 C,D构成的协同
{A,B}{A,C,D}{B,C,D} 0.0795 A,B,C的组合与A,B,D的组合以及A,C,D组合和B,C,D组合共享的冗余
{A,B}{A,C,D}{B,C,D} 0.0722 A,B组合与A,C,D组合以及B,C,D组合共享的冗余
{C,D}{A,B,C}{A,C,D} 0.0722 C,D组合与A,B,C组合以及A,C,D组合共享的冗余
{A,B}{C,D} 0.1267 A,B组合与C,D组合共享的冗余
{A,B}{A,C}{A,D}{B,C}{B,D} 0.0169 A,B组合与A,C组合与A,D组合与B,C组合与B,D组合共享的冗余
{A,C}{A,D}{B,C}{B,D}{C,D} 0.0169 A,C组合与A,D组合与B,C组合与B,D组合与C,D组合共享的冗余
{A,B}{A,C}{A,D}{B,C}{B,D}{C,D} 0.0812 A,B组合与A,C组合与A,D组合与B,C组合与B,D组合与C,D组合共享的冗余
{A}{B}{C,D} 0.0714 A与B与C,D组合共享的冗余
{C}{D}{A,B} 0.0714 C与D与A,B组合共享的冗余
{A}{B}{C}{D} 0.1149 A,B,C,D共享的冗余

其中信息量相对较大的信息原子包括ABCD四变量的协同,A,B和C,D两两分组组合在一起的冗余,以及ABCD四个变量共享的冗余信息。其中由协同效应产生的信息原子(无法被任何单一变量所提供的信息)则为前12行。

因此,按照因果涌现的度量指标[math]\displaystyle{ Syn^{(k)}(A_t,B_t,C_t,D_t;A_{t+1},B_{t+1},C_{t+1},D_{t+1}) }[/math],即所有协同效应的总和,该案例存在因果涌现,并且其度量结果为前12个信息原子数量之和,共0.8018比特。

基于宏观态特有信息的因果涌现

尽管上述基于协同信息的因果涌现是一种不依赖于任何粗粒化策略的因果涌现定义,同时它也能很好地刻画出涌现的“整体大于部分之和”的特征,但是它却很难被实际计算出来,这是因为计算各阶的协同信息需要遍历冗余晶格,其次冗余晶格的节点数会随着系统中变量数的增长而指数爆炸。因此,Rosas在[16]中又提出了一种新的等价定义,该定义基于指定的宏观态变量,并且基于该变量的特有信息

为了研究系统在更高层级的行为,我们引入宏观状态(macroscopic state) [math]\displaystyle{ V_t }[/math],其由微观态 [math]\displaystyle{ X_t }[/math] 通过某种粗粒化(coarse-graining)策略得到,即: [math]\displaystyle{ V_t = f(X_t) }[/math] 其中,函数 [math]\displaystyle{ f(\cdot) }[/math] 代表某种确定性的映射,将高维的微观状态映射到较低维的宏观表征。因此,宏观状态 [math]\displaystyle{ V_t }[/math][math]\displaystyle{ X_t }[/math] 的随附特征(supervenience),意味着 [math]\displaystyle{ V_t }[/math] 的值完全依赖于 [math]\displaystyle{ X_t }[/math],但不同的粗粒化方法可能导致不同的宏观表征。

基于特有信息的因果涌现量化:在指定系统的宏观随附特征(即宏观态变量) [math]\displaystyle{ V_t }[/math] 后,系统的因果涌现可以被定义为

[math]\displaystyle{ Un^{(k)}(V_t;X_{t+1}| X_t) }[/math]

 

 

 

 

(1)

这里 [math]\displaystyle{ Un^{(k)}(V_t;X_{t+1}| X_t) }[/math]表示在给定[math]X_t[/math]的所有分量的情况下,变量[math]V_t[/math]对[math]X_{t+1}[/math]所提供的不包括在任何[math]\displaystyle{ X_t }[/math]中大小大于k的子集中的信息。

当: [math]\displaystyle{ Un^{(k)}(V_t;X_{t+1}| X_t)\gt 0, }[/math] 则称系统发生了因果涌现,即当前时刻的宏观态 [math]\displaystyle{ V_t }[/math] 能超过当前时刻的微观态 [math]\displaystyle{ X_t }[/math] 给下一时刻的整体系统 [math]\displaystyle{ X_{t+1} }[/math] 提供更多信息,则系统存在因果涌现。此处的 [math]\displaystyle{ k }[/math]表示排除掉系统内每[math]\displaystyle{ k }[/math]个变量所构成的变量组内部所产生的该效应(类似于在微观和宏观间加入针对所有大小为[math]\displaystyle{ k }[/math]的子集的粗粒化中间层,然后仅关注从该中间层出发到宏观层间的因果效应)。为了便于理解,在本词条的后续介绍中默认[math]\displaystyle{ k=1 }[/math]并不再标注,即不存在中间层的情况。

因果涌现指标想要表示的是不能够被任何单一的微观变量[math]\displaystyle{ X_t^j }[/math]所提供的信息,但是能够被他们之间的协同效应(的代表[math]\displaystyle{ V_t }[/math] )所提供的关于下一时刻系统 [math]\displaystyle{ X_{t+1} }[/math] 的信息。该指标代表不能够被任何单一的微观变量[math]\displaystyle{ X_t^j }[/math]所提供的信息,但是能够被[math]\displaystyle{ V_t }[/math]所提供的关于下一时刻系统 [math]\displaystyle{ X_{t+1} }[/math] 的信息。以两变量系统为例,令微观变量[math]\displaystyle{ X_{t}^1, X_{t}^2 }[/math]为变量1和2,宏观变量[math]\displaystyle{ V_{t}=\{X_{t}^1, X_{t}^2\} }[/math]为变量3,目标变量为[math]\displaystyle{ \{X_{t+1}^1, X_{t+1}^2\} }[/math],此时三变量关于目标变量的信息分解如下图所示,该定义包含下图中的粉色区域所有晶格。

截屏2025-05-24 下午7.17.53.png


基于以上的定义,Rosas 等人进一步提出了引理以支撑因果涌现的定义[16]


引理 1(因果涌现的必要条件),如果系统在时间 [math]\displaystyle{ t }[/math] 具有因果涌现特性,则必定满足:


1. 系统的微观变量至少大于等于2。这表明因果涌现的存在要求当前时刻的系统状态必须具有协同信息贡献(至少要来源于两个或以上变量),否则宏观态不会比微观态提供更多的预测信息。

2. 宏观变量不是任何一个微观变量的确定性函数。这与第一点类似,既 [math]\displaystyle{ V_t }[/math] 能够以高于单一微观态的方式(协同方式)预测系统的未来状态。


值得注意的是,方法二判断因果涌现的发生需要依赖宏观态 [math]\displaystyle{ V_t }[/math] 的选择,而方法一是方法二的下界。这是因为:


[math]\displaystyle{ Syn(X_t;X_{t+1}) \geq Un(V_t;X_{t+1}| X_t) }[/math]


[math]\displaystyle{ Un(V_t;X_{t+1}| X_t) }[/math] 大于 0,则系统必然会出现因果涌现。然而,[math]\displaystyle{ V_t }[/math] 的选择往往需要预先定义粗粒化函数,因此方法一无法回避 Erik Hoel因果涌现理论 的局限。而方法二借助协同信息来判断因果涌现的发生,但协同信息的计算复杂,存在组合爆炸问题,往往不可行。

基于宏观态特有信息的近似计算

然而,即使根据公式1,该特有信息由于信息分解理论的不足和计算复杂性,仍然难以计算,因此Rosas等人在文献[16]中进一步提出了一个近似计算该特有信息的方法,即:


因果涌现的近似计算方法:在给定宏观态表里[math]V_t[/math]的条件下,系统的因果涌现可以被量化为:

[math]\displaystyle{ \Psi_{t, t+1}(V) := I(V_{t}; V_{t+1}) - \sum_{j} I(X_{t}^j; V_{t+1}) }[/math]

且定义当

[math]\displaystyle{ \Psi_{t,t+1}(V)\gt 0 }[/math]

则系统发生了因果涌现。

值得指出的是,这个指标衡量的是两个时间步长之间宏观变量的互信息减去每个微观状态与下一宏观状态之间的互信息,减去微观状态与下一时刻宏观状态之间的互信息一定能够保证所有的单一微观态和下一时刻的宏观态间的效果被从两时刻宏观态间的效果中剔除,但是这一不可避免的导致不同微观态对下一时刻的宏观态所提供的相同效果被重复的考虑。

因果涌现的分解

在系统的时间演化过程中,微观状态 [math]\displaystyle{ X_t }[/math] 影响下一时刻的微观状态 [math]\displaystyle{ X_{t+1} }[/math],即: [math]\displaystyle{ P(X_{t+1} | X_t) }[/math] 同时,宏观状态 [math]\displaystyle{ V_t }[/math] 也演化为 [math]\displaystyle{ V_{t+1} }[/math],其变化取决于其自身的历史状态和底层的微观演化: [math]\displaystyle{ P(V_{t+1} | V_t)。 }[/math] 此外,由于 [math]\displaystyle{ V_t }[/math][math]\displaystyle{ X_t }[/math] 生成,我们也可以定义: [math]\displaystyle{ P(V_{t} | X_t) }[/math] 以描述从微观到宏观的信息传递关系。



如上图所示,因果涌现(Causal Emergence) 指的是在某些系统中,宏观变量相比于微观变量表现出更清晰或更强的因果关系(从当前时刻的宏观态到下一时刻的系统,包含红绿两部分)。换句话说,系统的因果结构 在某种粗粒化的表征下可能变得更具信息性,而不是简单地由微观层级直接推导出来。在这样的设定下,框架具体关注因果涌现可以被进一步分解为两种主要表现形式:


1. 向下因果(Downward Causation):宏观态 [math]\displaystyle{ V_t }[/math] 影响下一时刻微观态 [math]\displaystyle{ X_{t+1} }[/math]的部分变量,即宏观变量能够提供超过所有仅单独考虑系统每个微观变量的效果的总和,这意味着宏观信息能够提供额外的预测能力,而不仅仅是所有微观状态直接演化的线性组合。


2. 因果解耦(Causal Decoupling):某些宏观态 [math]\displaystyle{ V_t }[/math] 对于预测下一时刻宏观态 [math]\displaystyle{ V_{t+1} }[/math] 具有比所有仅单独考虑系统每个微观变量的效果的总和更强的能力:这表明系统的演化在宏观层级上可能表现出新的、在微观尺度上不明显的因果模式。

也就是说,无论如何定义因果涌现,它总可以被进一步分解为两项,即向下因果和因果解耦。

以下案例能够很直观的说明以上两种因果涌现的形式:


[math]\displaystyle{ p_{\mathbf{X}_{t+1} | \mathbf{X}_t} (\mathbf{x}_{t+1} | \mathbf{x}_t) = \begin{cases} 0, & \text{if } x_{t+1}^1 \neq \bigoplus_{j=1}^{n} x_t^j, \\[10pt] \frac{\gamma}{2}, & \text{if } x_{t+1}^1 = \bigoplus_{j=1}^{n} x_t^j \text{ and } \bigoplus_{j=1}^{n} x_{t+1}^j = \bigoplus_{j=1}^{n} x_t^j, \\[10pt] \frac{1 - \gamma}{2}, & \text{otherwise}. \end{cases} }[/math]


文中作者列举了一个具体的例子(如上式),来说明什么时候发生因果解耜向下因果以及因果涌现。该该例子是一个特殊的马尔科夫过程,这里,[math]\displaystyle{ p_{X_{t+1}|X_t}(x_{t+1}|x_t) }[/math]表示动力学关系,[math]\displaystyle{ X_t=(x_t^1,…,x_t^n )\in \left\{0,1\right\}^n }[/math]为微观态。所有微观变量的异或[math]\displaystyle{ \bigoplus_{j=1}^{n} x_t^j }[/math]为宏观态。该过程是基于前后两个时刻的变量[math]\displaystyle{ x_t }[/math][math]\displaystyle{ x_{t+1} }[/math]取值间关系的概率定义的。


因而该过程的宏观态可以就看做是整个序列所有维度和的奇偶性,该奇偶性的概率分布是微观态的异或计算的结果。定义的第一行表示下一时刻的第一个微观变量取值是由上一时刻宏观态(全部微观变量的异或操作)决定的,这种需要上一时刻所有变量共同参与才能够进行的预测(运算)对应着向下因果。第二行和第三行确定了系统上下时刻宏观态之间的关系,根据[math]\displaystyle{ \gamma }[/math]取值的不同,系统上下时刻间会存在不同的宏观预测能力,而这对应着因果结耦。

各项具体定义

在给出了定义的基础之上,因果涌现可被进一步划分为向下因果(Downward Causation)与因果解耦(Causal Decoupling)两个部分,并且它们也都分别有在指定宏观变量和未指定宏观变量情况下的定义。

系统因果涌现能力的分类定义

如果因果涌现采用协同信息的方式定义,即未指定系统的宏观随附特征时,测量系统是否存在因果涌现的指标 [math]\displaystyle{ Syn(X_t^1,...,X_t^n;X_{t+1}) }[/math]可基于PhiID框架进一步分为如下两部分:


[math]\displaystyle{ \text{Syn}(X_t^1,...,X_t^n; X_{t+1}) = \mathcal{G}(X_t; X_{t+1}) + \mathcal{D}(X_t; X_{t+1})\,. }[/math]


其中代表向下因果的指标[math]\displaystyle{ \mathcal{G}(X_t; X_{t+1}) := \sum_{\alpha,\beta \in \mathcal{S}} I_{\partial}^{\alpha \rightarrow \beta}(X_t; X_{t+1}) }[/math]是指在系统进行整合信息分解后所产生的从协同原子(反链)[math]\displaystyle{ \alpha }[/math]到协同原子(反链)[math]\displaystyle{ \beta }[/math]的所有信息原子[math]\displaystyle{ I_{\partial}^{\alpha \rightarrow \beta}(X_t; X_{t+1}) }[/math]。而代表因果结耦的指标[math]\displaystyle{ \mathcal{D}(X_t; X_{t+1}) := \sum_{\substack{\alpha \in \mathcal{S} \\[2pt] \beta \in \mathcal{A}\setminus\mathcal{S}}} I_{\partial}^{\alpha \rightarrow \beta}(X_t; X_{t+1}) }[/math],是指在系统进行整合信息分解后所产生的从协同原子(反链)[math]\displaystyle{ \alpha }[/math]到非协同原子(反链)[math]\displaystyle{ \beta }[/math]的所有信息原子[math]\displaystyle{ I_{\partial}^{\alpha \rightarrow \beta}(X_t; X_{t+1}) }[/math]。这里的协同原子(反链)(包含在[math]\displaystyle{ \mathcal{S} }[/math]中的原子)指的是仅能够通过变量间的协同效应所产生而无法被任何一个变量所单独提供的信息,其形式为所有不存在元素数为1的集合的反链。而非协同原子(包含在[math]\displaystyle{ \mathcal{A}\setminus\mathcal{S} }[/math]中的原子)则是存在至少一个元素数为1的集合作为其元素的反链。


以二变量系统为例: [math]\displaystyle{ X_t }[/math] 由两个微观变量 [math]\displaystyle{ X_t^1 }[/math][math]\displaystyle{ X_t^2 }[/math] 组成,而 [math]\displaystyle{ X_{t+1} }[/math][math]\displaystyle{ X_t }[/math] 影响: 在 [math]\displaystyle{ \Phi ID }[/math] 框架下,对系统从时间 [math]\displaystyle{ t }[/math][math]\displaystyle{ t+1 }[/math] 之间的互信息 [math]\displaystyle{ I(X_t; X_{t+1}) }[/math] 进行分解,可以得到 16 个信息原子。这些信息原子由PID 信息原子的双向作用形成,即每个 [math]\displaystyle{ \Phi ID }[/math] 原子都可以表示为一个 [math]\displaystyle{ PID }[/math] 信息原子对的有向组合。


特别地,从 [math]\displaystyle{ {{12}} }[/math]出发的四个 [math]\displaystyle{ \Phi ID }[/math] 原子与因果涌现的定义及其分类直接相关,其中:因果解耦(G)对应于 [math]\displaystyle{ \{\{12\}\} \to \{\{12\}\} }[/math],其取值大于零则系统具有因果解耦。向下因果(D)对应于 [math]\displaystyle{ \{\{12\}\} \to \{\{1\}\}, \{\{12\}\} \to \{\{2\}\}, \{\{12\}\} \to \{\{1\}\{2\}\} }[/math],其中任意取值大于零则系统具有向下因果。


通过这种方式,PhiID 允许我们将系统的因果涌现分解为不同的成分,并在数学上严格刻画因果信息流的方向性。这一框架不仅适用于理论分析,还可以用于实际数据集的计算分析,帮助识别复杂系统中的因果结构。


特定宏观特征因果涌现的分类定义

在指定系统的宏观随附特征 [math]\displaystyle{ V_t }[/math] 时,基于前文对于因果涌现的定义,测量系统是否存在因果涌现的指标[math]\displaystyle{ Un(V_t;X_{t+1}| X_t) }[/math]可进一步分为如下两部分:


1. 向下因果意味着宏观变量 [math]\displaystyle{ V_t }[/math] 对微观变量 [math]\displaystyle{ X_t }[/math] 的未来状态 [math]\displaystyle{ X_{t+1} }[/math] 产生影响,而这个影响无法由单个 [math]\displaystyle{ X_t^i }[/math] 解释。其定义为[math]\displaystyle{ Un(V_{t}; X_{t+1}^{\alpha} \mid X_{t}) }[/math], 其中 [math]\displaystyle{ X_{t+1}^{\alpha} }[/math]代表微观变量集合的一个大小为[math]\displaystyle{ |\alpha| }[/math]的子集,即[math]\displaystyle{ X_{t+1}^{\alpha} \subseteq X_{t+1} }[/math]


2. 因果解耦意味着某个宏观特征 [math]\displaystyle{ V_t }[/math] 影响未来宏观状态 [math]\displaystyle{ V_{t+1} }[/math],但该信息在微观层级([math]\displaystyle{ X_t }[/math][math]\displaystyle{ X_{t+1} }[/math])不可见。其定义为[math]\displaystyle{ Un(V_{t}; V_{t+1} \mid X_{t}, X_{t+1}) }[/math]


此外,如果系统存在因果涌现,即 [math]\displaystyle{ Un(V_t;X_{t+1}| X_t^1,...,X_t^n )\gt 0 }[/math],并且对于微观变量任意大小的子集都存在[math]\displaystyle{ \text{Un}(V_{t}; X_{t+1}^{\alpha} \mid X_{t}) = 0 }[/math],则称[math]\displaystyle{ V_t }[/math] 具有纯粹的因果解耦。如果所有涌现特征都表现出纯粹的因果解耦,则称系统是完全解耦的。


编者注: 此处的数学表述也有类似歧义,因此我们提议将以上两个指标分别写作[math]\displaystyle{ Un(V_{t}; X_{t+1}^{\alpha} \mid X_t^1,...,X_t^n) \gt 0 }[/math][math]\displaystyle{ Un(V_{t}; V_{t+1} \mid X_t^1,...,X_t^n, X_{t+1}^1,...,X_{t+1}^n) \gt 0 }[/math],该表示方式代表不能够被任何单一的微观变量[math]\displaystyle{ X_t^j }[/math][math]\displaystyle{ X_{t+1}^j }[/math]所提供的信息,但是能够被[math]\displaystyle{ V_t }[/math]所提供的关于下一时刻的信息。同样需要注意的是,尽管这种表示方式能够严谨的表达因果涌现的定义,但是无法套用PID算法对该指标进行计算。如果想要计算修正后的该指标,需要引入有粗砺化函数的PhiID框架。


存在问题

尽管信息分解提供了严谨的理论框架,但计算因果涌现仍然存在以下挑战:


1. 计算复杂度 - 计算[math]\displaystyle{ PID }[/math][math]\displaystyle{ \Phi ID }[/math] 中的信息原子随着变量数的提升其复杂度与计算量均呈现指数提升,因此很难将该方法应用于实际系统。

2. 粗粒化选择的影响 - 由于 [math]\displaystyle{ V_t }[/math] 的定义会影响因果涌现的测度,如何自动选择最佳的粗粒化策略仍然是一个未解决的问题。

3. 信息分解的不确定性 - 不同的信息分解方法可能导致不同的因果涌现度量,PID 计算的不一致性导致因果涌现的定义依赖于特定的 PID 计算。


这些挑战说明,尽管 PID 框架提供了强有力的因果涌现理论基础,但其应用仍然依赖于实际系统的计算方法和数据可获取性。

充分指标和近似计算

为了解决上述提到的问题,Rosas简化了因果涌现的计算,并建立了一套基于因果解耦和向下因果的识别标准。具体来说,为了避免该方法基于特定的某个协同信息和冗余信息的具体量化方法,这套标准通过反复减去冗余信息,使结果成为因果涌现的充分条件。三个指标如下:


1. [math]\displaystyle{ \Psi_{t, t+1}(V) := I(V_{t}; V_{t+1}) - \sum_{j} I(X_{t}^j; V_{t+1}) }[/math],这个指标衡量的是两个时间步长之间宏观变量的互信息减去每个微观状态与下一宏观状态之间的互信息。减去微观状态与下一时刻宏观状态之间的互信息一定能够保证所有的单一微观态和下一时刻的宏观态间的效果被从两时刻宏观态间的效果中剔除,但是这一不可避免的导致不同微观态对下一时刻的宏观态所提供的相同效果被重复的考虑。

2. [math]\displaystyle{ \Delta_{t, t+1}(V) := \max_{j} (I(V_{t}; X_{t+1}^j) - \sum_{i} I(X_{t}^i; X_{t+1}^j)) }[/math],这个指标是[math]\displaystyle{ V_t }[/math][math]\displaystyle{ X_{t+1}^j }[/math]之间互信息与[math]\displaystyle{ X_{t}^i }[/math][math]\displaystyle{ X_{t+1}^j }[/math]之间互信息总和之间的差的最大值。

3. [math]\displaystyle{ \Gamma_{t, t+1}(V) := \max_{j} I(V_{t}; X_{t+1}^j) }[/math],这个指标是[math]\displaystyle{ V_t }[/math][math]\displaystyle{ X_{t+1}^j }[/math]之间最大互信息。这个指标既包含了上一时刻任意微观态通过宏观态对当前时刻微观变量j的预测,也包括了只由上一时刻宏观态所提供的对这一时刻微观变量[math]X^j[/math]的预测。


对于上述指标,[math]\displaystyle{ V }[/math]是一个预定义的宏观变量。
这些指标的具体用途如下:



1. 当[math]\displaystyle{ \Psi_{t, t+1}(V) \gt 0 }[/math] ,这是Vt因果涌现的充分条件。因为如果[math]\displaystyle{ I(V_{t}; V_{t+1}) }[/math]在剔除所有从单一微观变量到宏观变量的效果后(包括重复剔除)仍保持正值,说明一定存在不能够由任意单一微观变量提供的只属于宏观态间的相互作用。

2. 当[math]\displaystyle{ \Delta_{t, t+1}(V) \gt 0 }[/math] ,这是Vt表现出向下因果的充分条件。如果存在一个变量Vt使得该值为正,则说明对这个微观变量[math]X^j[/math]而言即便重复考虑了所有其余变量对自身的效应,依旧没有宏观态对自身的影响大,因此一定存在从上一时刻宏观态到这一时刻微观态[math]X^j[/math]的向下因果效应。

3. 当[math]\displaystyle{ \Psi_{t, t+1}(V) \gt 0 }[/math][math]\displaystyle{ \Gamma_{t, t+1}(V) = 0 }[/math]时,这构成了因果解耦的充分条件。即如果对于任意微观变量[math]X^j[/math],上一时刻宏观态都无法提供任何信息,那么存在的因果涌现就只能以因果解耦的形式存在。


尽管这三个指标避免了冗余信息计算的问题,但重要的是要注意,它们作为充分条件,而不是涌现性的决定性证明。换句话说,大于[math]\displaystyle{ 0 }[/math]的指标可以表明存在涌现性,但小于0的指标并不一定意味着不存在涌现性。这个指标的构建在识别具有大量冗余信息或大量变量的系统中的涌现性时面临挑战,并且这类系统在许多现实世界中通常是常见的情况。此外,这种方法的一个局限性是需要预先确定粗粒化变量[math]\displaystyle{ V }[/math],而这个变量的不同选择也会显著影响结果。


为了强调该套指标的可行性,Rosas在文中使用了三个案例进行验证,并得出了以下结论:粒子碰撞在康威的生命游戏(Conway’s Game of Life)中被验证作为一个独特的特征涌现,鸟群动态指标(平均位置)在模拟的鸟类行为中被验证作为一个特征涌现,猕猴的运动行为被验证从神经活动中涌现。具体研究设计详见文章。


总体来说,Rosas不仅提出了一种基于[math]\displaystyle{ PID }[/math]理念和[math]\displaystyle{ \Phi ID }[/math]框架的定量表征和分类因果涌现的方法,还在此基础之上给出了用于回避信息分解计算问题的因果涌现充分判断指标,一定程度上弥合了因果涌现研究理论框架与定量实证研究之间的差距。


基于机器学习的方法

Kaplanis 等人[19]基于表示机器学习(Representation learning)的理论方法,用算法通过最大化 [math]\displaystyle{ \mathrm{\Psi} }[/math](即公式1)而自发学习到宏观态变量 [math]\displaystyle{ V }[/math] 变量。具体的,作者们使用神经网络 [math]\displaystyle{ f_{\theta} }[/math] 来学习将微观输入 [math]\displaystyle{ X_t }[/math] 粗粒化成宏观输出 [math]\displaystyle{ V_t }[/math] 的表示函数,同时使用神经网络 [math]\displaystyle{ g_{\phi} }[/math][math]\displaystyle{ h_{\xi} }[/math] 来分别学习 [math]\displaystyle{ I(V_t;V_{t+1}) }[/math][math]\displaystyle{ \sum_i(I(V_{t+1};X_{t}^i)) }[/math] 等互信息的计算,最后该方法通过最大化两者之间的差(即 [math]\displaystyle{ \mathrm{\Psi} }[/math])来优化神经网络。该神经网络系统的架构图如下图a所示。


学习因果涌现表征的架构


图b展示了一个 toy 模型实例,微观输入 [math]\displaystyle{ X_t(X_t^1,...,X_t^6) \in \left\{0,1\right\}^6 }[/math] 存在 6 个维度,每个维度存在 0 和 1 两种状态,[math]\displaystyle{ X_{t+1} }[/math][math]\displaystyle{ X_{t} }[/math] 的下一时刻输出,宏观态为 [math]\displaystyle{ V_{t}=\oplus_{i=1}^{5}X_t^i }[/math],其中 [math]\displaystyle{ \oplus_{i=1}^{5}X_t^i }[/math] 表示微观输入 [math]\displaystyle{ X_t }[/math] 前 5 个维度加和模 2 的结果,前后两个时刻的宏观态存在 [math]\displaystyle{ \gamma }[/math] 概率相等([math]\displaystyle{ p(\oplus_{j=1..5}X_{t+1}^j=\oplus_{j=1..5}X_t^j)= \gamma }[/math]),微观输入的前后两个时刻的第6个维度以 [math]\displaystyle{ \gamma_{extra} }[/math] 概率的可能性相等([math]\displaystyle{ p(X_{t+1}^6=X_t^6)= \gamma_{extra} }[/math])。


结果表明,在图b所示的简单例子中,通过图a构建的模型最大化 [math]\displaystyle{ \mathrm{\Psi} }[/math],实验发现学习出来的 [math]\displaystyle{ \mathrm{\Psi} }[/math] 和真实的 groundtruth [math]\displaystyle{ \mathrm{\Psi} }[/math] 近似相等验证了模型学习的有效性,该系统能够正确地判断出因果涌现的发生。但是该方法也存在着难以应对复杂多变量情形的问题,这是因为图中的右侧的神经网络数量是正比于宏微观变量对的数量的,因此微观变量数(维度)越多,则神经网络的数量就会成比例增长,这会导致计算复杂度的提升。此外,该方法仅在很少的案例上进行测试,因此尚无法规模化。最后,更主要的是,因为网络计算的是因果涌现的近似指标,且得到的是涌现的充分非必要条件,所以上述近似算法的各种弊端会被此方法继承。

总结与展望

将 Hoel 的框架与 Rosas 的因果涌现量化框架进行比较,可以发现后者有几个明显的优势。首先,Rosas 的理论不需要预先确定的粗粒化方法,这使得它在数学上更加严谨和正式。其次,它对因果涌现进行了详细的分解,特别是向下因果关系和因果解耦。最后,它有效地避免了伪因果涌现的情况,即宏观变量仅依赖于微观变量中的独特或冗余信息。


然而,也有一些缺点需要考虑。首先,为了获得完整的信息格,需要对所有变量组成进行系统迭代。此外,尽管使用了近似公式,但仍需要定义一个宏观变量。不幸的是,作者没有提供任何方法来识别这样的变量。其次,所有互信息及其分解都是基于相关性而不是因果关系。讨论如何将因果因素(例如干预和反事实)纳入框架至关重要。最后,前面的讨论并没有解决根据给定的行为时间序列数据来识别系统中是否发生因果涌现的问题。


为了解决这个问题,需要应用机器学习和人工智能等新兴技术。这些技术可以为检测和分析因果涌现提供有价值的工具和技术。

附录

关联关键词解析:


1. 因果涌现:在复杂系统中,宏观层面的因果关系可能比微观层面更加明显,即宏观层面的因果关系能够解释更多的现象。


2. 整合信息论([math]\displaystyle{ \Phi ID }[/math]):一种用来衡量因果涌现的方法,但其数学公式复杂且计算量大,难以应用于现实世界系统。

3. PID计算:一种计算方法,由于其不一致性,导致因果涌现的定义依赖于特定的PID计算方法。


4. 因果解耦:宏观变量与微观变量之间的因果关系被削弱或消除。


5. 向下因果:宏观层面的因果关系对微观层面产生影响。


6. 互信息:衡量两个变量之间共享信息量的指标。

参考文献

  1. Meehl P E, Sellars W. The concept of emergence[J]. Minnesota studies in the philosophy of science, 1956, 1239-252.
  2. 2.0 2.1 Holland J H. Emergence: From chaos to order[M]. OUP Oxford, 2000.
  3. Anderson P W. More is different: broken symmetry and the nature of the hierarchical structure of science[J]. Science, 1972, 177(4047): 393-396.
  4. Holland, J.H. Hidden Order: How Adaptation Builds Complexity; Addison Wesley Longman Publishing Co., Inc.: Boston, MA, USA, 1996.
  5. Reynolds, C.W. Flocks, herds and schools: A distributed behavioral model. In Proceedings of the 14th Annual Conference on Computer Graphics and Interactive Techniques, Anaheim, CA, USA, 27–31 July 1987; pp. 25–34.
  6. Wei, J.; Tay, Y.; Bommasani, R.; Raffel, C.; Zoph, B.; Borgeaud, S.; Yogatama, D.; Bosma, M.; Zhou, D.; Metzler, D.; et al. Emergent abilities of large language models. arXiv 2022, arXiv:2206.07682.
  7. 7.0 7.1 Bedau, M.A. Weak emergence. Philos. Perspect. 1997, 11, 375–399. [CrossRef]
  8. Bedau, M. Downward causation and the autonomy of weak emergence. Principia Int. J. Epistemol. 2002, 6, 5–50.
  9. Harré, R. The Philosophies of Science; Oxford University Press: New York, NY, USA , 1985.
  10. Baas, N.A. Emergence, hierarchies, and hyperstructures. In Artificial Life III, SFI Studies in the Science of Complexity, XVII; Routledge: Abingdon, UK, 1994; pp. 515–537.
  11. Newman, D.V. Emergence and strange attractors. Philos. Sci. 1996, 63, 245–261. [CrossRef]
  12. Kim, J. ‘Downward causation’ in emergentism and nonreductive physicalism. In Emergence or Reduction; Walter de Gruyter: Berlin, Germany, 1992; pp. 119–138.
  13. O’Connor, T. Emergent properties. Am. Philos. Q. 1994, 31, 91–104
  14. 14.0 14.1 P. A. Mediano, F. Rosas, R. L. Carhart-Harris, A. K. Seth, A. B. Barrett, Beyond integrated information: A taxonomy of information dynamics phenomena, arXiv preprint arXiv:1909.02297 (2019).
  15. Hoel E P. When the map is better than the territory[J]. Entropy, 2017, 19(5): 188.
  16. 16.0 16.1 16.2 16.3 16.4 Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.
  17. Williams P L, Beer R D. Nonnegative decomposition of multivariate information[J]. arXiv preprint arXiv:10042515, 2010.
  18. P. A. Mediano, F. Rosas, R. L. Carhart-Harris, A. K. Seth, A. B. Barrett, Beyond integrated information: A taxonomy of information dynamics phenomena, arXiv preprint arXiv:1909.02297 (2019).
  19. Kaplanis C, Mediano P, Rosas F. Learning causally emergent representations[C]//NeurIPS 2023 workshop: Information-Theoretic Principles in Cognitive Systems. 2023.

此词条由吕奥博张江编写,张江袁冰杨明哲王志鹏整理和审校。

本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。