“因果涌现”的版本间的差异

2023年7月16日 (日) 16:57的版本

此词条是由张江老师提出，将由因果涌现社区成员共同完成。

目前需要将每个模块的重点参考文献，以及要表述的重点说明清楚，让大家认领相关的知识整理，最后统一成一个完整的词条。

因果涌现（causal emergence）是指动力系统中的一类特殊的涌现现象，即系统在宏观尺度会展现出更强的因果特性。特别的，对于此类马尔可夫动力学系统来说，在对其状态空间进行适当的粗粒化以后，所形成的宏观动力学会展现出比微观更强的因果特性，那么称该系统发生了因果涌现^[1]^[2]。马尔可夫动力学系统是指系统在某一时刻的状态仅仅依赖于系统上一时刻所处的状态，而与更早的状态无关。这里的粗粒化是指对系统的状态空间进行约简的一种方法，它往往可以表示为一个具有降维特征的函数映射。所谓的宏观动力学是指在被粗粒化后的新状态空间上的随附的（supervenes）动力学，它完全取决于微观的动力学和粗粒化方式。

历史

涌现一直是复杂系统中的一个重要特性和研究对象，是许多关于复杂性本质以及宏微观组织之间关系讨论的中心概念^[3]^[4]。涌现可以简单理解为整体大于部分之和，即整体上展现出构成它的个体所不具备的新特性^[5]。以往对涌现有很多定性的研究，如对涌现的分类等^[6][6]，可以将涌现分为强涌现与弱涌现，然而却无法定量的刻画涌现的发生。但是随着近年来因果科学理论得到了进一步的发展，使得可以用数学框架来量化因果，因果描述的是一个动力学过程的因果效应^[7]^[8]^[9]。同时涌现和因果也是相互联系的：一方面，涌现是复杂系统中各组成部分之间复杂的非线性相互作用的因果效应；另一方面，涌现特性也会对复杂系统中的个体产生因果关系。因此，可以借助因果来定量刻画涌现的发生。2013美国理论神经生物学家Erik Hoel尝试将因果引入涌现的衡量，提出了因果涌现这一概念，并且使用有效信息（Effective Information，简称EI）来量化系统动力学的因果性强弱^[1]^[2]。因果涌现很好的刻画了系统宏观和微观状态之间的区别与联系，同时把人工智能中的因果和复杂系统中的涌现这两个核心概念结合起来，因果涌现也为学者回答一系列的哲学问题提供一个定量化的视角。比如，可以借助因果涌现框架讨论生命系统或者社会系统中的自上而下的因果等特性。这里的自上而下因果指的是向下因果^[6]，表示存在宏观到微观的因果效应。例如，壁虎断尾现象，当遇到危险时壁虎不征求尾巴的建议直接将自己的尾巴断掉，这里整体是因，尾巴是果，那么就存在一个整体指向个体的因果力。

基本概念

如果通过合适的粗粒化策略使得系统在宏观尺度能够展现出比它在微观尺度上具有更强的因果特性的时候，这就发生了因果涌现。其中系统因果关系的强度揭示其未来状态受当前状态影响的程度。值得注意的是，目前研究因果涌现都是建立在马尔可夫动力学系统上，同时也需要使用粗粒化函数。

马尔可夫动力学

马尔可夫动力学是指系统的下一时刻状态只依赖于系统上一时刻的状态，并且与再之前的状态无关。马尔可夫动力学可以具体分为离散时间、连续时间，离散状态、连续状态，以及它们的组合等多种形式。例如，表中概率转移矩阵就定义了一个离散时间、离散状态上的马尔可夫动力学[math]\displaystyle{ P(S_{t+1}|S_{t}) }[/math]，[math]\displaystyle{ S_t }[/math]和[math]\displaystyle{ S_(t+1) }[/math]分别表示[math]\displaystyle{ t }[/math]时刻和[math]\displaystyle{ t+1 }[/math]时刻的状态：

离散马尔可夫动力学
states	a	b	c
a	1/3	1/3	1/3
b	1/2	1/2	0
c	0	0	1

这是一个离散状态离散([math]\displaystyle{ S=\{a,b,c\} }[/math])时间的马尔可夫动力学中的状态概率转移表，其中每一行、列都对应一个状态，第i行第j列表示状态从第i个状态转移到第j个状态的概率。我们也可以等价地用状态转移图来表示。

目前对因果涌现的讨论大多集中于这种离散状态、离散时间的马尔可夫动力学。

当然，还存在着连续时间、连续状态的马尔可夫动力学，例如朗之万方程：

[math]\displaystyle{ \frac{dX}{dt} = a X + \xi }[/math]

其中[math]\displaystyle{ X }[/math]为一随机变量，可以从所有实数中取值，a为常数，[math]\displaystyle{ \xi }[/math]为一高斯噪声。

粗粒化

粗粒化是一种通过将系统组件分组为更大、变化更慢的单元来简化系统描述的过程，它通常用于确定系统的基本特征，这些特征决定了系统的宏观行为，而不受微观尺度相互作用等细节的影响。对于复杂系统来说，粗粒化一般包含了节点（单元）的合并，以及宏观状态的计算两个步骤。粗粒化策略可以将一组微观状态映射到一个特定的宏观状态。此外，人们往往会混用粗粒化与重整化^[10]^[11]，确实两者存在很多共同之处，如两者都是对系统进行更加宏观尺度的描述。但是两者也存在区别，粗粒化一般都是对系统的状态进行操作，而重整化一般针对的是系统动力学、配分函数或者规则。粗粒化在不同领域有着不同的表述：下采样、池化等。

因果涌现的量化

早期相关工作

Hoel等人^[1]提出的因果涌现理论之前，已经有一些相关的工作引入与因果涌现理论非常相似的思想。例如，Crutchfield等^[12]提出的计算力学理论考虑了因果状态，该方法是对状态空间的划分。而Seth等人则提出了G-emergence理论^[13]利用格兰杰因果关系来量化涌现。

计算力学

计算力学理论试图用定量的框架来表述涌现的因果关系，希望从一个随机过程的观测中构造一个最小的因果模型，从而来产生观测的时间序列^[12]。其中随机过程可以用[math]\displaystyle{ \overleftrightarrow{s} }[/math]表示，基于时间[math]\displaystyle{ t }[/math]可以将随机过程分为两个部分，时间前和时间后的过程，[math]\displaystyle{ \overleftarrow{s_t} }[/math]和[math]\displaystyle{ \overrightarrow{s_t} }[/math]，当这个过程是平稳过程时，可以去掉时间。因此，可以将所有可能的历史过程[math]\displaystyle{ \overleftarrow{s_t} }[/math]形成的集合记作[math]\displaystyle{ \overleftarrow{s} }[/math]，所有未来的过程形成的集合记作[math]\displaystyle{ \overrightarrow{s} }[/math]。可以将[math]\displaystyle{ \overleftarrow{s} }[/math]分解为相互排斥又联合全面的子集，形成的集合记为[math]\displaystyle{ R }[/math]，任何集[math]\displaystyle{ R\in\mathcal{R} }[/math]的子集可以看作是一个状态，定义一个分解函数[math]\displaystyle{ \eta:S→R }[/math]。

此外，定义了因果等价的概念，如果[math]\displaystyle{ P\left ( \overrightarrow{s}|\overleftarrow{s}\right )=P\left ( \overrightarrow{s}|{\overleftarrow{s}}'\right ) }[/math]，则[math]\displaystyle{ \overleftarrow{s} }[/math]和[math]\displaystyle{ {\overleftarrow{s}}' }[/math]（表示[math]\displaystyle{ \overleftarrow{s} }[/math]的子集）是因果等价的。将历史[math]\displaystyle{ \overleftarrow{s_t} }[/math]的所有因果状态定义为[math]\displaystyle{ \epsilon \left ( \overleftarrow{s} \right ) }[/math]，将两个因果状态[math]\displaystyle{ S_i }[/math]和[math]\displaystyle{ S_j }[/math]之间的因果转移概率记为[math]\displaystyle{ T_{ij}^{\left ( s \right )} }[/math]，一个随机过程的[math]\displaystyle{ \epsilon-machine }[/math]被定义为有序对[math]\displaystyle{ \left \{ \epsilon,T \right \} }[/math]，是一种模式发现机器，其中[math]\displaystyle{ \epsilon }[/math]是因果状态函数， [math]\displaystyle{ T }[/math]是通过[math]\displaystyle{ \epsilon }[/math]定义的状态转移矩阵的集合。通过证明[math]\displaystyle{ \epsilon-machine }[/math]具有最大程度的预测性和最小程度的随机性这两个重要特性验证了它在某种意义上是最优的。

该方法没有给出涌现的明确定义和定量理论，随后一些研究人员进一步推进了计算力学的发展，Shalizi等^[14]在自己的工作中讨论计算力学与涌现的关系，同时在另一个工作中，Shalizi等^[15]还将计算力学应用于元胞自动机，并且在更高的描述水平上发现涌现的“粒子”。

G-emergence理论

G-emergence理论是Seth于2008年提出的最早对涌现进行定量量化的研究之一^[13]，基本思想是用非线性格兰杰因果来量化复杂系统中的弱涌现。具体来说，使用二元自回归模型进行预测，当只存在两个变量A和B时，自回归模型存在两个等式，每个等式对应其中一个变量每个时刻值的构成，每个变量的当前时刻值都是由自身变量和另外一个变量在滞后时间范围内的变量以及残差项构成，残差可以理解为预测误差，残差可以用来衡量格兰杰因果（G-causality）的因果效应程度。B作为A的格兰杰因（G-cause）的程度通过两个残差方差之比的对数来计算，其中一个是在省略B的所有项时A的自回归模型的残差，另一个是全预测模型的残差。此外，作者还定义了G-autonomous，表示一个时间序列的过去值可以帮助预测自身的未来值。G-autonomous的程度可以用类似量化格兰因果的方法来测量。

G-emergence

基于上述G-causality中的两个基本概念，可以来判断涌现的发生(这里是基于格兰杰因果的涌现的衡量，记作G-emergence)。如果把A理解为宏观变量，B理解为微观变量。发生涌现的条件包含两个：1）A是关于B的G-autonomous；2）B是A的G-cause。其中G-emergence的程度是通过A的G-autonomous的程度与B的平均G-cause的程度的乘积来计算。

Seth提出的G-emergence理论首次尝试使用因果关系来量化涌现现象，然而，作者使用的因果关系是格兰杰因果，这不是一个严格的因果关系，同时结果也取决于所使用的回归方法。此外，方法的度量指标是根据变量而不是动力学定义的，这意味着结果会依赖于变量的选择。因此，该方法还存在很多不足，Erik等人提出的因果涌现框架能有效解决这些问题。

因果涌现的定义

近年来一些研究人员也提出一些定量刻画因果涌现的方法。对于如何定义因果涌现是一个关键问题，有两个代表性工作，分别是Hoel等^[1]^[2]提出的基于粗粒化的方法以及Rosas等^[16]提出的基于信息分解的方法。

Hoel的粗粒化方法

因果涌现理论抽象框架

Hoel等^[1]^[2]最早提出因果涌现理论，右图是对该理论框架的一个抽象，其中，横坐标表示时间尺度，纵坐标表示空间尺度。该框架可以看成是一个多层级的系统，存在微观和宏观两种状态。由于微观态往往具有很大的噪音，导致微观动力学的因果性比较弱，所以如果能对微观态进行合适的粗粒化得到噪音更小的宏观态，从而能使得宏观动力学的因果性更强。此外，因果涌现现象的发生意味着，当粗粒化微观状态时，从当前状态传递到下一状态的有效信息量会增加。

作者借鉴了整合信息的量化方法^[17]，提出一种因果效应度量指标有效信息([math]\displaystyle{ \left ( EI \right ) }[/math])来量化一个马尔可夫动力学的因果性强弱，该指标反应一个特定的状态如何有效地影响系统的未来状态，是系统动力学的内禀属性。具体来说，使用干预操作对上一时刻的状态做干预，然后计算干预分布与在干预的情况下经过动力学的下一时刻分布两者之间的互信息作为因果效应的度量指标，[math]\displaystyle{ \left ( EI \right ) }[/math]的计算公式如下所示：

[math]\displaystyle{ EI\left(S\right)=MI\left(I_D;E_D\right)=\sum_{i\in I_D}\ p\left(do\left(s_{t-1}=i\right)\right)\sum_{s_t\in E_D}{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}\log_2{\frac{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}{p\left(s_t\right)}}\ }[/math]

其中[math]\displaystyle{ s_t-1 }[/math]和[math]\displaystyle{ s_t }[/math]分别表示[math]\displaystyle{ t-1 }[/math]和[math]\displaystyle{ t }[/math]时刻的系统状态，[math]\displaystyle{ I_D=do(S_(t-1)\sim U(I)) }[/math]，[math]\displaystyle{ E_D=S_t\ |do(S_(t-1)\sim U(I)) }[/math]，这里[math]\displaystyle{ do }[/math]操作表示对状态进行干预并且强行设定上一时刻的状态[math]\displaystyle{ s_t-1 }[/math]为均匀分布，这里[math]\displaystyle{ I }[/math]表示系统的状态空间，[math]\displaystyle{ U\left ( I \right ) }[/math]表示空间上的均匀分布。进行干预操作是为了使得有效信息能客观衡量动力学的因果特性而不受原始输入数据的分布影响。为了消除状态空间大小对有效信息的影响，使得比较不同的尺度下的有效信息是有意义的，作者定义了一个归一化指标有效系数来衡量动力学的因果性强弱，有效系数和有效信息有如下关系：

[math]\displaystyle{ Eff(S)=EI(S)/(log_2\ n) }[/math]

其中[math]\displaystyle{ n }[/math]表示系统的状态个数，[math]\displaystyle{ Eff(S)\in[0,1] }[/math]。此外，有效系数可以进一步分解为确定性和简并性，[math]\displaystyle{ Eff\left(S\right)=\left \langle \text { 确定性 }\left ( s_0 \right )\right\rangle-\left \langle \text { 简并性 }\left ( s_0 \right )\right \rangle }[/math]，确定性和简并性的计算公式分别如下所示：

[math]\displaystyle{ \text { 确定性 }\left(s_0\right)=\frac{1}{\log _2 n} \sum_{s_t \in E_D} p\left(s_t \mid d o\left(s_{t-1}=s_0\right)\right) \log _2\left(n \cdot p\left(s_t \mid d o\left(s_{t-1}=s_0\right)\right)\right) }[/math]

[math]\displaystyle{ \text { 简并性 }\left(s_0\right)=\frac{1}{\log _2 n} \sum_{s_t \in E_D} p\left(s_t \mid d o\left(s_{t-1}=s_0\right)\right) \log _2\left(n \cdot p\left(s_t\right)\right) }[/math]

可以通过比较系统中宏微观动力学的有效信息大小来判断因果涌现的发生。如果通过有效的粗粒化使得宏观动力学的有效信息大于微观动力学的有效信息（[math]\displaystyle{ EI\left ( S_M \right )\gt EI\left (s_m \right ) }[/math]），那么认为在该粗粒化基础上宏观动力学具有因果涌现特性。

信息分解方法

Hoel提出的基于粗粒化的方法来量化系统中的因果涌现需要预先提供系统的状态转移矩阵以及粗粒化策略，然而现实情况是，往往只能获得系统的观测数据。为了克服这两个困难，Rosas等^[16]从信息理论视角出发，提出一种基于信息分解方法来定义系统中的因果涌现，这里发生因果涌现有两种可能性：因果解耦（Causal Decoupling）和向下因果（Downward Causation），其中因果解耦表示宏观态对其他宏观态的因果效应，向下因果表示宏观态对于微观元素的因果效应。具体地，定义微观状态输入为

因果涌现的识别

信息分解方法

神经信息压缩方法

实例

可参考PNAS Erik的那篇经典的因果涌现文章：Macro beats Micro

状态空间的因果涌现

离散布尔动力学网络上的因果涌现

时域空间上的因果涌现

连续空间上的因果涌现

可参考Erik的Causal Geometry文章

应用

这些定量的量化因果涌现的方法已经广泛应用到很多复杂系统中，包括具有成百上千节点的复杂网络以及神经网络，到具有明显涌现现象的生命游戏、鸟群模型、蛋白质交互、生物以及真实的大脑网络等。

在复杂网络上的应用

在生物中的应用

生物网络中充满噪音使得很难理解其内部的运作原理，这种噪音一方面来自系统的固有噪音，另一方面是由于测量或观察引入的， Klein等[25]进一步探索了生物网络中的噪声、简并性和确定性三者之间的关系以及具体含义。例如，基因表达网络中的高度确定性关系可以理解为一个基因几乎肯定会导致另一个基因的表达。同时生物系统在进化过程中也普遍存在简并现象，这两个原因导致目前尚不清楚在何种尺度上分析生物系统才能最好地理解它们的功能。Klein等[26]分析了超过1800个物种的蛋白质相互作用网络，发现宏观尺度的网络具有更小的噪音和简并性，同时与不参与宏观尺度的节点相比，组成宏观尺度交互群中的节点更具有弹性。因此，生物网络为了适应进化的要求，需要演化成宏观尺度以提高确定性来增强网络的弹性以及提高信息传输的有效性。

Hoel等[27]借助有效信息理论进一步研究生物系统中的因果涌现，作者将有效信息应用到基因调控网络中，识别最能提供信息的心脏发育模型从而控制哺乳动物的心脏发育。通过量化酿酒酵母基因网络的最大联通集团的因果涌现，揭示富有信息的宏观尺度在生物学中是普遍存在的以及生命机制本身也经常运行在宏观尺度上。该方法也为生物学家提供一个可计算的工具来识别最具有信息的宏观尺度，并且可以在此基础上建模、预测、控制和理解复杂的生物系统。

为验证猕猴运动有关的信息是其皮层活动的一个涌现特征，Rosas等[16]尝试基于猕猴的皮质脑电图（ECoG）和动作捕捉（MoCap）数据进行实验，其中ECoG和MoCap分别由64个通道和3个通道的数据构成微观和宏观数据，由于最原始的MoCap数据不满足随附特征的条件独立假设，因此，作者使用偏最小二乘和支持向量机算法推断出与预测猕猴行为有关的编码在ECoG信号中的那部分神经活动，并推测该信息就是潜在神经活动的涌现特征，然后基于计算出来的宏观特征与微观状态验证因果涌现的存在。

Swain等[28]探索蚁群的交互历史对任务分配和任务切换的影响，使用有效信息研究噪声信息如何在蚂蚁之间进行传播。结果发现，蚁群之间历史交互程度影响任务的分配，并且具体交互中蚂蚁群体的类型决定交互中的噪音。此外，即使当蚂蚁切换功能群时，蚁群涌现出来的凝聚力也能保证群体的稳定，同时不同功能蚁群在维持蚁群凝聚力方面也发挥着不同的作用。

在人工神经网络中的应用

Marrow等[29]尝试引入一个基于信息论的指标即有效信息来量化和跟踪训练过程中DNN因果结构的变化，其中有效信息用于评估节点和边对每层下游目标的因果的影响程度。有效信息可以分解为灵敏性和简并性，通过观察模型训练过程中有效信息，包括灵敏性和简并性的变化就可以确定模型的泛化能力，从而帮助我们更好的理解和解释DNN的工作原理。

因果涌现与人工智能

因果涌现理论与人工智能之间也存在着紧密的联系，重点解释因果涌现识别与因果表示学习、因果模型抽象以及基于世界模型的强化学习之间的区别和联系。

因果涌现与因果表示学习

因果表示学习是人工智能中的一个新兴领域，它试图将机器学习中的两个重要领域:表示学习和因果推断结合起来。尝试结合两个子领域的优势，自动提取数据背后的重要特征和因果关系[30]。

基于粗粒化的因果涌现识别可以等价于一种因果表示学习任务。从数据中识别因果关系的涌现，等价于学习数据背后的潜在因果关系。具体来说，宏观状态可以看成因果变量，动力学学习器类比因果机制，粗粒化策略可以看作是一个从原始数据到因果表示的编码过程，有效信息可以理解为对机制的因果效应强度的衡量。由于这两者存在很多相似之处，使得两个领域的技术和概念可以相互学习。例如，因果表征学习技术可以应用于识别因果涌现，反过来，学习到的抽象因果表征可以被解释为一种宏观状态，从而增加因果表征学习的可解释性。

但是两者也存在一些差异，主要包括两点：1）因果表示学习假设其背后存在一个真实的因果机制，数据是由这个因果机制产生的，然而宏观层面涌现出的状态和动力学之间可能并不存在“真正的因果关系”；2）因果涌现中的粗粒化后的宏观状态是一种低维的描述，然而因果表示学习中没有这个要求。但是，从认识论的视角看，两者并不存在差异，因为两者所做的都是从观察数据中提取有效信息，从而获得具有因果效应更强的表征。

因果涌现与因果模型抽象

在复杂系统中，由于微观状态往往存在噪音，需要将微观状态进行粗粒化得到噪音更小的宏观状态，使得宏观动力学的因果性更强。同样对于因果模型也一样，由于原始模型过于复杂，或者计算资源受限，所以往往需要得到更加抽象的因果模型，并且保证抽象的模型尽可能保持原始模型的因果机制，因果模型抽象讨论的也是因果关系与模型抽象(可以看成粗粒化过程)之间的相互作用[31]。因此，因果涌现识别与因果模型抽象有很多相似之处，可以把原始的因果机制理解为微观动力学，抽象出来的机制理解为宏观动力学。在神经信息压缩框架中（NIS），对粗粒化策略和宏观动力学进行了限制，要求宏观动力学的微观预测误差要足够小以排除平凡解。这个要求也类似于因果模型抽象中希望抽象后的因果模型与原始模型的距离要尽可能相近。但是两者也存在一些不同：1）因果涌现中是对状态或数据进行粗粒化，而因果模型抽象是对模型进行操作；2）因果模型抽象中考虑混肴因子，然而却被因果涌现的讨论忽略。

因果涌现与基于世界模型的强化学习

基于世界模型的强化学习假设其内部存在一个世界模型可以模拟智能体所面对的环境的动力学[32]。世界模型的动力学可以通过智能体与环境的相互作用来学习，该动力学也可以帮助智能体对不确定的环境做出计划和决策。同时为了表示复杂的环境，世界模型一定是对环境的粗粒度描述，一个典型的世界模型架构总是包含一个编码器和一个解码器。因此，基于世界模型的强化学习与因果涌现也存在很多相似之处。世界模型也可以被视为一种宏观动力学，环境中的所有状态可以看作是宏观状态，这些可以看成是压缩后的忽略无关信息的状态，能捕捉环境中最重要的因果特征，以便智能体做出更好的决策。在计划过程中，智能体也可以使用世界模型来模拟真实世界的动力学。

因此，两个领域之间的相似性和共同特征可以帮助我们将一个领域的思想和技术借鉴到另一个领域。例如，具有世界模型的智能体可以将复杂系统作为一个整体来进行相互作用，并从相互作用中获得涌现的因果规律，从而更好的帮助我们做因果涌现识别任务。反过来，最大化有效信息技术也可以用于强化学习，使世界模型具有更强的因果特性。

↑ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 Hoel E P, Albantakis L, Tononi G. Quantifying causal emergence shows that macro can beat micro[J]. Proceedings of the National Academy of Sciences, 2013, 110(49): 19790-19795.
↑ ^2.0 ^2.1 ^2.2 ^2.3 Hoel E P. When the map is better than the territory[J]. Entropy, 2017, 19(5): 188.
↑ Meehl P E, Sellars W. The concept of emergence[J]. Minnesota studies in the philosophy of science, 1956, 1239-252.
↑ Holland J H. Emergence: From chaos to order[M]. OUP Oxford, 2000.
↑ Anderson P W. More is different: broken symmetry and the nature of the hierarchical structure of science[J]. Science, 1972, 177(4047): 393-396.
↑ ^6.0 ^6.1 Fromm J. Types and forms of emergence[J]. arXiv preprint nlin/0506028, 2005.
↑ Pearl J. Causality[M]. Cambridge university press, 2009.
↑ Granger C W. Investigating causal relations by econometric models and cross-spectral methods[J]. Econometrica: journal of the Econometric Society, 1969, 424-438.
↑ Pearl J. Models, reasoning and inference[J]. Cambridge, UK: CambridgeUniversityPress, 2000, 19(2).
↑ K. G. Wilson, J. Kogut, The renormalization group and the expansion, Physics reports 12 (2) (1974) 75–199.
↑ J. C. Collins, Renormalization, Cambridge university press, 2023.
↑ ^12.0 ^12.1 J. P. Crutchfield, K. Young, Inferring statistical complexity, Physical review letters 63 (2) (1989) 105.
↑ ^13.0 ^13.1 A. K. Seth, Measuring emergence via nonlinear granger causality., in: alife, Vol. 2008, 2008, pp. 545–552.
↑ C. R. Shalizi, C. Moore, What is a macrostate? subjective observations and objective dynamics, arXiv preprint cond-mat/0303625 (2003).
↑ C. R. Shalizi, Causal architecture, complexity and self-organization in time series and cellular automata, The University of Wisconsin-Madison, 2001.
↑ ^16.0 ^16.1 Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.
↑ Tononi G, Sporns O. Measuring information integration[J]. BMC neuroscience, 2003, 41-20.

[:0-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 Hoel E P, Albantakis L, Tononi G. Quantifying causal emergence shows that macro can beat micro[J]. Proceedings of the National Academy of Sciences, 2013, 110(49): 19790-19795.

[:1-2] 2.0 ^2.1 ^2.2 ^2.3 Hoel E P. When the map is better than the territory[J]. Entropy, 2017, 19(5): 188.

[3] Meehl P E, Sellars W. The concept of emergence[J]. Minnesota studies in the philosophy of science, 1956, 1239-252.

[4] Holland J H. Emergence: From chaos to order[M]. OUP Oxford, 2000.

[5] Anderson P W. More is different: broken symmetry and the nature of the hierarchical structure of science[J]. Science, 1972, 177(4047): 393-396.

[:2-6] 6.0 ^6.1 Fromm J. Types and forms of emergence[J]. arXiv preprint nlin/0506028, 2005.

[7] Pearl J. Causality[M]. Cambridge university press, 2009.

[8] Granger C W. Investigating causal relations by econometric models and cross-spectral methods[J]. Econometrica: journal of the Econometric Society, 1969, 424-438.

[9] Pearl J. Models, reasoning and inference[J]. Cambridge, UK: CambridgeUniversityPress, 2000, 19(2).

[10] K. G. Wilson, J. Kogut, The renormalization group and the expansion, Physics reports 12 (2) (1974) 75–199.

[11] J. C. Collins, Renormalization, Cambridge university press, 2023.

[:3-12] 12.0 ^12.1 J. P. Crutchfield, K. Young, Inferring statistical complexity, Physical review letters 63 (2) (1989) 105.

[:4-13] 13.0 ^13.1 A. K. Seth, Measuring emergence via nonlinear granger causality., in: alife, Vol. 2008, 2008, pp. 545–552.

[14] C. R. Shalizi, C. Moore, What is a macrostate? subjective observations and objective dynamics, arXiv preprint cond-mat/0303625 (2003).

[15] C. R. Shalizi, Causal architecture, complexity and self-organization in time series and cellular automata, The University of Wisconsin-Madison, 2001.

[:5-16] 16.0 ^16.1 Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.

[17] Tononi G, Sporns O. Measuring information integration[J]. BMC neuroscience, 2003, 41-20.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

@@ 第7行： / 第7行： @@
-所谓的因果涌现是指动力系统的一类特殊的[[涌现]]现象，即系统在宏观尺度会展现出更强的因果特性。因此，因果涌现可以用因果性来定量刻画[[涌现]]这一通常难以刻画的复杂系统中的重要概念。
+因果涌现（causal emergence）是指动力系统中的一类特殊的[[涌现]]现象，即系统在宏观尺度会展现出更强的因果特性。特别的，对于此类马尔可夫动力学系统来说，在对其状态空间进行适当的粗粒化以后，所形成的宏观动力学会展现出比微观更强的因果特性，那么称该系统发生了因果涌现<ref name=":0">Hoel E P, Albantakis L, Tononi G. Quantifying causal emergence shows that macro can beat micro[J]. Proceedings of the National Academy of Sciences, 2013, 110(49): 19790-19795.</ref><ref name=":1">Hoel E P. When the map is better than the territory[J]. Entropy, 2017, 19(5): 188.</ref>。马尔可夫动力学系统是指系统在某一时刻的状态仅仅依赖于系统上一时刻所处的状态，而与更早的状态无关。这里的粗粒化是指对系统的状态空间进行约简的一种方法，它往往可以表示为一个具有降维特征的函数映射。所谓的宏观动力学是指在被粗粒化后的新状态空间上的随附的（supervenes）动力学，它完全取决于微观的动力学和粗粒化方式。
-特别的，对于一类马尔可夫动力学系统来说，在对其状态空间进行适当的粗粒化以后，所形成的宏观动力学会展现出比微观更强的因果特性，即称该系统发生了因果涌现。这里，所谓的马尔可夫动力学系统是指系统在某一时刻的状态仅仅依赖于系统上一时刻所处的状态，而与更早的状态无关。所谓的粗粒化是指对系统的状态空间进行约简的一种方法，它往往可以表示为一个具有降维特征的函数映射。所谓的宏观动力学是指在被粗粒化后的新状态空间上的随附的（supervenes）动力学，它完全决定于微观的动力学和粗粒化方式。关于因果特性的强弱一般可以用[[有效信息]]（Effective Information，简称EI）来衡量。因果涌现这一概念最早由美国理论神经生物学家[[Erik hoel|Erik Hoel]]于2009年提出。
+===历史===
+涌现一直是复杂系统中的一个重要特性和研究对象，是许多关于复杂性本质以及宏微观组织之间关系讨论的中心概念<ref>Meehl P E, Sellars W. The concept of emergence[J]. Minnesota studies in the philosophy of science, 1956, 1239-252.</ref><ref>Holland J H. Emergence: From chaos to order[M]. OUP Oxford, 2000.</ref>。涌现可以简单理解为整体大于部分之和，即整体上展现出构成它的个体所不具备的新特性<ref>Anderson P W. More is different: broken symmetry and the nature of the hierarchical structure of science[J]. Science, 1972, 177(4047): 393-396.</ref>。以往对涌现有很多定性的研究，如对涌现的分类等<ref name=":2">Fromm J. Types and forms of emergence[J]. arXiv preprint nlin/0506028, 2005.</ref>[6]，可以将涌现分为强涌现与弱涌现，然而却无法定量的刻画涌现的发生。但是随着近年来因果科学理论得到了进一步的发展，使得可以用数学框架来量化因果，因果描述的是一个动力学过程的因果效应<ref>Pearl J. Causality[M]. Cambridge university press, 2009.</ref><ref>Granger C W. Investigating causal relations by econometric models and cross-spectral methods[J]. Econometrica: journal of the Econometric Society, 1969, 424-438.</ref><ref>Pearl J. Models, reasoning and inference[J]. Cambridge, UK: CambridgeUniversityPress, 2000, 19(2).</ref>。同时涌现和因果也是相互联系的：一方面，涌现是复杂系统中各组成部分之间复杂的非线性相互作用的因果效应；另一方面，涌现特性也会对复杂系统中的个体产生因果关系。因此，可以借助因果来定量刻画涌现的发生。2013美国理论神经生物学家[[Erik hoel|Erik Hoel]]尝试将因果引入涌现的衡量，提出了因果涌现这一概念，并且使用[[有效信息]]（Effective Information，简称EI）来量化系统动力学的因果性强弱<ref name=":0" /><ref name=":1" />。因果涌现很好的刻画了系统宏观和微观状态之间的区别与联系，同时把人工智能中的因果和复杂系统中的涌现这两个核心概念结合起来，因果涌现也为学者回答一系列的哲学问题提供一个定量化的视角。比如，可以借助因果涌现框架讨论生命系统或者社会系统中的自上而下的因果等特性。这里的自上而下因果指的是向下因果<ref name=":2" />，表示存在宏观到微观的因果效应。例如，壁虎断尾现象，当遇到危险时壁虎不征求尾巴的建议直接将自己的尾巴断掉，这里整体是因，尾巴是果，那么就存在一个整体指向个体的因果力。
-=== 历史 ===
+===基本概念===
+如果通过合适的粗粒化策略使得系统在宏观尺度能够展现出比它在微观尺度上具有更强的因果特性的时候，这就发生了因果涌现。其中系统因果关系的强度揭示其未来状态受当前状态影响的程度。值得注意的是，目前研究因果涌现都是建立在马尔可夫动力学系统上，同时也需要使用粗粒化函数。
-=== 基本概念 ===
+====马尔可夫动力学====
-现在关于因果涌现的讨论大多集中在离散状态的马尔可夫动力学系统，并且使用[[有效信息]]来对动力学的因果性进行衡量。接下来，我们将详细介绍关于因果涌现定义中的每个要素。
+马尔可夫动力学是指系统的下一时刻状态只依赖于系统上一时刻的状态，并且与再之前的状态无关。马尔可夫动力学可以具体分为离散时间、连续时间，离散状态、连续状态，以及它们的组合等多种形式。例如，表中概率转移矩阵就定义了一个离散时间、离散状态上的马尔可夫动力学<math>P(S_{t+1}|S_{t})</math>，<math>S_t</math>和<math>S_(t+1)</math>分别表示<math>t</math>时刻和<math>t+1</math>时刻的状态：
-===== 马尔可夫动力学 =====
-所谓的马尔可夫动力学是指系统的下一时刻状态只依赖于上一时刻的状态，并且与再之前的状态无关。马尔可夫动力学可以区分为离散时间、连续时间，离散状态、连续状态，以及它们的组合等多种。例如，如下的概率转移矩阵就定义了一个离散状态、离散空间上的马尔可夫动力学<math>P(S_{t+1}|S_{t})</math>：
 {| class="wikitable"
@@ 第57行： / 第56行： @@
 其中<math>X</math>为一随机变量，可以从所有实数中取值，a为常数，<math>\xi</math>为一高斯噪声。
+====粗粒化====
+粗粒化是一种通过将系统组件分组为更大、变化更慢的单元来简化系统描述的过程，它通常用于确定系统的基本特征，这些特征决定了系统的宏观行为，而不受微观尺度相互作用等细节的影响。对于复杂系统来说，粗粒化一般包含了节点（单元）的合并，以及宏观状态的计算两个步骤。粗粒化策略可以将一组微观状态映射到一个特定的宏观状态。此外，人们往往会混用粗粒化与重整化<ref>K. G. Wilson, J. Kogut, The renormalization group and the expansion, Physics reports 12 (2) (1974) 75–199.</ref><ref>J. C. Collins, Renormalization, Cambridge university press, 2023.</ref>，确实两者存在很多共同之处，如两者都是对系统进行更加宏观尺度的描述。但是两者也存在区别，粗粒化一般都是对系统的状态进行操作，而重整化一般针对的是系统动力学、配分函数或者规则。粗粒化在不同领域有着不同的表述：下采样、池化等。
+===因果涌现的量化===
+====早期相关工作====
+Hoel等人<ref name=":0" />提出的因果涌现理论之前，已经有一些相关的工作引入与因果涌现理论非常相似的思想。例如，Crutchfield等<ref name=":3">J. P. Crutchfield, K. Young, Inferring statistical complexity, Physical review letters 63 (2) (1989) 105.</ref>提出的计算力学理论考虑了因果状态，该方法是对状态空间的划分。而Seth等人则提出了G-emergence理论<ref name=":4">A. K. Seth, Measuring emergence via nonlinear granger causality., in: alife, Vol. 2008, 2008, pp. 545–552.</ref>利用格兰杰因果关系来量化涌现。
+=====计算力学=====
+计算力学理论试图用定量的框架来表述涌现的因果关系，希望从一个随机过程的观测中构造一个最小的因果模型，从而来产生观测的时间序列<ref name=":3" />。其中随机过程可以用<math>\overleftrightarrow{s}</math>表示，基于时间<math>t</math>可以将随机过程分为两个部分，时间前和时间后的过程，<math>\overleftarrow{s_t}</math>和<math>\overrightarrow{s_t}</math>，当这个过程是平稳过程时，可以去掉时间。因此，可以将所有可能的历史过程<math>\overleftarrow{s_t}</math>形成的集合记作<math> \overleftarrow{s}</math>，所有未来的过程形成的集合记作<math> \overrightarrow{s}</math>。可以将<math>\overleftarrow{s}</math>分解为相互排斥又联合全面的子集，形成的集合记为<math>R</math>，任何集<math>R\in\mathcal{R}</math>的子集可以看作是一个状态，定义一个分解函数<math>\eta:S→R</math>。
+此外，定义了因果等价的概念，如果<math>P\left ( \overrightarrow{s}|\overleftarrow{s}\right )=P\left ( \overrightarrow{s}|{\overleftarrow{s}}'\right )</math>，则<math>\overleftarrow{s}</math>和<math>{\overleftarrow{s}}'</math>（表示<math>\overleftarrow{s}</math>的子集）是因果等价的。将历史<math>\overleftarrow{s_t}</math>的所有因果状态定义为<math>\epsilon \left ( \overleftarrow{s} \right )</math>，将两个因果状态<math>S_i</math>和<math>S_j</math>之间的因果转移概率记为<math>T_{ij}^{\left ( s \right )}</math>，一个随机过程的<math>\epsilon-machine</math>被定义为有序对<math>\left \{ \epsilon,T \right \}</math>，是一种模式发现机器，其中<math>\epsilon</math>是因果状态函数， <math>T</math>是通过<math>\epsilon</math>定义的状态转移矩阵的集合。通过证明<math>\epsilon-machine</math>具有最大程度的预测性和最小程度的随机性这两个重要特性验证了它在某种意义上是最优的。
+该方法没有给出涌现的明确定义和定量理论，随后一些研究人员进一步推进了计算力学的发展，Shalizi等<ref>C. R. Shalizi, C. Moore, What is a macrostate? subjective observations and objective dynamics, arXiv preprint cond-mat/0303625 (2003).</ref>在自己的工作中讨论计算力学与涌现的关系，同时在另一个工作中，Shalizi等<ref>C. R. Shalizi, Causal architecture, complexity and self-organization in time series and cellular automata, The University of Wisconsin-Madison, 2001.</ref>还将计算力学应用于元胞自动机，并且在更高的描述水平上发现涌现的“粒子”。
+====='''G-emergence理论'''=====
+G-emergence理论是Seth于2008年提出的最早对涌现进行定量量化的研究之一<ref name=":4" />，基本思想是用非线性格兰杰因果来量化复杂系统中的弱涌现。具体来说，使用二元自回归模型进行预测，当只存在两个变量A和B时，自回归模型存在两个等式，每个等式对应其中一个变量每个时刻值的构成，每个变量的当前时刻值都是由自身变量和另外一个变量在滞后时间范围内的变量以及残差项构成，残差可以理解为预测误差，残差可以用来衡量格兰杰因果（G-causality）的因果效应程度。B作为A的格兰杰因（G-cause）的程度通过两个残差方差之比的对数来计算，其中一个是在省略B的所有项时A的自回归模型的残差，另一个是全预测模型的残差。此外，作者还定义了G-autonomous，表示一个时间序列的过去值可以帮助预测自身的未来值。G-autonomous的程度可以用类似量化格兰因果的方法来测量。
+[[文件:G-emergence.png|缩略图|G-emergence]]
+基于上述G-causality中的两个基本概念，可以来判断涌现的发生(这里是基于格兰杰因果的涌现的衡量，记作G-emergence)。如果把A理解为宏观变量，B理解为微观变量。发生涌现的条件包含两个：1）A是关于B的G-autonomous；2）B是A的G-cause。其中G-emergence的程度是通过A的G-autonomous的程度与B的平均G-cause的程度的乘积来计算。
+Seth提出的G-emergence理论首次尝试使用因果关系来量化涌现现象，然而，作者使用的因果关系是格兰杰因果，这不是一个严格的因果关系，同时结果也取决于所使用的回归方法。此外，方法的度量指标是根据变量而不是动力学定义的，这意味着结果会依赖于变量的选择。因此，该方法还存在很多不足，Erik等人提出的因果涌现框架能有效解决这些问题。
+====因果涌现的定义====
+近年来一些研究人员也提出一些定量刻画因果涌现的方法。对于如何定义因果涌现是一个关键问题，有两个代表性工作，分别是Hoel等<ref name=":0" /><ref name=":1" />提出的基于粗粒化的方法以及Rosas等<ref name=":5">Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.</ref>提出的基于信息分解的方法。
+====='''Hoel的粗粒化方法'''=====
+[[文件:因果涌现理论抽象框架.png|缩略图|因果涌现理论抽象框架]]
+Hoel等<ref name=":0" /><ref name=":1" />最早提出因果涌现理论，右图是对该理论框架的一个抽象，其中，横坐标表示时间尺度，纵坐标表示空间尺度。该框架可以看成是一个多层级的系统，存在微观和宏观两种状态。由于微观态往往具有很大的噪音，导致微观动力学的因果性比较弱，所以如果能对微观态进行合适的粗粒化得到噪音更小的宏观态，从而能使得宏观动力学的因果性更强。此外，因果涌现现象的发生意味着，当粗粒化微观状态时，从当前状态传递到下一状态的有效信息量会增加。
+作者借鉴了整合信息的量化方法<ref>Tononi G, Sporns O. Measuring information integration[J]. BMC neuroscience, 2003, 41-20.</ref>，提出一种因果效应度量指标有效信息(<math>\left ( EI \right )</math>)来量化一个马尔可夫动力学的因果性强弱，该指标反应一个特定的状态如何有效地影响系统的未来状态，是系统动力学的内禀属性。具体来说，使用干预操作对上一时刻的状态做干预，然后计算干预分布与在干预的情况下经过动力学的下一时刻分布两者之间的互信息作为因果效应的度量指标，<math>\left ( EI \right )</math>的计算公式如下所示：
+<math>EI\left(S\right)=MI\left(I_D;E_D\right)=\sum_{i\in I_D}\ p\left(do\left(s_{t-1}=i\right)\right)\sum_{s_t\in E_D}{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}\log_2{\frac{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}{p\left(s_t\right)}}\ </math>
+其中<math>s_t-1 </math>和<math>s_t </math>分别表示<math>t-1 </math>和<math>t </math>时刻的系统状态，<math>I_D=do(S_(t-1)\sim U(I)) </math>，<math>E_D=S_t\ |do(S_(t-1)\sim U(I)) </math>，这里<math>do </math>操作表示对状态进行干预并且强行设定上一时刻的状态<math>s_t-1 </math>为均匀分布，这里<math>I </math>表示系统的状态空间，<math>U\left ( I \right ) </math>表示空间上的均匀分布。进行干预操作是为了使得有效信息能客观衡量动力学的因果特性而不受原始输入数据的分布影响。为了消除状态空间大小对有效信息的影响，使得比较不同的尺度下的有效信息是有意义的，作者定义了一个归一化指标有效系数来衡量动力学的因果性强弱，有效系数和有效信息有如下关系：
+<math>Eff(S)=EI(S)/(log_2\ n) </math>
+其中<math>n </math>表示系统的状态个数，<math>Eff(S)\in[0,1] </math>。此外，有效系数可以进一步分解为确定性和简并性，<math>Eff\left(S\right)=\left \langle \text { 确定性 }\left ( s_0 \right )\right\rangle-\left \langle \text { 简并性 }\left ( s_0 \right )\right \rangle </math>，确定性和简并性的计算公式分别如下所示：
+<math>\text { 确定性 }\left(s_0\right)=\frac{1}{\log _2 n} \sum_{s_t \in E_D} p\left(s_t \mid d o\left(s_{t-1}=s_0\right)\right) \log _2\left(n \cdot p\left(s_t \mid d o\left(s_{t-1}=s_0\right)\right)\right) </math>
+<math>\text { 简并性 }\left(s_0\right)=\frac{1}{\log _2 n} \sum_{s_t \in E_D} p\left(s_t \mid d o\left(s_{t-1}=s_0\right)\right) \log _2\left(n \cdot p\left(s_t\right)\right) </math>
+可以通过比较系统中宏微观动力学的有效信息大小来判断因果涌现的发生。如果通过有效的粗粒化使得宏观动力学的有效信息大于微观动力学的有效信息（<math>EI\left ( S_M \right )> EI\left (s_m \right ) </math>），那么认为在该粗粒化基础上宏观动力学具有因果涌现特性。
+=====信息分解方法=====
+Hoel提出的基于粗粒化的方法来量化系统中的因果涌现需要预先提供系统的状态转移矩阵以及粗粒化策略，然而现实情况是，往往只能获得系统的观测数据。为了克服这两个困难，Rosas等<ref name=":5" />从信息理论视角出发，提出一种基于信息分解方法来定义系统中的因果涌现，这里发生因果涌现有两种可能性：因果解耦（Causal Decoupling）和向下因果（Downward Causation），其中因果解耦表示宏观态对其他宏观态的因果效应，向下因果表示宏观态对于微观元素的因果效应。具体地，定义微观状态输入为
+====因果涌现的识别====
+=====信息分解方法=====
+=====神经信息压缩方法=====
 ===实例===
@@ 第71行： / 第122行： @@
 ====连续空间上的因果涌现====
 可参考Erik的Causal Geometry文章
-===关于因果的度量===
-可参考Erik的最新文章：CAUSAL EMERGENCE IS WIDESPREAD ACROSS MEASURES OF CAUSATION
 ===应用===
+这些定量的量化因果涌现的方法已经广泛应用到很多复杂系统中，包括具有成百上千节点的复杂网络以及神经网络，到具有明显涌现现象的生命游戏、鸟群模型、蛋白质交互、生物以及真实的大脑网络等。
 ====在复杂网络上的应用====
-见第一季读书会列表
 ====在生物中的应用====
+生物网络中充满噪音使得很难理解其内部的运作原理，这种噪音一方面来自系统的固有噪音，另一方面是由于测量或观察引入的， Klein等[25]进一步探索了生物网络中的噪声、简并性和确定性三者之间的关系以及具体含义。例如，基因表达网络中的高度确定性关系可以理解为一个基因几乎肯定会导致另一个基因的表达。同时生物系统在进化过程中也普遍存在简并现象，这两个原因导致目前尚不清楚在何种尺度上分析生物系统才能最好地理解它们的功能。Klein等[26]分析了超过1800个物种的蛋白质相互作用网络，发现宏观尺度的网络具有更小的噪音和简并性，同时与不参与宏观尺度的节点相比，组成宏观尺度交互群中的节点更具有弹性。因此，生物网络为了适应进化的要求，需要演化成宏观尺度以提高确定性来增强网络的弹性以及提高信息传输的有效性。
+Hoel等[27]借助有效信息理论进一步研究生物系统中的因果涌现，作者将有效信息应用到基因调控网络中，识别最能提供信息的心脏发育模型从而控制哺乳动物的心脏发育。通过量化酿酒酵母基因网络的最大联通集团的因果涌现，揭示富有信息的宏观尺度在生物学中是普遍存在的以及生命机制本身也经常运行在宏观尺度上。该方法也为生物学家提供一个可计算的工具来识别最具有信息的宏观尺度，并且可以在此基础上建模、预测、控制和理解复杂的生物系统。
+为验证猕猴运动有关的信息是其皮层活动的一个涌现特征，Rosas等[16]尝试基于猕猴的皮质脑电图（ECoG）和动作捕捉（MoCap）数据进行实验，其中ECoG和MoCap分别由64个通道和3个通道的数据构成微观和宏观数据，由于最原始的MoCap数据不满足随附特征的条件独立假设，因此，作者使用偏最小二乘和支持向量机算法推断出与预测猕猴行为有关的编码在ECoG信号中的那部分神经活动，并推测该信息就是潜在神经活动的涌现特征，然后基于计算出来的宏观特征与微观状态验证因果涌现的存在。
+Swain等[28]探索蚁群的交互历史对任务分配和任务切换的影响，使用有效信息研究噪声信息如何在蚂蚁之间进行传播。结果发现，蚁群之间历史交互程度影响任务的分配，并且具体交互中蚂蚁群体的类型决定交互中的噪音。此外，即使当蚂蚁切换功能群时，蚁群涌现出来的凝聚力也能保证群体的稳定，同时不同功能蚁群在维持蚁群凝聚力方面也发挥着不同的作用。
+====在人工神经网络中的应用====
+Marrow等[29]尝试引入一个基于信息论的指标即有效信息来量化和跟踪训练过程中DNN因果结构的变化，其中有效信息用于评估节点和边对每层下游目标的因果的影响程度。有效信息可以分解为灵敏性和简并性，通过观察模型训练过程中有效信息，包括灵敏性和简并性的变化就可以确定模型的泛化能力，从而帮助我们更好的理解和解释DNN的工作原理。
+===因果涌现与人工智能===
+因果涌现理论与人工智能之间也存在着紧密的联系，重点解释因果涌现识别与因果表示学习、因果模型抽象以及基于世界模型的强化学习之间的区别和联系。
+====因果涌现与因果表示学习====
+因果表示学习是人工智能中的一个新兴领域，它试图将机器学习中的两个重要领域:表示学习和因果推断结合起来。尝试结合两个子领域的优势，自动提取数据背后的重要特征和因果关系[30]。
+基于粗粒化的因果涌现识别可以等价于一种因果表示学习任务。从数据中识别因果关系的涌现，等价于学习数据背后的潜在因果关系。具体来说，宏观状态可以看成因果变量，动力学学习器类比因果机制，粗粒化策略可以看作是一个从原始数据到因果表示的编码过程，有效信息可以理解为对机制的因果效应强度的衡量。由于这两者存在很多相似之处，使得两个领域的技术和概念可以相互学习。例如，因果表征学习技术可以应用于识别因果涌现，反过来，学习到的抽象因果表征可以被解释为一种宏观状态，从而增加因果表征学习的可解释性。
+但是两者也存在一些差异，主要包括两点：1）因果表示学习假设其背后存在一个真实的因果机制，数据是由这个因果机制产生的，然而宏观层面涌现出的状态和动力学之间可能并不存在“真正的因果关系”；2）因果涌现中的粗粒化后的宏观状态是一种低维的描述，然而因果表示学习中没有这个要求。但是，从认识论的视角看，两者并不存在差异，因为两者所做的都是从观察数据中提取有效信息，从而获得具有因果效应更强的表征。
-==== 在人工智能中的应用（编写中） ====
+====因果涌现与因果模型抽象====
-面向方面软件中的因果涌现
+在复杂系统中，由于微观状态往往存在噪音，需要将微观状态进行粗粒化得到噪音更小的宏观状态，使得宏观动力学的因果性更强。同样对于因果模型也一样，由于原始模型过于复杂，或者计算资源受限，所以往往需要得到更加抽象的因果模型，并且保证抽象的模型尽可能保持原始模型的因果机制，因果模型抽象讨论的也是因果关系与模型抽象(可以看成粗粒化过程)之间的相互作用[31]。因此，因果涌现识别与因果模型抽象有很多相似之处，可以把原始的因果机制理解为微观动力学，抽象出来的机制理解为宏观动力学。在神经信息压缩框架中（NIS），对粗粒化策略和宏观动力学进行了限制，要求宏观动力学的微观预测误差要足够小以排除平凡解。这个要求也类似于因果模型抽象中希望抽象后的因果模型与原始模型的距离要尽可能相近。但是两者也存在一些不同：1）因果涌现中是对状态或数据进行粗粒化，而因果模型抽象是对模型进行操作；2）因果模型抽象中考虑混肴因子，然而却被因果涌现的讨论忽略。
-===不同的因果涌现框架===
+===='''因果涌现与基于世界模型的强化学习'''====
-Reconciling。。。
+基于世界模型的强化学习假设其内部存在一个世界模型可以模拟智能体所面对的环境的动力学[32]。世界模型的动力学可以通过智能体与环境的相互作用来学习，该动力学也可以帮助智能体对不确定的环境做出计划和决策。同时为了表示复杂的环境，世界模型一定是对环境的粗粒度描述，一个典型的世界模型架构总是包含一个编码器和一个解码器。因此，基于世界模型的强化学习与因果涌现也存在很多相似之处。世界模型也可以被视为一种宏观动力学，环境中的所有状态可以看作是宏观状态，这些可以看成是压缩后的忽略无关信息的状态，能捕捉环境中最重要的因果特征，以便智能体做出更好的决策。在计划过程中，智能体也可以使用世界模型来模拟真实世界的动力学。
-====基于PID框架的因果涌现====
+因此，两个领域之间的相似性和共同特征可以帮助我们将一个领域的思想和技术借鉴到另一个领域。例如，具有世界模型的智能体可以将复杂系统作为一个整体来进行相互作用，并从相互作用中获得涌现的因果规律，从而更好的帮助我们做因果涌现识别任务。反过来，最大化有效信息技术也可以用于强化学习，使世界模型具有更强的因果特性。

“因果涌现”的版本间的差异

2023年7月16日 (日) 16:57的版本

目录

历史

基本概念

马尔可夫动力学

粗粒化

因果涌现的量化

早期相关工作

计算力学

G-emergence理论

因果涌现的定义

Hoel的粗粒化方法

信息分解方法

因果涌现的识别

信息分解方法

神经信息压缩方法

实例

状态空间的因果涌现

离散布尔动力学网络上的因果涌现

时域空间上的因果涌现

连续空间上的因果涌现

应用

在复杂网络上的应用

在生物中的应用

在人工神经网络中的应用

因果涌现与人工智能

因果涌现与因果表示学习

因果涌现与因果模型抽象

因果涌现与基于世界模型的强化学习

导航菜单

搜索