第1行: |
第1行: |
− | 因果涌现(causal emergence)是指动力系统中的一类特殊的[[涌现]]现象,即系统在宏观尺度会展现出更强的因果特性。特别的,对于此类马尔可夫动力学系统来说,在对其状态空间进行适当的粗粒化以后,所形成的宏观动力学会展现出比微观更强的因果特性,那么称该系统发生了因果涌现<ref name=":0">Hoel E P, Albantakis L, Tononi G. Quantifying causal emergence shows that macro can beat micro[J]. Proceedings of the National Academy of Sciences, 2013, 110(49): 19790-19795.</ref><ref name=":1">Hoel E P. When the map is better than the territory[J]. Entropy, 2017, 19(5): 188.</ref>。马尔可夫动力学系统是指系统在某一时刻的状态仅仅依赖于系统上一时刻所处的状态,而与更早的状态无关。这里的粗粒化是指对系统的状态空间进行约简的一种方法,它往往可以表示为一个具有降维特征的函数映射。所谓的宏观动力学是指在被粗粒化后的新状态空间上的随附的(supervenes)动力学,它完全取决于微观的动力学和粗粒化方式。 | + | '''因果涌现(causal emergence)'''是指动力系统中的一类特殊的[[涌现]]现象,即系统在宏观尺度会展现出更强的因果特性。特别的,对于此类马尔可夫动力学系统来说,在对其状态空间进行适当的粗粒化以后,所形成的宏观动力学会展现出比微观更强的因果特性,那么称该系统发生了因果涌现<ref name=":0">Hoel E P, Albantakis L, Tononi G. Quantifying causal emergence shows that macro can beat micro[J]. Proceedings of the National Academy of Sciences, 2013, 110(49): 19790-19795.</ref><ref name=":1">Hoel E P. When the map is better than the territory[J]. Entropy, 2017, 19(5): 188.</ref>。马尔可夫动力学系统是指系统在某一时刻的状态仅仅依赖于系统上一时刻所处的状态,而与更早的状态无关。这里的粗粒化是指对系统的状态空间进行约简的一种方法,它往往可以表示为一个具有降维特征的函数映射。所谓的宏观动力学是指在被粗粒化后的新状态空间上的随附的(supervenes)动力学,它完全取决于微观的动力学和粗粒化方式。 |
| | | |
− | ===历史===
| + | ==历史== |
| 涌现一直是复杂系统中的一个重要特性和研究对象,是许多关于复杂性本质以及宏微观组织之间关系讨论的中心概念<ref>Meehl P E, Sellars W. The concept of emergence[J]. Minnesota studies in the philosophy of science, 1956, 1239-252.</ref><ref>Holland J H. Emergence: From chaos to order[M]. OUP Oxford, 2000.</ref>。涌现可以简单理解为整体大于部分之和,即整体上展现出构成它的个体所不具备的新特性<ref>Anderson P W. More is different: broken symmetry and the nature of the hierarchical structure of science[J]. Science, 1972, 177(4047): 393-396.</ref>。以往对涌现有很多定性的研究,如对涌现的分类等<ref name=":2">Fromm J. Types and forms of emergence[J]. arXiv preprint nlin/0506028, 2005.</ref>,可以将涌现分为强涌现与弱涌现,然而却无法定量的刻画涌现的发生。但是随着近年来因果科学理论得到了进一步的发展,使得可以用数学框架来量化因果,因果描述的是一个动力学过程的因果效应<ref>Pearl J. Causality[M]. Cambridge university press, 2009.</ref><ref>Granger C W. Investigating causal relations by econometric models and cross-spectral methods[J]. Econometrica: journal of the Econometric Society, 1969, 424-438.</ref><ref>Pearl J. Models, reasoning and inference[J]. Cambridge, UK: CambridgeUniversityPress, 2000, 19(2).</ref>。同时涌现和因果也是相互联系的:一方面,涌现是复杂系统中各组成部分之间复杂的非线性相互作用的因果效应;另一方面,涌现特性也会对复杂系统中的个体产生因果关系。因此,可以借助因果来定量刻画涌现的发生。2013美国理论神经生物学家[[Erik hoel|Erik Hoel]]尝试将因果引入涌现的衡量,提出了因果涌现这一概念,并且使用[[有效信息]](Effective Information,简称EI)来量化系统动力学的因果性强弱<ref name=":0" /><ref name=":1" />。因果涌现很好的刻画了系统宏观和微观状态之间的区别与联系,同时把人工智能中的因果和复杂系统中的涌现这两个核心概念结合起来,因果涌现也为学者回答一系列的哲学问题提供一个定量化的视角。比如,可以借助因果涌现框架讨论生命系统或者社会系统中的自上而下的因果等特性。这里的自上而下因果指的是向下因果<ref name=":2" />,表示存在宏观到微观的因果效应。例如,壁虎断尾现象,当遇到危险时壁虎不征求尾巴的建议直接将自己的尾巴断掉,这里整体是因,尾巴是果,那么就存在一个整体指向个体的因果力。 | | 涌现一直是复杂系统中的一个重要特性和研究对象,是许多关于复杂性本质以及宏微观组织之间关系讨论的中心概念<ref>Meehl P E, Sellars W. The concept of emergence[J]. Minnesota studies in the philosophy of science, 1956, 1239-252.</ref><ref>Holland J H. Emergence: From chaos to order[M]. OUP Oxford, 2000.</ref>。涌现可以简单理解为整体大于部分之和,即整体上展现出构成它的个体所不具备的新特性<ref>Anderson P W. More is different: broken symmetry and the nature of the hierarchical structure of science[J]. Science, 1972, 177(4047): 393-396.</ref>。以往对涌现有很多定性的研究,如对涌现的分类等<ref name=":2">Fromm J. Types and forms of emergence[J]. arXiv preprint nlin/0506028, 2005.</ref>,可以将涌现分为强涌现与弱涌现,然而却无法定量的刻画涌现的发生。但是随着近年来因果科学理论得到了进一步的发展,使得可以用数学框架来量化因果,因果描述的是一个动力学过程的因果效应<ref>Pearl J. Causality[M]. Cambridge university press, 2009.</ref><ref>Granger C W. Investigating causal relations by econometric models and cross-spectral methods[J]. Econometrica: journal of the Econometric Society, 1969, 424-438.</ref><ref>Pearl J. Models, reasoning and inference[J]. Cambridge, UK: CambridgeUniversityPress, 2000, 19(2).</ref>。同时涌现和因果也是相互联系的:一方面,涌现是复杂系统中各组成部分之间复杂的非线性相互作用的因果效应;另一方面,涌现特性也会对复杂系统中的个体产生因果关系。因此,可以借助因果来定量刻画涌现的发生。2013美国理论神经生物学家[[Erik hoel|Erik Hoel]]尝试将因果引入涌现的衡量,提出了因果涌现这一概念,并且使用[[有效信息]](Effective Information,简称EI)来量化系统动力学的因果性强弱<ref name=":0" /><ref name=":1" />。因果涌现很好的刻画了系统宏观和微观状态之间的区别与联系,同时把人工智能中的因果和复杂系统中的涌现这两个核心概念结合起来,因果涌现也为学者回答一系列的哲学问题提供一个定量化的视角。比如,可以借助因果涌现框架讨论生命系统或者社会系统中的自上而下的因果等特性。这里的自上而下因果指的是向下因果<ref name=":2" />,表示存在宏观到微观的因果效应。例如,壁虎断尾现象,当遇到危险时壁虎不征求尾巴的建议直接将自己的尾巴断掉,这里整体是因,尾巴是果,那么就存在一个整体指向个体的因果力。 |
− | ----
| + | |
− | ===基本概念===
| + | ==基本概念== |
| 如果通过合适的粗粒化策略使得系统在宏观尺度能够展现出比它在微观尺度上具有更强的因果特性的时候,这就发生了因果涌现。其中系统因果关系的强度揭示其未来状态受当前状态影响的程度。值得注意的是,目前研究因果涌现都是建立在马尔可夫动力学系统上,同时也需要使用粗粒化函数。 | | 如果通过合适的粗粒化策略使得系统在宏观尺度能够展现出比它在微观尺度上具有更强的因果特性的时候,这就发生了因果涌现。其中系统因果关系的强度揭示其未来状态受当前状态影响的程度。值得注意的是,目前研究因果涌现都是建立在马尔可夫动力学系统上,同时也需要使用粗粒化函数。 |
| | | |
− | ====马尔可夫动力学====
| + | ===马尔可夫动力学=== |
| 马尔可夫动力学是指系统的下一时刻状态只依赖于系统上一时刻的状态,并且与再之前的状态无关。马尔可夫动力学可以具体分为离散时间、连续时间,离散状态、连续状态,以及它们的组合等多种形式。例如,表中概率转移矩阵就定义了一个离散时间、离散状态上的马尔可夫动力学<math>P(S_{t+1}|S_{t})</math>,<math>S_t</math>和<math>S_{t+1}</math>分别表示<math>t</math>时刻和<math>t+1</math>时刻的状态: | | 马尔可夫动力学是指系统的下一时刻状态只依赖于系统上一时刻的状态,并且与再之前的状态无关。马尔可夫动力学可以具体分为离散时间、连续时间,离散状态、连续状态,以及它们的组合等多种形式。例如,表中概率转移矩阵就定义了一个离散时间、离散状态上的马尔可夫动力学<math>P(S_{t+1}|S_{t})</math>,<math>S_t</math>和<math>S_{t+1}</math>分别表示<math>t</math>时刻和<math>t+1</math>时刻的状态: |
| | | |
第37行: |
第37行: |
| | | |
| 态从第i个状态转移到第j个状态的概率。我们也可以等价地用状态转移图来表示。 | | 态从第i个状态转移到第j个状态的概率。我们也可以等价地用状态转移图来表示。 |
− | [[文件:Markovian.png|替代=状态转移图|边框|无框|342x342px|居中]] | + | [[文件:Markovian.png|alt=马尔科夫状态转移图|边框|342x342px|居中|马尔科夫状态转移图]] |
| | | |
| 目前对因果涌现的讨论大多集中于这种离散状态、离散时间的马尔可夫动力学。 | | 目前对因果涌现的讨论大多集中于这种离散状态、离散时间的马尔可夫动力学。 |
第49行: |
第49行: |
| 其中<math>X</math>为一随机变量,可以从所有实数中取值,a为常数,<math>\xi</math>为一高斯噪声。 | | 其中<math>X</math>为一随机变量,可以从所有实数中取值,a为常数,<math>\xi</math>为一高斯噪声。 |
| | | |
− | ====粗粒化====
| + | ===粗粒化=== |
| 粗粒化是一种通过将系统组件分组为更大、变化更慢的单元来简化系统描述的过程,它通常用于确定系统的基本特征,这些特征决定了系统的宏观行为,而不受微观尺度相互作用等细节的影响。对于复杂系统来说,粗粒化一般包含了节点(单元)的合并,以及宏观状态的计算两个步骤。粗粒化策略可以将一组微观状态映射到一个特定的宏观状态。此外,人们往往会混用粗粒化与重整化<ref>K. G. Wilson, J. Kogut, The renormalization group and the expansion, Physics reports 12 (2) (1974) 75–199.</ref><ref>J. C. Collins, Renormalization, Cambridge university press, 2023.</ref>,确实两者存在很多共同之处,如两者都是对系统进行更加宏观尺度的描述。但是两者也存在区别,粗粒化一般都是对系统的状态进行操作,而重整化一般针对的是系统动力学、配分函数或者规则。粗粒化在不同领域有着不同的表述:下采样、池化等。 | | 粗粒化是一种通过将系统组件分组为更大、变化更慢的单元来简化系统描述的过程,它通常用于确定系统的基本特征,这些特征决定了系统的宏观行为,而不受微观尺度相互作用等细节的影响。对于复杂系统来说,粗粒化一般包含了节点(单元)的合并,以及宏观状态的计算两个步骤。粗粒化策略可以将一组微观状态映射到一个特定的宏观状态。此外,人们往往会混用粗粒化与重整化<ref>K. G. Wilson, J. Kogut, The renormalization group and the expansion, Physics reports 12 (2) (1974) 75–199.</ref><ref>J. C. Collins, Renormalization, Cambridge university press, 2023.</ref>,确实两者存在很多共同之处,如两者都是对系统进行更加宏观尺度的描述。但是两者也存在区别,粗粒化一般都是对系统的状态进行操作,而重整化一般针对的是系统动力学、配分函数或者规则。粗粒化在不同领域有着不同的表述:下采样、池化等。 |
− | ----
| |
− | ===因果涌现的量化===
| |
| | | |
− | ====早期相关工作==== | + | ==因果涌现的量化== |
| + | ===早期相关工作=== |
| Hoel等人<ref name=":0" />提出的因果涌现理论之前,已经有一些相关的工作引入与因果涌现理论非常相似的思想。例如,Crutchfield等<ref name=":3">J. P. Crutchfield, K. Young, Inferring statistical complexity, Physical review letters 63 (2) (1989) 105.</ref>提出的计算力学理论考虑了因果状态,该方法是对状态空间的划分。而Seth等人则提出了G-emergence理论<ref name=":4">A. K. Seth, Measuring emergence via nonlinear granger causality., in: alife, Vol. 2008, 2008, pp. 545–552.</ref>利用格兰杰因果关系来量化涌现。 | | Hoel等人<ref name=":0" />提出的因果涌现理论之前,已经有一些相关的工作引入与因果涌现理论非常相似的思想。例如,Crutchfield等<ref name=":3">J. P. Crutchfield, K. Young, Inferring statistical complexity, Physical review letters 63 (2) (1989) 105.</ref>提出的计算力学理论考虑了因果状态,该方法是对状态空间的划分。而Seth等人则提出了G-emergence理论<ref name=":4">A. K. Seth, Measuring emergence via nonlinear granger causality., in: alife, Vol. 2008, 2008, pp. 545–552.</ref>利用格兰杰因果关系来量化涌现。 |
| | | |
− | =====计算力学=====
| + | ====计算力学==== |
| 计算力学理论试图用定量的框架来表述涌现的因果关系,希望从一个随机过程的观测中构造一个最小的因果模型,从而来产生观测的时间序列<ref name=":3" />。其中随机过程可以用<math>\overleftrightarrow{s}</math>表示,基于时间<math>t</math>可以将随机过程分为两个部分,时间前和时间后的过程,<math>\overleftarrow{s_t}</math>和<math>\overrightarrow{s_t}</math>,当这个过程是平稳过程时,可以去掉时间。因此,可以将所有可能的历史过程<math>\overleftarrow{s_t}</math>形成的集合记作<math> \overleftarrow{S}</math>,所有未来的过程形成的集合记作<math> \overrightarrow{S}</math>。可以将<math>\overleftarrow{S}</math>分解为相互排斥又联合全面的子集,形成的集合记为<math>R</math>,任何集<math>R\in\mathcal{R}</math>的子集可以看作是一个状态,定义一个分解函数<math>\eta:S→R</math>。 | | 计算力学理论试图用定量的框架来表述涌现的因果关系,希望从一个随机过程的观测中构造一个最小的因果模型,从而来产生观测的时间序列<ref name=":3" />。其中随机过程可以用<math>\overleftrightarrow{s}</math>表示,基于时间<math>t</math>可以将随机过程分为两个部分,时间前和时间后的过程,<math>\overleftarrow{s_t}</math>和<math>\overrightarrow{s_t}</math>,当这个过程是平稳过程时,可以去掉时间。因此,可以将所有可能的历史过程<math>\overleftarrow{s_t}</math>形成的集合记作<math> \overleftarrow{S}</math>,所有未来的过程形成的集合记作<math> \overrightarrow{S}</math>。可以将<math>\overleftarrow{S}</math>分解为相互排斥又联合全面的子集,形成的集合记为<math>R</math>,任何集<math>R\in\mathcal{R}</math>的子集可以看作是一个状态,定义一个分解函数<math>\eta:S→R</math>。 |
| | | |
第64行: |
第63行: |
| 该方法没有给出涌现的明确定义和定量理论,随后一些研究人员进一步推进了计算力学的发展,Shalizi等<ref>C. R. Shalizi, C. Moore, What is a macrostate? subjective observations and objective dynamics, arXiv preprint cond-mat/0303625 (2003).</ref>在自己的工作中讨论计算力学与涌现的关系,同时在另一个工作中,Shalizi等<ref>C. R. Shalizi, Causal architecture, complexity and self-organization in time series and cellular automata, The University of Wisconsin-Madison, 2001.</ref>还将计算力学应用于元胞自动机,并且在更高的描述水平上发现涌现的“粒子”。 | | 该方法没有给出涌现的明确定义和定量理论,随后一些研究人员进一步推进了计算力学的发展,Shalizi等<ref>C. R. Shalizi, C. Moore, What is a macrostate? subjective observations and objective dynamics, arXiv preprint cond-mat/0303625 (2003).</ref>在自己的工作中讨论计算力学与涌现的关系,同时在另一个工作中,Shalizi等<ref>C. R. Shalizi, Causal architecture, complexity and self-organization in time series and cellular automata, The University of Wisconsin-Madison, 2001.</ref>还将计算力学应用于元胞自动机,并且在更高的描述水平上发现涌现的“粒子”。 |
| | | |
− | =====G-emergence理论=====
| + | ====G-emergence理论==== |
| G-emergence理论是Seth于2008年提出的最早对涌现进行定量量化的研究之一<ref name=":4" />,基本思想是用非线性格兰杰因果来量化复杂系统中的弱涌现。具体来说,使用二元自回归模型进行预测,当只存在两个变量A和B时,自回归模型存在两个等式,每个等式对应其中一个变量每个时刻值的构成,每个变量的当前时刻值都是由自身变量和另外一个变量在滞后时间范围内的变量以及残差项构成,残差可以理解为预测误差,残差可以用来衡量格兰杰因果(G-causality)的因果效应程度。B作为A的格兰杰因(G-cause)的程度通过两个残差方差之比的对数来计算,其中一个是在省略B的所有项时A的自回归模型的残差,另一个是全预测模型的残差。此外,作者还定义了G-autonomous,表示一个时间序列的过去值可以帮助预测自身的未来值。G-autonomous的程度可以用类似量化格兰因果的方法来测量。 | | G-emergence理论是Seth于2008年提出的最早对涌现进行定量量化的研究之一<ref name=":4" />,基本思想是用非线性格兰杰因果来量化复杂系统中的弱涌现。具体来说,使用二元自回归模型进行预测,当只存在两个变量A和B时,自回归模型存在两个等式,每个等式对应其中一个变量每个时刻值的构成,每个变量的当前时刻值都是由自身变量和另外一个变量在滞后时间范围内的变量以及残差项构成,残差可以理解为预测误差,残差可以用来衡量格兰杰因果(G-causality)的因果效应程度。B作为A的格兰杰因(G-cause)的程度通过两个残差方差之比的对数来计算,其中一个是在省略B的所有项时A的自回归模型的残差,另一个是全预测模型的残差。此外,作者还定义了G-autonomous,表示一个时间序列的过去值可以帮助预测自身的未来值。G-autonomous的程度可以用类似量化格兰因果的方法来测量。 |
− | [[文件:G-emergence.png|G-emergence|替代=|边框|居中|546x546像素]] | + | [[文件:G-emergence.png|G-emergence理论图|alt=G-emergence理论图|边框|居中|546x546像素]] |
| 基于上述G-causality中的两个基本概念,可以来判断涌现的发生(这里是基于格兰杰因果的涌现的衡量,记作G-emergence)。如果把A理解为宏观变量,B理解为微观变量。发生涌现的条件包含两个:1)A是关于B的G-autonomous;2)B是A的G-cause。其中G-emergence的程度是通过A的G-autonomous的程度与B的平均G-cause的程度的乘积来计算。 | | 基于上述G-causality中的两个基本概念,可以来判断涌现的发生(这里是基于格兰杰因果的涌现的衡量,记作G-emergence)。如果把A理解为宏观变量,B理解为微观变量。发生涌现的条件包含两个:1)A是关于B的G-autonomous;2)B是A的G-cause。其中G-emergence的程度是通过A的G-autonomous的程度与B的平均G-cause的程度的乘积来计算。 |
| | | |
| Seth提出的G-emergence理论首次尝试使用因果关系来量化涌现现象,然而,作者使用的因果关系是格兰杰因果,这不是一个严格的因果关系,同时结果也取决于所使用的回归方法。此外,方法的度量指标是根据变量而不是动力学定义的,这意味着结果会依赖于变量的选择。因此,该方法还存在很多不足,Erik等人提出的因果涌现框架能有效解决这些问题。 | | Seth提出的G-emergence理论首次尝试使用因果关系来量化涌现现象,然而,作者使用的因果关系是格兰杰因果,这不是一个严格的因果关系,同时结果也取决于所使用的回归方法。此外,方法的度量指标是根据变量而不是动力学定义的,这意味着结果会依赖于变量的选择。因此,该方法还存在很多不足,Erik等人提出的因果涌现框架能有效解决这些问题。 |
| | | |
− | ====因果涌现的定义====
| + | ===因果涌现的定义=== |
| 近年来一些研究人员也提出一些定量刻画因果涌现的方法。对于如何定义因果涌现是一个关键问题,有两个代表性工作,分别是Hoel等<ref name=":0" /><ref name=":1" />提出的基于粗粒化的方法以及Rosas等<ref name=":5">Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.</ref>提出的基于信息分解的方法。 | | 近年来一些研究人员也提出一些定量刻画因果涌现的方法。对于如何定义因果涌现是一个关键问题,有两个代表性工作,分别是Hoel等<ref name=":0" /><ref name=":1" />提出的基于粗粒化的方法以及Rosas等<ref name=":5">Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.</ref>提出的基于信息分解的方法。 |
| | | |
− | =====Hoel的粗粒化方法=====
| + | ====Hoel的粗粒化方法==== |
− | Hoel等<ref name=":0" /><ref name=":1" />最早提出因果涌现理论,右图是对该理论框架的一个抽象,其中,横坐标表示时间尺度,纵坐标表示空间尺度。该框架可以看成是一个多层级的系统,存在微观和宏观两种状态。由于微观态往往具有很大的噪音,导致微观动力学的因果性比较弱,所以如果能对微观态进行合适的粗粒化得到噪音更小的宏观态,从而能使得宏观动力学的因果性更强。此外,因果涌现现象的发生意味着,当粗粒化微观状态时,从当前状态传递到下一状态的有效信息量会增加。[[文件:因果涌现理论抽象框架.png|因果涌现理论抽象框架|替代=|边框|居中|368x368像素]]作者借鉴了整合信息的量化方法<ref>Tononi G, Sporns O. Measuring information integration[J]. BMC neuroscience, 2003, 41-20.</ref>,提出一种因果效应度量指标有效信息(<math>\left ( EI \right )</math>)来量化一个马尔可夫动力学的因果性强弱,该指标反应一个特定的状态如何有效地影响系统的未来状态,是系统动力学的内禀属性。具体来说,使用干预操作对上一时刻的状态做干预,然后计算干预分布与在干预的情况下经过动力学的下一时刻分布两者之间的互信息作为因果效应的度量指标,<math>\left ( EI \right )</math>的计算公式如下所示: | + | Hoel等<ref name=":0" /><ref name=":1" />最早提出因果涌现理论,右图是对该理论框架的一个抽象,其中,横坐标表示时间尺度,纵坐标表示空间尺度。该框架可以看成是一个多层级的系统,存在微观和宏观两种状态。由于微观态往往具有很大的噪音,导致微观动力学的因果性比较弱,所以如果能对微观态进行合适的粗粒化得到噪音更小的宏观态,从而能使得宏观动力学的因果性更强。此外,因果涌现现象的发生意味着,当粗粒化微观状态时,从当前状态传递到下一状态的有效信息量会增加。[[文件:因果涌现理论抽象框架.png|因果涌现理论抽象框架|alt=因果涌现理论抽象框架|边框|居中|368x368像素]]作者借鉴了整合信息的量化方法<ref>Tononi G, Sporns O. Measuring information integration[J]. BMC neuroscience, 2003, 41-20.</ref>,提出一种因果效应度量指标有效信息(<math>\left ( EI \right )</math>)来量化一个马尔可夫动力学的因果性强弱,该指标反应一个特定的状态如何有效地影响系统的未来状态,是系统动力学的内禀属性。具体来说,使用干预操作对上一时刻的状态做干预,然后计算干预分布与在干预的情况下经过动力学的下一时刻分布两者之间的互信息作为因果效应的度量指标,<math>\left ( EI \right )</math>的计算公式如下所示: |
| | | |
| <math>EI\left(S\right)=MI\left(I_D;E_D\right)=\sum_{i\in I_D}\ p\left(do\left(s_{t-1}=i\right)\right)\sum_{s_t\in E_D}{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}\log_2{\frac{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}{p\left(s_t\right)}}\ </math> | | <math>EI\left(S\right)=MI\left(I_D;E_D\right)=\sum_{i\in I_D}\ p\left(do\left(s_{t-1}=i\right)\right)\sum_{s_t\in E_D}{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}\log_2{\frac{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}{p\left(s_t\right)}}\ </math> |
第91行: |
第90行: |
| 可以通过比较系统中宏微观动力学的有效信息大小来判断因果涌现的发生。如果通过有效的粗粒化使得宏观动力学的有效信息大于微观动力学的有效信息(<math>EI\left ( S_M \right )> EI\left (S_m \right ) </math>),那么认为在该粗粒化基础上宏观动力学具有因果涌现特性。 | | 可以通过比较系统中宏微观动力学的有效信息大小来判断因果涌现的发生。如果通过有效的粗粒化使得宏观动力学的有效信息大于微观动力学的有效信息(<math>EI\left ( S_M \right )> EI\left (S_m \right ) </math>),那么认为在该粗粒化基础上宏观动力学具有因果涌现特性。 |
| | | |
− | =====信息分解方法=====
| + | ====信息分解方法==== |
| Hoel提出的基于粗粒化的方法来量化系统中的因果涌现需要预先提供系统的状态转移矩阵以及粗粒化策略,然而现实情况是,往往只能获得系统的观测数据。为了克服这两个困难,Rosas等<ref name=":5" />从信息理论视角出发,提出一种基于信息分解方法来定义系统中的因果涌现,这里发生因果涌现有两种可能性:因果解耦(Causal Decoupling)和向下因果(Downward Causation),其中因果解耦表示宏观态对其他宏观态的因果效应,向下因果表示宏观态对于微观元素的因果效应。具体地,定义微观状态输入为<math>X_t\ (X_t^1,X_t^2,…,X_t^n ) </math>,<math>V_t </math>表示宏观状态是<math>X_t </math>的随附特征,<math>X_{t+1} </math>和<math>V_{t+1} </math>分别表示下一时刻的微观和宏观状态。该方法建立在Willian和Beer等<ref>Williams P L, Beer R D. Nonnegative decomposition of multivariate information[J]. arXiv preprint arXiv:10042515, 2010.</ref>提出的多元信息非负分解的基础上,Beer使用偏信息分解(PID)将微观态<math>X(X^1,X^2 ) </math>与宏观态<math>V </math>之间的互信息分解为四个部分,计算公式如下所示: | | Hoel提出的基于粗粒化的方法来量化系统中的因果涌现需要预先提供系统的状态转移矩阵以及粗粒化策略,然而现实情况是,往往只能获得系统的观测数据。为了克服这两个困难,Rosas等<ref name=":5" />从信息理论视角出发,提出一种基于信息分解方法来定义系统中的因果涌现,这里发生因果涌现有两种可能性:因果解耦(Causal Decoupling)和向下因果(Downward Causation),其中因果解耦表示宏观态对其他宏观态的因果效应,向下因果表示宏观态对于微观元素的因果效应。具体地,定义微观状态输入为<math>X_t\ (X_t^1,X_t^2,…,X_t^n ) </math>,<math>V_t </math>表示宏观状态是<math>X_t </math>的随附特征,<math>X_{t+1} </math>和<math>V_{t+1} </math>分别表示下一时刻的微观和宏观状态。该方法建立在Willian和Beer等<ref>Williams P L, Beer R D. Nonnegative decomposition of multivariate information[J]. arXiv preprint arXiv:10042515, 2010.</ref>提出的多元信息非负分解的基础上,Beer使用偏信息分解(PID)将微观态<math>X(X^1,X^2 ) </math>与宏观态<math>V </math>之间的互信息分解为四个部分,计算公式如下所示: |
| | | |
第106行: |
第105行: |
| 值得注意的是,对于方法一判断因果涌现的发生需要依赖宏观态<math>V_t </math>的选择,然而<math>V_t </math>的选择又是很困难的,因此该方法不可行。一种自然的想法就是使用第二种方法借助协同信息来判断因果涌现的发生,但是由于冗余信息存在计算的问题,而协同信息的计算又依赖冗余信息。因此,第二种方法基于协同信息的计算往往也是不可行的。总之,这两种因果涌现的定量刻画方法都存在一些缺点,因此,更加合理的量化方法有待提出。 | | 值得注意的是,对于方法一判断因果涌现的发生需要依赖宏观态<math>V_t </math>的选择,然而<math>V_t </math>的选择又是很困难的,因此该方法不可行。一种自然的想法就是使用第二种方法借助协同信息来判断因果涌现的发生,但是由于冗余信息存在计算的问题,而协同信息的计算又依赖冗余信息。因此,第二种方法基于协同信息的计算往往也是不可行的。总之,这两种因果涌现的定量刻画方法都存在一些缺点,因此,更加合理的量化方法有待提出。 |
| | | |
− | ====因果涌现的识别====
| + | ===因果涌现的识别=== |
| 从可观测数据中辨别系统中因果涌现的发生是一个更为重要的问题。此外,在因果涌现的识别问题中往往希望寻找一个最优的宏观尺度,使其有效信息达到最大值,此时的系统具有最大因果力,并且能以最可靠、最有效的方式预测未来的状态。下面介绍两种因果涌现的识别方法,包括基于信息分解和神经信息压缩方法。 | | 从可观测数据中辨别系统中因果涌现的发生是一个更为重要的问题。此外,在因果涌现的识别问题中往往希望寻找一个最优的宏观尺度,使其有效信息达到最大值,此时的系统具有最大因果力,并且能以最可靠、最有效的方式预测未来的状态。下面介绍两种因果涌现的识别方法,包括基于信息分解和神经信息压缩方法。 |
| | | |
− | =====因果涌现信息分解方法=====
| + | ====因果涌现信息分解方法==== |
| Rosas虽然给出因果涌现的严格定义,但在<math>\Phi ID </math>中使用的数学公式很复杂,同时计算要求很高,难以将该方法应用于实际系统。因此,Rosas等绕开特有信息和协同信息的计算<ref name=":5" />,提出一个判定因果涌现发生的充分条件,基于互信息提出三个新指标,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>用于识别系统中的因果涌现,三种指标的具体计算公式如下所示: | | Rosas虽然给出因果涌现的严格定义,但在<math>\Phi ID </math>中使用的数学公式很复杂,同时计算要求很高,难以将该方法应用于实际系统。因此,Rosas等绕开特有信息和协同信息的计算<ref name=":5" />,提出一个判定因果涌现发生的充分条件,基于互信息提出三个新指标,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>用于识别系统中的因果涌现,三种指标的具体计算公式如下所示: |
| | | |
第126行: |
第125行: |
| 该方法避开讨论粗粒化策略。也存在很多缺点:1)该方法提出的三个指标 ,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>只是基于互信息计算没有考虑因果,同时该方法得到的仅仅是发生因果涌现的充分条件;2)该方法无法得到显式的宏观动力学以及粗粒化策略,然而这两项对于下游的任务往往十分重要;3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。因此,该方法不是一种最优的方法,基于数据驱动的神经信息压缩方法应运而生。 | | 该方法避开讨论粗粒化策略。也存在很多缺点:1)该方法提出的三个指标 ,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>只是基于互信息计算没有考虑因果,同时该方法得到的仅仅是发生因果涌现的充分条件;2)该方法无法得到显式的宏观动力学以及粗粒化策略,然而这两项对于下游的任务往往十分重要;3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。因此,该方法不是一种最优的方法,基于数据驱动的神经信息压缩方法应运而生。 |
| | | |
− | =====神经信息压缩方法=====
| + | ====神经信息压缩方法==== |
| 近年来,新兴的人工智能技术已经攻克一系列重大难题,同时机器学习方法配备了各种精心设计的神经网络结构和自动微分技术,可以在巨大的函数空间中逼近任何函数。因此,[[张江]]等<ref>Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref>尝试基于神经网络提出了一种基于数据驱动的能够从时间序列数据中识别系统中的因果涌现方法,该方法能自动提取有效的粗粒度策略和宏观动力学,克服了信息分解方法中的种种不足。 | | 近年来,新兴的人工智能技术已经攻克一系列重大难题,同时机器学习方法配备了各种精心设计的神经网络结构和自动微分技术,可以在巨大的函数空间中逼近任何函数。因此,[[张江]]等<ref>Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref>尝试基于神经网络提出了一种基于数据驱动的能够从时间序列数据中识别系统中的因果涌现方法,该方法能自动提取有效的粗粒度策略和宏观动力学,克服了信息分解方法中的种种不足。 |
| | | |
第136行: |
第135行: |
| | | |
| 为了识别系统中的因果涌现,作者提出一种神经信息压缩方法,构建Encoder-Dynamic Learning-Decoder框架,该模型由编码器、动力学学习器以及解码器三个部分构成,用神经网络构建动力学学习器(<math>f </math>),用可逆神经网络(INN)构建编码器(Encoder)和解码器(Decoder)。该模型框架可以看成是一个神经信息压缩器,将包含噪音的微观态压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强。NIS方法的模型框架如图所示。 | | 为了识别系统中的因果涌现,作者提出一种神经信息压缩方法,构建Encoder-Dynamic Learning-Decoder框架,该模型由编码器、动力学学习器以及解码器三个部分构成,用神经网络构建动力学学习器(<math>f </math>),用可逆神经网络(INN)构建编码器(Encoder)和解码器(Decoder)。该模型框架可以看成是一个神经信息压缩器,将包含噪音的微观态压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强。NIS方法的模型框架如图所示。 |
− | [[文件:NIS模型框架图.png|居中|480x480像素]] | + | [[文件:NIS模型框架图.png|居中|480x480像素|替代=NIS模型框架图|NIS模型框架图]] |
| | | |
| | | |
第159行: |
第158行: |
| | | |
| 同时NIS方法与前面提到的G-emergence也有相似之处,例如,NIS同样采用了格兰杰因果的思想:通过预测下一个时间步的微观状态来优化有效的宏观状态。然而,这两个框架之间有几个明显的区别:a)在G-emergence理论中,宏观状态需要人工选择,然后NIS中是通过自动优化粗粒化策略来得到宏观状态;b)NIS使用神经网络来预测未来状态,而G-emergence使用自回归技术来拟合数据。 | | 同时NIS方法与前面提到的G-emergence也有相似之处,例如,NIS同样采用了格兰杰因果的思想:通过预测下一个时间步的微观状态来优化有效的宏观状态。然而,这两个框架之间有几个明显的区别:a)在G-emergence理论中,宏观状态需要人工选择,然后NIS中是通过自动优化粗粒化策略来得到宏观状态;b)NIS使用神经网络来预测未来状态,而G-emergence使用自回归技术来拟合数据。 |
− | ----
| + | |
− | ===实例===
| + | ==实例 == |
− | ==== 状态空间的因果涌现====
| + | ===状态空间的因果涌现=== |
| 下图给出一个含有四个状态的马尔可夫链的状态转移矩阵,其中前三个状态之间等概率转移,最后一个状态是独立的,通过将前三个状态粗粒化成一个状态,可以得到右图确定的宏观系统,即系统的未来状态完全可以由当前状态决定。此时<math>EI(S_M\ )>EI(S_m\ ) </math>,系统发生了因果涌现。 | | 下图给出一个含有四个状态的马尔可夫链的状态转移矩阵,其中前三个状态之间等概率转移,最后一个状态是独立的,通过将前三个状态粗粒化成一个状态,可以得到右图确定的宏观系统,即系统的未来状态完全可以由当前状态决定。此时<math>EI(S_M\ )>EI(S_m\ ) </math>,系统发生了因果涌现。 |
| [[文件:马尔科夫状态转移矩阵.png|边框|居中|474x474像素|马尔科夫状态转移矩阵]] | | [[文件:马尔科夫状态转移矩阵.png|边框|居中|474x474像素|马尔科夫状态转移矩阵]] |
| | | |
− | ==== 离散布尔动力学网络上的因果涌现====
| + | ===离散布尔动力学网络上的因果涌现=== |
| 下图展示1个含有4个节点的布尔网络例子,每个节点有0和1两种状态,每个节点与其中两个节点相连,遵循相同的微观动力学机制(a图),因此,一共含有十六个微观状态,可以得到一个<math>16\times16 </math>的状态转移矩阵(c图),然后给定分组方式,如将A和B进行合并,C和D进行合并(b图),同时给定微观状态到宏观状态的映射函数(d图),就可以得到新的宏观动力学机制,根据这个机制就可以得到宏观网络的状态转移矩阵(e图),通过对比发现宏观动力学的有效信息大于微观动力学的有效信息(<math>EI(S_M\ )>EI(S_m\ ) </math>),系统发生了因果涌现。 | | 下图展示1个含有4个节点的布尔网络例子,每个节点有0和1两种状态,每个节点与其中两个节点相连,遵循相同的微观动力学机制(a图),因此,一共含有十六个微观状态,可以得到一个<math>16\times16 </math>的状态转移矩阵(c图),然后给定分组方式,如将A和B进行合并,C和D进行合并(b图),同时给定微观状态到宏观状态的映射函数(d图),就可以得到新的宏观动力学机制,根据这个机制就可以得到宏观网络的状态转移矩阵(e图),通过对比发现宏观动力学的有效信息大于微观动力学的有效信息(<math>EI(S_M\ )>EI(S_m\ ) </math>),系统发生了因果涌现。 |
− | [[文件:含有4个节点的布尔网络.png|边框|居中|677x677像素|含有4个节点的布尔网络]] | + | [[文件:含有4个节点的布尔网络.png|边框|居中|677x677像素|含有4个节点布尔网络的因果涌现|替代=含有4个节点布尔网络的因果涌现]] |
| | | |
− | ====时域空间上的因果涌现====
| + | ===时域空间上的因果涌现=== |
| 除了对空间进行粗粒化,还可以对时间进行粗粒化如下图所示,考虑两阶马尔可夫动力学,输入为两个时刻<math>t-2 </math>和<math>t-1 </math>的状态,输出为<math>t </math>和<math>t+1 </math>的状态,可以通过<math>EI </math>计算二阶微观动力学的有效信息为<math>1.38bits </math>,然后通过对时间状态分组,令<math>\alpha=\left \{ A_t,A_{t+1} \right \} </math>,<math>\beta=\left \{ B_t,B_{t+1} \right \} </math>, 同时采用与离散布尔函数相同的映射函数,可以得到完全确定且非简并的宏观动力学系统,其有效信息为<math>2bits </math>,同样实现“宏观打败微观”的效果。 | | 除了对空间进行粗粒化,还可以对时间进行粗粒化如下图所示,考虑两阶马尔可夫动力学,输入为两个时刻<math>t-2 </math>和<math>t-1 </math>的状态,输出为<math>t </math>和<math>t+1 </math>的状态,可以通过<math>EI </math>计算二阶微观动力学的有效信息为<math>1.38bits </math>,然后通过对时间状态分组,令<math>\alpha=\left \{ A_t,A_{t+1} \right \} </math>,<math>\beta=\left \{ B_t,B_{t+1} \right \} </math>, 同时采用与离散布尔函数相同的映射函数,可以得到完全确定且非简并的宏观动力学系统,其有效信息为<math>2bits </math>,同样实现“宏观打败微观”的效果。 |
− | [[文件:时间粗粒化.png|边框|居中|382x382像素|时间粗粒化]] | + | [[文件:时间粗粒化.png|边框|居中|382x382像素|时间粗粒化|替代=时间粗粒化]] |
| | | |
− | ====连续空间上的因果涌现====
| + | ===连续空间上的因果涌现=== |
| 上述的三个例子都是针对离散的状态系统的因果涌现衡量,Varley尝试将连续系统转换成离散的状态转移图进行比较<ref>Varley T F, Hoel E. Emergence as the conversion of information: A unifying theory[J]. Philosophical Transactions of the Royal Society A, 2022, 380(2227): 20210150.</ref>。作者使用OPN(有序划分网络)方法来离散化Rossler吸引子来创建有限数量的状态以及定义一个状态到另一个状态的转移概率。Rossler吸引子的动力学如下所示: | | 上述的三个例子都是针对离散的状态系统的因果涌现衡量,Varley尝试将连续系统转换成离散的状态转移图进行比较<ref>Varley T F, Hoel E. Emergence as the conversion of information: A unifying theory[J]. Philosophical Transactions of the Royal Society A, 2022, 380(2227): 20210150.</ref>。作者使用OPN(有序划分网络)方法来离散化Rossler吸引子来创建有限数量的状态以及定义一个状态到另一个状态的转移概率。Rossler吸引子的动力学如下所示: |
| | | |
第183行: |
第182行: |
| | | |
| 设定<math>b=2 </math>,<math>c=4 </math>,<math>a\in\left \{ 0.37,0.43 \right \} </math>间隔为0.001,这里只是基于<math>x </math>的时间序列建立状态网络。OPN方法具体操作如下:输入时间序列<math>x=\left\{x_1, x_2, \ldots, x_n\right\} </math>,需要将输入嵌入到一个滞后时间为<math>\tau </math>的<math>D </math>维空间中, | | 设定<math>b=2 </math>,<math>c=4 </math>,<math>a\in\left \{ 0.37,0.43 \right \} </math>间隔为0.001,这里只是基于<math>x </math>的时间序列建立状态网络。OPN方法具体操作如下:输入时间序列<math>x=\left\{x_1, x_2, \ldots, x_n\right\} </math>,需要将输入嵌入到一个滞后时间为<math>\tau </math>的<math>D </math>维空间中, |
− | 其中<math>v_i=\left\{x_i, x_{i+\tau},\ldots x_{i+(D-1) \tau}\right\} </math>,需要根据<math>v_i </math>中数值进行降序排序重新编号为<math>s_i=\left\{\pi_1,\pi_2, \cdots \pi_D\right\} </math>, 其中,<math>\pi_j \in\{1,2, \ldots, D\} </math>,节点序列<math>s </math>表示为<math>s=\left\{s_1, s_2, \ldots, s_{n-D+1}\right\} </math>,序列<math>s </math>中不重复的向量构成最终的状态图中的节点,节点<math>i </math>指向节点<math>j </math>的权重表示为<math>s </math>序列中状态<math>s_i </math>后面为状态<math>s_j </math>的次数。对边权进行归一化就可以得到节点间的状态转移概率,然后基于Hoel等人提出的网络的有效信息度量方法进行实验,比较系统的确定性、简并性、有效性等指标随着参数<math>a </math>的变化,如下图所示。 | + | 其中<math>v_i=\left\{x_i, x_{i+\tau},\ldots x_{i+(D-1) \tau}\right\} </math>,需要根据<math>v_i </math>中数值进行降序排序重新编号为<math>s_i=\left\{\pi_1,\pi_2, \cdots \pi_D\right\} </math>, 其中,<math>\pi_j \in\{1,2, \ldots, D\} </math>,节点序列<math>s </math>表示为<math>s=\left\{s_1, s_2, \ldots, s_{n-D+1}\right\} </math>,序列<math>s </math>中不重复的向量构成最终的状态图中的节点,节点<math>i </math>指向节点<math>j </math>的权重表示为<math>s </math>序列中状态<math>s_i </math>后面为状态<math>s_j </math>的次数。对边权进行归一化就可以得到节点间的状态转移概率,然后基于Hoel等人提出网络的有效信息度量方法进行实验,比较系统的确定性、简并性、有效性等指标随着参数<math>a </math>的变化,如下图所示。 |
− | [[文件:指标变化.png|边框|居中|627x627像素]] | + | [[文件:指标变化.png|边框|居中|627x627像素|替代=网络的有效信息度量方法|网络的有效信息度量方法]] |
| 通过实验比较发现,随着参数<math>a </math>的增大,确定性首先经历了短暂的上升,随后在第一次分叉后立即大幅下降,然后逐渐上升在周期加倍级联开始前达到局部峰值,过了该点,确定性急剧崩溃。一般来说,混沌动力学与较低水平的确定性呈相关关系。此外,简并性和有效信息的曲线变化和确定性曲线变化保持一致。然而,对于因果涌现曲线的变化没有什么有趣现象,它在一个相对恒定的值附近往复振荡,其中存在一个明显的例外,它在周期加倍级联开始时暴跌,如下图所示。 | | 通过实验比较发现,随着参数<math>a </math>的增大,确定性首先经历了短暂的上升,随后在第一次分叉后立即大幅下降,然后逐渐上升在周期加倍级联开始前达到局部峰值,过了该点,确定性急剧崩溃。一般来说,混沌动力学与较低水平的确定性呈相关关系。此外,简并性和有效信息的曲线变化和确定性曲线变化保持一致。然而,对于因果涌现曲线的变化没有什么有趣现象,它在一个相对恒定的值附近往复振荡,其中存在一个明显的例外,它在周期加倍级联开始时暴跌,如下图所示。 |
− | [[文件:恒定值.png|边框|居中|420x420像素|恒定值震荡]] | + | [[文件:恒定值.png|边框|居中|420x420像素|参数恒定值震荡|替代=参数恒定值震荡]] |
| Pavel Chvykov和Erik Hoel等<ref>P. Chvykov, E. Hoel, Causal geometry, Entropy 23 (1) (2020) 24.</ref>也将因果涌现框架扩展到连续系统,并且假设不确定性是添加到确定性函数中的干扰,研究人员推导出连续系统有效信息的近似形式来衡量因果涌现的发生。 | | Pavel Chvykov和Erik Hoel等<ref>P. Chvykov, E. Hoel, Causal geometry, Entropy 23 (1) (2020) 24.</ref>也将因果涌现框架扩展到连续系统,并且假设不确定性是添加到确定性函数中的干扰,研究人员推导出连续系统有效信息的近似形式来衡量因果涌现的发生。 |
− | ----
| + | |
− | ===应用===
| + | ==应用== |
| 这些定量的量化因果涌现的方法已经广泛应用到很多复杂系统中,包括具有成百上千节点的复杂网络以及神经网络,到具有明显涌现现象的生命游戏、鸟群模型、蛋白质交互、生物以及真实的大脑网络等。 | | 这些定量的量化因果涌现的方法已经广泛应用到很多复杂系统中,包括具有成百上千节点的复杂网络以及神经网络,到具有明显涌现现象的生命游戏、鸟群模型、蛋白质交互、生物以及真实的大脑网络等。 |
| | | |
− | ====在复杂网络上的应用====
| + | ===在复杂网络上的应用=== |
| 2020年,Klein和Hoel改进此前提出的基于粗粒化的方法并将其应用到复杂网络中<ref>Klein B, Hoel E. The emergence of informative higher scales in complex networks[J]. Complexity, 2020, 20201-12.</ref>,作者借助随机游走子来定义网络中的马尔可夫链,将随机游走子放在节点上等价于对节点做干预,然后基于随机游走概率定义节点的转移概率矩阵。同时作者将有效信息与网络的连通性建立联系,网络中的连通性可以通过节点的出边和入边的权重的不确定性来表征,基于此定义复杂网络中的有效信息。 | | 2020年,Klein和Hoel改进此前提出的基于粗粒化的方法并将其应用到复杂网络中<ref>Klein B, Hoel E. The emergence of informative higher scales in complex networks[J]. Complexity, 2020, 20201-12.</ref>,作者借助随机游走子来定义网络中的马尔可夫链,将随机游走子放在节点上等价于对节点做干预,然后基于随机游走概率定义节点的转移概率矩阵。同时作者将有效信息与网络的连通性建立联系,网络中的连通性可以通过节点的出边和入边的权重的不确定性来表征,基于此定义复杂网络中的有效信息。 |
| | | |
第199行: |
第198行: |
| 在该文章中作者使用贪婪算法来构建宏观尺度的网络,然而对于大规模网络来说,效率仍然很低。随后,Griebenow等<ref>Griebenow R, Klein B, Hoel E. Finding the right scale of a network: efficient identification of causal emergence through spectral clustering[J]. arXiv preprint arXiv:190807565, 2019.</ref>提出了一种基于谱聚类的方法来识别偏好依附网络中的因果涌现。相比贪婪算法以及梯度下降算法,谱聚类算法的计算时间最少,同时找到的宏观网络的因果涌现也更加显著。 | | 在该文章中作者使用贪婪算法来构建宏观尺度的网络,然而对于大规模网络来说,效率仍然很低。随后,Griebenow等<ref>Griebenow R, Klein B, Hoel E. Finding the right scale of a network: efficient identification of causal emergence through spectral clustering[J]. arXiv preprint arXiv:190807565, 2019.</ref>提出了一种基于谱聚类的方法来识别偏好依附网络中的因果涌现。相比贪婪算法以及梯度下降算法,谱聚类算法的计算时间最少,同时找到的宏观网络的因果涌现也更加显著。 |
| | | |
− | ====在生物中的应用====
| + | ===在生物中的应用=== |
| 生物网络中充满噪音使得很难理解其内部的运作原理,这种噪音一方面来自系统的固有噪音,另一方面是由于测量或观察引入的, Klein等<ref>Klein B, Swain A, Byrum T, et al. Exploring noise, degeneracy and determinism in biological networks with the einet package[J]. Methods in Ecology and Evolution, 2022, 13(4): 799-804.</ref>进一步探索了生物网络中的噪声、简并性和确定性三者之间的关系以及具体含义。例如,基因表达网络中的高度确定性关系可以理解为一个基因几乎肯定会导致另一个基因的表达。同时生物系统在进化过程中也普遍存在简并现象,这两个原因导致目前尚不清楚在何种尺度上分析生物系统才能最好地理解它们的功能。Klein等<ref>Klein B, Hoel E, Swain A, et al. Evolution and emergence: higher order information structure in protein interactomes across the tree of life[J]. Integrative Biology, 2021, 13(12): 283-294.</ref>分析了超过1800个物种的蛋白质相互作用网络,发现宏观尺度的网络具有更小的噪音和简并性,同时与不参与宏观尺度的节点相比,组成宏观尺度交互群中的节点更具有弹性。因此,生物网络为了适应进化的要求,需要演化成宏观尺度以提高确定性来增强网络的弹性以及提高信息传输的有效性。 | | 生物网络中充满噪音使得很难理解其内部的运作原理,这种噪音一方面来自系统的固有噪音,另一方面是由于测量或观察引入的, Klein等<ref>Klein B, Swain A, Byrum T, et al. Exploring noise, degeneracy and determinism in biological networks with the einet package[J]. Methods in Ecology and Evolution, 2022, 13(4): 799-804.</ref>进一步探索了生物网络中的噪声、简并性和确定性三者之间的关系以及具体含义。例如,基因表达网络中的高度确定性关系可以理解为一个基因几乎肯定会导致另一个基因的表达。同时生物系统在进化过程中也普遍存在简并现象,这两个原因导致目前尚不清楚在何种尺度上分析生物系统才能最好地理解它们的功能。Klein等<ref>Klein B, Hoel E, Swain A, et al. Evolution and emergence: higher order information structure in protein interactomes across the tree of life[J]. Integrative Biology, 2021, 13(12): 283-294.</ref>分析了超过1800个物种的蛋白质相互作用网络,发现宏观尺度的网络具有更小的噪音和简并性,同时与不参与宏观尺度的节点相比,组成宏观尺度交互群中的节点更具有弹性。因此,生物网络为了适应进化的要求,需要演化成宏观尺度以提高确定性来增强网络的弹性以及提高信息传输的有效性。 |
| | | |
第208行: |
第207行: |
| Swain等<ref>Swain A, Williams S D, Di Felice L J, et al. Interactions and information: exploring task allocation in ant colonies using network analysis[J]. Animal Behaviour, 2022, 18969-81.</ref>探索蚁群的交互历史对任务分配和任务切换的影响,使用有效信息研究噪声信息如何在蚂蚁之间进行传播。结果发现,蚁群之间历史交互程度影响任务的分配,并且具体交互中蚂蚁群体的类型决定交互中的噪音。此外,即使当蚂蚁切换功能群时,蚁群涌现出来的凝聚力也能保证群体的稳定,同时不同功能蚁群在维持蚁群凝聚力方面也发挥着不同的作用。 | | Swain等<ref>Swain A, Williams S D, Di Felice L J, et al. Interactions and information: exploring task allocation in ant colonies using network analysis[J]. Animal Behaviour, 2022, 18969-81.</ref>探索蚁群的交互历史对任务分配和任务切换的影响,使用有效信息研究噪声信息如何在蚂蚁之间进行传播。结果发现,蚁群之间历史交互程度影响任务的分配,并且具体交互中蚂蚁群体的类型决定交互中的噪音。此外,即使当蚂蚁切换功能群时,蚁群涌现出来的凝聚力也能保证群体的稳定,同时不同功能蚁群在维持蚁群凝聚力方面也发挥着不同的作用。 |
| | | |
− | ====在人工神经网络中的应用====
| + | ===在人工神经网络中的应用=== |
| Marrow等<ref>Marrow S, Michaud E J, Hoel E. Examining the Causal Structures of Deep Neural Networks Using Information Theory[J]. Entropy, 2020, 22(12): 1429.</ref>尝试引入一个基于信息论的指标即有效信息来量化和跟踪训练过程中DNN因果结构的变化,其中有效信息用于评估节点和边对每层下游目标的因果的影响程度。有效信息可以分解为灵敏性和简并性,通过观察模型训练过程中有效信息,包括灵敏性和简并性的变化就可以确定模型的泛化能力,从而帮助学者更好的理解和解释DNN的工作原理。 | | Marrow等<ref>Marrow S, Michaud E J, Hoel E. Examining the Causal Structures of Deep Neural Networks Using Information Theory[J]. Entropy, 2020, 22(12): 1429.</ref>尝试引入一个基于信息论的指标即有效信息来量化和跟踪训练过程中DNN因果结构的变化,其中有效信息用于评估节点和边对每层下游目标的因果的影响程度。有效信息可以分解为灵敏性和简并性,通过观察模型训练过程中有效信息,包括灵敏性和简并性的变化就可以确定模型的泛化能力,从而帮助学者更好的理解和解释DNN的工作原理。 |
| | | |
− | ===因果涌现与人工智能===
| + | ==因果涌现与人工智能== |
| 因果涌现理论与人工智能之间也存在着紧密的联系,重点解释因果涌现识别与因果表示学习、因果模型抽象以及基于世界模型的强化学习之间的区别和联系。 | | 因果涌现理论与人工智能之间也存在着紧密的联系,重点解释因果涌现识别与因果表示学习、因果模型抽象以及基于世界模型的强化学习之间的区别和联系。 |
| | | |
− | ====因果涌现与因果表示学习====
| + | ===因果涌现与因果表示学习=== |
| 因果表示学习是人工智能中的一个新兴领域,它试图将机器学习中的两个重要领域:表示学习和因果推断结合起来。尝试结合两个子领域的优势,自动提取数据背后的重要特征和因果关系<ref>B. Sch ̈olkopf, F. Locatello, S. Bauer, N. R. Ke, N. Kalchbrenner, A. Goyal, Y. Bengio, Toward causal representation learning, Proceedings of the IEEE 109 (5) (2021) 612–634.</ref>。 | | 因果表示学习是人工智能中的一个新兴领域,它试图将机器学习中的两个重要领域:表示学习和因果推断结合起来。尝试结合两个子领域的优势,自动提取数据背后的重要特征和因果关系<ref>B. Sch ̈olkopf, F. Locatello, S. Bauer, N. R. Ke, N. Kalchbrenner, A. Goyal, Y. Bengio, Toward causal representation learning, Proceedings of the IEEE 109 (5) (2021) 612–634.</ref>。 |
| | | |
第221行: |
第220行: |
| 但是两者也存在一些差异,主要包括两点:1)因果表示学习假设其背后存在一个真实的因果机制,数据是由这个因果机制产生的,然而宏观层面涌现出的状态和动力学之间可能并不存在“真正的因果关系”;2)因果涌现中的粗粒化后的宏观状态是一种低维的描述,然而因果表示学习中没有这个要求。但是,从认识论的视角看,两者并不存在差异,因为两者所做的都是从观察数据中提取有效信息,从而获得具有因果效应更强的表征。 | | 但是两者也存在一些差异,主要包括两点:1)因果表示学习假设其背后存在一个真实的因果机制,数据是由这个因果机制产生的,然而宏观层面涌现出的状态和动力学之间可能并不存在“真正的因果关系”;2)因果涌现中的粗粒化后的宏观状态是一种低维的描述,然而因果表示学习中没有这个要求。但是,从认识论的视角看,两者并不存在差异,因为两者所做的都是从观察数据中提取有效信息,从而获得具有因果效应更强的表征。 |
| | | |
− | ====因果涌现与因果模型抽象====
| + | ===因果涌现与因果模型抽象=== |
| 在复杂系统中,由于微观状态往往存在噪音,需要将微观状态进行粗粒化得到噪音更小的宏观状态,使得宏观动力学的因果性更强。同样对于因果模型也一样,由于原始模型过于复杂,或者计算资源受限,所以往往需要得到更加抽象的因果模型,并且保证抽象的模型尽可能保持原始模型的因果机制,因果模型抽象讨论的也是因果关系与模型抽象(可以看成粗粒化过程)之间的相互作用<ref>S. Beckers, F. Eberhardt, J. Y. Halpern, Approximate causal abstractions, in: Uncertainty in artificial intelligence, PMLR, 2020, pp. 606–615.</ref>。因此,因果涌现识别与因果模型抽象有很多相似之处,可以把原始的因果机制理解为微观动力学,抽象出来的机制理解为宏观动力学。在神经信息压缩框架中(NIS),对粗粒化策略和宏观动力学进行了限制,要求宏观动力学的微观预测误差要足够小以排除平凡解。这个要求也类似于因果模型抽象中希望抽象后的因果模型与原始模型的距离要尽可能相近。但是两者也存在一些不同:1)因果涌现中是对状态或数据进行粗粒化,而因果模型抽象是对模型进行操作;2)因果模型抽象中考虑混肴因子,然而却被因果涌现的讨论忽略。 | | 在复杂系统中,由于微观状态往往存在噪音,需要将微观状态进行粗粒化得到噪音更小的宏观状态,使得宏观动力学的因果性更强。同样对于因果模型也一样,由于原始模型过于复杂,或者计算资源受限,所以往往需要得到更加抽象的因果模型,并且保证抽象的模型尽可能保持原始模型的因果机制,因果模型抽象讨论的也是因果关系与模型抽象(可以看成粗粒化过程)之间的相互作用<ref>S. Beckers, F. Eberhardt, J. Y. Halpern, Approximate causal abstractions, in: Uncertainty in artificial intelligence, PMLR, 2020, pp. 606–615.</ref>。因此,因果涌现识别与因果模型抽象有很多相似之处,可以把原始的因果机制理解为微观动力学,抽象出来的机制理解为宏观动力学。在神经信息压缩框架中(NIS),对粗粒化策略和宏观动力学进行了限制,要求宏观动力学的微观预测误差要足够小以排除平凡解。这个要求也类似于因果模型抽象中希望抽象后的因果模型与原始模型的距离要尽可能相近。但是两者也存在一些不同:1)因果涌现中是对状态或数据进行粗粒化,而因果模型抽象是对模型进行操作;2)因果模型抽象中考虑混肴因子,然而却被因果涌现的讨论忽略。 |
| | | |
− | ====因果涌现与基于世界模型的强化学习====
| + | ===因果涌现与基于世界模型的强化学习=== |
| 基于世界模型的强化学习假设其内部存在一个世界模型可以模拟智能体所面对的环境的动力学<ref>D. Ha, J. Schmidhuber, World models, arXiv preprint arXiv:1803.10122 (2018).</ref>。世界模型的动力学可以通过智能体与环境的相互作用来学习,该动力学也可以帮助智能体对不确定的环境做出计划和决策。同时为了表示复杂的环境,世界模型一定是对环境的粗粒度描述,一个典型的世界模型架构总是包含一个编码器和一个解码器。因此,基于世界模型的强化学习与因果涌现也存在很多相似之处。世界模型也可以被视为一种宏观动力学,环境中的所有状态可以看作是宏观状态,这些可以看成是压缩后的忽略无关信息的状态,能捕捉环境中最重要的因果特征,以便智能体做出更好的决策。在计划过程中,智能体也可以使用世界模型来模拟真实世界的动力学。 | | 基于世界模型的强化学习假设其内部存在一个世界模型可以模拟智能体所面对的环境的动力学<ref>D. Ha, J. Schmidhuber, World models, arXiv preprint arXiv:1803.10122 (2018).</ref>。世界模型的动力学可以通过智能体与环境的相互作用来学习,该动力学也可以帮助智能体对不确定的环境做出计划和决策。同时为了表示复杂的环境,世界模型一定是对环境的粗粒度描述,一个典型的世界模型架构总是包含一个编码器和一个解码器。因此,基于世界模型的强化学习与因果涌现也存在很多相似之处。世界模型也可以被视为一种宏观动力学,环境中的所有状态可以看作是宏观状态,这些可以看成是压缩后的忽略无关信息的状态,能捕捉环境中最重要的因果特征,以便智能体做出更好的决策。在计划过程中,智能体也可以使用世界模型来模拟真实世界的动力学。 |
| | | |
| 因此,两个领域之间的相似性和共同特征可以帮助我们将一个领域的思想和技术借鉴到另一个领域。例如,具有世界模型的智能体可以将复杂系统作为一个整体来进行相互作用,并从相互作用中获得涌现的因果规律,从而更好的帮助我们做因果涌现识别任务。反过来,最大化有效信息技术也可以用于强化学习,使世界模型具有更强的因果特性。 | | 因此,两个领域之间的相似性和共同特征可以帮助我们将一个领域的思想和技术借鉴到另一个领域。例如,具有世界模型的智能体可以将复杂系统作为一个整体来进行相互作用,并从相互作用中获得涌现的因果规律,从而更好的帮助我们做因果涌现识别任务。反过来,最大化有效信息技术也可以用于强化学习,使世界模型具有更强的因果特性。 |
− | ----
| + | |
− | === 参考文献 ===
| + | ==参考文献== |
| <references /> | | <references /> |
− | ----
| + | |
− | ===编者推荐===
| + | ==编者推荐== |
| 下为一些链接能够更好的了解因果涌现的相关信息: | | 下为一些链接能够更好的了解因果涌现的相关信息: |
| | | |
− | ==== 因果涌现读书会 ====
| + | ===因果涌现读书会=== |
| *[https://campus.swarma.org/course/3110 因果涌现读书会简介] | | *[https://campus.swarma.org/course/3110 因果涌现读书会简介] |
| [[文件:读书会通过阅读前沿文献,加深我们对因果、涌现等概念的理解;聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向;并探索复杂系统多尺度自动建模的研究方向。.jpg|缩略图|346x346px|读书会通过阅读前沿文献,加深我们对因果、涌现等概念的理解;聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向;并探索复杂系统多尺度自动建模的研究方向。]]分享近期发展起来的一些理论与工具,包括因果涌现理论、机器学习驱动的重整化技术,以及自指动力学正在发展一套跨尺度的分析框架等。 | | [[文件:读书会通过阅读前沿文献,加深我们对因果、涌现等概念的理解;聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向;并探索复杂系统多尺度自动建模的研究方向。.jpg|缩略图|346x346px|读书会通过阅读前沿文献,加深我们对因果、涌现等概念的理解;聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向;并探索复杂系统多尺度自动建模的研究方向。]]分享近期发展起来的一些理论与工具,包括因果涌现理论、机器学习驱动的重整化技术,以及自指动力学正在发展一套跨尺度的分析框架等。 |
第247行: |
第246行: |
| 读书会通过阅读前沿文献,加深我们对因果、涌现等概念的理解;聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向;并探索复杂系统多尺度自动建模的研究方向。 | | 读书会通过阅读前沿文献,加深我们对因果、涌现等概念的理解;聚焦于寻找因果与涌现、多尺度等概念相结合的研究方向;并探索复杂系统多尺度自动建模的研究方向。 |
| | | |
− | ==== 文章推荐 ====
| + | ===文章推荐 === |
| *Zhang, J.; Liu, K. [https://www.mdpi.com/1099-4300/25/1/26 Neural Information Squeezer for Causal Emergence]. ''Entropy'' 2023, ''25'', 26. | | *Zhang, J.; Liu, K. [https://www.mdpi.com/1099-4300/25/1/26 Neural Information Squeezer for Causal Emergence]. ''Entropy'' 2023, ''25'', 26. |
| | | |