更改

添加341字节 、 2024年7月10日 (星期三)
添加专有名词内链
第5行: 第5行:     
===涌现===
 
===涌现===
涌现一直是复杂系统中的一个重要特性和研究对象,是许多关于复杂性本质以及宏微观组织之间关系讨论的中心概念<ref>Meehl P E, Sellars W. The concept of emergence[J]. Minnesota studies in the philosophy of science, 1956, 1239-252.</ref><ref>Holland J H. Emergence: From chaos to order[M]. OUP Oxford, 2000.</ref>。涌现可以简单理解为整体大于部分之和,即整体上展现出构成它的个体所不具备的新特性<ref>Anderson P W. More is different: broken symmetry and the nature of the hierarchical structure of science[J]. Science, 1972, 177(4047): 393-396.</ref>。尽管在各个领域都被指出存在涌现的现象[4,59],如鸟类的群体行为[60],大脑中的意识形成,以及大语言模型的涌现能力[7],但目前还没有对这一现象的统一理解。以往对涌现有很多定性的研究,如 Bedau et al[10,65]对涌现进行了分类,可以将涌现分为名义涌现[69,70]、弱涌现[10,71]与强涌现[17,72]。名义涌现可以理解为能被宏观层级的模式或过程所拥有,但不能被其微观层级的组件所拥有的属性[69,70]。弱涌现是指宏观层面的属性或过程是通过单个组件之间以复杂的方式相互作用产生的,由于计算不可约性的原理,它们不能轻易地简化为微观层面的属性。对于弱涌现来说,其模式产生的原因可能来自微观和宏观两个层面[17,72]。因此,涌现的因果关系可能与微观因果关系并存。而对于强涌现来说存在很多的争论,它指的是宏观层面的属性,原则上不能简化为微观层面的属性,包括个体之间的相互作用。此外,Jochen Fromm进一步将强涌现解释为向下因果的因果效应[18]。考虑一个包含三个不同尺度的系统:微观、介观和宏观。向下因果关系是指从宏观层面向介观层面或从介观层面向微观层面的因果力。然而,关于向下因果关系本身的概念存在许多争议[64,68]。
+
涌现一直是复杂系统中的一个重要特性和研究对象,是许多关于复杂性本质以及宏微观组织之间关系讨论的中心概念<ref>Meehl P E, Sellars W. The concept of emergence[J]. Minnesota studies in the philosophy of science, 1956, 1239-252.</ref><ref>Holland J H. Emergence: From chaos to order[M]. OUP Oxford, 2000.</ref>。涌现可以简单理解为整体大于部分之和,即整体上展现出构成它的个体所不具备的新特性<ref>Anderson P W. More is different: broken symmetry and the nature of the hierarchical structure of science[J]. Science, 1972, 177(4047): 393-396.</ref>。尽管在各个领域都被指出存在涌现的现象[4,59],如鸟类的群体行为[60],大脑中的意识形成,以及大语言模型的涌现能力[7],但目前还没有对这一现象的统一理解。以往对涌现有很多定性的研究,如 Bedau et al[10,65]对涌现进行了分类,可以将涌现分为名义涌现[69,70]、弱涌现[10,71]与强涌现[17,72]。名义涌现可以理解为能被宏观层级的模式或过程所拥有,但不能被其微观层级的组件所拥有的属性[69,70]。弱涌现是指宏观层面的属性或过程是通过单个组件之间以复杂的方式相互作用产生的,由于计算不可约性的原理,它们不能轻易地简化为微观层面的属性。对于弱涌现来说,其模式产生的原因可能来自微观和宏观两个层面[17,72]。因此,涌现的因果关系可能与微观因果关系并存。而对于强涌现来说存在很多的争论,它指的是宏观层面的属性,原则上不能简化为微观层面的属性,包括个体之间的相互作用。此外,Jochen Fromm进一步将强涌现解释为[[向下因果]]的因果效应[18]。考虑一个包含三个不同尺度的系统:微观、介观和宏观。向下因果关系是指从宏观层面向介观层面或从介观层面向微观层面的因果力。然而,关于向下因果关系本身的概念存在许多争议[64,68]。
    
===早期相工作===
 
===早期相工作===
虽然有了涌现的定性分类,然而却无法定量的刻画涌现的发生。早期已经有一些相关的工作尝试对涌现进行定量的分析。Crutchfield等<ref name=":3">J. P. Crutchfield, K. Young, Inferring statistical complexity, Physical review letters 63 (2) (1989) 105.</ref>提出的计算力学理论考虑了因果状态,该方法是对状态空间的划分。而Seth等人则提出了G-emergence理论<ref name=":4">A. K. Seth, Measuring emergence via nonlinear granger causality., in: alife, Vol. 2008, 2008, pp. 545–552.</ref>利用格兰杰因果关系来量化涌现。
+
虽然有了[[涌现]]的定性分类,然而却无法定量的刻画涌现的发生。早期已经有一些相关的工作尝试对涌现进行定量的分析。Crutchfield等<ref name=":3">J. P. Crutchfield, K. Young, Inferring statistical complexity, Physical review letters 63 (2) (1989) 105.</ref>提出的计算力学理论考虑了因果状态,该方法是对状态空间的划分。而Seth等人则提出了G-emergence理论<ref name=":4">A. K. Seth, Measuring emergence via nonlinear granger causality., in: alife, Vol. 2008, 2008, pp. 545–552.</ref>利用格兰杰因果关系来量化涌现。
    
====计算力学====
 
====计算力学====
计算力学理论试图用定量的框架来表述涌现的因果关系,希望从一个随机过程的观测中构造一个最小的因果模型,从而来产生观测的时间序列<ref name=":3" />。其中随机过程可以用<math>\overleftrightarrow{s}</math>表示,基于时间<math>t</math>可以将随机过程分为两个部分,时间前和时间后的过程,<math>\overleftarrow{s_t}</math>和<math>\overrightarrow{s_t}</math>,当这个过程是平稳过程时,可以去掉时间。因此,可以将所有可能的历史过程<math>\overleftarrow{s_t}</math>形成的集合记作<math> \overleftarrow{S}</math>,所有未来的过程形成的集合记作<math> \overrightarrow{S}</math>。可以将<math>\overleftarrow{S}</math>分解为相互排斥又联合全面的子集,形成的集合记为<math>\mathcal{R}</math>,<math>R \in \mathcal{R}</math>中的任意子集可以看作是一个状态,定义一个分解函数<math>\eta:S→\mathcal{R}</math>。此外,定义了因果等价的概念,如果<math>P\left ( \overrightarrow{s}|\overleftarrow{s}\right )=P\left ( \overrightarrow{s}|{\overleftarrow{s}}'\right )</math>,则<math>\overleftarrow{s}</math>和<math>{\overleftarrow{s}}'</math>(表示<math>\overleftarrow{s}</math>的子集)是因果等价的。将历史<math>\overleftarrow{s_t}</math>的所有因果状态定义为<math>\epsilon \left ( \overleftarrow{s} \right )</math>,将两个因果状态<math>S_i</math>和<math>S_j</math>之间的因果转移概率记为<math>T_{ij}^{\left ( s \right )}</math>,一个随机过程的<math>\epsilon-machine</math>被定义为有序对<math>\left \{ \epsilon,T \right \}</math>,是一种模式发现机器,其中<math>\epsilon</math>是因果状态函数, <math>T</math>是通过<math>\epsilon</math>定义的状态转移矩阵的集合。通过证明<math>\epsilon-machine</math>具有最大程度的预测性和最小程度的随机性这两个重要特性验证了它在某种意义上是最优的。但是方法没有给出涌现的明确定义和定量理论,随后一些研究人员进一步推进了计算力学的发展,Shalizi等<ref>C. R. Shalizi, C. Moore, What is a macrostate? subjective observations and objective dynamics, arXiv preprint cond-mat/0303625 (2003).</ref>在自己的工作中讨论计算力学与涌现的关系,同时在另一个工作中,Shalizi等<ref>C. R. Shalizi, Causal architecture, complexity and self-organization in time series and cellular automata, The University of Wisconsin-Madison, 2001.</ref>还将计算力学应用于元胞自动机,并且在更高的描述水平上发现涌现的“粒子”。
+
计算力学理论试图用定量的框架来表述涌现的因果关系,希望从一个随机过程的观测中构造一个最小的因果模型,从而来产生观测的时间序列<ref name=":3" />。其中随机过程可以用<math>\overleftrightarrow{s}</math>表示,基于时间<math>t</math>可以将随机过程分为两个部分,时间前和时间后的过程,<math>\overleftarrow{s_t}</math>和<math>\overrightarrow{s_t}</math>,当这个过程是平稳过程时,可以去掉时间。因此,可以将所有可能的历史过程<math>\overleftarrow{s_t}</math>形成的集合记作<math> \overleftarrow{S}</math>,所有未来的过程形成的集合记作<math> \overrightarrow{S}</math>。可以将<math>\overleftarrow{S}</math>分解为相互排斥又联合全面的子集,形成的集合记为<math>\mathcal{R}</math>,<math>R \in \mathcal{R}</math>中的任意子集可以看作是一个状态,定义一个分解函数<math>\eta:S→\mathcal{R}</math>。此外,定义了因果等价的概念,如果<math>P\left ( \overrightarrow{s}|\overleftarrow{s}\right )=P\left ( \overrightarrow{s}|{\overleftarrow{s}}'\right )</math>,则<math>\overleftarrow{s}</math>和<math>{\overleftarrow{s}}'</math>(表示<math>\overleftarrow{s}</math>的子集)是因果等价的。将历史<math>\overleftarrow{s_t}</math>的所有因果状态定义为<math>\epsilon \left ( \overleftarrow{s} \right )</math>,将两个因果状态<math>S_i</math>和<math>S_j</math>之间的因果转移概率记为<math>T_{ij}^{\left ( s \right )}</math>,一个随机过程的<math>\epsilon-machine</math>被定义为有序对<math>\left \{ \epsilon,T \right \}</math>,是一种模式发现机器,其中<math>\epsilon</math>是因果状态函数, <math>T</math>是通过<math>\epsilon</math>定义的状态转移矩阵的集合。通过证明<math>\epsilon-machine</math>具有最大程度的预测性和最小程度的随机性这两个重要特性验证了它在某种意义上是最优的。但是方法没有给出涌现的明确定义和定量理论,随后一些研究人员进一步推进了计算力学的发展,Shalizi等<ref>C. R. Shalizi, C. Moore, What is a macrostate? subjective observations and objective dynamics, arXiv preprint cond-mat/0303625 (2003).</ref>在自己的工作中讨论计算力学与涌现的关系,同时在另一个工作中,Shalizi等<ref>C. R. Shalizi, Causal architecture, complexity and self-organization in time series and cellular automata, The University of Wisconsin-Madison, 2001.</ref>还将计算力学应用于[[元胞自动机]],并且在更高的描述水平上发现涌现的“粒子”。
    
====G-emergence====
 
====G-emergence====
 
而G-emergence理论是Seth于2008年提出的最早对涌现进行定量量化的研究之一<ref name=":4" />,基本思想是用非线性格兰杰因果来量化复杂系统中的弱涌现。具体来说,使用二元自回归模型进行预测,当只存在两个变量A和B时,自回归模型存在两个等式,每个等式对应其中一个变量每个时刻值的构成,每个变量的当前时刻值都是由自身变量和另外一个变量在滞后时间范围内的变量以及残差项构成,残差可以理解为预测误差,残差可以用来衡量格兰杰因果(G-causality)的因果效应程度。B作为A的格兰杰因(G-cause)的程度通过两个残差方差之比的对数来计算,其中一个是在省略B的所有项时A的自回归模型的残差,另一个是全预测模型的残差。此外,作者还定义了G-autonomous,表示一个时间序列的过去值可以帮助预测自身的未来值。G-autonomous的程度可以用类似量化格兰杰因果的方法来测量。
 
而G-emergence理论是Seth于2008年提出的最早对涌现进行定量量化的研究之一<ref name=":4" />,基本思想是用非线性格兰杰因果来量化复杂系统中的弱涌现。具体来说,使用二元自回归模型进行预测,当只存在两个变量A和B时,自回归模型存在两个等式,每个等式对应其中一个变量每个时刻值的构成,每个变量的当前时刻值都是由自身变量和另外一个变量在滞后时间范围内的变量以及残差项构成,残差可以理解为预测误差,残差可以用来衡量格兰杰因果(G-causality)的因果效应程度。B作为A的格兰杰因(G-cause)的程度通过两个残差方差之比的对数来计算,其中一个是在省略B的所有项时A的自回归模型的残差,另一个是全预测模型的残差。此外,作者还定义了G-autonomous,表示一个时间序列的过去值可以帮助预测自身的未来值。G-autonomous的程度可以用类似量化格兰杰因果的方法来测量。
 
[[文件:G-emergence.png|G-emergence理论图|alt=G-emergence理论图|居中|546x546像素|缩略图]]
 
[[文件:G-emergence.png|G-emergence理论图|alt=G-emergence理论图|居中|546x546像素|缩略图]]
基于上述G-causality中的两个基本概念,可以来判断涌现的发生(这里是基于格兰杰因果的涌现的衡量,记作G-emergence)。如果把A理解为宏观变量,B理解为微观变量。发生涌现的条件包含两个:1)A是关于B的G-autonomous;2)B是A的G-cause。其中G-emergence的程度是通过A的G-autonomous的程度与B的平均G-cause的程度的乘积来计算。Seth提出的G-emergence理论首次尝试使用因果关系来量化涌现现象,然而,作者使用的因果关系是格兰杰因果,这不是一个严格的因果关系,同时结果也取决于所使用的回归方法。此外,方法的度量指标是根据变量而不是动力学定义的,这意味着结果会依赖于变量的选择。
+
基于上述G-causality中的两个基本概念,可以来判断涌现的发生(这里是基于格兰杰因果的涌现的衡量,记作G-emergence)。如果把A理解为宏观变量,B理解为微观变量。发生涌现的条件包含两个:1)A是关于B的G-autonomous;2)B是A的G-cause。其中G-emergence的程度是通过A的G-autonomous的程度与B的平均G-cause的程度的乘积来计算。Seth提出的G-emergence理论首次尝试使用因果关系来量化涌现现象,然而,作者使用的因果关系是[[格兰杰因果关系|格兰杰因果]],这不是一个严格的因果关系,同时结果也取决于所使用的回归方法。此外,方法的度量指标是根据变量而不是动力学定义的,这意味着结果会依赖于变量的选择。
    
====其他定量刻画涌现的理论====
 
====其他定量刻画涌现的理论====
此外,也存在一些其他的涌现定量理论,主要有两种方法被广泛讨论。一种是从无序到有序的过程来理解涌现,Moez Mnif和Christian meller-schloer[81]使用香农熵来度量有序和无序。在自组织过程中,当秩序增加时就会出现涌现,通过测量初始状态和最终状态之间的香农熵的差异来计算秩序的增加,然而该方法存在一些缺陷:依赖于抽象的观察水平以及系统初始条件的选择,为了克服这两种困难,作者提出了一种与最大熵分布相比的度量香农熵的相对水平的方法。受Moez mif和Christian meller-schloer工作的启发,参考文献[83]建议使用两个概率分布之间的散度能更好地量化涌现。他们将涌现理解为在所观察到的样本基础上的一种意想不到的或不可预测的分布变化。但该方法存在计算量大、估计精度低等缺点。为了解决这些问题,文献[84]进一步提出了一种使用高斯混合模型估计密度的近似方法,并引入马氏距离来表征数据与高斯分量之间的差异,从而得到了更好的结果。此外,Holzer和de Meer[86,87]<ref>Holzer, R.; De Meer, H.; Bettstetter, C. On autonomy and emergence in self-organizing systems. In International Workshop on Self-Organizing Systems, Proceedings of the Third International Workshop, IWSOS 2008, Vienna, Austria, 10–12 December 2008; Springer: Berlin/Heidelberg, Germany, 2008; pp. 157–169.</ref>等人提出了另一种基于Shannon熵的涌现测量方法。他们认为一个复杂的系统是一个自组织的过程,在这个过程中,不同的个体通过通信相互作用。然后,可以根据代理之间所有通信的香农熵度量与作为单独源的每次通信的香农熵总和之间的比率来测量涌现。另一种是从“整体大于部分之和”的角度来理解涌现[88,89],该方法定义来自交互规则和代理状态的涌现,而不是整个系统的总体统计度量。具体地说,这个度量由两个相互相减的项组成。第一项描述了整个系统的集体状态,而第二项代表了所有组成部分的单个状态的总和,该度量强调涌现产生于系统的相互作用和集体行为。
+
此外,也存在一些其他的涌现定量理论,主要有两种方法被广泛讨论。一种是从无序到有序的过程来理解[[涌现]],Moez Mnif和Christian meller-schloer[81]使用香农熵来度量有序和无序。在[[自组织]]过程中,当秩序增加时就会出现涌现,通过测量初始状态和最终状态之间的香农熵的差异来计算秩序的增加,然而该方法存在一些缺陷:依赖于抽象的观察水平以及系统初始条件的选择,为了克服这两种困难,作者提出了一种与最大熵分布相比的度量香农熵的相对水平的方法。受Moez mif和Christian meller-schloer工作的启发,参考文献[83]建议使用两个概率分布之间的散度能更好地量化涌现。他们将涌现理解为在所观察到的样本基础上的一种意想不到的或不可预测的分布变化。但该方法存在计算量大、估计精度低等缺点。为了解决这些问题,文献[84]进一步提出了一种使用高斯混合模型估计密度的近似方法,并引入马氏距离来表征数据与高斯分量之间的差异,从而得到了更好的结果。此外,Holzer和de Meer[86,87]<ref>Holzer, R.; De Meer, H.; Bettstetter, C. On autonomy and emergence in self-organizing systems. In International Workshop on Self-Organizing Systems, Proceedings of the Third International Workshop, IWSOS 2008, Vienna, Austria, 10–12 December 2008; Springer: Berlin/Heidelberg, Germany, 2008; pp. 157–169.</ref>等人提出了另一种基于Shannon熵的涌现测量方法。他们认为一个复杂的系统是一个自组织的过程,在这个过程中,不同的个体通过通信相互作用。然后,可以根据代理之间所有通信的香农熵度量与作为单独源的每次通信的香农熵总和之间的比率来测量涌现。另一种是从“整体大于部分之和”的角度来理解涌现[88,89],该方法定义来自交互规则和代理状态的涌现,而不是整个系统的总体统计度量。具体地说,这个度量由两个相互相减的项组成。第一项描述了整个系统的集体状态,而第二项代表了所有组成部分的单个状态的总和,该度量强调涌现产生于系统的相互作用和集体行为。
    
===因果===
 
===因果===
 
上述的一些定量量化涌现的方法往往没有考虑因果关系,最接近的也只是使用格兰杰因果不是真正的因果。随着近年来因果科学理论得到了进一步的发展,使得可以用数学框架来量化因果,因果描述的是一个动力学过程的因果效应<ref>Pearl J. Causality[M]. Cambridge university press, 2009.</ref><ref>Granger C W. Investigating causal relations by econometric models and cross-spectral methods[J]. Econometrica: journal of the Econometric Society, 1969, 424-438.</ref><ref>Pearl J. Models, reasoning and inference[J]. Cambridge, UK: CambridgeUniversityPress, 2000, 19(2).</ref>。Judea Pearl<ref>Pearl, J. Models, Reasoning and Inference; Cambridge University Press: Cambridge, UK, 2000; Volume 19.</ref>利用概率图形模型来描述因果相互作用。Pearl用不同的模型来区分并量化了三个层次的因果关系,这里我们比较关注因果阶梯中的第二层:对输入分布做干预。此外,由于发现的因果关系背后的不确定性和模糊性,测量两个变量之间的因果效应程度是另一个重要问题。许多独立的历史研究已经解决了因果关系测量的问题。这些测量方法包括休谟的恒定连接概念[38]和基于值函数的方法[39],Eells和Suppes将概率的提高作为因果关系的度量[41,42],以及Judea Pearl的因果度量[16]。
 
上述的一些定量量化涌现的方法往往没有考虑因果关系,最接近的也只是使用格兰杰因果不是真正的因果。随着近年来因果科学理论得到了进一步的发展,使得可以用数学框架来量化因果,因果描述的是一个动力学过程的因果效应<ref>Pearl J. Causality[M]. Cambridge university press, 2009.</ref><ref>Granger C W. Investigating causal relations by econometric models and cross-spectral methods[J]. Econometrica: journal of the Econometric Society, 1969, 424-438.</ref><ref>Pearl J. Models, reasoning and inference[J]. Cambridge, UK: CambridgeUniversityPress, 2000, 19(2).</ref>。Judea Pearl<ref>Pearl, J. Models, Reasoning and Inference; Cambridge University Press: Cambridge, UK, 2000; Volume 19.</ref>利用概率图形模型来描述因果相互作用。Pearl用不同的模型来区分并量化了三个层次的因果关系,这里我们比较关注因果阶梯中的第二层:对输入分布做干预。此外,由于发现的因果关系背后的不确定性和模糊性,测量两个变量之间的因果效应程度是另一个重要问题。许多独立的历史研究已经解决了因果关系测量的问题。这些测量方法包括休谟的恒定连接概念[38]和基于值函数的方法[39],Eells和Suppes将概率的提高作为因果关系的度量[41,42],以及Judea Pearl的因果度量[16]。
   −
同时涌现和因果也是相互联系的:一方面,涌现是复杂系统中各组成部分之间复杂的非线性相互作用的因果效应;另一方面,涌现特性也会对复杂系统中的个体产生因果关系。因此,可以借助因果来定量刻画涌现的发生。2013美国理论神经生物学家[[Erik hoel|Erik Hoel]]尝试将因果引入涌现的衡量,提出了因果涌现这一概念,并且使用[[有效信息]](Effective Information,简称EI)来量化系统动力学的因果性强弱<ref name=":0" /><ref name=":1" />。因果涌现很好的刻画了系统宏观和微观状态之间的区别与联系,同时把人工智能中的因果和复杂系统中的涌现这两个核心概念结合起来,因果涌现也为学者回答一系列的哲学问题提供一个定量化的视角。比如,可以借助因果涌现框架讨论生命系统或者社会系统中的自上而下的因果等特性。这里的自上而下因果指的是向下因果<ref name=":2" />,表示存在宏观到微观的因果效应。例如,壁虎断尾现象,当遇到危险时壁虎不征求尾巴的建议直接将自己的尾巴断掉,这里整体是因,尾巴是果,那么就存在一个整体指向个体的因果力。
+
同时涌现和因果也是相互联系的:一方面,涌现是[[复杂系统 Complex Systems|复杂系统]]中各组成部分之间复杂的非线性相互作用的因果效应;另一方面,涌现特性也会对复杂系统中的个体产生因果关系。因此,可以借助因果来定量刻画涌现的发生。2013美国理论神经生物学家[[Erik hoel|Erik Hoel]]尝试将因果引入涌现的衡量,提出了因果涌现这一概念,并且使用[[有效信息]](Effective Information,简称EI)来量化系统动力学的因果性强弱<ref name=":0" /><ref name=":1" />。因果涌现很好的刻画了系统宏观和微观状态之间的区别与联系,同时把人工智能中的因果和复杂系统中的涌现这两个核心概念结合起来,因果涌现也为学者回答一系列的哲学问题提供一个定量化的视角。比如,可以借助因果涌现框架讨论生命系统或者社会系统中的自上而下的因果等特性。这里的自上而下因果指的是向下因果<ref name=":2" />,表示存在宏观到微观的因果效应。例如,壁虎断尾现象,当遇到危险时壁虎不征求尾巴的建议直接将自己的尾巴断掉,这里整体是因,尾巴是果,那么就存在一个整体指向个体的因果力。
    
==因果涌现的量化==
 
==因果涌现的量化==
第32行: 第32行:  
近年来一些研究人员也提出一些定量刻画因果涌现的方法。对于如何定义因果涌现是一个关键问题,有三个代表性工作,分别是Hoel等<ref name=":0" /><ref name=":1" />提出的基于粗粒化的方法、Rosas等<ref name=":5">Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.</ref>提出的基于信息分解的方法以及张江等人[Dynamical Reversibility and A New Theory of Causal Emergence]基于奇异值分解提出了一套新的因果涌现理论。
 
近年来一些研究人员也提出一些定量刻画因果涌现的方法。对于如何定义因果涌现是一个关键问题,有三个代表性工作,分别是Hoel等<ref name=":0" /><ref name=":1" />提出的基于粗粒化的方法、Rosas等<ref name=":5">Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.</ref>提出的基于信息分解的方法以及张江等人[Dynamical Reversibility and A New Theory of Causal Emergence]基于奇异值分解提出了一套新的因果涌现理论。
 
====Erik Hoel的因果涌现理论====
 
====Erik Hoel的因果涌现理论====
Hoel等<ref name=":0" /><ref name=":1" />最早提出因果涌现理论,右图是对该理论框架的一个抽象,其中,横坐标表示时间尺度,纵坐标表示空间尺度。该框架可以看成是一个多层级的系统,存在微观和宏观两种状态。由于微观态往往具有很大的噪音,导致微观动力学的因果性比较弱,所以如果能对微观态进行合适的粗粒化得到噪音更小的宏观态,从而能使得宏观动力学的因果性更强。此外,因果涌现现象的发生意味着,当粗粒化微观状态时,从当前状态传递到下一状态的有效信息量会增加。[[文件:因果涌现理论抽象框架.png|因果涌现理论框架|alt=因果涌现理论抽象框架|居中|368x368像素|缩略图]]作者借鉴了整合信息的量化方法<ref>Tononi G, Sporns O. Measuring information integration[J]. BMC neuroscience, 2003, 41-20.</ref>,提出一种因果效应度量指标有效信息(<math> EI </math>)来量化一个马尔可夫动力学的因果性强弱,该指标反应一个特定的状态如何有效地影响系统的未来状态,是系统动力学的内禀属性。具体来说,使用干预操作对上一时刻的状态做干预,然后计算干预分布与在干预的情况下经过动力学的下一时刻分布两者之间的互信息作为因果效应的度量指标, <math> EI </math>的计算公式如下所示:
+
Hoel等<ref name=":0" /><ref name=":1" />最早提出因果涌现理论,右图是对该理论框架的一个抽象,其中,横坐标表示时间尺度,纵坐标表示空间尺度。该框架可以看成是一个多层级的系统,存在微观和宏观两种状态。由于微观态往往具有很大的噪音,导致微观动力学的因果性比较弱,所以如果能对微观态进行合适的粗粒化得到噪音更小的宏观态,从而能使得宏观动力学的因果性更强。此外,因果涌现现象的发生意味着,当粗粒化微观状态时,从当前状态传递到下一状态的[[有效信息]]量会增加。[[文件:因果涌现理论抽象框架.png|因果涌现理论框架|alt=因果涌现理论抽象框架|居中|368x368像素|缩略图]]作者借鉴了整合信息的量化方法<ref>Tononi G, Sporns O. Measuring information integration[J]. BMC neuroscience, 2003, 41-20.</ref>,提出一种因果效应度量指标有效信息(<math> EI </math>)来量化一个马尔可夫动力学的因果性强弱,该指标反应一个特定的状态如何有效地影响系统的未来状态,是系统动力学的内禀属性。具体来说,使用干预操作对上一时刻的状态做干预,然后计算干预分布与在干预的情况下经过动力学的下一时刻分布两者之间的互信息作为因果效应的度量指标, <math> EI </math>的计算公式如下所示:
    
<math>EI\left(S\right)=MI\left(I_D;E_D\right)=\sum_{i\in I_D}\ p\left(do\left(s_{t-1}=i\right)\right)\sum_{s_t\in E_D}{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}\log_2{\frac{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}{p\left(s_t\right)}}\ </math>
 
<math>EI\left(S\right)=MI\left(I_D;E_D\right)=\sum_{i\in I_D}\ p\left(do\left(s_{t-1}=i\right)\right)\sum_{s_t\in E_D}{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}\log_2{\frac{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}{p\left(s_t\right)}}\ </math>
第49行: 第49行:     
====Rosas的因果涌现理论====
 
====Rosas的因果涌现理论====
Hoel提出的基于粗粒化的方法来量化系统中的因果涌现需要预先提供系统的状态转移矩阵以及粗粒化策略,然而现实情况是,往往只能获得系统的观测数据。为了克服这两个困难,Rosas等<ref name=":5" />从信息理论视角出发,提出一种基于信息分解方法来定义系统中的因果涌现,这里发生因果涌现有两种可能性:因果解耦(Causal Decoupling)和向下因果(Downward Causation),其中因果解耦表示宏观态对其他宏观态的因果效应,向下因果表示宏观态对于微观元素的因果效应。具体地,定义微观状态输入为<math>X_t\ (X_t^1,X_t^2,…,X_t^n ) </math>,<math>V_t </math>表示宏观状态是<math>X_t </math>的随附特征,<math>X_{t+1} </math>和<math>V_{t+1} </math>分别表示下一时刻的微观和宏观状态。该方法建立在Willian和Beer等<ref>Williams P L, Beer R D. Nonnegative decomposition of multivariate information[J]. arXiv preprint arXiv:10042515, 2010.</ref>提出的多元信息非负分解的基础上,Beer使用偏信息分解(PID)将微观态<math>X(X^1,X^2 ) </math>与宏观态<math>V </math>之间的互信息分解为四个部分,计算公式如下所示:
+
Hoel提出的基于粗粒化的方法来量化系统中的因果涌现需要预先提供系统的状态转移矩阵以及粗粒化策略,然而现实情况是,往往只能获得系统的观测数据。为了克服这两个困难,Rosas等<ref name=":5" />从信息理论视角出发,提出一种基于信息分解方法来定义系统中的因果涌现,这里发生因果涌现有两种可能性:[[因果解耦]](Causal Decoupling)和[[向下因果]](Downward Causation),其中因果解耦表示宏观态对其他宏观态的因果效应,向下因果表示宏观态对于微观元素的因果效应。具体地,定义微观状态输入为<math>X_t\ (X_t^1,X_t^2,…,X_t^n ) </math>,<math>V_t </math>表示宏观状态是<math>X_t </math>的随附特征,<math>X_{t+1} </math>和<math>V_{t+1} </math>分别表示下一时刻的微观和宏观状态。该方法建立在Willian和Beer等<ref>Williams P L, Beer R D. Nonnegative decomposition of multivariate information[J]. arXiv preprint arXiv:10042515, 2010.</ref>提出的多元信息非负分解的基础上,Beer使用偏信息分解(PID)将微观态<math>X(X^1,X^2 ) </math>与宏观态<math>V </math>之间的互信息分解为四个部分,计算公式如下所示:
    
<math>I(X^1,X^2;V)=Red(X^1,X^2;V)+Un(X^1;V│X^2 )+Un(X^2;V│X^1 )+Syn(X^1,X^2;V) </math>
 
<math>I(X^1,X^2;V)=Red(X^1,X^2;V)+Un(X^1;V│X^2 )+Un(X^2;V│X^1 )+Syn(X^1,X^2;V) </math>
第65行: 第65行:  
====基于可逆性的因果涌现理论====
 
====基于可逆性的因果涌现理论====
   −
张江等人[论文题目:Dynamical Reversibility and A New Theory of Causal Emergence]基于奇异值分解,提出了一套新的因果涌现理论。给定一个系统的马尔科夫转移矩阵<math>P</math>,通过对它进行奇异值分解,得到两个正交且的归一化矩阵<math>U</math>和<math>V</math>,和一个对角阵<math>\Sigma</math>:<math>P= U\Sigma V^T</math>
+
[[张江]]等人[论文题目:Dynamical Reversibility and A New Theory of Causal Emergence]基于奇异值分解,提出了一套新的因果涌现理论。给定一个系统的马尔科夫转移矩阵<math>P</math>,通过对它进行奇异值分解,得到两个正交且的归一化矩阵<math>U</math>和<math>V</math>,和一个对角阵<math>\Sigma</math>:<math>P= U\Sigma V^T</math>
    
我们可以将奇异值的<math>\alpha</math>次方的和定义为马尔科夫动力学的可逆性度量,即:
 
我们可以将奇异值的<math>\alpha</math>次方的和定义为马尔科夫动力学的可逆性度量,即:
第148行: 第148行:  
由于基于互信息的近似方法需要依赖宏观态<math>V</math>的选择,因此,作者给出了两种方法,一种是给定一个宏观态<math>V</math>计算,另一种是基于机器学习的方法学习观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>。下面我们分别介绍这两种方法:
 
由于基于互信息的近似方法需要依赖宏观态<math>V</math>的选择,因此,作者给出了两种方法,一种是给定一个宏观态<math>V</math>计算,另一种是基于机器学习的方法学习观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>。下面我们分别介绍这两种方法:
   −
Rosas虽然给出因果涌现的严格定义,但在<math>\varphi ID </math>中使用的数学公式很复杂,同时计算要求很高,难以将该方法应用于实际系统。因此,Rosas等绕开特有信息和协同信息的计算<ref name=":5" />,提出一个判定因果涌现发生的充分条件,基于互信息提出三个新指标,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>用于识别系统中的因果涌现,三种指标的具体计算公式如下所示:
+
Rosas虽然给出因果涌现的严格定义,但在<math>\varphi ID </math>中使用的数学公式很复杂,同时计算要求很高,难以将该方法应用于实际系统。因此,Rosas等绕开特有信息和协同信息的计算<ref name=":5" />,提出一个判定因果涌现发生的充分条件,基于[[互信息]]提出三个新指标,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>用于识别系统中的因果涌现,三种指标的具体计算公式如下所示:
    
<math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math>
 
<math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math>
第168行: 第168行:  
[[文件:LCCR.png|居中|500x500像素|替代=NIS模型框架图|学习因果涌现表征的架构|缩略图]]
 
[[文件:LCCR.png|居中|500x500像素|替代=NIS模型框架图|学习因果涌现表征的架构|缩略图]]
   −
====神经信息压缩方法====
+
====[[神经信息压缩器|神经信息压缩]]方法====
   −
近年来,新兴的人工智能技术已经攻克一系列重大难题,同时机器学习方法配备了各种精心设计的神经网络结构和自动微分技术,可以在巨大的函数空间中逼近任何函数。因此,[[张江]]等<ref>Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref>尝试基于神经网络提出了一种基于数据驱动的能够从时间序列数据中识别系统中的因果涌现方法,该方法能自动提取有效的粗粒度策略和宏观动力学,克服了信息分解方法中的种种不足。
+
近年来,新兴的[[人工智能]]技术已经攻克一系列重大难题,同时机器学习方法配备了各种精心设计的神经网络结构和自动微分技术,可以在巨大的函数空间中逼近任何函数。因此,[[张江]]等<ref>Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref>尝试基于神经网络提出了一种基于数据驱动的能够从时间序列数据中识别系统中的因果涌现方法,该方法能自动提取有效的粗粒度策略和宏观动力学,克服了信息分解方法中的种种不足。
    
在该工作中,输入的是时间序列数据<math>(X_1,X_2,...,X_T ) </math>,可以使用如下的微方方程表示:
 
在该工作中,输入的是时间序列数据<math>(X_1,X_2,...,X_T ) </math>,可以使用如下的微方方程表示:
第197行: 第197行:  
<math>dEI_L(f)\approx-\frac{1+ln(2\pi)+\sum_{i=1}^n\frac{\sigma_i^2}n}2+ln(2L)+\frac1n\mathrm{E}_{X\sim U([-L,L]^n)}(ln|det(\partial_{X^{\prime}}f(X)))|) </math>
 
<math>dEI_L(f)\approx-\frac{1+ln(2\pi)+\sum_{i=1}^n\frac{\sigma_i^2}n}2+ln(2L)+\frac1n\mathrm{E}_{X\sim U([-L,L]^n)}(ln|det(\partial_{X^{\prime}}f(X)))|) </math>
   −
NIS框架与前面章节中提到的计算力学存在很多相似之处,NIS可以被视为一种<math>\epsilon - machine </math>,所有历史过程构成的集合<math>\overleftarrow{S}</math>可以看作是微观状态,所有<math>R \in \mathcal{R} </math>表示宏观状态,函数<math>\eta </math>可以理解为一种粗粒化函数,<math>\epsilon </math>可以理解为一种有效的粗粒化策略,<math>T </math> 对应于有效的宏观动力学。最小随机性特征表征了宏观动力学的确定性,在因果涌现中可以用有效信息衡量。当整个框架训练足够充分的时候,可以精确地预测未来的微观状态时,编码的宏观状态收敛到有效状态,而有效状态可以被视为计算力学中的因果状态。
+
[[NIS]]框架与前面章节中提到的计算力学存在很多相似之处,NIS可以被视为一种<math>\epsilon - machine </math>,所有历史过程构成的集合<math>\overleftarrow{S}</math>可以看作是微观状态,所有<math>R \in \mathcal{R} </math>表示宏观状态,函数<math>\eta </math>可以理解为一种粗粒化函数,<math>\epsilon </math>可以理解为一种有效的粗粒化策略,<math>T </math> 对应于有效的宏观动力学。最小随机性特征表征了宏观动力学的确定性,在因果涌现中可以用有效信息衡量。当整个框架训练足够充分的时候,可以精确地预测未来的微观状态时,编码的宏观状态收敛到有效状态,而有效状态可以被视为计算力学中的因果状态。
   −
同时NIS方法与前面提到的G-emergence也有相似之处,例如,NIS同样采用了格兰杰因果的思想:通过预测下一个时间步的微观状态来优化有效的宏观状态。然而,这两个框架之间有几个明显的区别:a)在G-emergence理论中,宏观状态需要人工选择,然后NIS中是通过自动优化粗粒化策略来得到宏观状态;b)NIS使用神经网络来预测未来状态,而G-emergence使用自回归技术来拟合数据。
+
同时NIS方法与前面提到的G-emergence也有相似之处,例如,NIS同样采用了[[格兰杰因果关系|格兰杰因果]]的思想:通过预测下一个时间步的微观状态来优化有效的宏观状态。然而,这两个框架之间有几个明显的区别:a)在G-emergence理论中,宏观状态需要人工选择,然后NIS中是通过自动优化粗粒化策略来得到宏观状态;b)NIS使用神经网络来预测未来状态,而G-emergence使用自回归技术来拟合数据。
    
但是该方法存在一些不足,作者将优化过程分为两个阶段,但是没有真正的最大化有效信息。因此,杨等人[论文题目:Finding emergence in data by maximizing effective information]进一步改进该方法,通过引入反向动力学以及重加权技术借助变分不等式将原始的最大化有效信息转换成最大化其变分下界来直接优化目标函数。目标函数可以被定义为在给定微观预测足够小的情况下最大化宏观动力学的有效信息:
 
但是该方法存在一些不足,作者将优化过程分为两个阶段,但是没有真正的最大化有效信息。因此,杨等人[论文题目:Finding emergence in data by maximizing effective information]进一步改进该方法,通过引入反向动力学以及重加权技术借助变分不等式将原始的最大化有效信息转换成最大化其变分下界来直接优化目标函数。目标函数可以被定义为在给定微观预测足够小的情况下最大化宏观动力学的有效信息:
第225行: 第225行:  
主要讲解因果涌现的潜在应用, 包括: 生物系统、神经网络、脑神经系统、人工智能(因果表示学习、基于世界模型的强化学习)、中医等。
 
主要讲解因果涌现的潜在应用, 包括: 生物系统、神经网络、脑神经系统、人工智能(因果表示学习、基于世界模型的强化学习)、中医等。
   −
这些定量的量化因果涌现的方法已经广泛应用到很多复杂系统中,包括具有成百上千节点的复杂网络以及神经网络,到具有明显涌现现象的生命游戏、鸟群模型、蛋白质交互、生物以及真实的大脑网络等。
+
这些定量的量化因果涌现的方法已经广泛应用到很多[[复杂系统 Complex Systems|复杂系统]]中,包括具有成百上千节点的复杂网络以及神经网络,到具有明显涌现现象的[[康威的生命游戏 Conway's Game of Life|生命游戏]]、鸟群模型、蛋白质交互、生物以及真实的大脑网络等。
    
在复杂网络上的应用
 
在复杂网络上的应用
2020年,Klein和Hoel改进此前提出的基于粗粒化的方法并将其应用到复杂网络中<ref>Klein B, Hoel E. The emergence of informative higher scales in complex networks[J]. Complexity, 2020, 20201-12.</ref>,作者借助随机游走子来定义网络中的马尔可夫链,将随机游走子放在节点上等价于对节点做干预,然后基于随机游走概率定义节点的转移概率矩阵。同时作者将有效信息与网络的连通性建立联系,网络中的连通性可以通过节点的出边和入边的权重的不确定性来表征,基于此定义复杂网络中的有效信息。
+
2020年,Klein和Hoel改进此前提出的基于粗粒化的方法并将其应用到[[复杂网络]]中<ref>Klein B, Hoel E. The emergence of informative higher scales in complex networks[J]. Complexity, 2020, 20201-12.</ref>,作者借助随机游走子来定义网络中的马尔可夫链,将随机游走子放在节点上等价于对节点做干预,然后基于随机游走概率定义节点的转移概率矩阵。同时作者将[[有效信息]]与网络的连通性建立联系,网络中的连通性可以通过节点的出边和入边的权重的不确定性来表征,基于此定义复杂网络中的有效信息。
   −
在随机网络(ER)、偏好依赖网络(PA)等人工网络以及四类真实网络中进行实验比较。对于ER网络来说,有效信息的大小只依赖于连接概率<math>p </math>,并且随着网络规模的增大会收敛到<math>-log_2p </math>。同时一个关键发现表明,存在一个相变点,该相变点近似在网络的平均度(<math><k> </math>)等于<math>log_2N </math>的位置,同样对应于ER网络随着连接概率增加而出现巨连通集团的相变点位置,超过该相变点随机网络结构不会随着其规模的增加而包含更多的信息。对于PA网络来说,<math>\alpha<1.0 </math>时,有效信息的大小会随着网络规模的增加而增大;<math>\alpha>1.0 </math>时,结论相反;<math>\alpha=1.0 </math>对应的无标度网络则是增长的临界边界。对于真实网络,作者发现,生物网络因为具有很大的噪音,所以有效信息最低,通过有效的粗粒化能去除这些噪音,相比于其他类型网络因果涌现最显著,而技术类型网络是更稀疏、非退化的,因此,平均效率更高,节点关系也更加具体,所有有效信息也最高。  
+
在[[随机网络模型|随机网络]](ER)、偏好依赖网络(PA)等人工网络以及四类真实网络中进行实验比较。对于ER网络来说,有效信息的大小只依赖于连接概率<math>p </math>,并且随着网络规模的增大会收敛到<math>-log_2p </math>。同时一个关键发现表明,存在一个相变点,该相变点近似在网络的平均度(<math><k> </math>)等于<math>log_2N </math>的位置,同样对应于ER网络随着连接概率增加而出现巨连通集团的相变点位置,超过该相变点随机网络结构不会随着其规模的增加而包含更多的信息。对于PA网络来说,<math>\alpha<1.0 </math>时,有效信息的大小会随着网络规模的增加而增大;<math>\alpha>1.0 </math>时,结论相反;<math>\alpha=1.0 </math>对应的无标度网络则是增长的临界边界。对于真实网络,作者发现,生物网络因为具有很大的噪音,所以有效信息最低,通过有效的粗粒化能去除这些噪音,相比于其他类型网络因果涌现最显著,而技术类型网络是更稀疏、非退化的,因此,平均效率更高,节点关系也更加具体,所有有效信息也最高。  
    
在该文章中作者使用贪婪算法来构建宏观尺度的网络,然而对于大规模网络来说,效率仍然很低。随后,Griebenow等<ref>Griebenow R, Klein B, Hoel E. Finding the right scale of a network: efficient identification of causal emergence through spectral clustering[J]. arXiv preprint arXiv:190807565, 2019.</ref>提出了一种基于谱聚类的方法来识别偏好依附网络中的因果涌现。相比贪婪算法以及梯度下降算法,谱聚类算法的计算时间最少,同时找到的宏观网络的因果涌现也更加显著。
 
在该文章中作者使用贪婪算法来构建宏观尺度的网络,然而对于大规模网络来说,效率仍然很低。随后,Griebenow等<ref>Griebenow R, Klein B, Hoel E. Finding the right scale of a network: efficient identification of causal emergence through spectral clustering[J]. arXiv preprint arXiv:190807565, 2019.</ref>提出了一种基于谱聚类的方法来识别偏好依附网络中的因果涌现。相比贪婪算法以及梯度下降算法,谱聚类算法的计算时间最少,同时找到的宏观网络的因果涌现也更加显著。
第237行: 第237行:  
生物网络中充满噪音使得很难理解其内部的运作原理,这种噪音一方面来自系统的固有噪音,另一方面是由于测量或观察引入的, Klein等<ref>Klein B, Swain A, Byrum T, et al. Exploring noise, degeneracy and determinism in biological networks with the einet package[J]. Methods in Ecology and Evolution, 2022, 13(4): 799-804.</ref>进一步探索了生物网络中的噪声、简并性和确定性三者之间的关系以及具体含义。例如,基因表达网络中的高度确定性关系可以理解为一个基因几乎肯定会导致另一个基因的表达。同时生物系统在进化过程中也普遍存在简并现象,这两个原因导致目前尚不清楚在何种尺度上分析生物系统才能最好地理解它们的功能。Klein等<ref>Klein B, Hoel E, Swain A, et al. Evolution and emergence: higher order information structure in protein interactomes across the tree of life[J]. Integrative Biology, 2021, 13(12): 283-294.</ref>分析了超过1800个物种的蛋白质相互作用网络,发现宏观尺度的网络具有更小的噪音和简并性,同时与不参与宏观尺度的节点相比,组成宏观尺度交互群中的节点更具有弹性。因此,生物网络为了适应进化的要求,需要演化成宏观尺度以提高确定性来增强网络的弹性以及提高信息传输的有效性。
 
生物网络中充满噪音使得很难理解其内部的运作原理,这种噪音一方面来自系统的固有噪音,另一方面是由于测量或观察引入的, Klein等<ref>Klein B, Swain A, Byrum T, et al. Exploring noise, degeneracy and determinism in biological networks with the einet package[J]. Methods in Ecology and Evolution, 2022, 13(4): 799-804.</ref>进一步探索了生物网络中的噪声、简并性和确定性三者之间的关系以及具体含义。例如,基因表达网络中的高度确定性关系可以理解为一个基因几乎肯定会导致另一个基因的表达。同时生物系统在进化过程中也普遍存在简并现象,这两个原因导致目前尚不清楚在何种尺度上分析生物系统才能最好地理解它们的功能。Klein等<ref>Klein B, Hoel E, Swain A, et al. Evolution and emergence: higher order information structure in protein interactomes across the tree of life[J]. Integrative Biology, 2021, 13(12): 283-294.</ref>分析了超过1800个物种的蛋白质相互作用网络,发现宏观尺度的网络具有更小的噪音和简并性,同时与不参与宏观尺度的节点相比,组成宏观尺度交互群中的节点更具有弹性。因此,生物网络为了适应进化的要求,需要演化成宏观尺度以提高确定性来增强网络的弹性以及提高信息传输的有效性。
   −
Hoel等<ref>Hoel E, Levin M. Emergence of informative higher scales in biological systems: a computational toolkit for optimal prediction and control[J]. Communicative & Integrative Biology, 2020, 13(1): 108-118.</ref>借助有效信息理论进一步研究生物系统中的因果涌现,作者将有效信息应用到基因调控网络中,识别最能提供信息的心脏发育模型从而控制哺乳动物的心脏发育。通过量化酿酒酵母基因网络的最大联通集团的因果涌现,揭示富有信息的宏观尺度在生物学中是普遍存在的以及生命机制本身也经常运行在宏观尺度上。该方法也为生物学家提供一个可计算的工具来识别最具有信息的宏观尺度,并且可以在此基础上建模、预测、控制和理解复杂的生物系统。
+
Hoel等<ref>Hoel E, Levin M. Emergence of informative higher scales in biological systems: a computational toolkit for optimal prediction and control[J]. Communicative & Integrative Biology, 2020, 13(1): 108-118.</ref>借助[[有效信息]]理论进一步研究生物系统中的因果涌现,作者将有效信息应用到基因调控网络中,识别最能提供信息的心脏发育模型从而控制哺乳动物的心脏发育。通过量化酿酒酵母基因网络的最大联通集团的因果涌现,揭示富有信息的宏观尺度在生物学中是普遍存在的以及生命机制本身也经常运行在宏观尺度上。该方法也为生物学家提供一个可计算的工具来识别最具有信息的宏观尺度,并且可以在此基础上建模、预测、控制和理解复杂的生物系统。
    
为验证猕猴运动有关的信息是其皮层活动的一个涌现特征,Rosas等尝试基于猕猴的皮质脑电图(ECoG)和动作捕捉(MoCap)数据进行实验,其中ECoG和MoCap分别由64个通道和3个通道的数据构成微观和宏观数据,由于最原始的MoCap数据不满足随附特征的条件独立假设,因此,作者使用偏最小二乘和支持向量机算法推断出与预测猕猴行为有关的编码在ECoG信号中的那部分神经活动,并推测该信息就是潜在神经活动的涌现特征,然后基于计算出来的宏观特征与微观状态验证因果涌现的存在。  
 
为验证猕猴运动有关的信息是其皮层活动的一个涌现特征,Rosas等尝试基于猕猴的皮质脑电图(ECoG)和动作捕捉(MoCap)数据进行实验,其中ECoG和MoCap分别由64个通道和3个通道的数据构成微观和宏观数据,由于最原始的MoCap数据不满足随附特征的条件独立假设,因此,作者使用偏最小二乘和支持向量机算法推断出与预测猕猴行为有关的编码在ECoG信号中的那部分神经活动,并推测该信息就是潜在神经活动的涌现特征,然后基于计算出来的宏观特征与微观状态验证因果涌现的存在。  
第243行: 第243行:  
Swain等<ref>Swain A, Williams S D, Di Felice L J, et al. Interactions and information: exploring task allocation in ant colonies using network analysis[J]. Animal Behaviour, 2022, 18969-81.</ref>探索蚁群的交互历史对任务分配和任务切换的影响,使用有效信息研究噪声信息如何在蚂蚁之间进行传播。结果发现,蚁群之间历史交互程度影响任务的分配,并且具体交互中蚂蚁群体的类型决定交互中的噪音。此外,即使当蚂蚁切换功能群时,蚁群涌现出来的凝聚力也能保证群体的稳定,同时不同功能蚁群在维持蚁群凝聚力方面也发挥着不同的作用。
 
Swain等<ref>Swain A, Williams S D, Di Felice L J, et al. Interactions and information: exploring task allocation in ant colonies using network analysis[J]. Animal Behaviour, 2022, 18969-81.</ref>探索蚁群的交互历史对任务分配和任务切换的影响,使用有效信息研究噪声信息如何在蚂蚁之间进行传播。结果发现,蚁群之间历史交互程度影响任务的分配,并且具体交互中蚂蚁群体的类型决定交互中的噪音。此外,即使当蚂蚁切换功能群时,蚁群涌现出来的凝聚力也能保证群体的稳定,同时不同功能蚁群在维持蚁群凝聚力方面也发挥着不同的作用。
   −
在人工神经网络上的应用,Marrow等<ref>Marrow S, Michaud E J, Hoel E. Examining the Causal Structures of Deep Neural Networks Using Information Theory[J]. Entropy, 2020, 22(12): 1429.</ref>尝试引入一个基于信息论的指标即有效信息来量化和跟踪训练过程中DNN因果结构的变化,其中有效信息用于评估节点和边对每层下游目标的因果的影响程度。有效信息可以分解为灵敏性和简并性,通过观察模型训练过程中有效信息,包括灵敏性和简并性的变化就可以确定模型的泛化能力,从而帮助学者更好的理解和解释DNN的工作原理。
+
在人工神经网络上的应用,Marrow等<ref>Marrow S, Michaud E J, Hoel E. Examining the Causal Structures of Deep Neural Networks Using Information Theory[J]. Entropy, 2020, 22(12): 1429.</ref>尝试引入一个基于[[信息论]]的指标即有效信息来量化和跟踪训练过程中DNN因果结构的变化,其中有效信息用于评估节点和边对每层下游目标的因果的影响程度。有效信息可以分解为灵敏性和简并性,通过观察模型训练过程中有效信息,包括灵敏性和简并性的变化就可以确定模型的泛化能力,从而帮助学者更好的理解和解释DNN的工作原理。
   −
脑神经系统是一个涌现的多尺度复杂系统,在张等提出的NIS+方法中[Finding emergence in data by maximizing effective information],在FMRI数据上进行实验,选择人的静息态和看电影视觉任务,通过使用Schaefer atlas方法对原始的14000维数据降维到100个脑区,构建了6个不同尺度动力学,在视觉任务数据中发现scale=1时因果涌现最显著,通过归因分析发现视觉区发挥的作用最大,与真实的场景保持一致。此外,Luppi等人[A Synergistic Workspace for Human Consciousness Revealed by Integrated Information Decomposition],基于整合信息分解揭示人类意识的协同工作空间,作者构建了脑认知的三层架构,包括:外部环境、具体的模块以及协同全局空间。大脑的工作原理主要包括三个阶段,第一个阶段负责将来自多个不同模块的信息收集到工作空间中,第二个阶段负责在工作空间中整合收集到的信息,第三个阶段负责将全局信息广播到大脑的其他部分。作者在三类不同静息态的FMRI数据上进行实验,包括100个正常人、15个被试者(包括麻醉前、麻醉以及恢复三种不同状态)以及22个慢性意识障碍 (DOC)的被试者,论文方法使用整合信息分解得到协同信息和冗余信息,以及使用修正后的整合信息值<math>\Phi_R</math>,通过计算每两个脑区之间的协同和冗余值可以得到每个脑区发挥更大作用的信息,同时对比有意识人的数据,发现无意识人的整合信息发生显著降低的区域都属于协同信息发挥更大作用的脑区,同时发现整合信息显著降低的区域都属于DMN这样的功能区,从而定位到对于发生意识具有显著作用的脑区。
+
脑神经系统是一个涌现的多尺度[[复杂系统 Complex Systems|复杂系统]],在张等提出的NIS+方法中[Finding emergence in data by maximizing effective information],在FMRI数据上进行实验,选择人的静息态和看电影视觉任务,通过使用Schaefer atlas方法对原始的14000维数据降维到100个脑区,构建了6个不同尺度动力学,在视觉任务数据中发现scale=1时因果涌现最显著,通过归因分析发现视觉区发挥的作用最大,与真实的场景保持一致。此外,Luppi等人[A Synergistic Workspace for Human Consciousness Revealed by Integrated Information Decomposition],基于整合信息分解揭示人类意识的协同工作空间,作者构建了脑认知的三层架构,包括:外部环境、具体的模块以及协同全局空间。大脑的工作原理主要包括三个阶段,第一个阶段负责将来自多个不同模块的信息收集到工作空间中,第二个阶段负责在工作空间中整合收集到的信息,第三个阶段负责将全局信息广播到大脑的其他部分。作者在三类不同静息态的FMRI数据上进行实验,包括100个正常人、15个被试者(包括麻醉前、麻醉以及恢复三种不同状态)以及22个慢性意识障碍 (DOC)的被试者,论文方法使用整合信息分解得到协同信息和冗余信息,以及使用修正后的整合信息值<math>\Phi_R</math>,通过计算每两个脑区之间的协同和冗余值可以得到每个脑区发挥更大作用的信息,同时对比有意识人的数据,发现无意识人的整合信息发生显著降低的区域都属于协同信息发挥更大作用的脑区,同时发现整合信息显著降低的区域都属于DMN这样的功能区,从而定位到对于发生意识具有显著作用的脑区。
    
因果表示学习是人工智能中的一个新兴领域,它试图将机器学习中的两个重要领域:表示学习和因果推断结合起来。尝试结合两个子领域的优势,自动提取数据背后的重要特征和因果关系<ref>B. Sch ̈olkopf, F. Locatello, S. Bauer, N. R. Ke, N. Kalchbrenner, A. Goyal, Y. Bengio, Toward causal representation learning, Proceedings of the IEEE 109 (5) (2021) 612–634.</ref>。基于粗粒化的因果涌现识别可以等价于一种因果表示学习任务。从数据中识别因果关系的涌现,等价于学习数据背后的潜在因果关系。具体来说,宏观状态可以看成因果变量,动力学学习器类比因果机制,粗粒化策略可以看作是一个从原始数据到因果表示的编码过程,有效信息可以理解为对机制的因果效应强度的衡量。由于这两者存在很多相似之处,使得两个领域的技术和概念可以相互学习。例如,因果表征学习技术可以应用于识别因果涌现,反过来,学习到的抽象因果表征可以被解释为一种宏观状态,从而增加因果表征学习的可解释性。但是两者也存在一些差异,主要包括两点:1)因果表示学习假设其背后存在一个真实的因果机制,数据是由这个因果机制产生的,然而宏观层面涌现出的状态和动力学之间可能并不存在“真正的因果关系”;2)因果涌现中的粗粒化后的宏观状态是一种低维的描述,然而因果表示学习中没有这个要求。但是,从认识论的视角看,两者并不存在差异,因为两者所做的都是从观察数据中提取有效信息,从而获得具有因果效应更强的表征。
 
因果表示学习是人工智能中的一个新兴领域,它试图将机器学习中的两个重要领域:表示学习和因果推断结合起来。尝试结合两个子领域的优势,自动提取数据背后的重要特征和因果关系<ref>B. Sch ̈olkopf, F. Locatello, S. Bauer, N. R. Ke, N. Kalchbrenner, A. Goyal, Y. Bengio, Toward causal representation learning, Proceedings of the IEEE 109 (5) (2021) 612–634.</ref>。基于粗粒化的因果涌现识别可以等价于一种因果表示学习任务。从数据中识别因果关系的涌现,等价于学习数据背后的潜在因果关系。具体来说,宏观状态可以看成因果变量,动力学学习器类比因果机制,粗粒化策略可以看作是一个从原始数据到因果表示的编码过程,有效信息可以理解为对机制的因果效应强度的衡量。由于这两者存在很多相似之处,使得两个领域的技术和概念可以相互学习。例如,因果表征学习技术可以应用于识别因果涌现,反过来,学习到的抽象因果表征可以被解释为一种宏观状态,从而增加因果表征学习的可解释性。但是两者也存在一些差异,主要包括两点:1)因果表示学习假设其背后存在一个真实的因果机制,数据是由这个因果机制产生的,然而宏观层面涌现出的状态和动力学之间可能并不存在“真正的因果关系”;2)因果涌现中的粗粒化后的宏观状态是一种低维的描述,然而因果表示学习中没有这个要求。但是,从认识论的视角看,两者并不存在差异,因为两者所做的都是从观察数据中提取有效信息,从而获得具有因果效应更强的表征。
第255行: 第255行:  
===因果科学===
 
===因果科学===
   −
因果涌现能够在分布外场景中增强机器学习的性能,EI中引入的do干预捕获了数据生成过程中的因果依赖性,抑制了虚假相关,从而补充了基于关联的机器学习算法,建立了EI与分布外泛化(OOD)的联系。由于EI的通用性,因果涌现可以应用于监督机器学习来评估特征空间X与目标空间Y之间的因果关系强度,从而提高了从原因(特征)到结果(目标)的预测。值得注意的是,对观测值从X到Y的直接拟合足以满足具有i.i.d.假设的常见预测任务,这意味着训练数据和测试数据是独立且同分布的。然而,如果样本是从训练分布之外抽取的,就必须学习一个从训练到测试环境的泛化表示空间。由于人们普遍认为因果关系的泛化性优于统计相关性[126],因此因果涌现理论可以作为表征空间中嵌入因果关系的标准。因果涌现的发生揭示了目标的潜在因果因素,从而产生了一个关于分布外泛化的鲁棒表示空间。因果涌现可能为基于因果理论的OOD泛化提供一个统一的表征度量。EI也可以看作是分布外泛化的基于重加权的去偏技术的一种信息论抽象。此外,我们猜想,分布外泛化可以在最大化EI的同时实现,EI可能会在原始特征抽象的中期阶段达到顶峰,这与OOD泛化的思想一致,即少即是多。理想情况下,当因果涌现发生在EI的峰值处,所有非因果特征被排除,因果特征被揭示,从而产生最具信息量的表示,同时保持分布变化不变。
+
因果涌现能够在分布外场景中增强机器学习的性能,EI中引入的do干预捕获了数据生成过程中的因果依赖性,抑制了虚假相关,从而补充了基于关联的机器学习算法,建立了EI与分布外泛化(OOD)的联系。由于[[有效信息|EI]]的通用性,因果涌现可以应用于监督机器学习来评估特征空间X与目标空间Y之间的因果关系强度,从而提高了从原因(特征)到结果(目标)的预测。值得注意的是,对观测值从X到Y的直接拟合足以满足具有i.i.d.假设的常见预测任务,这意味着训练数据和测试数据是独立且同分布的。然而,如果样本是从训练分布之外抽取的,就必须学习一个从训练到测试环境的泛化表示空间。由于人们普遍认为因果关系的泛化性优于统计相关性[126],因此因果涌现理论可以作为表征空间中嵌入因果关系的标准。因果涌现的发生揭示了目标的潜在因果因素,从而产生了一个关于分布外泛化的鲁棒表示空间。因果涌现可能为基于因果理论的OOD泛化提供一个统一的表征度量。EI也可以看作是分布外泛化的基于重加权的去偏技术的一种信息论抽象。此外,我们猜想,分布外泛化可以在最大化EI的同时实现,EI可能会在原始特征抽象的中期阶段达到顶峰,这与OOD泛化的思想一致,即少即是多。理想情况下,当因果涌现发生在EI的峰值处,所有非因果特征被排除,因果特征被揭示,从而产生最具信息量的表示,同时保持分布变化不变。
    
===因果模型抽象===
 
===因果模型抽象===
在复杂系统中,由于微观状态往往存在噪音,需要将微观状态进行粗粒化得到噪音更小的宏观状态,使得宏观动力学的因果性更强。同样对于因果模型也一样,由于原始模型过于复杂,或者计算资源受限,所以往往需要得到更加抽象的因果模型,并且保证抽象的模型尽可能保持原始模型的因果机制,因果模型抽象讨论的也是因果关系与模型抽象(可以看成粗粒化过程)之间的相互作用<ref>S. Beckers, F. Eberhardt, J. Y. Halpern, Approximate causal abstractions, in: Uncertainty in artificial intelligence, PMLR, 2020, pp. 606–615.</ref>。因此,因果涌现识别与因果模型抽象有很多相似之处,可以把原始的因果机制理解为微观动力学,抽象出来的机制理解为宏观动力学。在神经信息压缩框架中(NIS),对粗粒化策略和宏观动力学进行了限制,要求宏观动力学的微观预测误差要足够小以排除平凡解。这个要求也类似于因果模型抽象中希望抽象后的因果模型与原始模型的距离要尽可能相近。但是两者也存在一些不同:1)因果涌现中是对状态或数据进行粗粒化,而因果模型抽象是对模型进行操作;2)因果模型抽象中考虑混肴因子,然而却被因果涌现的讨论忽略。
+
在复杂系统中,由于微观状态往往存在噪音,需要将微观状态进行粗粒化得到噪音更小的宏观状态,使得宏观动力学的因果性更强。同样对于因果模型也一样,由于原始模型过于复杂,或者计算资源受限,所以往往需要得到更加抽象的因果模型,并且保证抽象的模型尽可能保持原始模型的因果机制,因果模型抽象讨论的也是因果关系与模型抽象(可以看成粗粒化过程)之间的相互作用<ref>S. Beckers, F. Eberhardt, J. Y. Halpern, Approximate causal abstractions, in: Uncertainty in artificial intelligence, PMLR, 2020, pp. 606–615.</ref>。因此,因果涌现识别与因果模型抽象有很多相似之处,可以把原始的因果机制理解为微观动力学,抽象出来的机制理解为宏观动力学。在[[NIS|神经信息压缩框架]]中(NIS),对粗粒化策略和宏观动力学进行了限制,要求宏观动力学的微观预测误差要足够小以排除平凡解。这个要求也类似于因果模型抽象中希望抽象后的因果模型与原始模型的距离要尽可能相近。但是两者也存在一些不同:1)因果涌现中是对状态或数据进行粗粒化,而因果模型抽象是对模型进行操作;2)因果模型抽象中考虑混肴因子,然而却被因果涌现的讨论忽略。
    
===模型约简===
 
===模型约简===
第281行: 第281行:  
<math>y_{t+1}=Wf(Vy_t,u_t), \hat{z}_t=g(Vx_t,u_t) </math>
 
<math>y_{t+1}=Wf(Vy_t,u_t), \hat{z}_t=g(Vx_t,u_t) </math>
   −
其中<math>V\in\mathcal{R}^{n\times k}, WV=I_n </math>,寻找合适的<math>W </math>也是以往研究的关键。基于粗粒化前后输出函数的误差损失函数<math>||\hat{z}-z|| </math>判断粗粒化参数默认了系统约简的过程会损失信息量,因此误差最小化是判断约简方法有效性的唯一方法。但是如果从因果涌现角度考虑,有效信息会因为降维而增大,这也是因果涌现研究中的粗粒化策略和控制论中的模型约简最大的不同。
+
其中<math>V\in\mathcal{R}^{n\times k}, WV=I_n </math>,寻找合适的<math>W </math>也是以往研究的关键。基于粗粒化前后输出函数的误差损失函数<math>||\hat{z}-z|| </math>判断粗粒化参数默认了系统约简的过程会损失信息量,因此误差最小化是判断约简方法有效性的唯一方法。但是如果从因果涌现角度考虑,[[有效信息]]会因为降维而增大,这也是因果涌现研究中的粗粒化策略和控制论中的模型约简最大的不同。
    
===动力学模式分解===
 
===动力学模式分解===
68

个编辑