第42行: |
第42行: |
| |} | | |} |
| | | |
− | 这是一个离散状态离散(<math>S=\{a,b,c\}</math>)时间的马尔可夫动力学中的状态概率转移表,其中每一行、列都对应一个状态,第i行第j列表示状态从第i个状态转移到第j个状态的概率。我们也可以等价地用状态转移图来表示。 | + | 这是一个离散状态离散(<math>S=\{a,b,c\}</math>)时间的马尔可夫动力学中的状态概率转移表,其中每一行、列都对应一个状态,第i行第j列表示状 |
| | | |
− | [[文件:Markovian.png|替代=状态转移图|边框|无框|324x324像素]] | + | 态从第i个状态转移到第j个状态的概率。我们也可以等价地用状态转移图来表示。 |
| + | [[文件:Markovian.png|替代=状态转移图|边框|右|无框|301x301像素]] |
| | | |
| 目前对因果涌现的讨论大多集中于这种离散状态、离散时间的马尔可夫动力学。 | | 目前对因果涌现的讨论大多集中于这种离散状态、离散时间的马尔可夫动力学。 |
第72行: |
第73行: |
| 该方法没有给出涌现的明确定义和定量理论,随后一些研究人员进一步推进了计算力学的发展,Shalizi等<ref>C. R. Shalizi, C. Moore, What is a macrostate? subjective observations and objective dynamics, arXiv preprint cond-mat/0303625 (2003).</ref>在自己的工作中讨论计算力学与涌现的关系,同时在另一个工作中,Shalizi等<ref>C. R. Shalizi, Causal architecture, complexity and self-organization in time series and cellular automata, The University of Wisconsin-Madison, 2001.</ref>还将计算力学应用于元胞自动机,并且在更高的描述水平上发现涌现的“粒子”。 | | 该方法没有给出涌现的明确定义和定量理论,随后一些研究人员进一步推进了计算力学的发展,Shalizi等<ref>C. R. Shalizi, C. Moore, What is a macrostate? subjective observations and objective dynamics, arXiv preprint cond-mat/0303625 (2003).</ref>在自己的工作中讨论计算力学与涌现的关系,同时在另一个工作中,Shalizi等<ref>C. R. Shalizi, Causal architecture, complexity and self-organization in time series and cellular automata, The University of Wisconsin-Madison, 2001.</ref>还将计算力学应用于元胞自动机,并且在更高的描述水平上发现涌现的“粒子”。 |
| | | |
− | ====='''G-emergence理论'''===== | + | =====G-emergence理论===== |
| G-emergence理论是Seth于2008年提出的最早对涌现进行定量量化的研究之一<ref name=":4" />,基本思想是用非线性格兰杰因果来量化复杂系统中的弱涌现。具体来说,使用二元自回归模型进行预测,当只存在两个变量A和B时,自回归模型存在两个等式,每个等式对应其中一个变量每个时刻值的构成,每个变量的当前时刻值都是由自身变量和另外一个变量在滞后时间范围内的变量以及残差项构成,残差可以理解为预测误差,残差可以用来衡量格兰杰因果(G-causality)的因果效应程度。B作为A的格兰杰因(G-cause)的程度通过两个残差方差之比的对数来计算,其中一个是在省略B的所有项时A的自回归模型的残差,另一个是全预测模型的残差。此外,作者还定义了G-autonomous,表示一个时间序列的过去值可以帮助预测自身的未来值。G-autonomous的程度可以用类似量化格兰因果的方法来测量。 | | G-emergence理论是Seth于2008年提出的最早对涌现进行定量量化的研究之一<ref name=":4" />,基本思想是用非线性格兰杰因果来量化复杂系统中的弱涌现。具体来说,使用二元自回归模型进行预测,当只存在两个变量A和B时,自回归模型存在两个等式,每个等式对应其中一个变量每个时刻值的构成,每个变量的当前时刻值都是由自身变量和另外一个变量在滞后时间范围内的变量以及残差项构成,残差可以理解为预测误差,残差可以用来衡量格兰杰因果(G-causality)的因果效应程度。B作为A的格兰杰因(G-cause)的程度通过两个残差方差之比的对数来计算,其中一个是在省略B的所有项时A的自回归模型的残差,另一个是全预测模型的残差。此外,作者还定义了G-autonomous,表示一个时间序列的过去值可以帮助预测自身的未来值。G-autonomous的程度可以用类似量化格兰因果的方法来测量。 |
− | [[文件:G-emergence.png|缩略图|G-emergence]] | + | [[文件:G-emergence.png|G-emergence|替代=|边框|居中|546x546像素]] |
| 基于上述G-causality中的两个基本概念,可以来判断涌现的发生(这里是基于格兰杰因果的涌现的衡量,记作G-emergence)。如果把A理解为宏观变量,B理解为微观变量。发生涌现的条件包含两个:1)A是关于B的G-autonomous;2)B是A的G-cause。其中G-emergence的程度是通过A的G-autonomous的程度与B的平均G-cause的程度的乘积来计算。 | | 基于上述G-causality中的两个基本概念,可以来判断涌现的发生(这里是基于格兰杰因果的涌现的衡量,记作G-emergence)。如果把A理解为宏观变量,B理解为微观变量。发生涌现的条件包含两个:1)A是关于B的G-autonomous;2)B是A的G-cause。其中G-emergence的程度是通过A的G-autonomous的程度与B的平均G-cause的程度的乘积来计算。 |
| | | |
第82行: |
第83行: |
| 近年来一些研究人员也提出一些定量刻画因果涌现的方法。对于如何定义因果涌现是一个关键问题,有两个代表性工作,分别是Hoel等<ref name=":0" /><ref name=":1" />提出的基于粗粒化的方法以及Rosas等<ref name=":5">Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.</ref>提出的基于信息分解的方法。 | | 近年来一些研究人员也提出一些定量刻画因果涌现的方法。对于如何定义因果涌现是一个关键问题,有两个代表性工作,分别是Hoel等<ref name=":0" /><ref name=":1" />提出的基于粗粒化的方法以及Rosas等<ref name=":5">Rosas F E, Mediano P A, Jensen H J, et al. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data[J]. PLoS computational biology, 2020, 16(12): e1008289.</ref>提出的基于信息分解的方法。 |
| | | |
− | ====='''Hoel的粗粒化方法'''===== | + | =====Hoel的粗粒化方法===== |
− | [[文件:因果涌现理论抽象框架.png|缩略图|因果涌现理论抽象框架]]
| + | Hoel等<ref name=":0" /><ref name=":1" />最早提出因果涌现理论,右图是对该理论框架的一个抽象,其中,横坐标表示时间尺度,纵坐标表示空间尺度。该框架可以看成是一个多层级的系统,存在微观和宏观两种状态。由于微观态往往具有很大的噪音,导致微观动力学的因果性比较弱,所以如果能对微观态进行合适的粗粒化得到噪音更小的宏观态,从而能使得宏观动力学的因果性更强。此外,因果涌现现象的发生意味着,当粗粒化微观状态时,从当前状态传递到下一状态的有效信息量会增加。[[文件:因果涌现理论抽象框架.png|因果涌现理论抽象框架|替代=|边框|居中|368x368像素]]作者借鉴了整合信息的量化方法<ref>Tononi G, Sporns O. Measuring information integration[J]. BMC neuroscience, 2003, 41-20.</ref>,提出一种因果效应度量指标有效信息(<math>\left ( EI \right )</math>)来量化一个马尔可夫动力学的因果性强弱,该指标反应一个特定的状态如何有效地影响系统的未来状态,是系统动力学的内禀属性。具体来说,使用干预操作对上一时刻的状态做干预,然后计算干预分布与在干预的情况下经过动力学的下一时刻分布两者之间的互信息作为因果效应的度量指标,<math>\left ( EI \right )</math>的计算公式如下所示: |
− | Hoel等<ref name=":0" /><ref name=":1" />最早提出因果涌现理论,右图是对该理论框架的一个抽象,其中,横坐标表示时间尺度,纵坐标表示空间尺度。该框架可以看成是一个多层级的系统,存在微观和宏观两种状态。由于微观态往往具有很大的噪音,导致微观动力学的因果性比较弱,所以如果能对微观态进行合适的粗粒化得到噪音更小的宏观态,从而能使得宏观动力学的因果性更强。此外,因果涌现现象的发生意味着,当粗粒化微观状态时,从当前状态传递到下一状态的有效信息量会增加。 | |
− | | |
− | 作者借鉴了整合信息的量化方法<ref>Tononi G, Sporns O. Measuring information integration[J]. BMC neuroscience, 2003, 41-20.</ref>,提出一种因果效应度量指标有效信息(<math>\left ( EI \right )</math>)来量化一个马尔可夫动力学的因果性强弱,该指标反应一个特定的状态如何有效地影响系统的未来状态,是系统动力学的内禀属性。具体来说,使用干预操作对上一时刻的状态做干预,然后计算干预分布与在干预的情况下经过动力学的下一时刻分布两者之间的互信息作为因果效应的度量指标,<math>\left ( EI \right )</math>的计算公式如下所示: | |
| | | |
| <math>EI\left(S\right)=MI\left(I_D;E_D\right)=\sum_{i\in I_D}\ p\left(do\left(s_{t-1}=i\right)\right)\sum_{s_t\in E_D}{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}\log_2{\frac{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}{p\left(s_t\right)}}\ </math> | | <math>EI\left(S\right)=MI\left(I_D;E_D\right)=\sum_{i\in I_D}\ p\left(do\left(s_{t-1}=i\right)\right)\sum_{s_t\in E_D}{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}\log_2{\frac{p\left(s_t\middle|\ d\ o\left(s_{t-1}=i\right)\right)}{p\left(s_t\right)}}\ </math> |
第103行: |
第101行: |
| | | |
| =====信息分解方法===== | | =====信息分解方法===== |
− | Hoel提出的基于粗粒化的方法来量化系统中的因果涌现需要预先提供系统的状态转移矩阵以及粗粒化策略,然而现实情况是,往往只能获得系统的观测数据。为了克服这两个困难,Rosas等<ref name=":5" />从信息理论视角出发,提出一种基于信息分解方法来定义系统中的因果涌现,这里发生因果涌现有两种可能性:因果解耦(Causal Decoupling)和向下因果(Downward Causation),其中因果解耦表示宏观态对其他宏观态的因果效应,向下因果表示宏观态对于微观元素的因果效应。具体地,定义微观状态输入为 | + | Hoel提出的基于粗粒化的方法来量化系统中的因果涌现需要预先提供系统的状态转移矩阵以及粗粒化策略,然而现实情况是,往往只能获得系统的观测数据。为了克服这两个困难,Rosas等<ref name=":5" />从信息理论视角出发,提出一种基于信息分解方法来定义系统中的因果涌现,这里发生因果涌现有两种可能性:因果解耦(Causal Decoupling)和向下因果(Downward Causation),其中因果解耦表示宏观态对其他宏观态的因果效应,向下因果表示宏观态对于微观元素的因果效应。具体地,定义微观状态输入为<math>X_t\ (X_t^1,X_t^2,…,X_t^n ) </math>,<math>V_t </math>表示宏观状态是<math>X_t </math>的随附特征,<math>X_t+1 </math>和<math>V_t+1 </math>分别表示下一时刻的微观和宏观状态。该方法建立在Willian和Beer等<ref>Williams P L, Beer R D. Nonnegative decomposition of multivariate information[J]. arXiv preprint arXiv:10042515, 2010.</ref>提出的多元信息非负分解的基础上,Beer使用偏信息分解(PID)将微观态<math>X(X^1,X^2 ) </math>与宏观态<math>V </math>之间的互信息分解为四个部分,计算公式如下所示: |
| + | |
| + | <math>I(X^1,X^2;V)=Red(X^1,X^2;V)+Un(X^1;V│X^2 )+Un(X^2;V│X^1 )+Syn(X^1,X^2;V) </math> |
| + | |
| + | 其中<math>Red(X^1,X^2;V) </math>表示冗余信息,是指两个微观态<math>X^1 </math>和<math>X^2 </math>同时给宏观态提供的信息;<math>Un(X^1;V│X^2 ) </math>和<math>Un(X^2;V│X^1 ) </math>表示特有信息,是指每一个微观态单独给宏观态提供的信息;<math>Syn(X^1,X^2;V) </math>表示协同信息,是指所有微观态联合给宏观态<math>V </math>提供的超过各自给宏观态提供的信息。 |
| + | |
| + | 然而,PID框架只能分解关于多个原变量和一个目标变量之间的互信息,Rosas扩展了该框架,提出整合信息分解方法<math>\varphi ID </math><ref>P. A. Mediano, F. Rosas, R. L. Carhart-Harris, A. K. Seth, A. B. Barrett, Beyond integrated information: A taxonomy of information dynamics phenomena, arXiv preprint arXiv:1909.02297 (2019).</ref>来处理多个原变量和多个目标变量之间的互信息,可以用来分解不同时刻间的互信息,作者基于分解后的信息提出了两种因果涌现的定义方法: |
| + | |
| + | 1)当特有信息<math>Un(V_t;X_(t+1)\vbar X_t^1,\ldots,X_t^n\ )>0 </math>,表示当前时刻的宏观态<math>V-t </math>能超过当前时刻的微观态<math>X_t </math>给下一时刻的整体系统<math>X_t+1 </math>再多提供一些信息,存在因果涌现; |
| + | |
| + | 2)绕开了选择特定的宏观态<math>V_t </math>,仅仅基于系统当前时刻的微观态<math>X_t </math>和下一时刻的微观态<math>X_t+1 </math>之间的协同信息定义因果涌现,当协同信息<math>Syn(X_t^1,…,X_t^n;X_(t+1)^1,…,X_(t+1)^n )>0 </math>,系统发生了因果涌现。其中<math>Un(V_t;X_(t+1)\vbar X_t\ )\le Syn(X_t;X_(t+1)\ ) </math>衡成立。 |
| + | |
| + | 值得注意的是,对于方法一判断因果涌现的发生需要依赖宏观态的选择,然而的选择又是很困难的,因此该方法不可行。一种自然的想法就是使用第二种方法借助协同信息来判断因果涌现的发生,但是由于冗余信息存在计算的问题,而协同信息的计算又依赖冗余信息。因此,第二种方法基于协同信息的计算往往也是不可行的。总之,这两种因果涌现的定量刻画方法都存在一些缺点,因此,更加合理的量化方法有待提出。 |
| | | |
| ====因果涌现的识别==== | | ====因果涌现的识别==== |
| + | 从可观测数据中辨别系统中因果涌现的发生是一个更为重要的问题。此外,在因果涌现的识别问题中往往希望寻找一个最优的宏观尺度,使其有效信息达到最大值,此时的系统具有最大因果力,并且能以最可靠、最有效的方式预测未来的状态。下面介绍两种因果涌现的识别方法,包括基于信息分解和神经信息压缩方法。 |
| | | |
− | =====信息分解方法===== | + | =====因果涌现信息分解方法===== |
| + | Rosas虽然给出因果涌现的严格定义,但在<math>\varphi ID </math>中使用的数学公式很复杂,同时计算要求很高,难以将该方法应用于实际系统。因此,Rosas等绕开特有信息和协同信息的计算<ref name=":5" />,提出一个判定因果涌现发生的充分条件,基于互信息提出三个新指标,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>用于识别系统中的因果涌现,三种指标的具体计算公式如下所示: |
| + | |
| + | <math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math> |
| + | |
| + | 当<math>\mathrm{\Psi}>0 </math>时,宏观状态会发生涌现,但是当<math>\mathrm{\Psi}<0 </math>,我们不能确定<math>V </math>是否发生涌现。 |
| + | |
| + | <math>\Delta_{t, t+1}(V):=\max _j\left(I\left(V_t ; X_{t+1}^j\right)-\sum_i I\left(X_t^i ; X_{t+1}^j\right)\right) </math> |
| + | |
| + | 当<math>\mathrm{\Delta}>0 </math>时,宏观状态<math>V </math>发生向下因果。 |
| + | |
| + | <math>\Gamma_{t, t+1}(V):=\max _j I\left(V_t ; X_{t+1}^j\right) </math> |
| + | |
| + | 当<math>\mathrm{\Delta}>0 </math>且<math>\mathrm{\Gamma}=0 </math>时,宏观状态<math>V </math>发生因果涌现且发生因果解耦。 |
| + | |
| + | 该方法避开讨论粗粒化策略。也存在很多缺点:1)该方法提出的三个指标 ,,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>只是基于互信息计算没有考虑因果,同时该方法得到的仅仅是发生因果涌现的充分条件;2)该方法无法得到显式的宏观动力学以及粗粒化策略,然而这两项对于下游的任务往往十分重要;3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。因此,该方法不是一种最优的方法,基于数据驱动的神经信息压缩方法应运而生。 |
| | | |
| =====神经信息压缩方法===== | | =====神经信息压缩方法===== |
| + | 近年来,新兴的人工智能技术已经攻克一系列重大难题,同时机器学习方法配备了各种精心设计的神经网络结构和自动微分技术,可以在巨大的函数空间中逼近任何函数。因此,张江等<ref>Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref>尝试基于神经网络提出了一种基于数据驱动的能够从时间序列数据中识别系统中的因果涌现方法,该方法能自动提取有效的粗粒度策略和宏观动力学,克服了信息分解方法中的种种不足。 |
| + | |
| + | 在该工作中,输入的是时间序列数据<math>(X_1,X_2,...,X_T ) </math>,可以使用如下的微方方程表示: |
| + | |
| + | <math>\frac{d X}{d t}=f(X(t), \xi) </math> |
| + | |
| + | 其中<math>\xi </math>表示系统中的噪音。 |
| + | |
| + | 为了识别系统中的因果涌现,作者提出一种神经信息压缩方法,构建Encoder-Dynamic Learning-Decoder框架,该模型由编码器、动力学学习器以及解码器三个部分构成,用神经网络构建动力学学习器(<math>f </math>),用可逆神经网络(INN)构建编码器(Encoder)和解码器(Decoder)。该模型框架可以看成是一个神经信息压缩器,将包含噪音的微观态压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强。NIS方法的模型框架如图所示。 |
| + | [[文件:NIS模型框架图.png|居中|480x480像素]] |
| + | |
| + | |
| + | 具体来说,模型输入是微观状态<math>X_t\ (X_t^1,X_t^2,…,X_t^p ) </math>,<math>p </math>表示输入数据的维数,输出预测下一个时刻的微观状态<math>\hat{X}_{t+1}\left(\hat{X}_{t+1}^1, \hat{X}_{t+1}^2, \ldots, \hat{X}_{t+1}^p\right) </math>,该方法的目标函数是希望保证微观状态预测误差很小的条件下最大化有效信息,在保证预测误差约束足够小的情况下,NIS方法可以避免trivial解的出现。具体计算公式如下所示: |
| + | |
| + | <math>\mathop{max}\limits_{\Phi_q,\hat{f}_{\Phi_q},\Phi_q^\dag,q}EI(f_{\Phi_q})\ \ \ \ s.t.‖Φ_q^† (Y(t+1))-X_{t+1} ‖<ϵ </math> |
| + | |
| + | 最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\Phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\Phi}_q} </math>,然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段,第一个阶段表示在给定宏观尺度<math>q </math>的情况下<math>\mathop{min}\limits_{\Phi_q,\hat{f}_{\Phi_q},\Phi_q^\dag}‖Φ_q^† (Y(t+1))-X_{t+1} ‖<ϵ </math>,第二阶段将复杂的函数优化问题转换成线性搜索不同的<math>q </math>,使得找到有效信息最大的宏观尺度<math>\mathop{max}\limits_{q}EI(\hat{f}_{\Phi_q}^\ast) </math> 。 |
| + | |
| + | 除了能基于时序数据自动识别因果涌现,该框架还有很好的理论证明,其中有两个重要定理,定理一:神经信息挤压器的信息瓶颈,即对于任意的双射<math>\mathrm{\Psi}_\alpha </math>、投影<math>\chi_q </math>、宏观动力学<math>f </math>以及高斯噪音<math>z_{p-q}\simΝ0Ιp-q </math>,<math>I\left(Y_t;Y_{t+1}\right)=I\left(X_t;{\hat{X}}_{t+1}\right) </math>恒成立,这意味着,编码器丢弃的所有信息实际上都是与预测无关的纯粹噪声;定理二:对于一个训练好的模型,<math>I\left(X_t;{\hat{X}}_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。因此,综合定理一和定理二,可以得到对于一个训练好的模型<math>I\left(Y_t;Y_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。 |
| + | |
| + | 该工作的一个重要优点就是该框架能同时处理离散和连续动力学系统,通过将神经网络看作是给定输入条件下的高斯分布<math>p\left(Y\vbar X\right) </math>,可以定义新的有效信息计算公式,公式如下所示: |
| + | |
| + | <math>EI_L\left(f\right)=IdoX∼U-LLn;Y≈-n+nln2π+i=1nσi22+nln2L+ΕX∼U-LLnln|det∂X'fX|) </math> |
| + | |
| + | 其中<math>U\left(\left[-L^{\prime} L\right]^n\right) </math>表示范围<math>\left[-L^{\prime} L\right] </math>在上的<math>n </math>维均匀分布,<math>\sigma_i </math>是输出<math>Y_i </math>的标准差,可以通过<math>Y_i </math>的均方误差来估计,<math>det </math>表示函数<math>f </math>的雅可比行列式。为了消除有效信息计算公式会受到输入维度的影响,作者定义了新的有效信息计算公式<math>d E I_L(f) </math>,具体公式如下所示: |
| + | |
| + | <math>\left.d E I_L(f) \approx-\frac{1+\ln (2 \pi)+\sum_{i=1}^n \frac{\sigma_i^2}{n}}{2}+\ln (2 L)+\frac{1}{n} E_{X \sim U\left([-L \cdot L]^n\right)}\left(\ln \mid \operatorname{det}\left(\partial_{X^{\prime}} f(X)\right)\right) \mid\right) </math> |
| + | |
| + | NIS框架与前面章节中提到的计算力学存在很多相似之处,NIS可以被视为一种<math>\epsilon$ - machine </math>,所有历史过程构成的集合<math>\overleftarrow{s}</math>可以看作是微观状态,所有<math>R \in \mathcal{R} </math>表示宏观状态,函数<math>\eta </math>可以理解为一种粗粒化函数,<math>\epsilon </math>可以理解为一种有效的粗粒化策略,<math>T </math> 对应于有效的宏观动力学。最小随机性特征表征了宏观动力学的确定性,在因果涌现中可以用有效信息衡量。当整个框架训练足够充分的时候,可以精确地预测未来的微观状态时,编码的宏观状态收敛到有效状态,而有效状态可以被视为计算力学中的因果状态。 |
| + | |
| + | 同时NIS方法与前面提到的G-emergence也有相似之处,例如,NIS同样采用了格兰杰因果的思想:通过预测下一个时间步的微观状态来优化有效的宏观状态。然而,这两个框架之间有几个明显的区别:a)在G-emergence理论中,宏观状态需要人工选择,然后NIS中是通过自动优化粗粒化策略来得到宏观状态;b)NIS使用神经网络来预测未来状态,而G-emergence使用自回归技术来拟合数据。 |
| | | |
| ===实例=== | | ===实例=== |
− | 可参考PNAS Erik的那篇经典的因果涌现文章:Macro beats Micro
| + | ==== 状态空间的因果涌现==== |
| + | 下图给出一个含有四个状态的马尔可夫链的状态转移矩阵,其中前三个状态之间等概率转移,最后一个状态是独立的,通过将前三个状态粗粒化成一个状态,可以得到右图确定的宏观系统,即系统的未来状态完全可以由当前状态决定。此时<math>EI(S_M\ )>EI(S_m\ ) </math>,系统发生了因果涌现。 |
| + | [[文件:马尔科夫状态转移矩阵.png|边框|居中|474x474像素|马尔科夫状态转移矩阵]] |
| | | |
− | ====状态空间的因果涌现==== | + | ==== 离散布尔动力学网络上的因果涌现==== |
− | | + | 下图展示1个含有4个节点的布尔网络例子,每个节点有0和1两种状态,每个节点与其中两个节点相连,遵循相同的微观动力学机制(a图),因此,一共含有十六个微观状态,可以得到一个<math>16\times16 </math>的状态转移矩阵(c图),然后给定分组方式,如将A和B进行合并,C和D进行合并(b图),同时给定微观状态到宏观状态的映射函数(d图),就可以得到新的宏观动力学机制,根据这个机制就可以得到宏观网络的状态转移矩阵(e图),通过对比发现宏观动力学的有效信息大于微观动力学的有效信息(<math>EI(S_M\ )>EI(S_m\ ) </math>),系统发生了因果涌现。 |
− | ====离散布尔动力学网络上的因果涌现====
| + | [[文件:含有4个节点的布尔网络.png|边框|居中|677x677像素|含有4个节点的布尔网络]] |
| | | |
| ====时域空间上的因果涌现==== | | ====时域空间上的因果涌现==== |
| + | 除了对空间进行粗粒化,还可以对时间进行粗粒化如下图所示,考虑两阶马尔可夫动力学,输入为两个时刻<math>t-2 </math>和<math>t-1 </math>的状态,输出为<math>t </math>和<math>t+1 </math>的状态,可以通过<math>EI </math>计算二阶微观动力学的有效信息为<math>1.38bits </math>,然后通过对时间状态分组,令<math>\alpha=AtAt+1 </math>,<math>\beta=BtBt+1 </math>, 同时采用与离散布尔函数相同的映射函数,可以得到完全确定且非简并的宏观动力学系统,其有效信息为<math>2bits </math>,同样实现“宏观打败微观”的效果。 |
| + | [[文件:时间粗粒化.png|边框|居中|382x382像素|时间粗粒化]] |
| | | |
| ====连续空间上的因果涌现==== | | ====连续空间上的因果涌现==== |
− | 可参考Erik的Causal Geometry文章
| + | 上述的三个例子都是针对离散的状态系统的因果涌现衡量,Varley尝试将连续系统转换成离散的状态转移图进行比较<ref>Varley T F, Hoel E. Emergence as the conversion of information: A unifying theory[J]. Philosophical Transactions of the Royal Society A, 2022, 380(2227): 20210150.</ref>。作者使用OPN(有序划分网络)方法来离散化Rossler吸引子来创建有限数量的状态以及定义一个状态到另一个状态的转移概率。Rossler吸引子的动力学如下所示: |
| + | |
| + | <math>\frac{d x}{d t}=-y-z </math> |
| + | |
| + | <math>\frac{d y}{d t}=x+a y </math> |
| + | |
| + | <math>\frac{d z}{d t}=b+z(x-c) </math> |
| + | |
| + | 设定<math>b=2 </math>,<math>c=4 </math>,<math>a\in0.370.43 </math>间隔为0.001,这里只是基于<math>x </math>的时间序列建立状态网络。OPN方法具体操作如下:输入时间序列<math>x=\left\{x_1, x_2, \ldots, x_n\right\} </math>,需要将输入嵌入到一个滞后时间为<math>\tau </math>的<math>D </math>维空间中,每一个表示为<math>v_i=\left\{x_{i^{\prime}} x_{i+\tau^{\prime}} \ldots \cdot x_{i+(D-1) \tau}\right\} </math>的状态向量需要根据值进行降序排序重新编号为<math>s_i=\left\{\pi^{\prime}{ }^{\prime}{ }^{\prime} \pi^{\prime} 2^{\prime} \cdots^{\prime} \pi^{\prime} D\right\} </math>, 其中,<math>\pi_j \cdot \in\{1,2, \ldots, D\} </math>,节点序列表示为<math>s=\left\{s_1, s_2, \ldots, s_{n-D+1}\right\} </math>,序列<math>s </math>中不重复的向量构成最终的状态图中的节点,节点<math>i </math>指向节点<math>j </math>的权重表示为<math>s </math>序列中状态<math>s_i </math>后面为状态<math>s_j </math>的次数。对边权进行归一化就可以得到节点间的状态转移概率,然后基于Hoel等人提出的网络的有效信息度量方法进行实验,比较系统的确定性、简并性、有效性等指标随着参数<math>a </math>的变化,如下图所示。 |
| + | [[文件:指标变化.png|边框|居中|627x627像素]] |
| + | 通过实验比较发现,随着参数的增大,确定性首先经历了短暂的上升,随后在第一次分叉后立即大幅下降,然后逐渐上升在周期加倍级联开始前达到局部峰值,过了该点,确定性急剧崩溃。一般来说,混沌动力学与较低水平的确定性呈相关关系。此外,简并性和有效信息的曲线变化和确定性曲线变化保持一致。然而,对于因果涌现曲线的变化没有什么有趣现象,它在一个相对恒定的值附近往复振荡,其中存在一个明显的例外,它在周期加倍级联开始时暴跌,如下图所示。 |
| + | [[文件:恒定值.png|边框|居中|420x420像素|恒定值震荡]] |
| + | Pavel Chvykov和Erik Hoel等<ref>P. Chvykov, E. Hoel, Causal geometry, Entropy 23 (1) (2020) 24.</ref>也将因果涌现框架扩展到连续系统,并且假设不确定性是添加到确定性函数中的干扰,研究人员推导出连续系统有效信息的近似形式来衡量因果涌现的发生。 |
| | | |
| ===应用=== | | ===应用=== |
第127行: |
第200行: |
| | | |
| ====在复杂网络上的应用==== | | ====在复杂网络上的应用==== |
| + | 2020年,Klein和Hoel改进此前提出的基于粗粒化的方法并将其应用到复杂网络中<ref>Klein B, Hoel E. The emergence of informative higher scales in complex networks[J]. Complexity, 2020, 20201-12.</ref>,作者借助随机游走子来定义网络中的马尔可夫链,将随机游走子放在节点上等价于对节点做干预,然后基于随机游走概率定义节点的转移概率矩阵。同时作者将有效信息与网络的连通性建立联系,网络中的连通性可以通过节点的出边和入边的权重的不确定性来表征,基于此定义复杂网络中的有效信息。 |
| + | |
| + | 在随机网络(ER)、偏好依赖网络(PA)等人工网络以及四类真实网络中进行实验比较。对于ER网络来说,有效信息的大小只依赖于连接概率<math>p </math>,并且随着网络规模的增大会收敛到<math>-log_2p </math>。同时一个关键发现表明,存在一个相变点,该相变点近似在网络的平均度(<math><k> </math>)等于<math>log_2N </math>的位置,同样对应于ER网络随着连接概率增加而出现巨连通集团的相变点位置,超过该相变点随机网络结构不会随着其规模的增加而包含更多的信息。对于PA网络来说,<math>\alpha<1.0 </math>时,有效信息的大小会随着网络规模的增加而增大;<math>\alpha>1.0 </math>时,结论相反;<math>\alpha=1.0 </math>对应的无标度网络则是增长的临界边界。对于真实网络,作者发现,生物网络因为具有很大的噪音,所以有效信息最低,通过有效的粗粒化能去除这些噪音,相比于其他类型网络因果涌现最显著,而技术类型网络是更稀疏、非退化的,因此,平均效率更高,节点关系也更加具体,所有有效信息也最高。 |
| + | |
| + | 在该文章中作者使用贪婪算法来构建宏观尺度的网络,然而对于大规模网络来说,效率仍然很低。随后,Griebenow等<ref>Griebenow R, Klein B, Hoel E. Finding the right scale of a network: efficient identification of causal emergence through spectral clustering[J]. arXiv preprint arXiv:190807565, 2019.</ref>提出了一种基于谱聚类的方法来识别偏好依附网络中的因果涌现。相比贪婪算法以及梯度下降算法,谱聚类算法的计算时间最少,同时找到的宏观网络的因果涌现也更加显著。 |
| | | |
| ====在生物中的应用==== | | ====在生物中的应用==== |
− | 生物网络中充满噪音使得很难理解其内部的运作原理,这种噪音一方面来自系统的固有噪音,另一方面是由于测量或观察引入的, Klein等[25]进一步探索了生物网络中的噪声、简并性和确定性三者之间的关系以及具体含义。例如,基因表达网络中的高度确定性关系可以理解为一个基因几乎肯定会导致另一个基因的表达。同时生物系统在进化过程中也普遍存在简并现象,这两个原因导致目前尚不清楚在何种尺度上分析生物系统才能最好地理解它们的功能。Klein等[26]分析了超过1800个物种的蛋白质相互作用网络,发现宏观尺度的网络具有更小的噪音和简并性,同时与不参与宏观尺度的节点相比,组成宏观尺度交互群中的节点更具有弹性。因此,生物网络为了适应进化的要求,需要演化成宏观尺度以提高确定性来增强网络的弹性以及提高信息传输的有效性。 | + | 生物网络中充满噪音使得很难理解其内部的运作原理,这种噪音一方面来自系统的固有噪音,另一方面是由于测量或观察引入的, Klein等<ref>Klein B, Swain A, Byrum T, et al. Exploring noise, degeneracy and determinism in biological networks with the einet package[J]. Methods in Ecology and Evolution, 2022, 13(4): 799-804.</ref>进一步探索了生物网络中的噪声、简并性和确定性三者之间的关系以及具体含义。例如,基因表达网络中的高度确定性关系可以理解为一个基因几乎肯定会导致另一个基因的表达。同时生物系统在进化过程中也普遍存在简并现象,这两个原因导致目前尚不清楚在何种尺度上分析生物系统才能最好地理解它们的功能。Klein等<ref>Klein B, Hoel E, Swain A, et al. Evolution and emergence: higher order information structure in protein interactomes across the tree of life[J]. Integrative Biology, 2021, 13(12): 283-294.</ref>分析了超过1800个物种的蛋白质相互作用网络,发现宏观尺度的网络具有更小的噪音和简并性,同时与不参与宏观尺度的节点相比,组成宏观尺度交互群中的节点更具有弹性。因此,生物网络为了适应进化的要求,需要演化成宏观尺度以提高确定性来增强网络的弹性以及提高信息传输的有效性。 |
| | | |
− | Hoel等[27]借助有效信息理论进一步研究生物系统中的因果涌现,作者将有效信息应用到基因调控网络中,识别最能提供信息的心脏发育模型从而控制哺乳动物的心脏发育。通过量化酿酒酵母基因网络的最大联通集团的因果涌现,揭示富有信息的宏观尺度在生物学中是普遍存在的以及生命机制本身也经常运行在宏观尺度上。该方法也为生物学家提供一个可计算的工具来识别最具有信息的宏观尺度,并且可以在此基础上建模、预测、控制和理解复杂的生物系统。 | + | Hoel等<ref>Hoel E, Levin M. Emergence of informative higher scales in biological systems: a computational toolkit for optimal prediction and control[J]. Communicative & Integrative Biology, 2020, 13(1): 108-118.</ref>借助有效信息理论进一步研究生物系统中的因果涌现,作者将有效信息应用到基因调控网络中,识别最能提供信息的心脏发育模型从而控制哺乳动物的心脏发育。通过量化酿酒酵母基因网络的最大联通集团的因果涌现,揭示富有信息的宏观尺度在生物学中是普遍存在的以及生命机制本身也经常运行在宏观尺度上。该方法也为生物学家提供一个可计算的工具来识别最具有信息的宏观尺度,并且可以在此基础上建模、预测、控制和理解复杂的生物系统。 |
| | | |
− | 为验证猕猴运动有关的信息是其皮层活动的一个涌现特征,Rosas等[16]尝试基于猕猴的皮质脑电图(ECoG)和动作捕捉(MoCap)数据进行实验,其中ECoG和MoCap分别由64个通道和3个通道的数据构成微观和宏观数据,由于最原始的MoCap数据不满足随附特征的条件独立假设,因此,作者使用偏最小二乘和支持向量机算法推断出与预测猕猴行为有关的编码在ECoG信号中的那部分神经活动,并推测该信息就是潜在神经活动的涌现特征,然后基于计算出来的宏观特征与微观状态验证因果涌现的存在。
| + | 为验证猕猴运动有关的信息是其皮层活动的一个涌现特征,Rosas等尝试基于猕猴的皮质脑电图(ECoG)和动作捕捉(MoCap)数据进行实验,其中ECoG和MoCap分别由64个通道和3个通道的数据构成微观和宏观数据,由于最原始的MoCap数据不满足随附特征的条件独立假设,因此,作者使用偏最小二乘和支持向量机算法推断出与预测猕猴行为有关的编码在ECoG信号中的那部分神经活动,并推测该信息就是潜在神经活动的涌现特征,然后基于计算出来的宏观特征与微观状态验证因果涌现的存在。 |
| | | |
− | Swain等[28]探索蚁群的交互历史对任务分配和任务切换的影响,使用有效信息研究噪声信息如何在蚂蚁之间进行传播。结果发现,蚁群之间历史交互程度影响任务的分配,并且具体交互中蚂蚁群体的类型决定交互中的噪音。此外,即使当蚂蚁切换功能群时,蚁群涌现出来的凝聚力也能保证群体的稳定,同时不同功能蚁群在维持蚁群凝聚力方面也发挥着不同的作用。 | + | Swain等<ref>Swain A, Williams S D, Di Felice L J, et al. Interactions and information: exploring task allocation in ant colonies using network analysis[J]. Animal Behaviour, 2022, 18969-81.</ref>探索蚁群的交互历史对任务分配和任务切换的影响,使用有效信息研究噪声信息如何在蚂蚁之间进行传播。结果发现,蚁群之间历史交互程度影响任务的分配,并且具体交互中蚂蚁群体的类型决定交互中的噪音。此外,即使当蚂蚁切换功能群时,蚁群涌现出来的凝聚力也能保证群体的稳定,同时不同功能蚁群在维持蚁群凝聚力方面也发挥着不同的作用。 |
| | | |
| ====在人工神经网络中的应用==== | | ====在人工神经网络中的应用==== |
− | Marrow等[29]尝试引入一个基于信息论的指标即有效信息来量化和跟踪训练过程中DNN因果结构的变化,其中有效信息用于评估节点和边对每层下游目标的因果的影响程度。有效信息可以分解为灵敏性和简并性,通过观察模型训练过程中有效信息,包括灵敏性和简并性的变化就可以确定模型的泛化能力,从而帮助我们更好的理解和解释DNN的工作原理。 | + | Marrow等<ref>Marrow S, Michaud E J, Hoel E. Examining the Causal Structures of Deep Neural Networks Using Information Theory[J]. Entropy, 2020, 22(12): 1429.</ref>尝试引入一个基于信息论的指标即有效信息来量化和跟踪训练过程中DNN因果结构的变化,其中有效信息用于评估节点和边对每层下游目标的因果的影响程度。有效信息可以分解为灵敏性和简并性,通过观察模型训练过程中有效信息,包括灵敏性和简并性的变化就可以确定模型的泛化能力,从而帮助我们更好的理解和解释DNN的工作原理。 |
| | | |
| ===因果涌现与人工智能=== | | ===因果涌现与人工智能=== |
第144行: |
第222行: |
| | | |
| ====因果涌现与因果表示学习==== | | ====因果涌现与因果表示学习==== |
− | 因果表示学习是人工智能中的一个新兴领域,它试图将机器学习中的两个重要领域:表示学习和因果推断结合起来。尝试结合两个子领域的优势,自动提取数据背后的重要特征和因果关系[30]。 | + | 因果表示学习是人工智能中的一个新兴领域,它试图将机器学习中的两个重要领域:表示学习和因果推断结合起来。尝试结合两个子领域的优势,自动提取数据背后的重要特征和因果关系<ref>B. Sch ̈olkopf, F. Locatello, S. Bauer, N. R. Ke, N. Kalchbrenner, A. Goyal, Y. Bengio, Toward causal representation learning, Proceedings of the IEEE 109 (5) (2021) 612–634.</ref>。 |
| | | |
| 基于粗粒化的因果涌现识别可以等价于一种因果表示学习任务。从数据中识别因果关系的涌现,等价于学习数据背后的潜在因果关系。具体来说,宏观状态可以看成因果变量,动力学学习器类比因果机制,粗粒化策略可以看作是一个从原始数据到因果表示的编码过程,有效信息可以理解为对机制的因果效应强度的衡量。由于这两者存在很多相似之处,使得两个领域的技术和概念可以相互学习。例如,因果表征学习技术可以应用于识别因果涌现,反过来,学习到的抽象因果表征可以被解释为一种宏观状态,从而增加因果表征学习的可解释性。 | | 基于粗粒化的因果涌现识别可以等价于一种因果表示学习任务。从数据中识别因果关系的涌现,等价于学习数据背后的潜在因果关系。具体来说,宏观状态可以看成因果变量,动力学学习器类比因果机制,粗粒化策略可以看作是一个从原始数据到因果表示的编码过程,有效信息可以理解为对机制的因果效应强度的衡量。由于这两者存在很多相似之处,使得两个领域的技术和概念可以相互学习。例如,因果表征学习技术可以应用于识别因果涌现,反过来,学习到的抽象因果表征可以被解释为一种宏观状态,从而增加因果表征学习的可解释性。 |
第151行: |
第229行: |
| | | |
| ====因果涌现与因果模型抽象==== | | ====因果涌现与因果模型抽象==== |
− | 在复杂系统中,由于微观状态往往存在噪音,需要将微观状态进行粗粒化得到噪音更小的宏观状态,使得宏观动力学的因果性更强。同样对于因果模型也一样,由于原始模型过于复杂,或者计算资源受限,所以往往需要得到更加抽象的因果模型,并且保证抽象的模型尽可能保持原始模型的因果机制,因果模型抽象讨论的也是因果关系与模型抽象(可以看成粗粒化过程)之间的相互作用[31]。因此,因果涌现识别与因果模型抽象有很多相似之处,可以把原始的因果机制理解为微观动力学,抽象出来的机制理解为宏观动力学。在神经信息压缩框架中(NIS),对粗粒化策略和宏观动力学进行了限制,要求宏观动力学的微观预测误差要足够小以排除平凡解。这个要求也类似于因果模型抽象中希望抽象后的因果模型与原始模型的距离要尽可能相近。但是两者也存在一些不同:1)因果涌现中是对状态或数据进行粗粒化,而因果模型抽象是对模型进行操作;2)因果模型抽象中考虑混肴因子,然而却被因果涌现的讨论忽略。 | + | 在复杂系统中,由于微观状态往往存在噪音,需要将微观状态进行粗粒化得到噪音更小的宏观状态,使得宏观动力学的因果性更强。同样对于因果模型也一样,由于原始模型过于复杂,或者计算资源受限,所以往往需要得到更加抽象的因果模型,并且保证抽象的模型尽可能保持原始模型的因果机制,因果模型抽象讨论的也是因果关系与模型抽象(可以看成粗粒化过程)之间的相互作用<ref>S. Beckers, F. Eberhardt, J. Y. Halpern, Approximate causal abstractions, in: Uncertainty in artificial intelligence, PMLR, 2020, pp. 606–615.</ref>。因此,因果涌现识别与因果模型抽象有很多相似之处,可以把原始的因果机制理解为微观动力学,抽象出来的机制理解为宏观动力学。在神经信息压缩框架中(NIS),对粗粒化策略和宏观动力学进行了限制,要求宏观动力学的微观预测误差要足够小以排除平凡解。这个要求也类似于因果模型抽象中希望抽象后的因果模型与原始模型的距离要尽可能相近。但是两者也存在一些不同:1)因果涌现中是对状态或数据进行粗粒化,而因果模型抽象是对模型进行操作;2)因果模型抽象中考虑混肴因子,然而却被因果涌现的讨论忽略。 |
| | | |
− | ===='''因果涌现与基于世界模型的强化学习'''==== | + | ====因果涌现与基于世界模型的强化学习==== |
− | 基于世界模型的强化学习假设其内部存在一个世界模型可以模拟智能体所面对的环境的动力学[32]。世界模型的动力学可以通过智能体与环境的相互作用来学习,该动力学也可以帮助智能体对不确定的环境做出计划和决策。同时为了表示复杂的环境,世界模型一定是对环境的粗粒度描述,一个典型的世界模型架构总是包含一个编码器和一个解码器。因此,基于世界模型的强化学习与因果涌现也存在很多相似之处。世界模型也可以被视为一种宏观动力学,环境中的所有状态可以看作是宏观状态,这些可以看成是压缩后的忽略无关信息的状态,能捕捉环境中最重要的因果特征,以便智能体做出更好的决策。在计划过程中,智能体也可以使用世界模型来模拟真实世界的动力学。 | + | 基于世界模型的强化学习假设其内部存在一个世界模型可以模拟智能体所面对的环境的动力学<ref>D. Ha, J. Schmidhuber, World models, arXiv preprint arXiv:1803.10122 (2018).</ref>。世界模型的动力学可以通过智能体与环境的相互作用来学习,该动力学也可以帮助智能体对不确定的环境做出计划和决策。同时为了表示复杂的环境,世界模型一定是对环境的粗粒度描述,一个典型的世界模型架构总是包含一个编码器和一个解码器。因此,基于世界模型的强化学习与因果涌现也存在很多相似之处。世界模型也可以被视为一种宏观动力学,环境中的所有状态可以看作是宏观状态,这些可以看成是压缩后的忽略无关信息的状态,能捕捉环境中最重要的因果特征,以便智能体做出更好的决策。在计划过程中,智能体也可以使用世界模型来模拟真实世界的动力学。 |
| | | |
| 因此,两个领域之间的相似性和共同特征可以帮助我们将一个领域的思想和技术借鉴到另一个领域。例如,具有世界模型的智能体可以将复杂系统作为一个整体来进行相互作用,并从相互作用中获得涌现的因果规律,从而更好的帮助我们做因果涌现识别任务。反过来,最大化有效信息技术也可以用于强化学习,使世界模型具有更强的因果特性。 | | 因此,两个领域之间的相似性和共同特征可以帮助我们将一个领域的思想和技术借鉴到另一个领域。例如,具有世界模型的智能体可以将复杂系统作为一个整体来进行相互作用,并从相互作用中获得涌现的因果规律,从而更好的帮助我们做因果涌现识别任务。反过来,最大化有效信息技术也可以用于强化学习,使世界模型具有更强的因果特性。 |
| + | |
| + | <references /> |