第57行: |
第57行: |
| | | |
| =====计算力学===== | | =====计算力学===== |
− | 计算力学理论试图用定量的框架来表述涌现的因果关系,希望从一个随机过程的观测中构造一个最小的因果模型,从而来产生观测的时间序列<ref name=":3" />。其中随机过程可以用<math>\overleftrightarrow{s}</math>表示,基于时间<math>t</math>可以将随机过程分为两个部分,时间前和时间后的过程,<math>\overleftarrow{s_t}</math>和<math>\overrightarrow{s_t}</math>,当这个过程是平稳过程时,可以去掉时间。因此,可以将所有可能的历史过程<math>\overleftarrow{s_t}</math>形成的集合记作<math> \overleftarrow{s}</math>,所有未来的过程形成的集合记作<math> \overrightarrow{s}</math>。可以将<math>\overleftarrow{s}</math>分解为相互排斥又联合全面的子集,形成的集合记为<math>R</math>,任何集<math>R\in\mathcal{R}</math>的子集可以看作是一个状态,定义一个分解函数<math>\eta:S→R</math>。 | + | 计算力学理论试图用定量的框架来表述涌现的因果关系,希望从一个随机过程的观测中构造一个最小的因果模型,从而来产生观测的时间序列<ref name=":3" />。其中随机过程可以用<math>\overleftrightarrow{s}</math>表示,基于时间<math>t</math>可以将随机过程分为两个部分,时间前和时间后的过程,<math>\overleftarrow{s_t}</math>和<math>\overrightarrow{s_t}</math>,当这个过程是平稳过程时,可以去掉时间。因此,可以将所有可能的历史过程<math>\overleftarrow{s_t}</math>形成的集合记作<math> \overleftarrow{S}</math>,所有未来的过程形成的集合记作<math> \overrightarrow{S}</math>。可以将<math>\overleftarrow{S}</math>分解为相互排斥又联合全面的子集,形成的集合记为<math>R</math>,任何集<math>R\in\mathcal{R}</math>的子集可以看作是一个状态,定义一个分解函数<math>\eta:S→R</math>。 |
− | | |
| | | |
| 此外,定义了因果等价的概念,如果<math>P\left ( \overrightarrow{s}|\overleftarrow{s}\right )=P\left ( \overrightarrow{s}|{\overleftarrow{s}}'\right )</math>,则<math>\overleftarrow{s}</math>和<math>{\overleftarrow{s}}'</math>(表示<math>\overleftarrow{s}</math>的子集)是因果等价的。将历史<math>\overleftarrow{s_t}</math>的所有因果状态定义为<math>\epsilon \left ( \overleftarrow{s} \right )</math>,将两个因果状态<math>S_i</math>和<math>S_j</math>之间的因果转移概率记为<math>T_{ij}^{\left ( s \right )}</math>,一个随机过程的<math>\epsilon-machine</math>被定义为有序对<math>\left \{ \epsilon,T \right \}</math>,是一种模式发现机器,其中<math>\epsilon</math>是因果状态函数, <math>T</math>是通过<math>\epsilon</math>定义的状态转移矩阵的集合。通过证明<math>\epsilon-machine</math>具有最大程度的预测性和最小程度的随机性这两个重要特性验证了它在某种意义上是最优的。 | | 此外,定义了因果等价的概念,如果<math>P\left ( \overrightarrow{s}|\overleftarrow{s}\right )=P\left ( \overrightarrow{s}|{\overleftarrow{s}}'\right )</math>,则<math>\overleftarrow{s}</math>和<math>{\overleftarrow{s}}'</math>(表示<math>\overleftarrow{s}</math>的子集)是因果等价的。将历史<math>\overleftarrow{s_t}</math>的所有因果状态定义为<math>\epsilon \left ( \overleftarrow{s} \right )</math>,将两个因果状态<math>S_i</math>和<math>S_j</math>之间的因果转移概率记为<math>T_{ij}^{\left ( s \right )}</math>,一个随机过程的<math>\epsilon-machine</math>被定义为有序对<math>\left \{ \epsilon,T \right \}</math>,是一种模式发现机器,其中<math>\epsilon</math>是因果状态函数, <math>T</math>是通过<math>\epsilon</math>定义的状态转移矩阵的集合。通过证明<math>\epsilon-machine</math>具有最大程度的预测性和最小程度的随机性这两个重要特性验证了它在某种意义上是最优的。 |
第96行: |
第95行: |
| <math>I(X^1,X^2;V)=Red(X^1,X^2;V)+Un(X^1;V│X^2 )+Un(X^2;V│X^1 )+Syn(X^1,X^2;V) </math> | | <math>I(X^1,X^2;V)=Red(X^1,X^2;V)+Un(X^1;V│X^2 )+Un(X^2;V│X^1 )+Syn(X^1,X^2;V) </math> |
| | | |
− | 其中<math>Red(X^1,X^2;V) </math>表示冗余信息,是指两个微观态<math>X^1 </math>和<math>X^2 </math>同时给宏观态提供的信息;<math>Un(X^1;V│X^2 ) </math>和<math>Un(X^2;V│X^1 ) </math>表示特有信息,是指每一个微观态单独给宏观态提供的信息;<math>Syn(X^1,X^2;V) </math>表示协同信息,是指所有微观态联合给宏观态<math>V </math>提供的超过各自给宏观态提供的信息。 | + | 其中<math>Red(X^1,X^2;V) </math>表示冗余信息,是指两个微观态<math>X^1 </math>和<math>X^2 </math>同时给宏观态<math>V </math>提供的信息;<math>Un(X^1;V│X^2 ) </math>和<math>Un(X^2;V│X^1 ) </math>表示特有信息,是指每一个微观态单独给宏观态提供的信息;<math>Syn(X^1,X^2;V) </math>表示协同信息,是指所有微观态<math>X </math>联合给宏观态<math>V </math>提供的超过各自给宏观态提供的信息。 |
| | | |
| 然而,PID框架只能分解关于多个原变量和一个目标变量之间的互信息,Rosas扩展了该框架,提出整合信息分解方法<math>\varphi ID </math><ref>P. A. Mediano, F. Rosas, R. L. Carhart-Harris, A. K. Seth, A. B. Barrett, Beyond integrated information: A taxonomy of information dynamics phenomena, arXiv preprint arXiv:1909.02297 (2019).</ref>来处理多个原变量和多个目标变量之间的互信息,可以用来分解不同时刻间的互信息,作者基于分解后的信息提出了两种因果涌现的定义方法: | | 然而,PID框架只能分解关于多个原变量和一个目标变量之间的互信息,Rosas扩展了该框架,提出整合信息分解方法<math>\varphi ID </math><ref>P. A. Mediano, F. Rosas, R. L. Carhart-Harris, A. K. Seth, A. B. Barrett, Beyond integrated information: A taxonomy of information dynamics phenomena, arXiv preprint arXiv:1909.02297 (2019).</ref>来处理多个原变量和多个目标变量之间的互信息,可以用来分解不同时刻间的互信息,作者基于分解后的信息提出了两种因果涌现的定义方法: |
第104行: |
第103行: |
| 2)绕开了选择特定的宏观态<math>V_t </math>,仅仅基于系统当前时刻的微观态<math>X_t </math>和下一时刻的微观态<math>X_{t+1} </math>之间的协同信息定义因果涌现,当协同信息<math>Syn(X_t^1,…,X_t^n;X_{t+1}^1,…,X_{t+1}^n )>0 </math>,系统发生了因果涌现。其中<math>Un(V_t;X_{t+1}| X_t\ )\le Syn(X_t;X_{t+1}\ ) </math>衡成立。 | | 2)绕开了选择特定的宏观态<math>V_t </math>,仅仅基于系统当前时刻的微观态<math>X_t </math>和下一时刻的微观态<math>X_{t+1} </math>之间的协同信息定义因果涌现,当协同信息<math>Syn(X_t^1,…,X_t^n;X_{t+1}^1,…,X_{t+1}^n )>0 </math>,系统发生了因果涌现。其中<math>Un(V_t;X_{t+1}| X_t\ )\le Syn(X_t;X_{t+1}\ ) </math>衡成立。 |
| | | |
− | 值得注意的是,对于方法一判断因果涌现的发生需要依赖宏观态的选择,然而的选择又是很困难的,因此该方法不可行。一种自然的想法就是使用第二种方法借助协同信息来判断因果涌现的发生,但是由于冗余信息存在计算的问题,而协同信息的计算又依赖冗余信息。因此,第二种方法基于协同信息的计算往往也是不可行的。总之,这两种因果涌现的定量刻画方法都存在一些缺点,因此,更加合理的量化方法有待提出。
| + | 值得注意的是,对于方法一判断因果涌现的发生需要依赖宏观态<math>V_t </math>的选择,然而<math>V_t </math>的选择又是很困难的,因此该方法不可行。一种自然的想法就是使用第二种方法借助协同信息来判断因果涌现的发生,但是由于冗余信息存在计算的问题,而协同信息的计算又依赖冗余信息。因此,第二种方法基于协同信息的计算往往也是不可行的。总之,这两种因果涌现的定量刻画方法都存在一些缺点,因此,更加合理的量化方法有待提出。 |
| | | |
| ====因果涌现的识别==== | | ====因果涌现的识别==== |
第110行: |
第109行: |
| | | |
| =====因果涌现信息分解方法===== | | =====因果涌现信息分解方法===== |
− | Rosas虽然给出因果涌现的严格定义,但在<math>\varphi ID </math>中使用的数学公式很复杂,同时计算要求很高,难以将该方法应用于实际系统。因此,Rosas等绕开特有信息和协同信息的计算<ref name=":5" />,提出一个判定因果涌现发生的充分条件,基于互信息提出三个新指标,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>用于识别系统中的因果涌现,三种指标的具体计算公式如下所示: | + | Rosas虽然给出因果涌现的严格定义,但在<math>\Phi ID </math>中使用的数学公式很复杂,同时计算要求很高,难以将该方法应用于实际系统。因此,Rosas等绕开特有信息和协同信息的计算<ref name=":5" />,提出一个判定因果涌现发生的充分条件,基于互信息提出三个新指标,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>用于识别系统中的因果涌现,三种指标的具体计算公式如下所示: |
| | | |
| <math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math> | | <math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math> |
第142行: |
第141行: |
| 具体来说,模型输入是微观状态<math>X_t\ (X_t^1,X_t^2,…,X_t^p ) </math>,<math>p </math>表示输入数据的维数,输出预测下一个时刻的微观状态<math>\hat{X}_{t+1}\left(\hat{X}_{t+1}^1, \hat{X}_{t+1}^2, \ldots, \hat{X}_{t+1}^p\right) </math>,该方法的目标函数是希望保证微观状态预测误差很小的条件下最大化有效信息,在保证预测误差约束足够小的情况下,NIS方法可以避免trivial解的出现。具体计算公式如下所示: | | 具体来说,模型输入是微观状态<math>X_t\ (X_t^1,X_t^2,…,X_t^p ) </math>,<math>p </math>表示输入数据的维数,输出预测下一个时刻的微观状态<math>\hat{X}_{t+1}\left(\hat{X}_{t+1}^1, \hat{X}_{t+1}^2, \ldots, \hat{X}_{t+1}^p\right) </math>,该方法的目标函数是希望保证微观状态预测误差很小的条件下最大化有效信息,在保证预测误差约束足够小的情况下,NIS方法可以避免trivial解的出现。具体计算公式如下所示: |
| | | |
− | <math>\max _{\Phi_q, \hat{f}_q, \Phi_q^{\dagger}, q} E I\left(f_{\Phi_q}\right) \quad \text { s.t. }\left\|\Phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math> | + | <math>\max _{\Phi_q, \hat{f}_q, \Phi_q^{\dagger}, q} E I\left(f_{\Phi_q}\right) \quad \text{s.t.}\left\|\Phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math> |
| | | |
| 最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\Phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\Phi}_q} </math>,然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段,第一个阶段表示在给定宏观尺度<math>q </math>的情况下<math>\min _{\Phi_q, \hat{f}_q, \Phi_q^{\dagger}}\left\|\Phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>,第二阶段将复杂的函数优化问题转换成线性搜索不同的<math>q </math>,使得找到有效信息最大的宏观尺度<math>\mathop{max}\limits_{q}EI(\hat{f}_{\Phi_q}^\ast) </math> 。 | | 最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\Phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\Phi}_q} </math>,然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段,第一个阶段表示在给定宏观尺度<math>q </math>的情况下<math>\min _{\Phi_q, \hat{f}_q, \Phi_q^{\dagger}}\left\|\Phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>,第二阶段将复杂的函数优化问题转换成线性搜索不同的<math>q </math>,使得找到有效信息最大的宏观尺度<math>\mathop{max}\limits_{q}EI(\hat{f}_{\Phi_q}^\ast) </math> 。 |
第156行: |
第155行: |
| <math>dEI_L(f)\approx-\frac{1+ln(2\pi)+\sum_{i=1}^n\frac{\sigma_i^2}n}2+ln(2L)+\frac1n\mathrm{E}_{X\sim U([-L,L]^n)}(ln|det(\partial_{X^{\prime}}f(X)))|) </math> | | <math>dEI_L(f)\approx-\frac{1+ln(2\pi)+\sum_{i=1}^n\frac{\sigma_i^2}n}2+ln(2L)+\frac1n\mathrm{E}_{X\sim U([-L,L]^n)}(ln|det(\partial_{X^{\prime}}f(X)))|) </math> |
| | | |
− | NIS框架与前面章节中提到的计算力学存在很多相似之处,NIS可以被视为一种<math>\epsilon - machine </math>,所有历史过程构成的集合<math>\overleftarrow{s}</math>可以看作是微观状态,所有<math>R \in \mathcal{R} </math>表示宏观状态,函数<math>\eta </math>可以理解为一种粗粒化函数,<math>\epsilon </math>可以理解为一种有效的粗粒化策略,<math>T </math> 对应于有效的宏观动力学。最小随机性特征表征了宏观动力学的确定性,在因果涌现中可以用有效信息衡量。当整个框架训练足够充分的时候,可以精确地预测未来的微观状态时,编码的宏观状态收敛到有效状态,而有效状态可以被视为计算力学中的因果状态。 | + | NIS框架与前面章节中提到的计算力学存在很多相似之处,NIS可以被视为一种<math>\epsilon - machine </math>,所有历史过程构成的集合<math>\overleftarrow{S}</math>可以看作是微观状态,所有<math>R \in \mathcal{R} </math>表示宏观状态,函数<math>\eta </math>可以理解为一种粗粒化函数,<math>\epsilon </math>可以理解为一种有效的粗粒化策略,<math>T </math> 对应于有效的宏观动力学。最小随机性特征表征了宏观动力学的确定性,在因果涌现中可以用有效信息衡量。当整个框架训练足够充分的时候,可以精确地预测未来的微观状态时,编码的宏观状态收敛到有效状态,而有效状态可以被视为计算力学中的因果状态。 |
| | | |
| 同时NIS方法与前面提到的G-emergence也有相似之处,例如,NIS同样采用了格兰杰因果的思想:通过预测下一个时间步的微观状态来优化有效的宏观状态。然而,这两个框架之间有几个明显的区别:a)在G-emergence理论中,宏观状态需要人工选择,然后NIS中是通过自动优化粗粒化策略来得到宏观状态;b)NIS使用神经网络来预测未来状态,而G-emergence使用自回归技术来拟合数据。 | | 同时NIS方法与前面提到的G-emergence也有相似之处,例如,NIS同样采用了格兰杰因果的思想:通过预测下一个时间步的微观状态来优化有效的宏观状态。然而,这两个框架之间有几个明显的区别:a)在G-emergence理论中,宏观状态需要人工选择,然后NIS中是通过自动优化粗粒化策略来得到宏观状态;b)NIS使用神经网络来预测未来状态,而G-emergence使用自回归技术来拟合数据。 |
第184行: |
第183行: |
| 设定<math>b=2 </math>,<math>c=4 </math>,<math>a\in\left \{ 0.37,0.43 \right \} </math>间隔为0.001,这里只是基于<math>x </math>的时间序列建立状态网络。OPN方法具体操作如下:输入时间序列<math>x=\left\{x_1, x_2, \ldots, x_n\right\} </math>,需要将输入嵌入到一个滞后时间为<math>\tau </math>的<math>D </math>维空间中,每一个表示为<math>v_i=\left\{x_i, x_{i+\tau},\ldots x_{i+(D-1) \tau}\right\} </math>的状态向量需要根据值进行降序排序重新编号为<math>s_i=\left\{\pi_1,\pi_2, \cdots \pi_D\right\} </math>, 其中,<math>\pi_j \cdot \in\{1,2, \ldots, D\} </math>,节点序列表示为<math>s=\left\{s_1, s_2, \ldots, s_{n-D+1}\right\} </math>,序列<math>s </math>中不重复的向量构成最终的状态图中的节点,节点<math>i </math>指向节点<math>j </math>的权重表示为<math>s </math>序列中状态<math>s_i </math>后面为状态<math>s_j </math>的次数。对边权进行归一化就可以得到节点间的状态转移概率,然后基于Hoel等人提出的网络的有效信息度量方法进行实验,比较系统的确定性、简并性、有效性等指标随着参数<math>a </math>的变化,如下图所示。 | | 设定<math>b=2 </math>,<math>c=4 </math>,<math>a\in\left \{ 0.37,0.43 \right \} </math>间隔为0.001,这里只是基于<math>x </math>的时间序列建立状态网络。OPN方法具体操作如下:输入时间序列<math>x=\left\{x_1, x_2, \ldots, x_n\right\} </math>,需要将输入嵌入到一个滞后时间为<math>\tau </math>的<math>D </math>维空间中,每一个表示为<math>v_i=\left\{x_i, x_{i+\tau},\ldots x_{i+(D-1) \tau}\right\} </math>的状态向量需要根据值进行降序排序重新编号为<math>s_i=\left\{\pi_1,\pi_2, \cdots \pi_D\right\} </math>, 其中,<math>\pi_j \cdot \in\{1,2, \ldots, D\} </math>,节点序列表示为<math>s=\left\{s_1, s_2, \ldots, s_{n-D+1}\right\} </math>,序列<math>s </math>中不重复的向量构成最终的状态图中的节点,节点<math>i </math>指向节点<math>j </math>的权重表示为<math>s </math>序列中状态<math>s_i </math>后面为状态<math>s_j </math>的次数。对边权进行归一化就可以得到节点间的状态转移概率,然后基于Hoel等人提出的网络的有效信息度量方法进行实验,比较系统的确定性、简并性、有效性等指标随着参数<math>a </math>的变化,如下图所示。 |
| [[文件:指标变化.png|边框|居中|627x627像素]] | | [[文件:指标变化.png|边框|居中|627x627像素]] |
− | 通过实验比较发现,随着参数的增大,确定性首先经历了短暂的上升,随后在第一次分叉后立即大幅下降,然后逐渐上升在周期加倍级联开始前达到局部峰值,过了该点,确定性急剧崩溃。一般来说,混沌动力学与较低水平的确定性呈相关关系。此外,简并性和有效信息的曲线变化和确定性曲线变化保持一致。然而,对于因果涌现曲线的变化没有什么有趣现象,它在一个相对恒定的值附近往复振荡,其中存在一个明显的例外,它在周期加倍级联开始时暴跌,如下图所示。
| + | 通过实验比较发现,随着参数<math>a </math>的增大,确定性首先经历了短暂的上升,随后在第一次分叉后立即大幅下降,然后逐渐上升在周期加倍级联开始前达到局部峰值,过了该点,确定性急剧崩溃。一般来说,混沌动力学与较低水平的确定性呈相关关系。此外,简并性和有效信息的曲线变化和确定性曲线变化保持一致。然而,对于因果涌现曲线的变化没有什么有趣现象,它在一个相对恒定的值附近往复振荡,其中存在一个明显的例外,它在周期加倍级联开始时暴跌,如下图所示。 |
| [[文件:恒定值.png|边框|居中|420x420像素|恒定值震荡]] | | [[文件:恒定值.png|边框|居中|420x420像素|恒定值震荡]] |
| Pavel Chvykov和Erik Hoel等<ref>P. Chvykov, E. Hoel, Causal geometry, Entropy 23 (1) (2020) 24.</ref>也将因果涌现框架扩展到连续系统,并且假设不确定性是添加到确定性函数中的干扰,研究人员推导出连续系统有效信息的近似形式来衡量因果涌现的发生。 | | Pavel Chvykov和Erik Hoel等<ref>P. Chvykov, E. Hoel, Causal geometry, Entropy 23 (1) (2020) 24.</ref>也将因果涌现框架扩展到连续系统,并且假设不确定性是添加到确定性函数中的干扰,研究人员推导出连续系统有效信息的近似形式来衡量因果涌现的发生。 |
第230行: |
第229行: |
| === 参考文献 === | | === 参考文献 === |
| <references /> | | <references /> |
| + | |
| + | === === |
| + | 此词条暂由王志鹏翻译,江森-JS和王志鹏整理和审校。 |
| + | |
| + | '''本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。''' |