第81行: |
第81行: |
| 其中<math>s_t-1 </math>和<math>s_t </math>分别表示<math>t-1 </math>和<math>t </math>时刻的系统状态,<math>I_D=do(S_(t-1)\sim U(I)) </math>,<math>E_D=S_t\ |do(S_(t-1)\sim U(I)) </math>,这里<math>do </math>操作表示对状态进行干预并且强行设定上一时刻的状态<math>s_t-1 </math>为均匀分布,这里<math>I </math>表示系统的状态空间,<math>U\left ( I \right ) </math>表示空间上的均匀分布。进行干预操作是为了使得有效信息能客观衡量动力学的因果特性而不受原始输入数据的分布影响。为了消除状态空间大小对有效信息的影响,使得比较不同的尺度下的有效信息是有意义的,作者定义了一个归一化指标有效系数来衡量动力学的因果性强弱,有效系数和有效信息有如下关系: | | 其中<math>s_t-1 </math>和<math>s_t </math>分别表示<math>t-1 </math>和<math>t </math>时刻的系统状态,<math>I_D=do(S_(t-1)\sim U(I)) </math>,<math>E_D=S_t\ |do(S_(t-1)\sim U(I)) </math>,这里<math>do </math>操作表示对状态进行干预并且强行设定上一时刻的状态<math>s_t-1 </math>为均匀分布,这里<math>I </math>表示系统的状态空间,<math>U\left ( I \right ) </math>表示空间上的均匀分布。进行干预操作是为了使得有效信息能客观衡量动力学的因果特性而不受原始输入数据的分布影响。为了消除状态空间大小对有效信息的影响,使得比较不同的尺度下的有效信息是有意义的,作者定义了一个归一化指标有效系数来衡量动力学的因果性强弱,有效系数和有效信息有如下关系: |
| | | |
− | <math>Eff(S)=EI(S)/(log_2\ n) </math> | + | <math>Eff(S)=\frac{EI(S)}{(log_2\ n)} </math> |
| | | |
| 其中<math>n </math>表示系统的状态个数,<math>Eff(S)\in[0,1] </math>。此外,有效系数可以进一步分解为确定性和简并性,<math>Eff\left(S\right)=\left \langle \text { 确定性 }\left ( s_0 \right )\right\rangle-\left \langle \text { 简并性 }\left ( s_0 \right )\right \rangle </math>,确定性和简并性的计算公式分别如下所示: | | 其中<math>n </math>表示系统的状态个数,<math>Eff(S)\in[0,1] </math>。此外,有效系数可以进一步分解为确定性和简并性,<math>Eff\left(S\right)=\left \langle \text { 确定性 }\left ( s_0 \right )\right\rangle-\left \langle \text { 简并性 }\left ( s_0 \right )\right \rangle </math>,确定性和简并性的计算公式分别如下所示: |
第100行: |
第100行: |
| 然而,PID框架只能分解关于多个原变量和一个目标变量之间的互信息,Rosas扩展了该框架,提出整合信息分解方法<math>\varphi ID </math><ref>P. A. Mediano, F. Rosas, R. L. Carhart-Harris, A. K. Seth, A. B. Barrett, Beyond integrated information: A taxonomy of information dynamics phenomena, arXiv preprint arXiv:1909.02297 (2019).</ref>来处理多个原变量和多个目标变量之间的互信息,可以用来分解不同时刻间的互信息,作者基于分解后的信息提出了两种因果涌现的定义方法: | | 然而,PID框架只能分解关于多个原变量和一个目标变量之间的互信息,Rosas扩展了该框架,提出整合信息分解方法<math>\varphi ID </math><ref>P. A. Mediano, F. Rosas, R. L. Carhart-Harris, A. K. Seth, A. B. Barrett, Beyond integrated information: A taxonomy of information dynamics phenomena, arXiv preprint arXiv:1909.02297 (2019).</ref>来处理多个原变量和多个目标变量之间的互信息,可以用来分解不同时刻间的互信息,作者基于分解后的信息提出了两种因果涌现的定义方法: |
| | | |
− | 1)当特有信息<math>Un(V_t;X_(t+1)\vbar X_t^1,\ldots,X_t^n\ )>0 </math>,表示当前时刻的宏观态<math>V-t </math>能超过当前时刻的微观态<math>X_t </math>给下一时刻的整体系统<math>X_t+1 </math>再多提供一些信息,存在因果涌现; | + | 1)当特有信息<math>Un(V_t;X_(t+1)| X_t^1,\ldots,X_t^n\ )>0 </math>,表示当前时刻的宏观态<math>V-t </math>能超过当前时刻的微观态<math>X_t </math>给下一时刻的整体系统<math>X_t+1 </math>再多提供一些信息,存在因果涌现; |
| | | |
− | 2)绕开了选择特定的宏观态<math>V_t </math>,仅仅基于系统当前时刻的微观态<math>X_t </math>和下一时刻的微观态<math>X_t+1 </math>之间的协同信息定义因果涌现,当协同信息<math>Syn(X_t^1,…,X_t^n;X_(t+1)^1,…,X_(t+1)^n )>0 </math>,系统发生了因果涌现。其中<math>Un(V_t;X_(t+1)\vbar X_t\ )\le Syn(X_t;X_(t+1)\ ) </math>衡成立。 | + | 2)绕开了选择特定的宏观态<math>V_t </math>,仅仅基于系统当前时刻的微观态<math>X_t </math>和下一时刻的微观态<math>X_t+1 </math>之间的协同信息定义因果涌现,当协同信息<math>Syn(X_t^1,…,X_t^n;X_(t+1)^1,…,X_(t+1)^n )>0 </math>,系统发生了因果涌现。其中<math>Un(V_t;X_(t+1)| X_t\ )\le Syn(X_t;X_(t+1)\ ) </math>衡成立。 |
| | | |
| 值得注意的是,对于方法一判断因果涌现的发生需要依赖宏观态的选择,然而的选择又是很困难的,因此该方法不可行。一种自然的想法就是使用第二种方法借助协同信息来判断因果涌现的发生,但是由于冗余信息存在计算的问题,而协同信息的计算又依赖冗余信息。因此,第二种方法基于协同信息的计算往往也是不可行的。总之,这两种因果涌现的定量刻画方法都存在一些缺点,因此,更加合理的量化方法有待提出。 | | 值得注意的是,对于方法一判断因果涌现的发生需要依赖宏观态的选择,然而的选择又是很困难的,因此该方法不可行。一种自然的想法就是使用第二种方法借助协同信息来判断因果涌现的发生,但是由于冗余信息存在计算的问题,而协同信息的计算又依赖冗余信息。因此,第二种方法基于协同信息的计算往往也是不可行的。总之,这两种因果涌现的定量刻画方法都存在一些缺点,因此,更加合理的量化方法有待提出。 |
第141行: |
第141行: |
| 具体来说,模型输入是微观状态<math>X_t\ (X_t^1,X_t^2,…,X_t^p ) </math>,<math>p </math>表示输入数据的维数,输出预测下一个时刻的微观状态<math>\hat{X}_{t+1}\left(\hat{X}_{t+1}^1, \hat{X}_{t+1}^2, \ldots, \hat{X}_{t+1}^p\right) </math>,该方法的目标函数是希望保证微观状态预测误差很小的条件下最大化有效信息,在保证预测误差约束足够小的情况下,NIS方法可以避免trivial解的出现。具体计算公式如下所示: | | 具体来说,模型输入是微观状态<math>X_t\ (X_t^1,X_t^2,…,X_t^p ) </math>,<math>p </math>表示输入数据的维数,输出预测下一个时刻的微观状态<math>\hat{X}_{t+1}\left(\hat{X}_{t+1}^1, \hat{X}_{t+1}^2, \ldots, \hat{X}_{t+1}^p\right) </math>,该方法的目标函数是希望保证微观状态预测误差很小的条件下最大化有效信息,在保证预测误差约束足够小的情况下,NIS方法可以避免trivial解的出现。具体计算公式如下所示: |
| | | |
− | <math>\mathop{max}\limits_{\Phi_q,\hat{f}_{\Phi_q},\Phi_q^\dag,q}EI(f_{\Phi_q})\ \ \ \ s.t.‖Φ_q^† (Y(t+1))-X_{t+1} ‖<ϵ </math> | + | <math>\max _{\Phi_q, \hat{f}_q, \Phi_q^{\dagger}, q} E I\left(f_{\Phi_q}\right) \quad \text { s.t. }\left\|\Phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math> |
| | | |
− | 最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\Phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\Phi}_q} </math>,然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段,第一个阶段表示在给定宏观尺度<math>q </math>的情况下<math>\mathop{min}\limits_{\Phi_q,\hat{f}_{\Phi_q},\Phi_q^\dag}‖Φ_q^† (Y(t+1))-X_{t+1} ‖<ϵ </math>,第二阶段将复杂的函数优化问题转换成线性搜索不同的<math>q </math>,使得找到有效信息最大的宏观尺度<math>\mathop{max}\limits_{q}EI(\hat{f}_{\Phi_q}^\ast) </math> 。 | + | 最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\Phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\Phi}_q} </math>,然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段,第一个阶段表示在给定宏观尺度<math>q </math>的情况下<math>\min _{\Phi_q, \hat{f}_q, \Phi_q^{\dagger}}\left\|\Phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>,第二阶段将复杂的函数优化问题转换成线性搜索不同的<math>q </math>,使得找到有效信息最大的宏观尺度<math>\mathop{max}\limits_{q}EI(\hat{f}_{\Phi_q}^\ast) </math> 。 |
| | | |
| 除了能基于时序数据自动识别因果涌现,该框架还有很好的理论证明,其中有两个重要定理,定理一:神经信息挤压器的信息瓶颈,即对于任意的双射<math>\mathrm{\Psi}_\alpha </math>、投影<math>\chi_q </math>、宏观动力学<math>f </math>以及高斯噪音<math>z_{p-q}\simΝ0Ιp-q </math>,<math>I\left(Y_t;Y_{t+1}\right)=I\left(X_t;{\hat{X}}_{t+1}\right) </math>恒成立,这意味着,编码器丢弃的所有信息实际上都是与预测无关的纯粹噪声;定理二:对于一个训练好的模型,<math>I\left(X_t;{\hat{X}}_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。因此,综合定理一和定理二,可以得到对于一个训练好的模型<math>I\left(Y_t;Y_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。 | | 除了能基于时序数据自动识别因果涌现,该框架还有很好的理论证明,其中有两个重要定理,定理一:神经信息挤压器的信息瓶颈,即对于任意的双射<math>\mathrm{\Psi}_\alpha </math>、投影<math>\chi_q </math>、宏观动力学<math>f </math>以及高斯噪音<math>z_{p-q}\simΝ0Ιp-q </math>,<math>I\left(Y_t;Y_{t+1}\right)=I\left(X_t;{\hat{X}}_{t+1}\right) </math>恒成立,这意味着,编码器丢弃的所有信息实际上都是与预测无关的纯粹噪声;定理二:对于一个训练好的模型,<math>I\left(X_t;{\hat{X}}_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。因此,综合定理一和定理二,可以得到对于一个训练好的模型<math>I\left(Y_t;Y_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。 |
| | | |
− | 该工作的一个重要优点就是该框架能同时处理离散和连续动力学系统,通过将神经网络看作是给定输入条件下的高斯分布<math>p\left(Y\vbar X\right) </math>,可以定义新的有效信息计算公式,公式如下所示: | + | 该工作的一个重要优点就是该框架能同时处理离散和连续动力学系统,通过将神经网络看作是给定输入条件下的高斯分布<math>p\left(Y| X\right) </math>,可以定义新的有效信息计算公式,公式如下所示: |
| | | |
| <math>EI_L\left(f\right)=IdoX∼U-LLn;Y≈-n+nln2π+i=1nσi22+nln2L+ΕX∼U-LLnln|det∂X'fX|) </math> | | <math>EI_L\left(f\right)=IdoX∼U-LLn;Y≈-n+nln2π+i=1nσi22+nln2L+ΕX∼U-LLnln|det∂X'fX|) </math> |
第169行: |
第169行: |
| | | |
| ====时域空间上的因果涌现==== | | ====时域空间上的因果涌现==== |
− | 除了对空间进行粗粒化,还可以对时间进行粗粒化如下图所示,考虑两阶马尔可夫动力学,输入为两个时刻<math>t-2 </math>和<math>t-1 </math>的状态,输出为<math>t </math>和<math>t+1 </math>的状态,可以通过<math>EI </math>计算二阶微观动力学的有效信息为<math>1.38bits </math>,然后通过对时间状态分组,令<math>\alpha=AtAt+1 </math>,<math>\beta=BtBt+1 </math>, 同时采用与离散布尔函数相同的映射函数,可以得到完全确定且非简并的宏观动力学系统,其有效信息为<math>2bits </math>,同样实现“宏观打败微观”的效果。 | + | 除了对空间进行粗粒化,还可以对时间进行粗粒化如下图所示,考虑两阶马尔可夫动力学,输入为两个时刻<math>t-2 </math>和<math>t-1 </math>的状态,输出为<math>t </math>和<math>t+1 </math>的状态,可以通过<math>EI </math>计算二阶微观动力学的有效信息为<math>1.38bits </math>,然后通过对时间状态分组,令<math>\alpha=\left \{ A_t,A_{t+1} \right \} </math>,<math>\beta=\left \{ B_t,B_{t+1} \right \} </math>, 同时采用与离散布尔函数相同的映射函数,可以得到完全确定且非简并的宏观动力学系统,其有效信息为<math>2bits </math>,同样实现“宏观打败微观”的效果。 |
| [[文件:时间粗粒化.png|边框|居中|382x382像素|时间粗粒化]] | | [[文件:时间粗粒化.png|边框|居中|382x382像素|时间粗粒化]] |
| | | |
第181行: |
第181行: |
| <math>\frac{d z}{d t}=b+z(x-c) </math> | | <math>\frac{d z}{d t}=b+z(x-c) </math> |
| | | |
− | 设定<math>b=2 </math>,<math>c=4 </math>,<math>a\in0.370.43 </math>间隔为0.001,这里只是基于<math>x </math>的时间序列建立状态网络。OPN方法具体操作如下:输入时间序列<math>x=\left\{x_1, x_2, \ldots, x_n\right\} </math>,需要将输入嵌入到一个滞后时间为<math>\tau </math>的<math>D </math>维空间中,每一个表示为<math>v_i=\left\{x_{i^{\prime}} x_{i+\tau^{\prime}} \ldots \cdot x_{i+(D-1) \tau}\right\} </math>的状态向量需要根据值进行降序排序重新编号为<math>s_i=\left\{\pi^{\prime}{ }^{\prime}{ }^{\prime} \pi^{\prime} 2^{\prime} \cdots^{\prime} \pi^{\prime} D\right\} </math>, 其中,<math>\pi_j \cdot \in\{1,2, \ldots, D\} </math>,节点序列表示为<math>s=\left\{s_1, s_2, \ldots, s_{n-D+1}\right\} </math>,序列<math>s </math>中不重复的向量构成最终的状态图中的节点,节点<math>i </math>指向节点<math>j </math>的权重表示为<math>s </math>序列中状态<math>s_i </math>后面为状态<math>s_j </math>的次数。对边权进行归一化就可以得到节点间的状态转移概率,然后基于Hoel等人提出的网络的有效信息度量方法进行实验,比较系统的确定性、简并性、有效性等指标随着参数<math>a </math>的变化,如下图所示。 | + | 设定<math>b=2 </math>,<math>c=4 </math>,<math>a\in\left \{ 0.37,0.43 \right \} </math>间隔为0.001,这里只是基于<math>x </math>的时间序列建立状态网络。OPN方法具体操作如下:输入时间序列<math>x=\left\{x_1, x_2, \ldots, x_n\right\} </math>,需要将输入嵌入到一个滞后时间为<math>\tau </math>的<math>D </math>维空间中,每一个表示为<math>v_i=\left\{x_i, x_{i+\tau},\ldots x_{i+(D-1) \tau}\right\} </math>的状态向量需要根据值进行降序排序重新编号为<math>s_i=\left\{\pi_1,\pi_2, \cdots \pi_D\right\} </math>, 其中,<math>\pi_j \cdot \in\{1,2, \ldots, D\} </math>,节点序列表示为<math>s=\left\{s_1, s_2, \ldots, s_{n-D+1}\right\} </math>,序列<math>s </math>中不重复的向量构成最终的状态图中的节点,节点<math>i </math>指向节点<math>j </math>的权重表示为<math>s </math>序列中状态<math>s_i </math>后面为状态<math>s_j </math>的次数。对边权进行归一化就可以得到节点间的状态转移概率,然后基于Hoel等人提出的网络的有效信息度量方法进行实验,比较系统的确定性、简并性、有效性等指标随着参数<math>a </math>的变化,如下图所示。 |
| [[文件:指标变化.png|边框|居中|627x627像素]] | | [[文件:指标变化.png|边框|居中|627x627像素]] |
| 通过实验比较发现,随着参数的增大,确定性首先经历了短暂的上升,随后在第一次分叉后立即大幅下降,然后逐渐上升在周期加倍级联开始前达到局部峰值,过了该点,确定性急剧崩溃。一般来说,混沌动力学与较低水平的确定性呈相关关系。此外,简并性和有效信息的曲线变化和确定性曲线变化保持一致。然而,对于因果涌现曲线的变化没有什么有趣现象,它在一个相对恒定的值附近往复振荡,其中存在一个明显的例外,它在周期加倍级联开始时暴跌,如下图所示。 | | 通过实验比较发现,随着参数的增大,确定性首先经历了短暂的上升,随后在第一次分叉后立即大幅下降,然后逐渐上升在周期加倍级联开始前达到局部峰值,过了该点,确定性急剧崩溃。一般来说,混沌动力学与较低水平的确定性呈相关关系。此外,简并性和有效信息的曲线变化和确定性曲线变化保持一致。然而,对于因果涌现曲线的变化没有什么有趣现象,它在一个相对恒定的值附近往复振荡,其中存在一个明显的例外,它在周期加倍级联开始时暴跌,如下图所示。 |