更改

添加321字节 、 2024年8月2日 (星期五)
无编辑摘要
第45行: 第45行:  
[[张江]]等<ref>Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref>学者尝试基于神经网络和数据驱动提出了一种方法,能从时间序列数据中识别系统中的因果涌现,并且自动提取有效的粗粒化策略和宏观动力学,即[[NIS|神经信息压缩器]](Neural Information Squeezer,简称[[NIS]])。
 
[[张江]]等<ref>Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref>学者尝试基于神经网络和数据驱动提出了一种方法,能从时间序列数据中识别系统中的因果涌现,并且自动提取有效的粗粒化策略和宏观动力学,即[[NIS|神经信息压缩器]](Neural Information Squeezer,简称[[NIS]])。
   −
模型由编码器(encoder)、动力学学习器(<math>f </math>)以及解码器(decoder)三个部分构成,编码器和解码器主要由[[可逆神经网络]](Invertible Neural Network,简称INN)<ref>Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>构建,动力学学习器由多层感知机(Multilayer Perceptron,简称MLP)构建。此模型框架可以看成是一个[[NIS|神经信息压缩器]],将包含噪音的微观态压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强。[[NIS]]方法的模型框架如右图所示。
+
模型由编码器(encoder)、动力学学习器(<math>f </math>)以及解码器(decoder)三个部分构成,编码器和解码器主要由[[可逆神经网络]](Invertible Neural Network,简称INN)<ref>Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.</ref>构建,动力学学习器由多层感知机(Multilayer Perceptron,简称MLP)构建。此模型框架可以看成是一个[[NIS|神经信息压缩器]],将包含噪音的微观态压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强。[[NIS]]方法的模型框架如右图所示。
 
[[文件:NISImage.png|边框|右|无框]]
 
[[文件:NISImage.png|边框|右|无框]]
 
图中,模型输入是微观状态<math>X_t\ (X_t^1,X_t^2,…,X_t^p ) </math>,<math>p </math>表示输入数据的维数。<math>ϕ </math>是粗粒化函数(编码器),将输入的<math>p </math>维数据映射到<math>q </math>维数据上,得到宏观变量<math>Y_t </math>,此步丢失<math>p-q </math>维信息。<math>f </math>是动力学学习器,在宏观层面上学习有效的马尔可夫动力学。<math>\hat{y}_{t+1} </math>是预测的t+1时刻的宏观状态。由于此时数据是<math>q </math>维的,为了使用反粗粒化函数<math>ϕ^† </math>(解码器),需要用<math>p-q </math>维高斯随机向量填充数据。宏观变量经过反粗粒化函数之后可以得到预测的微观变量<math>\hat{x}_{t+1} </math>。而<math>x_t+1 </math>和<math>\hat{x}_{t+1} </math>之间的差值即为损失。
 
图中,模型输入是微观状态<math>X_t\ (X_t^1,X_t^2,…,X_t^p ) </math>,<math>p </math>表示输入数据的维数。<math>ϕ </math>是粗粒化函数(编码器),将输入的<math>p </math>维数据映射到<math>q </math>维数据上,得到宏观变量<math>Y_t </math>,此步丢失<math>p-q </math>维信息。<math>f </math>是动力学学习器,在宏观层面上学习有效的马尔可夫动力学。<math>\hat{y}_{t+1} </math>是预测的t+1时刻的宏观状态。由于此时数据是<math>q </math>维的,为了使用反粗粒化函数<math>ϕ^† </math>(解码器),需要用<math>p-q </math>维高斯随机向量填充数据。宏观变量经过反粗粒化函数之后可以得到预测的微观变量<math>\hat{x}_{t+1} </math>。而<math>x_t+1 </math>和<math>\hat{x}_{t+1} </math>之间的差值即为损失。
第72行: 第72行:     
假设复杂动态系统的行为数据是时间序列 <math>\{x_t\}</math>,时间步长<math>t = 1,2,…, T</math>,维数是p,它们构成了可观测的微观状态,我们假设不存在未观测变量。一个粗粒化策略(编码器) <math>ϕ: R_p → R_q</math> ,其中 <math>q ≤ p</math>, <math>q </math>是宏观状态的维度,作为超参数给定;一个相应的反粗粒化策略(解码器)<math>ϕ^\dagger: R_q → R_p</math>,以及一个宏观层面的马尔可夫动力学(动力学学习器)<math>f_q</math> ,使得<math>f_q</math>的有效信息(<math>\mathcal{J}</math>)值在通过<math>ϕ</math>、<math>f_q</math>和<math>ϕ^\dagger</math>预测出的<math>x_{t+1}</math>与<math>x_{t+1}</math>的实际数据的差距最小的约束下最大化。<math>\epsilon</math>是给定的常数。它们的关系用方程表示为:
 
假设复杂动态系统的行为数据是时间序列 <math>\{x_t\}</math>,时间步长<math>t = 1,2,…, T</math>,维数是p,它们构成了可观测的微观状态,我们假设不存在未观测变量。一个粗粒化策略(编码器) <math>ϕ: R_p → R_q</math> ,其中 <math>q ≤ p</math>, <math>q </math>是宏观状态的维度,作为超参数给定;一个相应的反粗粒化策略(解码器)<math>ϕ^\dagger: R_q → R_p</math>,以及一个宏观层面的马尔可夫动力学(动力学学习器)<math>f_q</math> ,使得<math>f_q</math>的有效信息(<math>\mathcal{J}</math>)值在通过<math>ϕ</math>、<math>f_q</math>和<math>ϕ^\dagger</math>预测出的<math>x_{t+1}</math>与<math>x_{t+1}</math>的实际数据的差距最小的约束下最大化。<math>\epsilon</math>是给定的常数。它们的关系用方程表示为:
 +
 +
{{NumBlk|:|2=<nowiki>[math]\displaystyle{ \begin{aligned}&\max_{\phi,f_{q},\phi^{+}}\mathcal{J}(f_{q}),\\&s.t.\begin{cases}\parallel\hat{x}_{t+1}-x_{t+1}\parallel\lt \epsilon,\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right).\end{cases}\end{aligned} }[/math]</nowiki>|3={{EquationRef|1}}}}
 +
 +
 +
 +
    
<math>\begin{aligned}&\max_{\phi,f_{q},\phi^{+}}\mathcal{J}(f_{q}),\\&s.t.\begin{cases}\parallel\hat{x}_{t+1}-x_{t+1}\parallel<\epsilon,\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right).\end{cases}\end{aligned}</math>
 
<math>\begin{aligned}&\max_{\phi,f_{q},\phi^{+}}\mathcal{J}(f_{q}),\\&s.t.\begin{cases}\parallel\hat{x}_{t+1}-x_{t+1}\parallel<\epsilon,\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right).\end{cases}\end{aligned}</math>
第101行: 第107行:  
第二个阶段:由于参数 <math>q</math> 是一维的,且 <math>0 < q < p</math>,简单迭代找到有效信息最大的宏观尺度。此步将复杂的泛函问题转化成一维空间中线性搜索问题。
 
第二个阶段:由于参数 <math>q</math> 是一维的,且 <math>0 < q < p</math>,简单迭代找到有效信息最大的宏观尺度。此步将复杂的泛函问题转化成一维空间中线性搜索问题。
    +
具体请阅读词条[[NIS]]。
 +
 +
== 神经网络上的EI计算 ==
 
通过此框架求的EI与容易受到微观维度p和宏观维度q的影响:
 
通过此框架求的EI与容易受到微观维度p和宏观维度q的影响:
   第108行: 第117行:     
所以,作者将EI与维度q的比值定义为平均维度EI,将宏观平均维度EI与微观平均维度EI的差定义为平均维度因果涌现。这样从数据中识别因果涌现的结果只受到雅可比矩阵的方差的相对值和行列式的对数值的影响。
 
所以,作者将EI与维度q的比值定义为平均维度EI,将宏观平均维度EI与微观平均维度EI的差定义为平均维度因果涌现。这样从数据中识别因果涌现的结果只受到雅可比矩阵的方差的相对值和行列式的对数值的影响。
  −
具体请阅读词条[[NIS]]。
      
== NIS的缺陷 ==
 
== NIS的缺陷 ==
259

个编辑