更改

NIS+ (查看源代码)

2024年9月1日 (日) 09:26的版本

添加196字节、 2024年9月1日 (星期日)

第48行：第48行：

[[张江]]等<ref name=":1">Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref>学者尝试基于神经网络和数据驱动提出了一种方法，能从时间序列数据中识别系统中的因果涌现，并且自动提取有效的粗粒化策略和宏观动力学，即[[NIS|神经信息压缩器]]（Neural Information Squeezer，简称[[NIS]]）。

−

模型由编码器（encoder）、动力学学习器（<math>f </math>）以及解码器（decoder）三个部分构成，编码器和解码器主要由[[可逆神经网络]]（Invertible Neural Network，简称INN）<ref>Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.</ref>构建，动力学学习器由多层感知机（Multilayer Perceptron，简称MLP）构建。此模型框架可以看成是一个[[NIS|神经信息压缩器]]，将包含噪音的微观态压缩成宏观态，丢弃无用的信息，从而使得宏观动力学的因果性更强。[[NIS]]~~方法的模型框架如右图所示。~~

+

模型由编码器（encoder）、动力学学习器（<math>f </math>）以及解码器（decoder）三个部分构成，编码器和解码器主要由[[可逆神经网络]]（Invertible Neural Network，简称INN）<ref>Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.</ref>构建，动力学学习器由多层感知机（Multilayer Perceptron，简称MLP）构建。此模型框架可以看成是一个[[NIS|神经信息压缩器]]，将包含噪音的微观态压缩成宏观态，丢弃无用的信息，从而使得宏观动力学的因果性更强。[[NIS]]方法的模型框架如左图所示。

−

图中，模型输入是微观状态<math>X_t\ (X_t^1,X_t^2,…,X_t^p ) </math>，<math>p </math>表示输入数据的维数。<math>ϕ </math>是粗粒化函数（编码器），将输入的<math>p </math>维数据映射到<math>q </math>维数据上，得到宏观变量<math>Y_t </math>~~，此步丢失~~<math>p-q </math>~~维信息。~~<math>f </math>是动力学学习器，在宏观层面上学习有效的马尔可夫动力学。<math>\hat{y}_{t+1} </math>~~是预测的t~~+1时刻的宏观状态。由于此时数据是<math>q </math>维的，为了使用反粗粒化函数<math>ϕ^† </math>（解码器），需要用<math>p-q </math>~~维高斯随机向量填充数据。宏观变量经过反粗粒化函数之后可以得到预测的微观变量~~<math>\hat{x}_{t+1} </math>。而<math>x_t+1 </math>和<math>\hat{x}_{t+1} </math>~~之间的差值即为损失。~~

+

图中，模型输入是微观状态<math>X_t\ (X_t^1,X_t^2,…,X_t^p ) </math>，<math>p </math>表示输入数据的维数。<math>ϕ </math>是粗粒化函数（编码器），将输入的<math>p </math>维数据映射到<math>q </math>维数据上，得到宏观变量<math>Y_t </math>，此步还包括了通过投影算子抛弃<math>p-q </math>维信息的操作。<math>f </math>是动力学学习器，在宏观层面上学习有效的马尔可夫动力学。<math>\hat{y}_{t+1} </math>是通过[math]f[/math]预测的t+1时刻的宏观状态。由于此时数据是<math>q </math>维的，为了使用反粗粒化函数<math>ϕ^† </math>（解码器），需要用<math>p-q </math>维高斯随机向量填充维度不足的数据。宏观变量经过反粗粒化函数之后可以得到预测的微观变量<math>\hat{x}_{t+1} </math>。而<math>x_t+1 </math>和<math>\hat{x}_{t+1} </math>之间的差值即为预测损失评估值，可以用来训练整个网络架构。

−

该方法的目标函数是希望在保证微观状态预测误差很小的条件下最大化有效信息，保证预测误差约束足够小是为了避免平凡解（粗粒化丢失太多信息，以致宏观动力学无效）的出现。最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\phi}_q} </math>。

+

该方法的目标函数是希望在保证微观状态预测误差很小的条件下最大化有效信息，保证预测误差约束足够小是为了避免平凡解（粗粒化丢失太多信息，以致宏观动力学无效）的出现。NIS最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\phi}_q} </math>。

−

~~具体内容请参考[[NIS]]~~。

+

然而，NIS框架并没有实现真正的有效信息最大化。具体内容请参考[[NIS]]。

== 机器学习领域的分布外泛化问题 ==

Jake

786

个编辑

更改

NIS+ (查看源代码)

2024年9月1日 (日) 09:26的版本

导航菜单

搜索