更改

NIS (查看源代码)

2024年5月29日 (三) 14:43的版本

添加82字节、 2024年5月29日 (星期三)

小

添加公式编号

第33行：第33行：

===动力学的定义===

−

假设讨论的复杂系统动力学可由如下微分方程组描述：<blockquote><math>\frac{d{\mathbf{x}}}{dt} = g(\mathbf{x}(t),ξ) \~~tag{~~1} </math></blockquote>其中<math>\mathbf{x}(t) ∈ \mathcal{R}^p</math> 是系统的状态，<math>p ∈ \mathcal{Z}</math> 是一正整数，<math>ξ</math> 是高斯随机噪声。

+

假设讨论的复杂系统动力学可由如下微分方程组描述：<blockquote><math>\frac{d{\mathbf{x}}}{dt} = g(\mathbf{x}(t),ξ) \qquad (1)

+

</math></blockquote>其中<math>\mathbf{x}(t) ∈ \mathcal{R}^p</math> 是系统的状态，<math>p ∈ \mathcal{Z}</math> 是一正整数，<math>ξ</math> 是高斯随机噪声。

通常，微观动力学 <math>g</math> 总是马尔可夫的，可以等效地建模为条件概率 <math>Pr(\mathbf{x}(t + dt)|\mathbf{x}(t))</math> 。根据该概率可求得系统状态的离散样本，这些状态即为微观状态。

第48行：第49行：

*'''宏观动力学'''

−

对于给定的宏观状态时间序列 <math>\mathbf{y}_1，\mathbf{y}_2,···,\mathbf{y}_T</math> ，宏观状态动力学是一组微分方程<blockquote><math>\frac{d\mathbf{y}}{dt} = \hat{f}_{\phi_q}(\mathbf{y}, ξ'), \~~tag{~~2}</math></blockquote>其中<math>\mathbf{y} ∈ \mathcal{R}^q</math> , <math>ξ' ∈ \mathcal{R}^q</math> 是宏观状态动力学中的高斯噪声，<math>\hat{f}_{\phi_q}</math> 是连续微分函数，可最小化方程 (2) 在任何给定的时间步长 <math>t ∈ [1,T]</math> 和给定的向量形式<math>\Vert \cdot \Vert</math> 下的解 <math>\mathbf{y}(t)</math> ：<blockquote><math>\langle \Vert \mathbf{y}_t-\mathbf{y}(t)\Vert \rangle_{ξ'} \~~tag{~~3}</math></blockquote>此公式不能排除一些琐碎的策略。例如，假设对于 <math>∀ \mathbf{y}_t ∈ \mathcal{R}^p</math> , <math>q = 1</math> 维的 <math>\phi_q</math> 定义为 <math>\phi_q(\mathbf{x}_t) = 1</math> 。因此，相应的宏观动力学只是 <math>d\mathbf{y}/dt = 0</math> 和 <math>\mathbf{y}(0) = 1</math>。由于宏观状态动力学是琐碎的，粗粒化映射过于随意，此方程无意义。因此，必须对粗粒化策略和宏观动力学设置限制以避免琐碎的策略和动力学。

+

对于给定的宏观状态时间序列 <math>\mathbf{y}_1，\mathbf{y}_2,···,\mathbf{y}_T</math> ，宏观状态动力学是一组微分方程<blockquote><math>\frac{d\mathbf{y}}{dt} = \hat{f}_{\phi_q}(\mathbf{y}, ξ') \qquad (2)</math></blockquote>其中<math>\mathbf{y} ∈ \mathcal{R}^q</math> , <math>ξ' ∈ \mathcal{R}^q</math> 是宏观状态动力学中的高斯噪声，<math>\hat{f}_{\phi_q}</math> 是连续微分函数，可最小化方程 (2) 在任何给定的时间步长 <math>t ∈ [1,T]</math> 和给定的向量形式<math>\Vert \cdot \Vert</math> 下的解 <math>\mathbf{y}(t)</math> ：<blockquote><math>\langle \Vert \mathbf{y}_t-\mathbf{y}(t)\Vert \rangle_{ξ'} \qquad (3)</math></blockquote>此公式不能排除一些琐碎的策略。例如，假设对于 <math>∀ \mathbf{y}_t ∈ \mathcal{R}^p</math> , <math>q = 1</math> 维的 <math>\phi_q</math> 定义为 <math>\phi_q(\mathbf{x}_t) = 1</math> 。因此，相应的宏观动力学只是 <math>d\mathbf{y}/dt = 0</math> 和 <math>\mathbf{y}(0) = 1</math>。由于宏观状态动力学是琐碎的，粗粒化映射过于随意，此方程无意义。因此，必须对粗粒化策略和宏观动力学设置限制以避免琐碎的策略和动力学。

==有效粗粒化策略和宏观动力学==

第54行：第55行：

*'''<math>\epsilon</math>-effective q粗粒化策略与宏观动力学'''

−

如果存在一个函数<math>\phi_q^† :\mathcal{R}^q \rightarrow \mathcal{R}^p</math>，使得对于给定的小实数<math>\varepsilon</math>和给定的向量范数<math>\Vert \cdot \Vert</math>，以下不等式成立，则 <math>q</math> 粗粒化策略<math>\phi_q :\mathcal{R}^p \rightarrow \mathcal{R}^q</math>是<math>\epsilon</math>-effective的（或缩写为有效）：<blockquote><math>\Vert \phi_q^† ( \mathbf{y}(t) - \mathbf{x}_t \Vert < \epsilon , \~~tag{~~4}</math></blockquote>同时，导出的宏观动力学<math>\hat{f}_{\phi_q}</math>也有效（其中<math>\mathbf{y}(t)</math> 是式2的解）。即对于所有<math>t = 1,2,···, T</math>：<blockquote><math>\mathbf{y}(t)=\phi_q (\mathbf{x}_{t-1}) + \int_{t-1}^t \hat{f}_{\phi_q}(\mathbf{y}(\tau), \xi') d\tau \~~tag{~~5}</math></blockquote>可以通过<math>\phi_q^†</math>重构微观状态时间序列，使得宏观状态变量尽可能多地包含微观状态的信息。

+

如果存在一个函数<math>\phi_q^† :\mathcal{R}^q \rightarrow \mathcal{R}^p</math>，使得对于给定的小实数<math>\varepsilon</math>和给定的向量范数<math>\Vert \cdot \Vert</math>，以下不等式成立，则 <math>q</math> 粗粒化策略<math>\phi_q :\mathcal{R}^p \rightarrow \mathcal{R}^q</math>是<math>\epsilon</math>-effective的（或缩写为有效）：<blockquote><math>\Vert \phi_q^† ( \mathbf{y}(t) - \mathbf{x}_t \Vert < \epsilon , \qquad (4)</math></blockquote>同时，导出的宏观动力学<math>\hat{f}_{\phi_q}</math>也有效（其中<math>\mathbf{y}(t)</math> 是式2的解）。即对于所有<math>t = 1,2,···, T</math>：<blockquote><math>\mathbf{y}(t)=\phi_q (\mathbf{x}_{t-1}) + \int_{t-1}^t \hat{f}_{\phi_q}(\mathbf{y}(\tau), \xi') d\tau \qquad (5)</math></blockquote>可以通过<math>\phi_q^†</math>重构微观状态时间序列，使得宏观状态变量尽可能多地包含微观状态的信息。

此定义符合近似因果模型抽象。

第61行：第62行：

*'''最大化系统动力学的有效信息'''

若要寻找一个最具信息量的宏观动力学，则需在所有可能的有效策略和动力学中优化粗粒化策略和宏观动力学。

−

因此，粗粒化策略优化问题可以表述为：在约束方程4和5下，<blockquote><math>\max_{\phi_q,\hat{f}_{\phi_q},\phi_q^†,q} \mathcal{I}(\hat{f}_{\phi_q}), \~~tag{~~6}</math></blockquote>其中<math>\mathcal{I}</math>是有效信息的度量（可以是EI、Eff 或NIS主要使用的维度平均 EI。维度平均EI表示为 dEI，将于第 3.3.3 节中解析）。<math>\phi_q</math> 是一种有效的粗粒化策略，<math>\hat{f}_{\phi_q}</math>是一种有效的宏观动力学。

+

因此，粗粒化策略优化问题可以表述为：在约束方程4和5下，<blockquote><math>\max_{\phi_q,\hat{f}_{\phi_q},\phi_q^†,q} \mathcal{I}(\hat{f}_{\phi_q}), \qquad (6)</math></blockquote>其中<math>\mathcal{I}</math>是有效信息的度量（可以是EI、Eff 或NIS主要使用的维度平均 EI。维度平均EI表示为 dEI，将于第 3.3.3 节中解析）。<math>\phi_q</math> 是一种有效的粗粒化策略，<math>\hat{f}_{\phi_q}</math>是一种有效的宏观动力学。

该定义与近似因果模型摘要一致<ref>Beckers, S.; Eberhardt, F.; Halpern, J.Y. Approximate Causal Abstraction. arXiv 2019, arXiv:1906.11583v2.</ref>。

第74行：第75行：

==编码器==

*'''投影操作'''

−

投影算子<math>\chi_{p,q}</math> 是一个从<math>\mathcal{R}^p</math> 到 <math>\mathcal{R}^q</math>的函数，表达为<blockquote><math>\chi_{p,q}(\mathbf{x}_q \bigoplus \mathbf{x}_{p-q}) = \mathbf{x}_q, \~~tag{~~7}</math></blockquote>其中<math>\bigoplus</math> 是向量串联算符，<math>\chi_q \in \mathcal{R}^q , \chi_{p-q} \in \mathcal{R}^{p-q}</math>。若无歧义则<math>\chi_p,q</math>可简写为<math>\chi_q</math>. 这样，编码器<math>(\phi)</math>将微观状态<math>\mathbf{x}_t</math>映射到宏观状态<math>\mathbf{y}_t</math>，分为两个步骤：<blockquote><math>\phi_q=\chi_q \circ \psi_\alpha \~~tag{~~8}</math></blockquote>其中<math>\circ</math>表示函数组合运算。

+

投影算子<math>\chi_{p,q}</math> 是一个从<math>\mathcal{R}^p</math> 到 <math>\mathcal{R}^q</math>的函数，表达为<blockquote><math>\chi_{p,q}(\mathbf{x}_q \bigoplus \mathbf{x}_{p-q}) = \mathbf{x}_q, \qquad (7)</math></blockquote>其中<math>\bigoplus</math> 是向量串联算符，<math>\chi_q \in \mathcal{R}^q , \chi_{p-q} \in \mathcal{R}^{p-q}</math>。若无歧义则<math>\chi_p,q</math>可简写为<math>\chi_q</math>. 这样，编码器<math>(\phi)</math>将微观状态<math>\mathbf{x}_t</math>映射到宏观状态<math>\mathbf{y}_t</math>，分为两个步骤：<blockquote><math>\phi_q=\chi_q \circ \psi_\alpha \qquad (8)</math></blockquote>其中<math>\circ</math>表示函数组合运算。

第一步是从<math>\mathbf{x}_t \in \mathcal{R}^p</math> 到 <math>\mathbf{x}'_t \in \mathcal{R}^p</math>的双射（可逆）映射<math>\psi_\alpha : \mathcal{R}^p \rightarrow \mathcal{R}^p</math>，无信息丢失，由可逆神经网络实现；第二步是通过将<math>\mathbf{x}_t \in \mathcal{R}^p</math>映射到<math>\mathbf{y}_t \in \mathcal{R}^q</math>，丢弃<math>p-q</math>维上的信息，将得到的向量投影到<math>q</math>维。

第87行：第88行：

==解码器==

−

解码器将宏观状态 <math>\mathbf{y}(t + 1)</math> 的预测转换为微观状态 <math>\hat{\mathbf{x}}_{t+1}</math> 的预测。在这个框架中，粗粒化策略 <math>\phi_q</math> 可以分解为双射器 <math>\psi_\alpha</math> 和投影器 <math>\chi_q</math>，因此解码器可以直接通过反转 <math>\psi_\alpha</math> 得到。然而，由于宏观状态的维度是 <math>q</math>，而 <math>\psi_\alpha</math> 的输入维度是 <math>p > q</math>，因此需要用 <math>p-q</math> 维高斯随机向量填充剩余的 <math>p-q</math> 维。对于任何 <math>\phi_q</math>，解码映射可以定义为：<blockquote><math>\phi_q^† = \psi_\alpha^{-1} \circ \chi_q^† \~~tag{~~9}</math></blockquote>其中，<math>\psi_\alpha^{-1}</math> 是 <math>\psi_\alpha</math> 的反函数，<math>\circ \chi_q^† : \mathbb{R}^q \rightarrow \mathbb{R}^p</math> 定义为：对于任意 <math>\mathbf{x} \in \mathbb{R}^p</math>，有<blockquote><math>\chi_q^†(\mathbf{x}_q \bigoplus \mathbf{z}_{p-q}),\~~tag{~~10}</math></blockquote>其中，<math>\mathbf{z}_{p-q} \sim \mathcal{N}(0, \mathcal{I}_{p-q})</math> 是 <math>p-q</math> 维的高斯随机噪声，<math>\mathcal{I}_{p-q}</math> 是同维度的单位矩阵。这样可以结合 <math>\mathbf{x}_q</math> 和一个来自 <math>p-q</math> 维标准正态分布的随机样本 <math>\mathbf{z}_{p-q}</math> 生成微状态。

+

解码器将宏观状态 <math>\mathbf{y}(t + 1)</math> 的预测转换为微观状态 <math>\hat{\mathbf{x}}_{t+1}</math> 的预测。在这个框架中，粗粒化策略 <math>\phi_q</math> 可以分解为双射器 <math>\psi_\alpha</math> 和投影器 <math>\chi_q</math>，因此解码器可以直接通过反转 <math>\psi_\alpha</math> 得到。然而，由于宏观状态的维度是 <math>q</math>，而 <math>\psi_\alpha</math> 的输入维度是 <math>p > q</math>，因此需要用 <math>p-q</math> 维高斯随机向量填充剩余的 <math>p-q</math> 维。对于任何 <math>\phi_q</math>，解码映射可以定义为：<blockquote><math>\phi_q^† = \psi_\alpha^{-1} \circ \chi_q^† \qquad (9)</math></blockquote>其中，<math>\psi_\alpha^{-1}</math> 是 <math>\psi_\alpha</math> 的反函数，<math>\circ \chi_q^† : \mathbb{R}^q \rightarrow \mathbb{R}^p</math> 定义为：对于任意 <math>\mathbf{x} \in \mathbb{R}^p</math>，有<blockquote><math>\chi_q^†(\mathbf{x}_q \bigoplus \mathbf{z}_{p-q}) \qquad (10)</math></blockquote>其中，<math>\mathbf{z}_{p-q} \sim \mathcal{N}(0, \mathcal{I}_{p-q})</math> 是 <math>p-q</math> 维的高斯随机噪声，<math>\mathcal{I}_{p-q}</math> 是同维度的单位矩阵。这样可以结合 <math>\mathbf{x}_q</math> 和一个来自 <math>p-q</math> 维标准正态分布的随机样本 <math>\mathbf{z}_{p-q}</math> 生成微状态。

解码器可以被视为条件概率 <math>Pr(\hat{\mathbf{x}}_{t+1} | \mathbf{y}(t+1))</math> 的生成模型<ref name=":3" /><ref name=":4" />，而编码器执行正态化过程。

第93行：第94行：

===动力学学习器===

−

动力学学习器 <math>f_\beta</math> 是一个带有参数的常见前馈神经网络，它在宏观层面上学习有效的马尔可夫动力学。用 <math>f_\beta</math> 替换方程 (2) 中的 <math>\hat{f}_{\phi_q}</math>，并使用 <math>dt = 1</math> 的欧拉方法求解方程 (2)。假设噪声是加性高斯分布（或拉普拉斯分布），则可以将方程 (5) 简化为：<blockquote><math>\mathbf{y}(t+1) = \mathbf{y}_t + \int_t^{t+1} f_\beta (\mathbf{y}(\tau), \xi') d\tau \approx \mathbf{y}_t + f_\beta (\mathbf{y}_t)+\xi' \~~tag{~~11}</math></blockquote>其中，<math>\xi' \sim \mathcal{N}(0,\Sigma)</math> 或 <math>Laplacian(0, \Sigma),</math> <math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵，<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差（可以学习或固定）。因此，该动力学的转移概率可被写作：<blockquote><math>P(\mathbf{y}(t+1)|\mathbf{y}_t) = \mathcal{D}(\mu (\mathbf{y}_t), \Sigma) \~~tag{~~12}</math></blockquote>其中，<math>\mathcal{D}</math> 指表示高斯分布或拉普拉斯分布的概率密度函数，<math>\mu (\mathbf{y}_t) \equiv \mathbf{y}_t+f_\beta(\mathbf{y}_t)</math> 是分布的均值向量。

+

动力学学习器 <math>f_\beta</math> 是一个带有参数的常见前馈神经网络，它在宏观层面上学习有效的马尔可夫动力学。用 <math>f_\beta</math> 替换方程 (2) 中的 <math>\hat{f}_{\phi_q}</math>，并使用 <math>dt = 1</math> 的欧拉方法求解方程 (2)。假设噪声是加性高斯分布（或拉普拉斯分布），则可以将方程 (5) 简化为：<blockquote><math>\mathbf{y}(t+1) = \mathbf{y}_t + \int_t^{t+1} f_\beta (\mathbf{y}(\tau), \xi') d\tau \approx \mathbf{y}_t + f_\beta (\mathbf{y}_t)+\xi' \qquad (11)</math></blockquote>其中，<math>\xi' \sim \mathcal{N}(0,\Sigma)</math> 或 <math>Laplacian(0, \Sigma),</math> <math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵，<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差（可以学习或固定）。因此，该动力学的转移概率可被写作：<blockquote><math>P(\mathbf{y}(t+1)|\mathbf{y}_t) = \mathcal{D}(\mu (\mathbf{y}_t), \Sigma) \qquad (12)</math></blockquote>其中，<math>\mathcal{D}</math> 指表示高斯分布或拉普拉斯分布的概率密度函数，<math>\mu (\mathbf{y}_t) \equiv \mathbf{y}_t+f_\beta(\mathbf{y}_t)</math> 是分布的均值向量。

通过端到端的方式训练动力学学习器，可以避免从数据中估计马尔可夫转移概率以减少偏差。

第105行：第106行：

在第一阶段，可以使用概率最大化和随机梯度下降技术来获得有效的 <math>q</math> 粗粒化策略和宏观状态动力学的有效预测器。目标函数由微观状态预测的概率定义。

−

前馈神经网络可以理解为一种用高斯或拉普拉斯分布建模条件概率<ref>Kingma, D.P.; Welling, M. Auto-encoding variational bayes. arXiv 2013, arXiv:1312.6114.</ref>的机器。因此，整个 NIS 框架可以理解为一个 <math>P(\hat{\mathbf{x}}_{t+dt} | \mathbf{x}_t)</math> 的模型，其输出 <math>\hat{\mathbf{x}}_{t+1}</math> 只是平均值。此外，目标函数方程 14 只是给定分布形式下观测数据的对数概率或交叉熵。<blockquote><math>\mathcal{L} = \sum_t \ln P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t) \~~tag{~~13}</math></blockquote>其中当 <math>l=2</math> 时，<math>P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t) \sim \mathcal{N}(\hat{\mathbf{x}}_{t+1}, \Sigma)</math>，而当 <math>l=1</math> 时概率分布为 <math>Laplace(\hat{\mathbf{x}}_{t+1}, \Sigma)</math>。<math>\Sigma</math> 是协方差矩阵。<math>\Sigma</math> 始终是对角矩阵，其幅度为 <math>l = 2</math> 时的均方误差或 <math>l = 1</math> 时的绝对值平均值。

+

前馈神经网络可以理解为一种用高斯或拉普拉斯分布建模条件概率<ref>Kingma, D.P.; Welling, M. Auto-encoding variational bayes. arXiv 2013, arXiv:1312.6114.</ref>的机器。因此，整个 NIS 框架可以理解为一个 <math>P(\hat{\mathbf{x}}_{t+dt} | \mathbf{x}_t)</math> 的模型，其输出 <math>\hat{\mathbf{x}}_{t+1}</math> 只是平均值。此外，目标函数方程 14 只是给定分布形式下观测数据的对数概率或交叉熵。<blockquote><math>\mathcal{L} = \sum_t \ln P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t) \qquad (13)</math></blockquote>其中当 <math>l=2</math> 时，<math>P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t) \sim \mathcal{N}(\hat{\mathbf{x}}_{t+1}, \Sigma)</math>，而当 <math>l=1</math> 时概率分布为 <math>Laplace(\hat{\mathbf{x}}_{t+1}, \Sigma)</math>。<math>\Sigma</math> 是协方差矩阵。<math>\Sigma</math> 始终是对角矩阵，其幅度为 <math>l = 2</math> 时的均方误差或 <math>l = 1</math> 时的绝对值平均值。

−

如果将高斯或拉普拉斯分布的具体形式带入条件概率，将看到最大化对数似然等同于最小化 <math>l</math> 范数目标函数：<blockquote><math>\mathcal{L}=\sum_t \Vert \hat{\mathbf{x}}_{t+1} - \mathbf{x}_{t+1} \Vert_l \~~tag{~~14}</math></blockquote>其中 <math>l = 1</math> 或 <math>2</math>。接下来使用随机梯度下降技术来优化方程 (14)。

+

如果将高斯或拉普拉斯分布的具体形式带入条件概率，将看到最大化对数似然等同于最小化 <math>l</math> 范数目标函数：<blockquote><math>\mathcal{L}=\sum_t \Vert \hat{\mathbf{x}}_{t+1} - \mathbf{x}_{t+1} \Vert_l \qquad (14)</math></blockquote>其中 <math>l = 1</math> 或 <math>2</math>。接下来使用随机梯度下降技术来优化方程 (14)。

===选择一个最优的尺度===

第119行：第120行：

'''前馈神经网络的有效信息定义'''

−

一般而言，如果神经网络的输入为 <math>X =(x_1,x_2,··· ,x_n) \in [-L,L]^n</math>，即 <math>X</math> 定义在大小为 <math>L</math> 的超立方体上（<math>L</math> 是大整数），则输出为 <math>Y = (y_1,y_2,··· ,y_m)</math> ，且 <math>Y = \mu(X)</math>。神经网络实现的确定性映射为 <math>\mu: \mathcal{R}^n \rightarrow \mathcal{R}^m</math> ，其在 <math>X</math> 处的雅可比矩阵为 <math>\partial_{X' \mu} \equiv \Bigl\{ \frac{\partial \mu_i (X')}{\partial X'_j}|_{X'=X}\Bigr\}_{nm}</math> . 若可以将神经网络视为给定 <math>X</math> 下的高斯分布，则：<blockquote><math>p(\mathcal{Y}|X) = \frac{1}{\sqrt{(2 \pi)^m |\Sigma|}} \exp\left( - \frac{1}{2}(\mathcal{Y}-\mu(X))^T \Sigma^{-1}(\mathcal{Y}-\mu(X)) \right) \~~tag{~~15}</math></blockquote>其中，<math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵，<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差（可由 <math>y_i</math> 的平均方差估计）。由此可计算有效信息 <math>EI</math>：

+

一般而言，如果神经网络的输入为 <math>X =(x_1,x_2,··· ,x_n) \in [-L,L]^n</math>，即 <math>X</math> 定义在大小为 <math>L</math> 的超立方体上（<math>L</math> 是大整数），则输出为 <math>Y = (y_1,y_2,··· ,y_m)</math> ，且 <math>Y = \mu(X)</math>。神经网络实现的确定性映射为 <math>\mu: \mathcal{R}^n \rightarrow \mathcal{R}^m</math> ，其在 <math>X</math> 处的雅可比矩阵为 <math>\partial_{X' \mu} \equiv \Bigl\{ \frac{\partial \mu_i (X')}{\partial X'_j}|_{X'=X}\Bigr\}_{nm}</math> . 若可以将神经网络视为给定 <math>X</math> 下的高斯分布，则：<blockquote><math>p(\mathcal{Y}|X) = \frac{1}{\sqrt{(2 \pi)^m |\Sigma|}} \exp\left( - \frac{1}{2}(\mathcal{Y}-\mu(X))^T \Sigma^{-1}(\mathcal{Y}-\mu(X)) \right) \qquad (15)</math></blockquote>其中，<math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵，<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差（可由 <math>y_i</math> 的平均方差估计）。由此可计算有效信息 <math>EI</math>：

−

(i) 若存在 <math>X</math> 使 <math>\det(\partial_{X' } \mu(X)) \neq 0</math> ，则 <math>EI</math> 由如下式子导出：<blockquote><math>EI_L(\mu) = I(do(X \sim \mathcal{U}([-L,L]^n;\mathcal{Y}) \approx - \frac{m+m \ln(2\pi)+\Sigma_{i=1}^m \sigma_i^2}{2}+n \ln (2L)+ \mathbb{E}_{X \sim \mathcal{U}[-L,L]^n}(\ln | \det(\partial_{X' }\mu(X))|) \~~tag{~~16}</math></blockquote>其中 <math>\mathcal{U}([-L,L]^n)</math> 表示 <math>[-L,L]^n</math> 上的均匀分布，<math>|\cdot|</math> 表示绝对值，<math>\det</math> 表示行列式。

+

(i) 若存在 <math>X</math> 使 <math>\det(\partial_{X' } \mu(X)) \neq 0</math> ，则 <math>EI</math> 由如下式子导出：<blockquote><math>EI_L(\mu) = I(do(X \sim \mathcal{U}([-L,L]^n;\mathcal{Y}) \approx - \frac{m+m \ln(2\pi)+\Sigma_{i=1}^m \sigma_i^2}{2}+n \ln (2L)+ \mathbb{E}_{X \sim \mathcal{U}[-L,L]^n}(\ln | \det(\partial_{X' }\mu(X))|) \qquad (16)</math></blockquote>其中 <math>\mathcal{U}([-L,L]^n)</math> 表示 <math>[-L,L]^n</math> 上的均匀分布，<math>|\cdot|</math> 表示绝对值，<math>\det</math> 表示行列式。

(ii) 若对于所有 <math>X</math> 都有 <math>\det (\partial_{X'}\mu(X)) \equiv 0</math>，则 <math>EI \approx 0</math>。

第130行：第131行：

'''维度平均有效信息 (<math>dEI</math>)'''

−

对于具有 <math>n</math> 维状态空间的动力学 <math>f</math>，则维度平均有效信息定义为：<blockquote><math>dEI(f)=\frac{EI(f)}{n} \~~tag{~~17}</math></blockquote>此时如果动力学 <math>f</math> 连续且可被看作条件高斯分布，则根据 <math>EI</math> 的定义（式 16），维度平均 <math>EI</math> 可以计算为（<math>m = n</math>）：<blockquote><math>dEI_L(f)= -\frac{1+\ln(2\pi)+\Sigma_{i=1}^n \sigma_i^2/n}{2}+\ln(2L) + \frac{1}{n}\mathbb{E}_{X \sim \mathcal{U}([-L,L]^n)}(\ln | \det(\partial_{X'}f(X))|) \~~tag{~~18}</math></blockquote>式 18 中与维度 <math>n</math> 相关的所有项都已被消除。但是，等式中仍然存在 <math>L</math>，当 <math>L</math> 很大时可能导致 <math>EI</math> 发散。

+

对于具有 <math>n</math> 维状态空间的动力学 <math>f</math>，则维度平均有效信息定义为：<blockquote><math>dEI(f)=\frac{EI(f)}{n} \qquad (17)</math></blockquote>此时如果动力学 <math>f</math> 连续且可被看作条件高斯分布，则根据 <math>EI</math> 的定义（式 16），维度平均 <math>EI</math> 可以计算为（<math>m = n</math>）：<blockquote><math>dEI_L(f)= -\frac{1+\ln(2\pi)+\Sigma_{i=1}^n \sigma_i^2/n}{2}+\ln(2L) + \frac{1}{n}\mathbb{E}_{X \sim \mathcal{U}([-L,L]^n)}(\ln | \det(\partial_{X'}f(X))|) \qquad (18)</math></blockquote>式 18 中与维度 <math>n</math> 相关的所有项都已被消除。但是，等式中仍然存在 <math>L</math>，当 <math>L</math> 很大时可能导致 <math>EI</math> 发散。

可以计算维度平均因果涌现（<math>dCE</math>）以消除 <math>L</math> 的影响。

第137行：第138行：

'''维度平均因果涌现 (<math>dCE</math>)'''

−

对于维度为 <math>n_M</math> 的宏观动力学 <math>f_M</math> 和维度为 <math>n_m</math> 的微观动力学 <math>f_m</math>，将维度平均因果涌现定义为：<blockquote><math>dCE(f_M,f_m)=dEI(f_M)-dEI(f_m)=\frac{EI(f_M)}{n_M}-\frac{EI(f_m)}{n_m}. \~~tag{~~19}</math></blockquote>因此，如果动力学 <math>f_M</math> 和 <math>f_m</math> 连续且可以被视为条件高斯分布，则根据定义 7 和公式 (18)，维度平均因果涌现符合如下公式：<blockquote><math> dCE(f_M,f_m)=\left(\frac{1}{n_M} \mathbb{E}_{X_M} \ln |\det\partial_{X_M}f_M| \right) - \left(\frac{1}{n_M}\sum_{i=1}^{n_M} \ln \sigma_{i,M}^2 - \frac{1}{n_m} \sum_{i=1}^{n_m} \ln \sigma_{i,m}^2 \right) \~~tag{~~20}</math></blockquote>在式 20 中，<math>n</math> 维和 <math>L</math> 维的影响已被完全消除，结果只受方差的相对值和雅可比矩阵行列式的对数值的影响。数值计算中将主要使用式 20。Eff 因受 <math>L</math> 影响而弃用。

+

对于维度为 <math>n_M</math> 的宏观动力学 <math>f_M</math> 和维度为 <math>n_m</math> 的微观动力学 <math>f_m</math>，将维度平均因果涌现定义为：<blockquote><math>dCE(f_M,f_m)=dEI(f_M)-dEI(f_m)=\frac{EI(f_M)}{n_M}-\frac{EI(f_m)}{n_m}. \qquad (19)</math></blockquote>因此，如果动力学 <math>f_M</math> 和 <math>f_m</math> 连续且可以被视为条件高斯分布，则根据定义 7 和公式 (18)，维度平均因果涌现符合如下公式：<blockquote><math> dCE(f_M,f_m)=\left(\frac{1}{n_M} \mathbb{E}_{X_M} \ln |\det\partial_{X_M}f_M| \right) - \left(\frac{1}{n_M}\sum_{i=1}^{n_M} \ln \sigma_{i,M}^2 - \frac{1}{n_m} \sum_{i=1}^{n_m} \ln \sigma_{i,m}^2 \right) \qquad (20)</math></blockquote>在式 20 中，<math>n</math> 维和 <math>L</math> 维的影响已被完全消除，结果只受方差的相对值和雅可比矩阵行列式的对数值的影响。数值计算中将主要使用式 20。Eff 因受 <math>L</math> 影响而弃用。

=结果=

第150行：第151行：

'''信息压缩的信息瓶颈'''

−

对于图 3 所示的压缩信道以及任意双射源<math>\psi</math>、投影器 <math>\chi_q</math>、宏观动力学 <math>f</math> 和随机噪声 <math>\mathbf{z}_{p-q} \sim \mathcal{N}(0,\mathcal{I}_{p-q})</math>，有：<blockquote><math>I(\mathbf{y}_t; \mathbf{y}(t+1) = I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1}), \~~tag{~~21}</math></blockquote>其中<math>\hat{\mathbf{x}}_{t+1}</math> 是NIS的预测值，<math>\mathbf{y}(t+1)</math>符合式2。

+

对于图 3 所示的压缩信道以及任意双射源<math>\psi</math>、投影器 <math>\chi_q</math>、宏观动力学 <math>f</math> 和随机噪声 <math>\mathbf{z}_{p-q} \sim \mathcal{N}(0,\mathcal{I}_{p-q})</math>，有：<blockquote><math>I(\mathbf{y}_t; \mathbf{y}(t+1) = I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1}), \qquad (21)</math></blockquote>其中<math>\hat{\mathbf{x}}_{t+1}</math> 是NIS的预测值，<math>\mathbf{y}(t+1)</math>符合式2。

对于任何实现图 3 中一般框架的神经网络，宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同，即对于任意时间从 <math>\mathbf{x}_t</math> 到 <math>\hat{\mathbf{x}}_{t+1}</math> 的映射。此定理是 NIS 的基础。实际上，宏观动力学 <math>f</math> 是整个通道的信息瓶颈 [45]。

−

=== 训练过程的变化===

+

===训练过程的变化===

通过信息瓶颈理论，可以直观地理解当神经压缩器框架通过数据进行训练时会发生什么。

首先，在神经网络训练过程中，整个框架的输出<math>\hat{\mathbf{x}}_{t+1}</math>对任意给定<math>\mathbf{x}_t</math>都接近于真实数据<math>\mathbf{x}_{t+1}</math>，对互信息同理。即如下定理：

第161行：第162行：

'''模型的互信息与数据的互信息接近'''

−

如果 NIS 框架中的神经网络是训练有素的（即对于任何<math>t \in [1,T]</math>训练周期结束时有 <math>Pr_\tau (\hat{\mathbf{x}}_{t+1} | \mathbf{x}_t)</math> 和 <math>Pr_\tau (\mathbf{x}_{t+1} | \mathbf{x}_t)</math> 之间的 Kullback- Leibler 散度趋近于 0），那么对于任何 t [1,T]：<blockquote><math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t) \simeq I(\mathbf{x}_{t+1} ; \mathbf{x}_t) \~~tag{~~22}</math></blockquote>其中 <math>\simeq</math> 表示<math>\tau \rightarrow \infty</math> 时的渐近等价。

+

如果 NIS 框架中的神经网络是训练有素的（即对于任何<math>t \in [1,T]</math>训练周期结束时有 <math>Pr_\tau (\hat{\mathbf{x}}_{t+1} | \mathbf{x}_t)</math> 和 <math>Pr_\tau (\mathbf{x}_{t+1} | \mathbf{x}_t)</math> 之间的 Kullback- Leibler 散度趋近于 0），那么对于任何 t [1,T]：<blockquote><math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t) \simeq I(\mathbf{x}_{t+1} ; \mathbf{x}_t) \qquad (22)</math></blockquote>其中 <math>\simeq</math> 表示<math>\tau \rightarrow \infty</math> 时的渐近等价。

由于微观状态<math>\mathbf{x}_t</math>的时间序列包含信息，假设互信息<math>I(\mathbf{x}_t,\mathbf{x}_{t+1})</math> 较大，否则不关注<math>\mathbf{x}_t</math>。因此，随着神经网络的训练，<math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t)</math>将增加，直到接近<math>I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math>。根据信息瓶颈理论，<math>I(\mathbf{y}_{t}; \mathbf{y}_{t+1} ) = I(\mathbf{x}_{t} ; \hat{\mathbf{x}}_{t+1})</math>也将增加，直到接近<math>I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math>。

第170行：第171行：

'''信息瓶颈是编码器的下界'''

−

对于图3中的压缩信息信道，<math>\psi_\alpha</math>的雅可比矩阵的行列式和<math>\mathbf{y}_t</math>的香农熵的下界是整个信道的信息：<blockquote><math>H(\mathbf{x}_t)+ \mathbb{E}(\ln | \det (J_{\psi_\alpha} (\mathbf{x}_t))|) \geq H(\mathbf{y}_t + \mathbb{E}(\ln |\det(J_{\psi_\alpha}, \mathbf{y}_t))|) \geq I(\mathbf{x}_t ; \hat{\mathbf{x}_{t+1}}) \~~tag{~~23}</math></blockquote>其中H为香农熵测度，<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>为双射<math>\psi_\alpha</math>输入<math>\mathbf{x}_t</math> 时的雅可比矩阵，<math>J_{\psi_\alpha , \mathbf{y}_t}(\mathbf{x}_t)</math> 为<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>在<math>\mathbf{x}'_t</math> 投影<math>\mathbf{y}_t</math>上的子矩阵。证明见附录D。

+

对于图3中的压缩信息信道，<math>\psi_\alpha</math>的雅可比矩阵的行列式和<math>\mathbf{y}_t</math>的香农熵的下界是整个信道的信息：<blockquote><math>H(\mathbf{x}_t)+ \mathbb{E}(\ln | \det (J_{\psi_\alpha} (\mathbf{x}_t))|) \geq H(\mathbf{y}_t + \mathbb{E}(\ln |\det(J_{\psi_\alpha}, \mathbf{y}_t))|) \geq I(\mathbf{x}_t ; \hat{\mathbf{x}_{t+1}}) \qquad (23)</math></blockquote>其中H为香农熵测度，<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>为双射<math>\psi_\alpha</math>输入<math>\mathbf{x}_t</math> 时的雅可比矩阵，<math>J_{\psi_\alpha , \mathbf{y}_t}(\mathbf{x}_t)</math> 为<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>在<math>\mathbf{x}'_t</math> 投影<math>\mathbf{y}_t</math>上的子矩阵。证明见附录D。

由于给出了XT及其香农熵的分布，定理4指出 <math>|\det(J_{\psi_\alpha}(\mathbf{x}_t))|</math>的对数的期望以及<math>\mathbf{y}_t</math>必然大于整个信道的信息。

第182行：第183行：

'''宏观动力学有效信息的数学表达式'''

−

假设给定<math>\mathbf{x}_t</math>下<math>\mathbf{x}_{t+1}</math>的概率密度可以通过函数<math>Pr(\mathbf{x}_{t+1} | \mathbf{x}_t) \equiv G(\mathbf{x}_{t+1}, \mathbf{x}_t)</math>描述，且神经信息挤压框架训练有素，即可通过以下方式计算<math>f_\beta</math>的宏观动力学信息：<blockquote><math>EI_L(f_\beta) = \frac{1}{(2L)^p} \cdot \int_\sigma \int_{\mathcal{R}^p} G(\mathbf{y}, \psi_\alpha^{-1}(\mathbf{x})) \ln \frac{(2L)^pG(\mathbf{y, \psi_\alpha^{-1}(\mathbf{x})})}{\int_\sigma G(\mathbf{y}, \psi_\alpha^{-1}(\mathbf{x}'))d\mathbf{x}'}d\mathbf{y} d\mathbf{x} \~~tag{~~24}</math></blockquote>其中 <math>\sigma \equiv [-L,L]^p</math> 是<math>\mathbf{x}</math>与<math>\mathbf{x}'</math>的积分区间。

+

假设给定<math>\mathbf{x}_t</math>下<math>\mathbf{x}_{t+1}</math>的概率密度可以通过函数<math>Pr(\mathbf{x}_{t+1} | \mathbf{x}_t) \equiv G(\mathbf{x}_{t+1}, \mathbf{x}_t)</math>描述，且神经信息挤压框架训练有素，即可通过以下方式计算<math>f_\beta</math>的宏观动力学信息：<blockquote><math>EI_L(f_\beta) = \frac{1}{(2L)^p} \cdot \int_\sigma \int_{\mathcal{R}^p} G(\mathbf{y}, \psi_\alpha^{-1}(\mathbf{x})) \ln \frac{(2L)^pG(\mathbf{y, \psi_\alpha^{-1}(\mathbf{x})})}{\int_\sigma G(\mathbf{y}, \psi_\alpha^{-1}(\mathbf{x}'))d\mathbf{x}'}d\mathbf{y} d\mathbf{x} \qquad (24)</math></blockquote>其中 <math>\sigma \equiv [-L,L]^p</math> 是<math>\mathbf{x}</math>与<math>\mathbf{x}'</math>的积分区间。

===互信息随尺度的变化===

第198行：第199行：

'''理论6：信道越窄互信息越小'''

−

若<math>\mathbf{x}_t</math>是<math>p</math>维的，那么对于 <math>0 < q_1 < q_2 < p</math> 有<blockquote><math>I(\mathbf{x}_t; \hat{\mathbf{x}}_{t+1}) \leq I(\mathbf{x}_t ; \mathbf{y}_t^{q_1}) \leq I(\mathbf{x}_t ; \mathbf{y}_t^{q_2}), \~~tag{~~25}</math></blockquote>其中<math>\mathbf{y}_t^q</math> 表示 <math>\mathbf{y}_t</math> 的<math>q</math> 维向量。

+

若<math>\mathbf{x}_t</math>是<math>p</math>维的，那么对于 <math>0 < q_1 < q_2 < p</math> 有<blockquote><math>I(\mathbf{x}_t; \hat{\mathbf{x}}_{t+1}) \leq I(\mathbf{x}_t ; \mathbf{y}_t^{q_1}) \leq I(\mathbf{x}_t ; \mathbf{y}_t^{q_2}), \qquad (25)</math></blockquote>其中<math>\mathbf{y}_t^q</math> 表示 <math>\mathbf{y}_t</math> 的<math>q</math> 维向量。

互信息描述了编码器（即在不同维度<math>q</math>中的微型状态<math>\mathbf{x}_t</math>和宏观状态<math>\mathbf{y}_t</math>）。该定理指出，随着<math>q</math>减小，编码器部分的互信息必然减小，且对信息限制<math>I( \mathbf{x}_t ; \hat{\mathbf{x}}_{t+1}) \simeq I(\mathbf{x}_t ; \mathbf{x}_{t+1})</math>更封闭。因此，整个信道将更加狭窄，编码器必须携带更有用和有效的信息才能转移到宏观动力学，预测变得更加困难。

第209行：第210行：

dz/dt = v \\

dv/dt = -z

−

\end{cases} \~~tag{~~26}</math></blockquote>其中<math>z</math>和<math>v</math>分别是振荡器的一维位置与速度。定义系统状态<math>\mathbf{x} = (z,v)</math>。

+

\end{cases} \qquad (26)</math></blockquote>其中<math>z</math>和<math>v</math>分别是振荡器的一维位置与速度。定义系统状态<math>\mathbf{x} = (z,v)</math>。

实验数据仅由两个带误差的传感器获得。假设观测模型为<blockquote><math>\begin{cases}

\tilde{\mathbf{x}}_1 = \mathbf{x} + \xi \\

\tilde{\mathbf{x}}_2 = \mathbf{x} - \xi \\

−

\end{cases} \~~tag{~~27}</math></blockquote>其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值，<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态，测量微状态<math>\tilde{\mathbf{x}_1}</math>，<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观X。

+

\end{cases} \qquad (27)</math></blockquote>其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值，<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态，测量微状态<math>\tilde{\mathbf{x}_1}</math>，<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观X。

[[文件:NIS Fig 4.png|居中|600px|'''图4.''' 具有测量噪声的简单弹簧振荡器的实验结果。]]

根据式27，影响状态测量的噪音可以通过叠加两通道的数据消除。因此，如果在NIS中输入两个测量值的宏观状态，则可简单地获得正确的动力学。使用Euler方法（<math>dt = 1</math>）采样<math>10,000</math>批批次的数据，并在每个批次中生成100个随机初始状态并执行一个步骤动力学，求得下一个时间步长中的状态。使用这些数据来训练神经网络，同时使用相同的数据集来训练具有相同数量参数的普通前馈神经网络以作比较。结果如图4所示。

第235行：第236行：

1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\

0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 \\

−

\end{pmatrix} \~~tag{~~28}</math></blockquote>[[文件:NIS Fig 6.png|居中|600px|'''图6.''' 简单马尔可夫链的实验结果。]]

+

\end{pmatrix} \qquad (28)</math></blockquote>[[文件:NIS Fig 6.png|居中|600px|'''图6.''' 简单马尔可夫链的实验结果。]]

该系统有 8 个状态，其中 7之间个可以相互转移，最后一个状态是独立的。使用一个 one-hot 向量编码状态（例如状态2 将表示为 (0,1,0,0,0,0,0,0)）。对初始状态进行 50,000 个批次的采样以生成数据，然后将 one-hot 向量输入 NIS 框架，经过 50,000 个迭代轮次的训练后可以得到一个有效的模型。结果如图 6 所示。

第249行：第250行： −

= 总结=

+

=总结=

NIS（神经信息压缩器）是一种新的神经网络框架，可被用于发现时间序列数据中的粗粒化策略、宏观动力学和涌现的因果关系。NIS中可逆神经网络的使用通过在编码器和解码器之间共享参数来减少参数数量，且使得分析 NIS 架构的数学特性更加方便。通过约束粗粒化策略来预测具有精度阈值的未来微观状态，从而定义有效的粗粒化策略和宏观动力学，并推出因果涌现识别问题可以理解为在约束条件下最大化有效信息的问题。

LJR.json

68

个编辑

更改

NIS (查看源代码)

2024年5月29日 (三) 14:43的版本

导航菜单

搜索