更改

添加873字节 、 2024年6月16日 (星期日)
编辑词条中“有效信息”部分、更改部分行文逻辑;标准化公式编号
第33行: 第33行:     
===动力学的定义===
 
===动力学的定义===
假设讨论的复杂系统动力学可由如下微分方程组描述:<blockquote><math>\frac{d{\mathbf{x}}}{dt} = g(\mathbf{x}(t),ξ) \qquad (1)
+
假设讨论的复杂系统动力学可由如下微分方程组描述:
</math></blockquote>其中<math>\mathbf{x}(t) ∈ \mathcal{R}^p</math> 是系统的状态,<math>p ∈ \mathcal{Z}</math> 是一正整数,<math>ξ</math> 是高斯随机噪声。
+
{{NumBlk|:|<blockquote><math>\frac{d{\mathbf{x}}}{dt} = g(\mathbf{x}(t),ξ) </math></blockquote>|{{EquationRef|1}}}}
 +
其中<math>\mathbf{x}(t) ∈ \mathcal{R}^p</math> 是系统的状态,<math>p ∈ \mathcal{Z}</math> 是一正整数,<math>ξ</math> 是高斯随机噪声。
 
通常,微观动力学 <math>g</math> 总是马尔可夫的,可以等效地建模为条件概率 <math>Pr(\mathbf{x}(t + dt)|\mathbf{x}(t))</math> 。根据该概率可求得系统状态的离散样本,这些状态即为微观状态。
 
通常,微观动力学 <math>g</math> 总是马尔可夫的,可以等效地建模为条件概率 <math>Pr(\mathbf{x}(t + dt)|\mathbf{x}(t))</math> 。根据该概率可求得系统状态的离散样本,这些状态即为微观状态。
   −
===定义===
+
===其它定义===
 
*'''微观态'''
 
*'''微观态'''
动力系统状态(式1)<math>\mathbf{x}_t</math> 的每一个样本称为时间步长 <math>t</math> 的一个微观状态。以相等间隔和有限时间步长 T 采样的多变量时间序列 <math>\mathbf{x}_1,\mathbf{x}_2,···,\mathbf{x}_T</math> 可形成微观状态时间序列。
+
动力系统状态(式{{EquationNote|1}})<math>\mathbf{x}_t</math> 的每一个样本称为时间步长 <math>t</math> 的一个微观状态。以相等间隔和有限时间步长 T 采样的多变量时间序列 <math>\mathbf{x}_1,\mathbf{x}_2,···,\mathbf{x}_T</math> 可形成微观状态时间序列。
    
重建 <math>g</math> 时应有可观测的微观状态,但在噪声较强时,很难从微观状态中重建具有强因果关系的信息丰富的动力学机制。因果涌现的基本思想是,若忽略微观状态数据中的部分信息并将其转换为宏观状态时间序列,则可以重建一个具有更强因果关系的宏观动力描述系统的演化。信息丢弃过程即为粗粒化策略(或映射方法)。
 
重建 <math>g</math> 时应有可观测的微观状态,但在噪声较强时,很难从微观状态中重建具有强因果关系的信息丰富的动力学机制。因果涌现的基本思想是,若忽略微观状态数据中的部分信息并将其转换为宏观状态时间序列,则可以重建一个具有更强因果关系的宏观动力描述系统的演化。信息丢弃过程即为粗粒化策略(或映射方法)。
第49行: 第50行:     
*'''宏观动力学'''
 
*'''宏观动力学'''
对于给定的宏观状态时间序列 <math>\mathbf{y}_1,\mathbf{y}_2,···,\mathbf{y}_T</math> ,宏观状态动力学是一组微分方程<blockquote><math>\frac{d\mathbf{y}}{dt} = \hat{f}_{\phi_q}(\mathbf{y}, ξ') \qquad (2)</math></blockquote>其中<math>\mathbf{y} ∈ \mathcal{R}^q</math> , <math>ξ' ∈ \mathcal{R}^q</math> 是宏观状态动力学中的高斯噪声,<math>\hat{f}_{\phi_q}</math>  是连续微分函数,可最小化方程 (2) 在任何给定的时间步长 <math>t ∈ [1,T]</math> 和给定的向量形式<math>\Vert \cdot \Vert</math> 下的解 <math>\mathbf{y}(t)</math> :<blockquote><math>\langle \Vert \mathbf{y}_t-\mathbf{y}(t)\Vert \rangle_{ξ'} \qquad (3)</math></blockquote>此公式不能排除一些琐碎的策略。例如,假设对于 <math>∀ \mathbf{y}_t ∈ \mathcal{R}^p</math>  , <math>q = 1</math> 维的 <math>\phi_q</math> 定义为 <math>\phi_q(\mathbf{x}_t) = 1</math> 。因此,相应的宏观动力学只是 <math>d\mathbf{y}/dt = 0</math> 和 <math>\mathbf{y}(0) = 1</math>。由于宏观状态动力学是琐碎的,粗粒化映射过于随意,此方程无意义。因此,必须对粗粒化策略和宏观动力学设置限制以避免琐碎的策略和动力学。
+
对于给定的宏观状态时间序列 <math>\mathbf{y}_1,\mathbf{y}_2,···,\mathbf{y}_T</math> ,宏观状态动力学是一组微分方程
 +
{{NumBlk|:|<blockquote><math>\frac{d\mathbf{y}}{dt} = \hat{f}_{\phi_q}(\mathbf{y}, ξ')</math></blockquote>|{{EquationRef|2}}}}
 +
其中<math>\mathbf{y} ∈ \mathcal{R}^q</math> , <math>ξ' ∈ \mathcal{R}^q</math> 是宏观状态动力学中的高斯噪声,<math>\hat{f}_{\phi_q}</math>  是连续微分函数,可最小化方程{{EquationNote|2}}在任何给定的时间步长 <math>t ∈ [1,T]</math> 和给定的向量形式<math>\Vert \cdot \Vert</math> 下的解  
 +
{{NumBlk|:|<math>\mathbf{y}(t)</math> :<blockquote><math>\langle \Vert \mathbf{y}_t-\mathbf{y}(t)\Vert \rangle_{ξ'}</math></blockquote>|{{EquationRef|3}}}}
 +
此公式不能排除一些琐碎的策略。例如,假设对于 <math>∀ \mathbf{y}_t ∈ \mathcal{R}^p</math>  , <math>q = 1</math> 维的 <math>\phi_q</math> 定义为 <math>\phi_q(\mathbf{x}_t) = 1</math> 。因此,相应的宏观动力学只是 <math>d\mathbf{y}/dt = 0</math> 和 <math>\mathbf{y}(0) = 1</math>。由于宏观状态动力学是琐碎的,粗粒化映射过于随意,此方程无意义。因此,必须对粗粒化策略和宏观动力学设置限制以避免琐碎的策略和动力学。
    
==有效粗粒化策略和宏观动力学==
 
==有效粗粒化策略和宏观动力学==
第55行: 第60行:     
*'''<math>\epsilon</math>-effective q粗粒化策略与宏观动力学'''
 
*'''<math>\epsilon</math>-effective q粗粒化策略与宏观动力学'''
如果存在一个函数<math>\phi_q^† :\mathcal{R}^q \rightarrow \mathcal{R}^p</math>,使得对于给定的小实数<math>\varepsilon</math>和给定的向量范数<math>\Vert \cdot \Vert</math>,以下不等式成立,则 <math>q</math> 粗粒化策略<math>\phi_q :\mathcal{R}^p \rightarrow \mathcal{R}^q</math>是<math>\epsilon</math>-effective的(或缩写为有效):<blockquote><math>\Vert \phi_q^† ( \mathbf{y}(t) - \mathbf{x}_t \Vert < \epsilon , \qquad (4)</math></blockquote>同时,导出的宏观动力学<math>\hat{f}_{\phi_q}</math>也有效(其中<math>\mathbf{y}(t)</math> 是式2的解)。即对于所有<math>t = 1,2,···, T</math>:<blockquote><math>\mathbf{y}(t)=\phi_q (\mathbf{x}_{t-1}) + \int_{t-1}^t \hat{f}_{\phi_q}(\mathbf{y}(\tau), \xi') d\tau \qquad (5)</math></blockquote>可以通过<math>\phi_q^†</math>重构微观状态时间序列,使得宏观状态变量尽可能多地包含微观状态的信息。
+
如果存在一个函数<math>\phi_q^† :\mathcal{R}^q \rightarrow \mathcal{R}^p</math>,使得对于给定的小实数<math>\varepsilon</math>和给定的向量范数<math>\Vert \cdot \Vert</math>,以下不等式成立,则 <math>q</math> 粗粒化策略<math>\phi_q :\mathcal{R}^p \rightarrow \mathcal{R}^q</math>是<math>\epsilon</math>-effective的(或缩写为有效):
 +
{{NumBlk|:|<blockquote><math>\Vert \phi_q^† ( \mathbf{y}(t) - \mathbf{x}_t \Vert < \epsilon ,</math></blockquote>|{{EquationRef|4}}}}
 +
同时,导出的宏观动力学<math>\hat{f}_{\phi_q}</math>也有效(其中<math>\mathbf{y}(t)</math> 是式2的解)。即对于所有<math>t = 1,2,···, T</math>:
 +
{{NumBlk|:|<blockquote><math>\mathbf{y}(t)=\phi_q (\mathbf{x}_{t-1}) + \int_{t-1}^t \hat{f}_{\phi_q}(\mathbf{y}(\tau), \xi') d\tau</math></blockquote>|{{EquationRef|5}}}}
 +
可以通过<math>\phi_q^†</math>重构微观状态时间序列,使得宏观状态变量尽可能多地包含微观状态的信息。
    
此定义符合近似因果模型抽象。
 
此定义符合近似因果模型抽象。
第62行: 第71行:  
*'''最大化系统动力学的有效信息'''
 
*'''最大化系统动力学的有效信息'''
 
若要寻找一个最具信息量的宏观动力学,则需在所有可能的有效策略和动力学中优化粗粒化策略和宏观动力学。
 
若要寻找一个最具信息量的宏观动力学,则需在所有可能的有效策略和动力学中优化粗粒化策略和宏观动力学。
因此,粗粒化策略优化问题可以表述为:在约束方程4和5下,<blockquote><math>\max_{\phi_q,\hat{f}_{\phi_q},\phi_q^†,q} \mathcal{I}(\hat{f}_{\phi_q}), \qquad (6)</math></blockquote>其中<math>\mathcal{I}</math>是有效信息的度量(可以是EI、Eff 或NIS主要使用的维度平均 EI。维度平均EI表示为 dEI,将于第 3.3.3 节中解析)。<math>\phi_q</math> 是一种有效的粗粒化策略,<math>\hat{f}_{\phi_q}</math>是一种有效的宏观动力学。
+
因此,粗粒化策略优化问题可以表述为:在约束方程{{EquationNoet|4}}和{{EquationNote|5}}下,
 +
{{NumBlk|:|<blockquote><math>\max_{\phi_q,\hat{f}_{\phi_q},\phi_q^†,q} \mathcal{I}(\hat{f}_{\phi_q})</math></blockquote>|{{EquationNote|6}}}}
 +
其中<math>\mathcal{I}</math>是有效信息的度量(可以是EI、Eff 或NIS主要使用的维度平均 EI。维度平均EI表示为 dEI,将于第 3.3.3 节中解析)。<math>\phi_q</math> 是一种有效的粗粒化策略,<math>\hat{f}_{\phi_q}</math>是一种有效的宏观动力学。
    
该定义与近似因果模型摘要一致<ref>Beckers, S.; Eberhardt, F.; Halpern, J.Y. Approximate Causal Abstraction. arXiv 2019, arXiv:1906.11583v2.</ref>。
 
该定义与近似因果模型摘要一致<ref>Beckers, S.; Eberhardt, F.; Halpern, J.Y. Approximate Causal Abstraction. arXiv 2019, arXiv:1906.11583v2.</ref>。
第75行: 第86行:  
==编码器==
 
==编码器==
 
*'''投影操作'''
 
*'''投影操作'''
投影算子<math>\chi_{p,q}</math> 是一个从<math>\mathcal{R}^p</math> 到 <math>\mathcal{R}^q</math>的函数,表达为<blockquote><math>\chi_{p,q}(\mathbf{x}_q \bigoplus \mathbf{x}_{p-q}) = \mathbf{x}_q, \qquad (7)</math></blockquote>其中<math>\bigoplus</math> 是向量串联算符,<math>\chi_q \in \mathcal{R}^q , \chi_{p-q} \in \mathcal{R}^{p-q}</math>。 若无歧义则<math>\chi_p,q</math>可简写为<math>\chi_q</math>. 这样,编码器<math>(\phi)</math>将微观状态<math>\mathbf{x}_t</math>映射到宏观状态<math>\mathbf{y}_t</math>,分为两个步骤:<blockquote><math>\phi_q=\chi_q \circ \psi_\alpha \qquad (8)</math></blockquote>其中<math>\circ</math>表示函数组合运算。
+
投影算子<math>\chi_{p,q}</math> 是一个从<math>\mathcal{R}^p</math> 到 <math>\mathcal{R}^q</math>的函数,表达为
 +
{{NumBlk|:|<blockquote><math>\chi_{p,q}(\mathbf{x}_q \bigoplus \mathbf{x}_{p-q}) = \mathbf{x}_q,</math></blockquote>|{{EquationNote|7}}}}
 +
其中<math>\bigoplus</math> 是向量串联算符,<math>\chi_q \in \mathcal{R}^q , \chi_{p-q} \in \mathcal{R}^{p-q}</math>。 若无歧义则<math>\chi_p,q</math>可简写为<math>\chi_q</math>. 这样,编码器<math>(\phi)</math>将微观状态<math>\mathbf{x}_t</math>映射到宏观状态<math>\mathbf{y}_t</math>,分为两个步骤:
 +
{{NumBlk|:|<blockquote><math>\phi_q=\chi_q \circ \psi_\alpha</math></blockquote>|{{EquationNote|8}}}}
 +
其中<math>\circ</math>表示函数组合运算。
    
第一步是从<math>\mathbf{x}_t \in \mathcal{R}^p</math> 到 <math>\mathbf{x}'_t \in \mathcal{R}^p</math>的双射(可逆)映射<math>\psi_\alpha : \mathcal{R}^p \rightarrow \mathcal{R}^p</math>,无信息丢失,由可逆神经网络实现;第二步是通过将<math>\mathbf{x}_t \in \mathcal{R}^p</math>映射到<math>\mathbf{y}_t \in \mathcal{R}^q</math>,丢弃<math>p-q</math>维上的信息,将得到的向量投影到<math>q</math>维。
 
第一步是从<math>\mathbf{x}_t \in \mathcal{R}^p</math> 到 <math>\mathbf{x}'_t \in \mathcal{R}^p</math>的双射(可逆)映射<math>\psi_\alpha : \mathcal{R}^p \rightarrow \mathcal{R}^p</math>,无信息丢失,由可逆神经网络实现;第二步是通过将<math>\mathbf{x}_t \in \mathcal{R}^p</math>映射到<math>\mathbf{y}_t \in \mathcal{R}^q</math>,丢弃<math>p-q</math>维上的信息,将得到的向量投影到<math>q</math>维。
第88行: 第103行:  
==解码器==
 
==解码器==
   −
解码器将宏观状态 <math>\mathbf{y}(t + 1)</math> 的预测转换为微观状态 <math>\hat{\mathbf{x}}_{t+1}</math> 的预测。在这个框架中,粗粒化策略 <math>\phi_q</math> 可以分解为双射器 <math>\psi_\alpha</math> 和投影器 <math>\chi_q</math>,因此解码器可以直接通过反转 <math>\psi_\alpha</math> 得到。然而,由于宏观状态的维度是 <math>q</math>,而 <math>\psi_\alpha</math> 的输入维度是 <math>p > q</math>,因此需要用 <math>p-q</math> 维高斯随机向量填充剩余的 <math>p-q</math> 维。对于任何 <math>\phi_q</math>,解码映射可以定义为:<blockquote><math>\phi_q^† = \psi_\alpha^{-1} \circ \chi_q^† \qquad (9)</math></blockquote>其中,<math>\psi_\alpha^{-1}</math> 是 <math>\psi_\alpha</math> 的反函数,<math>\circ \chi_q^† : \mathbb{R}^q \rightarrow \mathbb{R}^p</math> 定义为:对于任意 <math>\mathbf{x} \in \mathbb{R}^p</math>,有<blockquote><math>\chi_q^†(\mathbf{x}_q \bigoplus \mathbf{z}_{p-q}) \qquad (10)</math></blockquote>其中,<math>\mathbf{z}_{p-q} \sim \mathcal{N}(0, \mathcal{I}_{p-q})</math> 是 <math>p-q</math> 维的高斯随机噪声,<math>\mathcal{I}_{p-q}</math> 是同维度的单位矩阵。这样可以结合 <math>\mathbf{x}_q</math> 和一个来自 <math>p-q</math> 维标准正态分布的随机样本 <math>\mathbf{z}_{p-q}</math> 生成微状态。
+
解码器将宏观状态 <math>\mathbf{y}(t + 1)</math> 的预测转换为微观状态 <math>\hat{\mathbf{x}}_{t+1}</math> 的预测。在这个框架中,粗粒化策略 <math>\phi_q</math> 可以分解为双射器 <math>\psi_\alpha</math> 和投影器 <math>\chi_q</math>,因此解码器可以直接通过反转 <math>\psi_\alpha</math> 得到。然而,由于宏观状态的维度是 <math>q</math>,而 <math>\psi_\alpha</math> 的输入维度是 <math>p > q</math>,因此需要用 <math>p-q</math> 维高斯随机向量填充剩余的 <math>p-q</math> 维。对于任何 <math>\phi_q</math>,解码映射可以定义为:
 +
{{NumBlk|:|<blockquote><math>\phi_q^† = \psi_\alpha^{-1} \circ \chi_q^†</math></blockquote>|{{EquationRef|9}}}}
 +
其中,<math>\psi_\alpha^{-1}</math> 是 <math>\psi_\alpha</math> 的反函数,<math>\circ \chi_q^† : \mathbb{R}^q \rightarrow \mathbb{R}^p</math> 定义为:对于任意 <math>\mathbf{x} \in \mathbb{R}^p</math>,有
 +
{{NumBlk|:|<blockquote><math>\chi_q^†(\mathbf{x}_q \bigoplus \mathbf{z}_{p-q})</math></blockquote>|{{EquationRef|10}}}}
 +
其中,<math>\mathbf{z}_{p-q} \sim \mathcal{N}(0, \mathcal{I}_{p-q})</math> 是 <math>p-q</math> 维的高斯随机噪声,<math>\mathcal{I}_{p-q}</math> 是同维度的单位矩阵。这样可以结合 <math>\mathbf{x}_q</math> 和一个来自 <math>p-q</math> 维标准正态分布的随机样本 <math>\mathbf{z}_{p-q}</math> 生成微状态。
    
解码器可以被视为条件概率 <math>Pr(\hat{\mathbf{x}}_{t+1} | \mathbf{y}(t+1))</math> 的生成模型<ref name=":3" /><ref name=":4" />,而编码器执行正态化过程。
 
解码器可以被视为条件概率 <math>Pr(\hat{\mathbf{x}}_{t+1} | \mathbf{y}(t+1))</math> 的生成模型<ref name=":3" /><ref name=":4" />,而编码器执行正态化过程。
第94行: 第113行:  
===动力学学习器===
 
===动力学学习器===
   −
动力学学习器 <math>f_\beta</math> 是一个带有参数的常见前馈神经网络,它在宏观层面上学习有效的马尔可夫动力学。用 <math>f_\beta</math> 替换方程 (2) 中的 <math>\hat{f}_{\phi_q}</math>,并使用 <math>dt = 1</math> 的欧拉方法求解方程 (2)。假设噪声是加性高斯分布(或拉普拉斯分布),则可以将方程 (5) 简化为:<blockquote><math>\mathbf{y}(t+1) = \mathbf{y}_t + \int_t^{t+1} f_\beta (\mathbf{y}(\tau), \xi') d\tau \approx \mathbf{y}_t + f_\beta (\mathbf{y}_t)+\xi' \qquad (11)</math></blockquote>其中,<math>\xi' \sim \mathcal{N}(0,\Sigma)</math> 或 <math>Laplacian(0, \Sigma),</math> <math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵,<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差(可以学习或固定)。因此,该动力学的转移概率可被写作:<blockquote><math>P(\mathbf{y}(t+1)|\mathbf{y}_t) = \mathcal{D}(\mu (\mathbf{y}_t), \Sigma) \qquad (12)</math></blockquote>其中,<math>\mathcal{D}</math> 指表示高斯分布或拉普拉斯分布的概率密度函数,<math>\mu (\mathbf{y}_t) \equiv \mathbf{y}_t+f_\beta(\mathbf{y}_t)</math> 是分布的均值向量。
+
动力学学习器 <math>f_\beta</math> 是一个带有参数的常见前馈神经网络,它在宏观层面上学习有效的马尔可夫动力学。用 <math>f_\beta</math> 替换方程{{EquationNote|2}}中的 <math>\hat{f}_{\phi_q}</math>,并使用 <math>dt = 1</math> 的欧拉方法求解方程 (2)。假设噪声是加性高斯分布(或拉普拉斯分布),则可以将方程{{EquationNote|5}}简化为:
 +
{{NumBlk|:|<blockquote><math>\mathbf{y}(t+1) = \mathbf{y}_t + \int_t^{t+1} f_\beta (\mathbf{y}(\tau), \xi') d\tau \approx \mathbf{y}_t + f_\beta (\mathbf{y}_t)+\xi'</math></blockquote>|{{EquationRef|11}}}}
 +
其中,<math>\xi' \sim \mathcal{N}(0,\Sigma)</math> 或 <math>Laplacian(0, \Sigma),</math> <math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵,<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差(可以学习或固定)。因此,该动力学的转移概率可被写作:
 +
{{NumBlk|:|<blockquote><math>P(\mathbf{y}(t+1)|\mathbf{y}_t) = \mathcal{D}(\mu (\mathbf{y}_t), \Sigma) \qquad (12)</math></blockquote>|{{EquationRef|12}}}}
 +
其中,<math>\mathcal{D}</math> 指表示高斯分布或拉普拉斯分布的概率密度函数,<math>\mu (\mathbf{y}_t) \equiv \mathbf{y}_t+f_\beta(\mathbf{y}_t)</math> 是分布的均值向量。
    
通过端到端的方式训练动力学学习器,可以避免从数据中估计马尔可夫转移概率以减少偏差。
 
通过端到端的方式训练动力学学习器,可以避免从数据中估计马尔可夫转移概率以减少偏差。
第106行: 第129行:  
在第一阶段,可以使用概率最大化和随机梯度下降技术来获得有效的 <math>q</math> 粗粒化策略和宏观状态动力学的有效预测器。目标函数由微观状态预测的概率定义。
 
在第一阶段,可以使用概率最大化和随机梯度下降技术来获得有效的 <math>q</math> 粗粒化策略和宏观状态动力学的有效预测器。目标函数由微观状态预测的概率定义。
   −
前馈神经网络可以理解为一种用高斯或拉普拉斯分布建模条件概率<ref>Kingma, D.P.; Welling, M. Auto-encoding variational bayes. arXiv 2013, arXiv:1312.6114.</ref>的机器。因此,整个 NIS 框架可以理解为一个 <math>P(\hat{\mathbf{x}}_{t+dt} | \mathbf{x}_t)</math> 的模型,其输出 <math>\hat{\mathbf{x}}_{t+1}</math> 只是平均值。此外,目标函数方程 14 只是给定分布形式下观测数据的对数概率或交叉熵。<blockquote><math>\mathcal{L} = \sum_t \ln P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t) \qquad (13)</math></blockquote>其中当 <math>l=2</math> 时,<math>P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t) \sim \mathcal{N}(\hat{\mathbf{x}}_{t+1}, \Sigma)</math>,而当 <math>l=1</math> 时概率分布为 <math>Laplace(\hat{\mathbf{x}}_{t+1}, \Sigma)</math>。<math>\Sigma</math> 是协方差矩阵。<math>\Sigma</math> 始终是对角矩阵,其幅度为 <math>l = 2</math> 时的均方误差或 <math>l = 1</math> 时的绝对值平均值。
+
前馈神经网络可以理解为一种用高斯或拉普拉斯分布建模条件概率<ref>Kingma, D.P.; Welling, M. Auto-encoding variational bayes. arXiv 2013, arXiv:1312.6114.</ref>的机器。因此,整个 NIS 框架可以理解为一个 <math>P(\hat{\mathbf{x}}_{t+dt} | \mathbf{x}_t)</math> 的模型,其输出 <math>\hat{\mathbf{x}}_{t+1}</math> 只是平均值。此外,目标函数方程 14 只是给定分布形式下观测数据的对数概率或交叉熵。
 +
{{NumBlk|:|<blockquote><math>\mathcal{L} = \sum_t \ln P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t)</math></blockquote>|{{EquationRef|13}}}}
 +
其中当 <math>l=2</math> 时,<math>P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t) \sim \mathcal{N}(\hat{\mathbf{x}}_{t+1}, \Sigma)</math>,而当 <math>l=1</math> 时概率分布为 <math>Laplace(\hat{\mathbf{x}}_{t+1}, \Sigma)</math>。<math>\Sigma</math> 是协方差矩阵。<math>\Sigma</math> 始终是对角矩阵,其幅度为 <math>l = 2</math> 时的均方误差或 <math>l = 1</math> 时的绝对值平均值。
   −
如果将高斯或拉普拉斯分布的具体形式带入条件概率,将看到最大化对数似然等同于最小化 <math>l</math> 范数目标函数:<blockquote><math>\mathcal{L}=\sum_t \Vert \hat{\mathbf{x}}_{t+1} - \mathbf{x}_{t+1} \Vert_l \qquad (14)</math></blockquote>其中 <math>l = 1</math> 或 <math>2</math>。接下来使用随机梯度下降技术来优化方程 (14)
+
如果将高斯或拉普拉斯分布的具体形式带入条件概率,将看到最大化对数似然等同于最小化 <math>l</math> 范数目标函数:
 +
{{NumBlk|:|<blockquote><math>\mathcal{L}=\sum_t \Vert \hat{\mathbf{x}}_{t+1} - \mathbf{x}_{t+1} \Vert_l</math></blockquote>|{{EquationNote|14}}}}
 +
其中 <math>l = 1</math> 或 <math>2</math>。接下来使用随机梯度下降技术来优化方程{{EquationNote|14}}
    
===选择一个最优的尺度===
 
===选择一个最优的尺度===
第116行: 第143行:  
为了选择最优的 <math>q</math>,可以比较不同 <math>q</math> 粗粒化宏观动力学的有效信息度量 <math>\mathcal{I}</math>。由于参数 <math>q</math> 是一维的,其值范围也有限 <math>(0 < q < p)</math>,可以简单地迭代所有 <math>q</math> 以找出最优的 <math>q</math> 和最优的有效策略。
 
为了选择最优的 <math>q</math>,可以比较不同 <math>q</math> 粗粒化宏观动力学的有效信息度量 <math>\mathcal{I}</math>。由于参数 <math>q</math> 是一维的,其值范围也有限 <math>(0 < q < p)</math>,可以简单地迭代所有 <math>q</math> 以找出最优的 <math>q</math> 和最优的有效策略。
   −
==有效信息==
+
 
 +
 
 +
=结果=
 +
本节讨论NIS的理论性质和数值应用实例。
 +
==NIS的理论性质==
 +
 
 +
===有效信息的度量===
    
'''前馈神经网络的有效信息定义'''
 
'''前馈神经网络的有效信息定义'''
   −
一般而言,如果神经网络的输入为 <math>X =(x_1,x_2,··· ,x_n) \in [-L,L]^n</math>,即 <math>X</math> 定义在大小为 <math>L</math> 的超立方体上(<math>L</math> 是大整数),则输出为 <math>Y = (y_1,y_2,··· ,y_m)</math> ,且 <math>Y = \mu(X)</math>。神经网络实现的确定性映射为 <math>\mu: \mathcal{R}^n \rightarrow \mathcal{R}^m</math> ,其在 <math>X</math> 处的雅可比矩阵为 <math>\partial_{X' \mu} \equiv \Bigl\{ \frac{\partial \mu_i (X')}{\partial X'_j}|_{X'=X}\Bigr\}_{nm}</math> . 若可以将神经网络视为给定 <math>X</math> 下的高斯分布,则:<blockquote><math>p(\mathcal{Y}|X) = \frac{1}{\sqrt{(2 \pi)^m |\Sigma|}} \exp\left( - \frac{1}{2}(\mathcal{Y}-\mu(X))^T \Sigma^{-1}(\mathcal{Y}-\mu(X)) \right) \qquad (15)</math></blockquote>其中,<math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵,<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差(可由 <math>y_i</math> 的平均方差估计)。由此可计算有效信息 <math>EI</math>:
+
一般而言,如果神经网络的输入为 <math>X =(x_1,x_2,··· ,x_n) \in [-L,L]^n</math>,即 <math>X</math> 定义在大小为 <math>L</math> 的超立方体上(<math>L</math> 是大整数),则输出为 <math>Y = (y_1,y_2,··· ,y_m)</math> ,且 <math>Y = \mu(X)</math>。神经网络实现的确定性映射为 <math>\mu: \mathcal{R}^n \rightarrow \mathcal{R}^m</math> ,其在 <math>X</math> 处的雅可比矩阵为 <math>\partial_{X' \mu} \equiv \Bigl\{ \frac{\partial \mu_i (X')}{\partial X'_j}|_{X'=X}\Bigr\}_{nm}</math> . 若可以将神经网络视为给定 <math>X</math> 下的高斯分布,则:
 +
{{NumBlk|:|<blockquote><math>p(\mathcal{Y}|X) = \frac{1}{\sqrt{(2 \pi)^m |\Sigma|}} \exp\left( - \frac{1}{2}(\mathcal{Y}-\mu(X))^T \Sigma^{-1}(\mathcal{Y}-\mu(X)) \right)</math></blockquote>|{{EquationRef|15}}}}
 +
其中,<math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵,<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差(可由 <math>y_i</math> 的平均方差估计)。由此可计算有效信息 <math>EI</math>:
   −
(i) 若存在 <math>X</math> 使 <math>\det(\partial_{X' } \mu(X)) \neq 0</math> ,则 <math>EI</math> 由如下式子导出:<blockquote><math>EI_L(\mu) = I(do(X \sim \mathcal{U}([-L,L]^n;\mathcal{Y}) \approx - \frac{m+m \ln(2\pi)+\Sigma_{i=1}^m \sigma_i^2}{2}+n \ln (2L)+ \mathbb{E}_{X \sim \mathcal{U}[-L,L]^n}(\ln | \det(\partial_{X' }\mu(X))|)  \qquad (16)</math></blockquote>其中 <math>\mathcal{U}([-L,L]^n)</math> 表示 <math>[-L,L]^n</math> 上的均匀分布,<math>|\cdot|</math> 表示绝对值,<math>\det</math> 表示行列式。
+
(i) 若存在 <math>X</math> 使 <math>\det(\partial_{X' } \mu(X)) \neq 0</math> ,则 <math>EI</math> 由如下式子导出:
 +
{{NumBlk|:|<blockquote><math>EI_L(\mu) = I(do(X \sim \mathcal{U}([-L,L]^n;\mathcal{Y}) \approx - \frac{m+m \ln(2\pi)+\Sigma_{i=1}^m \sigma_i^2}{2}+n \ln (2L)+ \mathbb{E}_{X \sim \mathcal{U}[-L,L]^n}(\ln | \det(\partial_{X' }\mu(X))|) </math></blockquote>|{{EquationRef|16}}}}
 +
其中 <math>\mathcal{U}([-L,L]^n)</math> 表示 <math>[-L,L]^n</math> 上的均匀分布,<math>|\cdot|</math> 表示绝对值,<math>\det</math> 表示行列式。
    
(ii) 若对于所有 <math>X</math> 都有 <math>\det (\partial_{X'}\mu(X)) \equiv 0</math>,则 <math>EI \approx 0</math>。
 
(ii) 若对于所有 <math>X</math> 都有 <math>\det (\partial_{X'}\mu(X)) \equiv 0</math>,则 <math>EI \approx 0</math>。
第131行: 第168行:  
'''维度平均有效信息 (<math>dEI</math>)'''
 
'''维度平均有效信息 (<math>dEI</math>)'''
   −
对于具有 <math>n</math> 维状态空间的动力学 <math>f</math>,则维度平均有效信息定义为:<blockquote><math>dEI(f)=\frac{EI(f)}{n} \qquad (17)</math></blockquote>此时如果动力学 <math>f</math> 连续且可被看作条件高斯分布,则根据 <math>EI</math> 的定义(式 16),维度平均 <math>EI</math> 可以计算为(<math>m = n</math>):<blockquote><math>dEI_L(f)= -\frac{1+\ln(2\pi)+\Sigma_{i=1}^n \sigma_i^2/n}{2}+\ln(2L) + \frac{1}{n}\mathbb{E}_{X \sim \mathcal{U}([-L,L]^n)}(\ln | \det(\partial_{X'}f(X))|)  \qquad (18)</math></blockquote>式 18 中与维度 <math>n</math> 相关的所有项都已被消除。但是,等式中仍然存在 <math>L</math>,当 <math>L</math> 很大时可能导致 <math>EI</math> 发散。
+
对于具有 <math>n</math> 维状态空间的动力学 <math>f</math>,则维度平均有效信息定义为:
 +
{{NumBlk|:|<blockquote><math>dEI(f)=\frac{EI(f)}{n}</math></blockquote>|{{EquationRef|17}}}}
 +
此时如果动力学 <math>f</math> 连续且可被看作条件高斯分布,则根据 <math>EI</math> 的定义(式{{EquationRef|16}}),维度平均 <math>EI</math> 可以计算为(<math>m = n</math>):
 +
{{NumBlk|:|<blockquote><math>dEI_L(f)= -\frac{1+\ln(2\pi)+\Sigma_{i=1}^n \sigma_i^2/n}{2}+\ln(2L) + \frac{1}{n}\mathbb{E}_{X \sim \mathcal{U}([-L,L]^n)}(\ln | \det(\partial_{X'}f(X))|)  \qquad (18)</math></blockquote>|{{EquationNote|18}}}}
 +
{{EquationRef|18}}中与维度 <math>n</math> 相关的所有项都已被消除。但是,等式中仍然存在 <math>L</math>,当 <math>L</math> 很大时可能导致 <math>EI</math> 发散。
    
可以计算维度平均因果涌现(<math>dCE</math>)以消除 <math>L</math> 的影响。
 
可以计算维度平均因果涌现(<math>dCE</math>)以消除 <math>L</math> 的影响。
第138行: 第179行:  
'''维度平均因果涌现 (<math>dCE</math>)'''
 
'''维度平均因果涌现 (<math>dCE</math>)'''
   −
对于维度为 <math>n_M</math> 的宏观动力学 <math>f_M</math> 和维度为 <math>n_m</math> 的微观动力学 <math>f_m</math>,将维度平均因果涌现定义为:<blockquote><math>dCE(f_M,f_m)=dEI(f_M)-dEI(f_m)=\frac{EI(f_M)}{n_M}-\frac{EI(f_m)}{n_m}. \qquad (19)</math></blockquote>因此,如果动力学 <math>f_M</math> 和 <math>f_m</math> 连续且可以被视为条件高斯分布,则根据定义 7 和公式 (18),维度平均因果涌现符合如下公式:<blockquote><math> dCE(f_M,f_m)=\left(\frac{1}{n_M} \mathbb{E}_{X_M} \ln |\det\partial_{X_M}f_M| \right) - \left(\frac{1}{n_M}\sum_{i=1}^{n_M} \ln \sigma_{i,M}^2 - \frac{1}{n_m} \sum_{i=1}^{n_m} \ln \sigma_{i,m}^2 \right)  \qquad (20)</math></blockquote>在式 20 中,<math>n</math> 维和 <math>L</math> 维的影响已被完全消除,结果只受方差的相对值和雅可比矩阵行列式的对数值的影响。数值计算中将主要使用式 20。Eff 因受 <math>L</math> 影响而弃用。
+
对于维度为 <math>n_M</math> 的宏观动力学 <math>f_M</math> 和维度为 <math>n_m</math> 的微观动力学 <math>f_m</math>,将维度平均因果涌现定义为:
 
+
{{NumBlk|:|<blockquote><math>dCE(f_M,f_m)=dEI(f_M)-dEI(f_m)=\frac{EI(f_M)}{n_M}-\frac{EI(f_m)}{n_m}.</math></blockquote>|{{EquationRef|19}}}}
=结果=
+
因此,如果动力学 <math>f_M</math> 和 <math>f_m</math> 连续且可以被视为条件高斯分布,则根据定义 7 和公式 (18),维度平均因果涌现符合如下公式:
本节讨论NIS的理论性质和数值应用实例。
+
{{NumBlk|:|<blockquote><math> dCE(f_M,f_m)=\left(\frac{1}{n_M} \mathbb{E}_{X_M} \ln |\det\partial_{X_M}f_M| \right) - \left(\frac{1}{n_M}\sum_{i=1}^{n_M} \ln \sigma_{i,M}^2 - \frac{1}{n_m} \sum_{i=1}^{n_m} \ln \sigma_{i,m}^2 \right)</math></blockquote>|{{EquationRef|20}}}}
==理论==
+
在式{{EquationNote|20}}中,<math>n</math> 维和 <math>L</math> 维的影响已被完全消除,结果只受方差的相对值和雅可比矩阵行列式的对数值的影响。数值计算中将主要使用式 20。Eff 因受 <math>L</math> 影响而弃用。
 
理论中讨论神经信息压缩器框架找出最具信息量的宏观动力学的原因,以及有效策略动力学随<math>q</math>的变化。由于理论结果与输入数据的分布无关,该理论同时适用互信息与有效信息。
 
理论中讨论神经信息压缩器框架找出最具信息量的宏观动力学的原因,以及有效策略动力学随<math>q</math>的变化。由于理论结果与输入数据的分布无关,该理论同时适用互信息与有效信息。
 
===压缩信道===
 
===压缩信道===
第151行: 第192行:  
'''信息压缩的信息瓶颈'''
 
'''信息压缩的信息瓶颈'''
   −
对于图 3 所示的压缩信道以及任意双射源<math>\psi</math>、投影器 <math>\chi_q</math>、宏观动力学 <math>f</math> 和随机噪声 <math>\mathbf{z}_{p-q} \sim \mathcal{N}(0,\mathcal{I}_{p-q})</math>,有:<blockquote><math>I(\mathbf{y}_t; \mathbf{y}(t+1) = I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1}), \qquad (21)</math></blockquote>其中<math>\hat{\mathbf{x}}_{t+1}</math> 是NIS的预测值,<math>\mathbf{y}(t+1)</math>符合式2。
+
对于图 3 所示的压缩信道以及任意双射源<math>\psi</math>、投影器 <math>\chi_q</math>、宏观动力学 <math>f</math> 和随机噪声 <math>\mathbf{z}_{p-q} \sim \mathcal{N}(0,\mathcal{I}_{p-q})</math>,有:{{NumBlk|:|<blockquote><math>I(\mathbf{y}_t; \mathbf{y}(t+1) = I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1}),</math></blockquote>|{{EquationRef|21}}}}
 +
其中<math>\hat{\mathbf{x}}_{t+1}</math> 是NIS的预测值,<math>\mathbf{y}(t+1)</math>符合式{{EquationNote|2}}。
    
对于任何实现图 3 中一般框架的神经网络,宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同,即对于任意时间从 <math>\mathbf{x}_t</math> 到 <math>\hat{\mathbf{x}}_{t+1}</math> 的映射。此定理是 NIS 的基础。实际上,宏观动力学 <math>f</math> 是整个通道的信息瓶颈 [45]。
 
对于任何实现图 3 中一般框架的神经网络,宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同,即对于任意时间从 <math>\mathbf{x}_t</math> 到 <math>\hat{\mathbf{x}}_{t+1}</math> 的映射。此定理是 NIS 的基础。实际上,宏观动力学 <math>f</math> 是整个通道的信息瓶颈 [45]。
第162行: 第204行:  
'''模型的互信息与数据的互信息接近'''
 
'''模型的互信息与数据的互信息接近'''
   −
如果 NIS 框架中的神经网络是训练有素的(即对于任何<math>t \in [1,T]</math>训练周期结束时有 <math>Pr_\tau (\hat{\mathbf{x}}_{t+1} | \mathbf{x}_t)</math> 和 <math>Pr_\tau (\mathbf{x}_{t+1} | \mathbf{x}_t)</math> 之间的 Kullback- Leibler 散度趋近于 0),那么对于任何 t [1,T]:<blockquote><math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t) \simeq I(\mathbf{x}_{t+1} ; \mathbf{x}_t) \qquad (22)</math></blockquote>其中 <math>\simeq</math> 表示<math>\tau \rightarrow \infty</math> 时的渐近等价。
+
如果 NIS 框架中的神经网络是训练有素的(即对于任何<math>t \in [1,T]</math>训练周期结束时有 <math>Pr_\tau (\hat{\mathbf{x}}_{t+1} | \mathbf{x}_t)</math> 和 <math>Pr_\tau (\mathbf{x}_{t+1} | \mathbf{x}_t)</math> 之间的 Kullback- Leibler 散度趋近于 0),那么对于任何 t [1,T]:
 +
{{NumBlk|:|<blockquote><math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t) \simeq I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math></blockquote>|{{EquationRef|22}}}}
 +
其中 <math>\simeq</math> 表示<math>\tau \rightarrow \infty</math> 时的渐近等价。
    
由于微观状态<math>\mathbf{x}_t</math>的时间序列包含信息,假设互信息<math>I(\mathbf{x}_t,\mathbf{x}_{t+1})</math> 较大,否则不关注<math>\mathbf{x}_t</math>。因此,随着神经网络的训练,<math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t)</math>将增加,直到接近<math>I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math>。根据信息瓶颈理论,<math>I(\mathbf{y}_{t}; \mathbf{y}_{t+1} ) = I(\mathbf{x}_{t} ; \hat{\mathbf{x}}_{t+1})</math>也将增加,直到接近<math>I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math>。
 
由于微观状态<math>\mathbf{x}_t</math>的时间序列包含信息,假设互信息<math>I(\mathbf{x}_t,\mathbf{x}_{t+1})</math> 较大,否则不关注<math>\mathbf{x}_t</math>。因此,随着神经网络的训练,<math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t)</math>将增加,直到接近<math>I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math>。根据信息瓶颈理论,<math>I(\mathbf{y}_{t}; \mathbf{y}_{t+1} ) = I(\mathbf{x}_{t} ; \hat{\mathbf{x}}_{t+1})</math>也将增加,直到接近<math>I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math>。
第171行: 第215行:  
'''信息瓶颈是编码器的下界'''
 
'''信息瓶颈是编码器的下界'''
   −
对于图3中的压缩信息信道,<math>\psi_\alpha</math>的雅可比矩阵的行列式和<math>\mathbf{y}_t</math>的香农熵的下界是整个信道的信息:<blockquote><math>H(\mathbf{x}_t)+ \mathbb{E}(\ln | \det (J_{\psi_\alpha} (\mathbf{x}_t))|) \geq H(\mathbf{y}_t + \mathbb{E}(\ln |\det(J_{\psi_\alpha}, \mathbf{y}_t))|) \geq I(\mathbf{x}_t ; \hat{\mathbf{x}_{t+1}}) \qquad (23)</math></blockquote>其中H为香农熵测度,<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>为双射<math>\psi_\alpha</math>输入<math>\mathbf{x}_t</math> 时的雅可比矩阵,<math>J_{\psi_\alpha , \mathbf{y}_t}(\mathbf{x}_t)</math> 为<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>在<math>\mathbf{x}'_t</math> 投影<math>\mathbf{y}_t</math>上的子矩阵。证明见附录D。
+
对于图3中的压缩信息信道,<math>\psi_\alpha</math>的雅可比矩阵的行列式和<math>\mathbf{y}_t</math>的香农熵的下界是整个信道的信息:
 +
{{NumBlk|:|<blockquote><math>H(\mathbf{x}_t)+ \mathbb{E}(\ln | \det (J_{\psi_\alpha} (\mathbf{x}_t))|) \geq H(\mathbf{y}_t + \mathbb{E}(\ln |\det(J_{\psi_\alpha}, \mathbf{y}_t))|) \geq I(\mathbf{x}_t ; \hat{\mathbf{x}_{t+1}})</math></blockquote>|{{EquationNote|23}}}}
 +
其中H为香农熵测度,<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>为双射<math>\psi_\alpha</math>输入<math>\mathbf{x}_t</math> 时的雅可比矩阵,<math>J_{\psi_\alpha , \mathbf{y}_t}(\mathbf{x}_t)</math> 为<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>在<math>\mathbf{x}'_t</math> 投影<math>\mathbf{y}_t</math>上的子矩阵。证明见附录D。
    
由于给出了XT及其香农熵的分布,定理4指出 <math>|\det(J_{\psi_\alpha}(\mathbf{x}_t))|</math>的对数的期望以及<math>\mathbf{y}_t</math>必然大于整个信道的信息。
 
由于给出了XT及其香农熵的分布,定理4指出 <math>|\det(J_{\psi_\alpha}(\mathbf{x}_t))|</math>的对数的期望以及<math>\mathbf{y}_t</math>必然大于整个信道的信息。
第183行: 第229行:  
'''宏观动力学有效信息的数学表达式'''
 
'''宏观动力学有效信息的数学表达式'''
   −
假设给定<math>\mathbf{x}_t</math>下<math>\mathbf{x}_{t+1}</math>的概率密度可以通过函数<math>Pr(\mathbf{x}_{t+1} | \mathbf{x}_t) \equiv G(\mathbf{x}_{t+1}, \mathbf{x}_t)</math>描述,且神经信息挤压框架训练有素,即可通过以下方式计算<math>f_\beta</math>的宏观动力学信息:<blockquote><math>EI_L(f_\beta) = \frac{1}{(2L)^p} \cdot \int_\sigma \int_{\mathcal{R}^p} G(\mathbf{y}, \psi_\alpha^{-1}(\mathbf{x})) \ln \frac{(2L)^pG(\mathbf{y, \psi_\alpha^{-1}(\mathbf{x})})}{\int_\sigma G(\mathbf{y}, \psi_\alpha^{-1}(\mathbf{x}'))d\mathbf{x}'}d\mathbf{y} d\mathbf{x} \qquad (24)</math></blockquote>其中 <math>\sigma \equiv [-L,L]^p</math> 是<math>\mathbf{x}</math>与<math>\mathbf{x}'</math>的积分区间。
+
假设给定<math>\mathbf{x}_t</math>下<math>\mathbf{x}_{t+1}</math>的概率密度可以通过函数<math>Pr(\mathbf{x}_{t+1} | \mathbf{x}_t) \equiv G(\mathbf{x}_{t+1}, \mathbf{x}_t)</math>描述,且神经信息挤压框架训练有素,即可通过以下方式计算<math>f_\beta</math>的宏观动力学信息:
 +
{{NumBlk|:|<blockquote><math>EI_L(f_\beta) = \frac{1}{(2L)^p} \cdot \int_\sigma \int_{\mathcal{R}^p} G(\mathbf{y}, \psi_\alpha^{-1}(\mathbf{x})) \ln \frac{(2L)^pG(\mathbf{y, \psi_\alpha^{-1}(\mathbf{x})})}{\int_\sigma G(\mathbf{y}, \psi_\alpha^{-1}(\mathbf{x}'))d\mathbf{x}'}d\mathbf{y} d\mathbf{x}</math></blockquote>|{{EquationRef|24}}}}
 +
其中 <math>\sigma \equiv [-L,L]^p</math> 是<math>\mathbf{x}</math>与<math>\mathbf{x}'</math>的积分区间。
    
===互信息随尺度的变化===
 
===互信息随尺度的变化===
第199行: 第247行:  
'''理论6:信道越窄互信息越小'''
 
'''理论6:信道越窄互信息越小'''
   −
若<math>\mathbf{x}_t</math>是<math>p</math>维的,那么对于 <math>0 < q_1 < q_2 < p</math> 有<blockquote><math>I(\mathbf{x}_t; \hat{\mathbf{x}}_{t+1}) \leq I(\mathbf{x}_t ; \mathbf{y}_t^{q_1}) \leq I(\mathbf{x}_t ; \mathbf{y}_t^{q_2}), \qquad (25)</math></blockquote>其中<math>\mathbf{y}_t^q</math> 表示 <math>\mathbf{y}_t</math> 的<math>q</math> 维向量。
+
若<math>\mathbf{x}_t</math>是<math>p</math>维的,那么对于 <math>0 < q_1 < q_2 < p</math> 有
 +
{{NumBlk|:|<blockquote><math>I(\mathbf{x}_t; \hat{\mathbf{x}}_{t+1}) \leq I(\mathbf{x}_t ; \mathbf{y}_t^{q_1}) \leq I(\mathbf{x}_t ; \mathbf{y}_t^{q_2}),</math></blockquote>|{{EquationRef|25}}}}
 +
其中<math>\mathbf{y}_t^q</math> 表示 <math>\mathbf{y}_t</math> 的<math>q</math> 维向量。
    
互信息描述了编码器(即在不同维度<math>q</math>中的微型状态<math>\mathbf{x}_t</math>和宏观状态<math>\mathbf{y}_t</math>)。该定理指出,随着<math>q</math>减小,编码器部分的互信息必然减小,且对信息限制<math>I( \mathbf{x}_t ; \hat{\mathbf{x}}_{t+1}) \simeq I(\mathbf{x}_t ; \mathbf{x}_{t+1})</math>更封闭。因此,整个信道将更加狭窄,编码器必须携带更有用和有效的信息才能转移到宏观动力学,预测变得更加困难。
 
互信息描述了编码器(即在不同维度<math>q</math>中的微型状态<math>\mathbf{x}_t</math>和宏观状态<math>\mathbf{y}_t</math>)。该定理指出,随着<math>q</math>减小,编码器部分的互信息必然减小,且对信息限制<math>I( \mathbf{x}_t ; \hat{\mathbf{x}}_{t+1}) \simeq I(\mathbf{x}_t ; \mathbf{x}_{t+1})</math>更封闭。因此,整个信道将更加狭窄,编码器必须携带更有用和有效的信息才能转移到宏观动力学,预测变得更加困难。
第207行: 第257行:     
===带测量噪声的弹簧振荡器===
 
===带测量噪声的弹簧振荡器===
振荡器符合如下动力学方程组:<blockquote><math>\begin{cases}
+
振荡器符合如下动力学方程组:
 +
{{NumBlk|:|<blockquote><math>\begin{cases}
 
dz/dt = v \\
 
dz/dt = v \\
 
dv/dt = -z
 
dv/dt = -z
\end{cases} \qquad (26)</math></blockquote>其中<math>z</math>和<math>v</math>分别是振荡器的一维位置与速度。定义系统状态<math>\mathbf{x} = (z,v)</math>。
+
\end{cases} \qquad (26)</math></blockquote>|{{EquationRef|26}}}}
 +
其中<math>z</math>和<math>v</math>分别是振荡器的一维位置与速度。定义系统状态<math>\mathbf{x} = (z,v)</math>。
   −
实验数据仅由两个带误差的传感器获得。假设观测模型为<blockquote><math>\begin{cases}
+
实验数据仅由两个带误差的传感器获得。假设观测模型为
 +
{{NumBlk|:|<blockquote><math>\begin{cases}
 
\tilde{\mathbf{x}}_1 = \mathbf{x} + \xi \\
 
\tilde{\mathbf{x}}_1 = \mathbf{x} + \xi \\
 
\tilde{\mathbf{x}}_2 = \mathbf{x} - \xi \\
 
\tilde{\mathbf{x}}_2 = \mathbf{x} - \xi \\
\end{cases} \qquad (27)</math></blockquote>其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值,<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态,测量微状态<math>\tilde{\mathbf{x}_1}</math>,<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观X。
+
\end{cases} \qquad (27)</math></blockquote>|{{EquationRef|27}}}}
 +
其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值,<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态,测量微状态<math>\tilde{\mathbf{x}_1}</math>,<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观X。
 
[[文件:NIS Fig 4.png|居中|600px|'''图4.''' 具有测量噪声的简单弹簧振荡器的实验结果。]]
 
[[文件:NIS Fig 4.png|居中|600px|'''图4.''' 具有测量噪声的简单弹簧振荡器的实验结果。]]
 
根据式27,影响状态测量的噪音可以通过叠加两通道的数据消除。因此,如果在NIS中输入两个测量值的宏观状态,则可简单地获得正确的动力学。使用Euler方法(<math>dt = 1</math>)采样<math>10,000</math>批批次的数据,并在每个批次中生成100个随机初始状态并执行一个步骤动力学,求得下一个时间步长中的状态。使用这些数据来训练神经网络,同时使用相同的数据集来训练具有相同数量参数的普通前馈神经网络以作比较。 结果如图4所示。
 
根据式27,影响状态测量的噪音可以通过叠加两通道的数据消除。因此,如果在NIS中输入两个测量值的宏观状态,则可简单地获得正确的动力学。使用Euler方法(<math>dt = 1</math>)采样<math>10,000</math>批批次的数据,并在每个批次中生成100个随机初始状态并执行一个步骤动力学,求得下一个时间步长中的状态。使用这些数据来训练神经网络,同时使用相同的数据集来训练具有相同数量参数的普通前馈神经网络以作比较。 结果如图4所示。
第227行: 第281行:     
===简单马尔可夫链===
 
===简单马尔可夫链===
本案例展示NIS作用于离散马尔可夫链、粗粒化策略可以作用于状态空间的过程。生成数据的马尔可夫链是以下概率转移矩阵:<blockquote><math>\begin{pmatrix}
+
本案例展示NIS作用于离散马尔可夫链、粗粒化策略可以作用于状态空间的过程。生成数据的马尔可夫链是以下概率转移矩阵:
 +
{{NumBlk|:|<blockquote><math>\begin{pmatrix}
 
1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\
 
1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\
 
1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\
 
1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\
第236行: 第291行:  
1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\
 
1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\
 
0  & 0  & 0  & 0  & 0  & 0  & 0  & 1 \\
 
0  & 0  & 0  & 0  & 0  & 0  & 0  & 1 \\
\end{pmatrix} \qquad (28)</math></blockquote>[[文件:NIS Fig 6.png|居中|600px|'''图6.''' 简单马尔可夫链的实验结果。]]
+
\end{pmatrix} \qquad (28)</math></blockquote>|{{EquationNote|28}}}}
 +
[[文件:NIS Fig 6.png|居中|600px|'''图6.''' 简单马尔可夫链的实验结果。]]
 
该系统有 8 个状态,其中 7之间 个可以相互转移,最后一个状态是独立的。使用一个 one-hot 向量编码状态(例如状态2 将表示为 (0,1,0,0,0,0,0,0))。对初始状态进行 50,000 个批次的采样以生成数据,然后将 one-hot 向量输入 NIS 框架,经过 50,000 个迭代轮次的训练后可以得到一个有效的模型。结果如图 6 所示。
 
该系统有 8 个状态,其中 7之间 个可以相互转移,最后一个状态是独立的。使用一个 one-hot 向量编码状态(例如状态2 将表示为 (0,1,0,0,0,0,0,0))。对初始状态进行 50,000 个批次的采样以生成数据,然后将 one-hot 向量输入 NIS 框架,经过 50,000 个迭代轮次的训练后可以得到一个有效的模型。结果如图 6 所示。
   −
通过系统地搜索不同的 <math>q</math> 可以发现维度平均因果涌现(dCE)在 <math>q=1</math> 处达到峰值(图 6a)。可以通过图 6b 可视化在最佳尺度上的粗粒化策略,其中 <math>x</math> 坐标是不同状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。粗粒化映射成功地将前七个状态分类为一个宏观状态,同时保持最后一个状态不变。这种学习到的粗粒化策略与文献 [6] 中的示例相同。
+
通过系统地搜索不同的 <math>q</math> 可以发现维度平均因果涌现(dCE)在 <math>q=1</math> 处达到峰值(图 6a)。可以通过图 6b 可视化在最佳尺度上的粗粒化策略,其中 <math>x</math> 坐标是不同状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。粗粒化映射成功地将前七个状态分类为一个宏观状态,同时保持最后一个状态不变。这种学习到的粗粒化策略与文献[6]中的示例相同。
    
将学习到的宏观动力学可视化(图 6c)。 <math>y_t < 0</math> 时宏观动力学是一个线性映射,<math>y_t > 0</math> 时它可被视为一个常数。因此,该动力学可以保证所有前七个微状态都可以与最后一个状态分离。图6d验证了定理2。
 
将学习到的宏观动力学可视化(图 6c)。 <math>y_t < 0</math> 时宏观动力学是一个线性映射,<math>y_t > 0</math> 时它可被视为一个常数。因此,该动力学可以保证所有前七个微状态都可以与最后一个状态分离。图6d验证了定理2。
28

个编辑