“NIS”的版本间的差异

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
跳到导航 跳到搜索
(编辑:将文字部分补充完整(图片待补全))
第34行: 第34行:
 
===动力学的定义===
 
===动力学的定义===
 
假设讨论的复杂系统动力学可由如下微分方程组描述:
 
假设讨论的复杂系统动力学可由如下微分方程组描述:
 +
 
<math>\frac{d{\mathbf{x}}}{dt} = g(\mathbf{x}(t),ξ) \tag{1} </math>
 
<math>\frac{d{\mathbf{x}}}{dt} = g(\mathbf{x}(t),ξ) \tag{1} </math>
  
第52行: 第53行:
 
*'''宏观动力学'''
 
*'''宏观动力学'''
 
对于给定的宏观状态时间序列 <math>\mathbf{y}_1,\mathbf{y}_2,···,\mathbf{y}_T</math> ,宏观状态动力学是一组微分方程
 
对于给定的宏观状态时间序列 <math>\mathbf{y}_1,\mathbf{y}_2,···,\mathbf{y}_T</math> ,宏观状态动力学是一组微分方程
 +
 
<math>\frac{d\mathbf{y}}{dt} = \hat{f}_{\phi_q}(\mathbf{y}, ξ'), \tag{2}</math>
 
<math>\frac{d\mathbf{y}}{dt} = \hat{f}_{\phi_q}(\mathbf{y}, ξ'), \tag{2}</math>
  
 
其中<math>\mathbf{y} ∈ \mathcal{R}^q</math> , <math>ξ' ∈ \mathcal{R}^q</math> 是宏观状态动力学中的高斯噪声,<math>\hat{f}_{\phi_q}</math>  是连续微分函数,可最小化方程 (2) 在任何给定的时间步长 <math>t ∈ [1,T]</math> 和给定的向量形式<math>\Vert \cdot \Vert</math> 下的解 <math>\mathbf{y}(t)</math> :
 
其中<math>\mathbf{y} ∈ \mathcal{R}^q</math> , <math>ξ' ∈ \mathcal{R}^q</math> 是宏观状态动力学中的高斯噪声,<math>\hat{f}_{\phi_q}</math>  是连续微分函数,可最小化方程 (2) 在任何给定的时间步长 <math>t ∈ [1,T]</math> 和给定的向量形式<math>\Vert \cdot \Vert</math> 下的解 <math>\mathbf{y}(t)</math> :
 +
 
<math>\langle \Vert \mathbf{y}_t-\mathbf{y}(t)\Vert \rangle_{ξ'} \tag{3}</math>
 
<math>\langle \Vert \mathbf{y}_t-\mathbf{y}(t)\Vert \rangle_{ξ'} \tag{3}</math>
  
第64行: 第67行:
 
*'''<math>\epsilon</math>-effective q粗粒化策略与宏观动力学'''
 
*'''<math>\epsilon</math>-effective q粗粒化策略与宏观动力学'''
 
如果存在一个函数<math>\phi_q^† :\mathcal{R}^q \rightarrow \mathcal{R}^p</math>,使得对于给定的小实数<math>\varepsilon</math>和给定的向量范数<math>\Vert \cdot \Vert</math>,以下不等式成立,则 <math>q</math> 粗粒化策略<math>\phi_q :\mathcal{R}^p \rightarrow \mathcal{R}^q</math>是<math>\epsilon</math>-effective的(或缩写为有效):
 
如果存在一个函数<math>\phi_q^† :\mathcal{R}^q \rightarrow \mathcal{R}^p</math>,使得对于给定的小实数<math>\varepsilon</math>和给定的向量范数<math>\Vert \cdot \Vert</math>,以下不等式成立,则 <math>q</math> 粗粒化策略<math>\phi_q :\mathcal{R}^p \rightarrow \mathcal{R}^q</math>是<math>\epsilon</math>-effective的(或缩写为有效):
 +
 
<math>\Vert \phi_q^† ( \mathbf{y}(t) - \mathbf{x}_t \Vert < \epsilon , \tag{4}</math>
 
<math>\Vert \phi_q^† ( \mathbf{y}(t) - \mathbf{x}_t \Vert < \epsilon , \tag{4}</math>
同时,导出的宏观动力学<math>\hat{f}_{\phi_q}</math>也有效(其中<math>\mathbf{y}(t)</math> 是式2的解)。即对于所有<math>t = 1,2,···, T</math>:
+
 
<math>\mathbf{y}(t)=\phi_q (\mathbf{x}_{t-1}) + \int_{t-1}^t \hat{f}_{\phi_q}(\mathbf{y}(\tau), \xi') d\tau \tag{5}</math>
+
同时,导出的宏观动力学<math>\hat{f}_{\phi_q}</math>也有效(其中<math>\mathbf{y}(t)</math> 是式2的解)。即对于所有<math>t = 1,2,···, T</math>:<math>\mathbf{y}(t)=\phi_q (\mathbf{x}_{t-1}) + \int_{t-1}^t \hat{f}_{\phi_q}(\mathbf{y}(\tau), \xi') d\tau \tag{5}</math>
 +
 
 
可以通过<math>\phi_q^†</math>重构微观状态时间序列,使得宏观状态变量尽可能多地包含微观状态的信息。
 
可以通过<math>\phi_q^†</math>重构微观状态时间序列,使得宏观状态变量尽可能多地包含微观状态的信息。
 +
 
此定义符合近似因果模型抽象。
 
此定义符合近似因果模型抽象。
  
第74行: 第80行:
 
若要寻找一个最具信息量的宏观动力学,则需在所有可能的有效策略和动态中优化粗粒化策略和宏观动态。
 
若要寻找一个最具信息量的宏观动力学,则需在所有可能的有效策略和动态中优化粗粒化策略和宏观动态。
 
因此,粗粒化策略优化问题可以表述为:在约束方程4和5下,
 
因此,粗粒化策略优化问题可以表述为:在约束方程4和5下,
 +
 
<math>\max_{\phi_q,\hat{f}_{\phi_q},\phi_q^†,q} \mathcal{I}(\hat{f}_{\phi_q}), \tag{6}</math>
 
<math>\max_{\phi_q,\hat{f}_{\phi_q},\phi_q^†,q} \mathcal{I}(\hat{f}_{\phi_q}), \tag{6}</math>
 +
 
其中<math>\mathcal{I}</math>是有效信息的度量(可以是EI、Eff 或NIS主要使用的维度平均 EI。维度平均EI表示为 dEI,将于第 3.3.3 节中解析)。<math>\phi_q</math> 是一种有效的粗粒化策略,<math>\hat{f}_{\phi_q}</math>是一种有效的宏观动态。
 
其中<math>\mathcal{I}</math>是有效信息的度量(可以是EI、Eff 或NIS主要使用的维度平均 EI。维度平均EI表示为 dEI,将于第 3.3.3 节中解析)。<math>\phi_q</math> 是一种有效的粗粒化策略,<math>\hat{f}_{\phi_q}</math>是一种有效的宏观动态。
 +
 +
 +
=神经信息压缩器模型=
 +
 +
NIS是一种新的机器学习框架,基于可逆神经网络来解决式6中提出的问题。其由三个组件组成:编码器、动态学习器和解码器。它们分别用神经网络 <math>\psi_\alpha , f_\beta ,</math> 和<math>\psi_\alpha^{-1}</math> 表示,参数分别为<math>\alpha, \beta</math> 和<math>\alpha</math> 。整个框架如图1所示。接下来将分别描述每个模块。
 +
 +
[[文件:NIS Graph 1.png|缩略图|'''图1.''' 神经信息压缩器的工作流程和框架。]]
 +
 +
==编码器==
 +
*'''投影操作'''
 +
投影算子<math>\chi_{p,q}</math> 是一个从<math>\mathcal{R}^p</math> 到 <math>\mathcal{R}^q</math>的函数,表达为
 +
 +
<math>\chi_{p,q}(\mathbf{x}_q \bigoplus \mathbf{x}_{p-q}) = \mathbf{x}_q, \tag{7}</math>
 +
 +
其中<math>\bigoplus</math> 是向量串联算符,<math>\chi_q \in \mathcal{R}^q , \chi_{p-q} \in \mathcal{R}^{p-q}</math>。 若无歧义则<math>\chi_p,q</math>可简写为<math>\chi_q</math>.
 +
 +
这样,编码器<math>(\phi)</math>将微观状态<math>\mathbf{x}_t</math>映射到宏观状态<math>\mathbf{y}_t</math>,分为两个步骤:
 +
 +
<math>\phi_q=\chi_q \circ \psi_\alpha \tag{8}</math>
 +
 +
其中<math>\circ</math>表示函数组合运算。
 +
 +
第一步是从<math>\mathbf{x}_t \in \mathcal{R}^p</math> 到 <math>\mathbf{x}'_t \in \mathcal{R}^p</math>的双射(可逆)映射<math>\psi_\alpha : \mathcal{R}^p \rightarrow \mathcal{R}^p</math>,无信息丢失,由可逆神经网络实现;第二步是通过将<math>\mathbf{x}_t \in \mathcal{R}^p</math>映射到<math>\mathbf{y}_t \in \mathcal{R}^q</math>,丢弃<math>p-q</math>维上的信息,将得到的向量投影到<math>q</math>维。
 +
 +
*'''可逆神经网络'''
 +
[[文件:Pasted image 20240519112728.png|缩略图|'''图2.''' 双射器基本模块的 RealNVP 神经网络 <math> (\psi) </math> 实现。]]
 +
有多种方法可以实现可逆神经网络[41,42]。同时选择如图2所示的RealNVP模块[43]来具体实现可逆计算。
 +
 +
在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用于缩放的相同神经网络共享参数,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用于平移的神经网络共享参数。这样,​​就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。
 +
 +
 +
==解码器==
 +
 +
解码器将宏观状态 <math>\mathbf{y}(t + 1)</math> 的预测转换为微观状态 <math>\hat{\mathbf{x}}_{t+1}</math> 的预测。在这个框架中,粗粒化策略 <math>\phi_q</math> 可以分解为双射器 <math>\psi_\alpha</math> 和投影器 <math>\chi_q</math>,因此解码器可以直接通过反转 <math>\psi_\alpha</math> 得到。然而,由于宏观状态的维度是 <math>q</math>,而 <math>\psi_\alpha</math> 的输入维度是 <math>p > q</math>,因此需要用 <math>p-q</math> 维高斯随机向量填充剩余的 <math>p-q</math> 维。对于任何 <math>\phi_q</math>,解码映射可以定义为:
 +
 +
<math>\phi_q^† = \psi_\alpha^{-1} \circ \chi_q^† \tag{9}</math>
 +
 +
其中,<math>\psi_\alpha^{-1}</math> 是 <math>\psi_\alpha</math> 的反函数,<math>\circ \chi_q^† : \mathbb{R}^q \rightarrow \mathbb{R}^p</math> 定义为:
 +
 +
对于任意 <math>\mathbf{x} \in \mathbb{R}^p</math>,有
 +
 +
<math>\chi_q^†(\mathbf{x}_q \bigoplus \mathbf{z}_{p-q}),\tag{10}</math>
 +
 +
其中,<math>\mathbf{z}_{p-q} \sim \mathcal{N}(0, \mathcal{I}_{p-q})</math> 是 <math>p-q</math> 维的高斯随机噪声,<math>\mathcal{I}_{p-q}</math> 是同维度的单位矩阵。这样可以结合 <math>\mathbf{x}_q</math> 和一个来自 <math>p-q</math> 维标准正态分布的随机样本 <math>\mathbf{z}_{p-q}</math> 生成微状态。
 +
 +
解码器可以被视为条件概率 <math>Pr(\hat{\mathbf{x}}_{t+1} | \mathbf{y}(t+1))</math> 的生成模型,而编码器执行正态化过程。
 +
 +
===动力学学习器===
 +
 +
动态学习器 <math>f_\beta</math> 是一个带有参数的常见前馈神经网络,它在宏观层面上学习有效的马尔可夫动力学。用 <math>f_\beta</math> 替换方程 (2) 中的 <math>\hat{f}_{\phi_q}</math>,并使用 <math>dt = 1</math> 的欧拉方法求解方程 (2)。假设噪声是加性高斯分布(或拉普拉斯分布),则可以将方程 (5) 简化为:
 +
 +
<math>\mathbf{y}(t+1) = \mathbf{y}_t + \int_t^{t+1} f_\beta (\mathbf{y}(\tau), \xi') d\tau \approx \mathbf{y}_t + f_\beta (\mathbf{y}_t)+\xi' \tag{11}</math>
 +
 +
其中,<math>\xi' \sim \mathcal{N}(0,\Sigma)</math> 或 <math>Laplacian(0, \Sigma),</math> <math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵,<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差(可以学习或固定)。因此,该动态的转移概率可被写作:
 +
 +
<math>P(\mathbf{y}(t+1)|\mathbf{y}_t) = \mathcal{D}(\mu (\mathbf{y}_t), \Sigma) \tag{12}</math>
 +
 +
其中,<math>\mathcal{D}</math> 指表示高斯分布或拉普拉斯分布的概率密度函数,<math>\mu (\mathbf{y}_t) \equiv \mathbf{y}_t+f_\beta(\mathbf{y}_t)</math> 是分布的均值向量。
 +
 +
通过端到端的方式训练动态学习器,可以避免从数据中估计马尔可夫转移概率以减少偏差。
 +
 +
==两步优化==
 +
 +
尽管函数已被神经网络参数化,但由于必须综合考虑目标函数和约束条件,并且超参数 <math>q</math> 会影响神经网络的结构,因此直接优化式 6 仍然具有挑战性。因此,我们提出了一种两阶段优化方法。在第一阶段,我们固定超参数 <math>q</math>,并优化预测的微观状态和观测数据的差异 <math>|\phi_q^† (\mathbf{y}(t))-\mathbf{x}_t|</math>(即式 4),以确保粗粒化策略 <math>\phi_q</math> 和宏观动力学 <math>\hat{f}_q</math> 的有效性。此外,我们搜索所有可能的 <math>q</math> 值,以找到最佳值,最大化 <math>\mathcal{I}</math>。
 +
 +
===训练一个预测器===
 +
 +
在第一阶段,可以使用概率最大化和随机梯度下降技术来获得有效的 <math>q</math> 粗粒化策略和宏观状态动态的有效预测器。目标函数由微观状态预测的概率定义。
 +
 +
前馈神经网络可以理解为一种用高斯或拉普拉斯分布建模条件概率的机器 [44]。因此,整个 NIS 框架可以理解为一个 <math>P(\hat{\mathbf{x}}_{t+dt} | \mathbf{x}_t)</math> 的模型,其输出 <math>\hat{\mathbf{x}}_{t+1}</math> 只是平均值。此外,目标函数方程 14 只是给定分布形式下观测数据的对数概率或交叉熵。
 +
 +
<math>\mathcal{L} = \sum_t \ln P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t) \tag{13}</math>
 +
 +
其中当 <math>l=2</math> 时,<math>P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t) \sim \mathcal{N}(\hat{\mathbf{x}}_{t+1}, \Sigma)</math>,而当 <math>l=1</math> 时概率分布为 <math>Laplace(\hat{\mathbf{x}}_{t+1}, \Sigma)</math>。<math>\Sigma</math> 是协方差矩阵。<math>\Sigma</math> 始终是对角矩阵,其幅度为 <math>l = 2</math> 时的均方误差或 <math>l = 1</math> 时的绝对值平均值。
 +
 +
如果将高斯或拉普拉斯分布的具体形式带入条件概率,将看到最大化对数似然等同于最小化 <math>l</math> 范数目标函数:
 +
 +
<math>\mathcal{L}=\sum_t \Vert \hat{\mathbf{x}}_{t+1} - \mathbf{x}_{t+1} \Vert_l \tag{14}</math>
 +
 +
其中 <math>l = 1</math> 或 <math>2</math>。接下来使用随机梯度下降技术来优化方程 (14)。
 +
 +
===选择一个最优的尺度===
 +
 +
在上一步中,经过大量的训练周期可以得到有效的 <math>q</math> 粗粒化策略和宏观状态动态,但训练结果依赖于 <math>q</math>。
 +
 +
为了选择最优的 <math>q</math>,可以比较不同 <math>q</math> 粗粒化宏观动态的有效信息度量 <math>\mathcal{I}</math>。由于参数 <math>q</math> 是一维的,其值范围也有限 <math>(0 < q < p)</math>,可以简单地迭代所有 <math>q</math> 以找出最优的 <math>q</math> 和最优的有效策略。
 +
 +
==有效信息==
 +
 +
'''前馈神经网络的有效信息定义'''
 +
 +
一般而言,如果神经网络的输入为 <math>X =(x_1,x_2,··· ,x_n) \in [-L,L]^n</math>,即 <math>X</math> 定义在大小为 <math>L</math> 的超立方体上(<math>L</math> 是大整数),则输出为 <math>Y = (y_1,y_2,··· ,y_m)</math> ,且 <math>Y = \mu(X)</math>。神经网络实现的确定性映射为 <math>\mu: \mathcal{R}^n \rightarrow \mathcal{R}^m</math> ,其在 <math>X</math> 处的雅可比矩阵为 <math>\partial_{X' \mu} \equiv \Bigl\{ \frac{\partial \mu_i (X')}{\partial X'_j}|_{X'=X}\Bigr\}_{nm}</math> . 若可以将神经网络视为给定 <math>X</math> 下的高斯分布,则:
 +
 +
<math>p(\mathcal{Y}|X) = \frac{1}{\sqrt{(2 \pi)^m |\Sigma|}} \exp\left( - \frac{1}{2}(\mathcal{Y}-\mu(X))^T \Sigma^{-1}(\mathcal{Y}-\mu(X)) \right) \tag{15}</math>
 +
 +
其中,<math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵,<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差(可由 <math>y_i</math> 的平均方差估计)。由此可计算有效信息 <math>EI</math>:
 +
 +
(i) 若存在 <math>X</math> 使 <math>\det(\partial_{X' } \mu(X)) \neq 0</math> ,则 <math>EI</math> 由如下式子导出:
 +
 +
<math>\begin{multline}
 +
EI_L(\mu) = I(do(X \sim \mathcal{U}([-L,L]^n;\mathcal{Y}) \approx - \frac{m+m \ln(2\pi)+\Sigma_{i=1}^m \sigma_i^2}{2} \\
 +
+n \ln (2L)+ \mathbb{E}_{X \sim \mathcal{U}[-L,L]^n}(\ln | \det(\partial_{X' }\mu(X))|)
 +
\end{multline}\tag{16}</math>
 +
 +
其中 <math>\mathcal{U}([-L,L]^n)</math> 表示 <math>[-L,L]^n</math> 上的均匀分布,<math>|\cdot|</math> 表示绝对值,<math>\det</math> 表示行列式。
 +
 +
(ii) 若对于所有 <math>X</math> 都有 <math>\det (\partial_{X'}\mu(X)) \equiv 0</math>,则 <math>EI \approx 0</math>。
 +
 +
这个定义有如下新问题:(1)<math>EI</math> 容易受到输出维数 <math>m</math> 的影响,比较不同维动态的 <math>EI</math> 将较为繁琐,但可通过计算维度平均有效信息解决;(2)<math>EI</math> 依赖于 <math>L</math>,当 <math>L</math> 很大时会发散,可通过计算维度平均因果涌现解决。
 +
 +
 +
'''维度平均有效信息 (<math>dEI</math>)'''
 +
 +
对于具有 <math>n</math> 维状态空间的动态 <math>f</math>,则维度平均有效信息定义为:
 +
 +
<math>dEI(f)=\frac{EI(f)}{n} \tag{17}</math>
 +
 +
此时如果动态 <math>f</math> 连续且可被看作条件高斯分布,则根据 <math>EI</math> 的定义(式 16),维度平均 <math>EI</math> 可以计算为(<math>m = n</math>):
 +
 +
<math> \begin{multline}
 +
dEI_L(f)= -\frac{1+\ln(2\pi)+\Sigma_{i=1}^n \sigma_i^2/n}{2}+\ln(2L)\\ + \frac{1}{n}\mathbb{E}_{X \sim \mathcal{U}([-L,L]^n)}(\ln | \det(\partial_{X'}f(X))|)
 +
\end{multline}\tag{18}</math>
 +
 +
式 18 中与维度 <math>n</math> 相关的所有项都已被消除。但是,等式中仍然存在 <math>L</math>,当 <math>L</math> 很大时可能导致 <math>EI</math> 发散。
 +
 +
可以计算维度平均因果涌现(<math>dCE</math>)以消除 <math>L</math> 的影响。
 +
 +
 +
'''维度平均因果涌现 (<math>dCE</math>)'''
 +
 +
对于维度为 <math>n_M</math> 的宏观动力学 <math>f_M</math> 和维度为 <math>n_m</math> 的微观动力学 <math>f_m</math>,将维度平均因果涌现定义为:
 +
 +
<math>dCE(f_M,f_m)=dEI(f_M)-dEI(f_m)=\frac{EI(f_M)}{n_M}-\frac{EI(f_m)}{n_m}. \tag{19}</math>
 +
 +
因此,如果动态 <math>f_M</math> 和 <math>f_m</math> 连续且可以被视为条件高斯分布,则根据定义 7 和公式 (18),维度平均因果涌现符合如下公式:
 +
 +
<math> \begin{multline}
 +
dCE(f_M,f_m)=\left(\frac{1}{n_M} \mathbb{E}_{X_M} \ln |\det\partial_{X_M}f_M| \right) \\ - \left(\frac{1}{n_M}\sum_{i=1}^{n_M} \ln \sigma_{i,M}^2 - \frac{1}{n_m} \sum_{i=1}^{n_m} \ln \sigma_{i,m}^2 \right)
 +
\end{multline} \tag{20}</math>
 +
 +
在式 20 中,<math>n</math> 维和 <math>L</math> 维的影响已被完全消除,结果只受方差的相对值和雅可比矩阵行列式的对数值的影响。数值计算中将主要使用式 20。Eff 因受 <math>L</math> 影响而弃用。
 +
<math>p(\mathcal{Y}|X) = \frac{1}{\sqrt{(2 \pi)^m |\Sigma|}} \exp\left( - \frac{1}{2}(\mathcal{Y}-\mu(X))^T \Sigma^{-1}(\mathcal{Y}-\mu(X)) \right) \tag{15}</math>
 +
 +
其中,<math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵,<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差(可由 <math>y_i</math> 的平均方差估计)。由此可计算有效信息 <math>EI</math>:
 +
 +
(i) 若存在 <math>X</math> 使 <math>\det(\partial_{X' } \mu(X)) \neq 0</math> ,则 <math>EI</math> 由如下式子导出:
 +
 +
<math>\begin{multline}
 +
EI_L(\mu) = I(do(X \sim \mathcal{U}([-L,L]^n;\mathcal{Y}) \approx - \frac{m+m \ln(2\pi)+\Sigma_{i=1}^m \sigma_i^2}{2} \\
 +
+n \ln (2L)+ \mathbb{E}_{X \sim \mathcal{U}[-L,L]^n}(\ln | \det(\partial_{X'}\mu(X))|)
 +
\end{multline}\tag{16}</math>
 +
 +
其中 <math>\mathcal{U}([-L,L]^n)</math> 表示 <math>[-L,L]^n</math> 上的均匀分布,<math>|\cdot|</math> 表示绝对值,<math>\det</math> 表示行列式。
 +
 +
(ii) 若对于所有 <math>X</math> 都有 <math>\det (\partial_{X'}\mu(X)) \equiv 0</math>,则 <math>EI \approx 0</math>。
 +
 +
这个定义有如下新问题:(1)<math>EI</math> 容易受到输出维数 <math>m</math> 的影响,比较不同维动态的 <math>EI</math> 将较为繁琐,但可通过计算维度平均有效信息解决;(2)<math>EI</math> 依赖于 <math>L</math>,当 <math>L</math> 很大时会发散,可通过计算维度平均因果涌现解决。
 +
 +
 +
'''维度平均有效信息 (<math>dEI</math>)'''
 +
 +
对于具有 <math>n</math> 维状态空间的动态 <math>f</math>,则维度平均有效信息定义为:
 +
 +
<math>dEI(f)=\frac{EI(f)}{n} \tag{17}</math>
 +
 +
此时如果动态 <math>f</math> 连续且可被看作条件高斯分布,则根据 <math>EI</math> 的定义(式 16),维度平均 <math>EI</math> 可以计算为(<math>m = n</math>):
 +
 +
<math> \begin{multline}
 +
dEI_L(f)= -\frac{1+\ln(2\pi)+\Sigma_{i=1}^n \sigma_i^2/n}{2}+\ln(2L)\\ + \frac{1}{n}\mathbb{E}_{X \sim \mathcal{U}([-L,L]^n)}(\ln | \det(\partial_{X'}f(X))|)
 +
\end{multline}\tag{18}</math>
 +
 +
式 18 中与维度 <math>n</math> 相关的所有项都已被消除。但是,等式中仍然存在 <math>L</math>,当 <math>L</math> 很大时可能导致 <math>EI</math> 发散。
 +
 +
可以计算维度平均因果涌现(<math>dCE</math>)以消除 <math>L</math> 的影响。
 +
 +
 +
'''维度平均因果涌现 (<math>dCE</math>)'''
 +
 +
对于维度为 <math>n_M</math> 的宏观动力学 <math>f_M</math> 和维度为 <math>n_m</math> 的微观动力学 <math>f_m</math>,将维度平均因果涌现定义为:
 +
 +
<math>dCE(f_M,f_m)=dEI(f_M)-dEI(f_m)=\frac{EI(f_M)}{n_M}-\frac{EI(f_m)}{n_m}. \tag{19}</math>
 +
 +
因此,如果动态 <math>f_M</math> 和 <math>f_m</math> 连续且可以被视为条件高斯分布,则根据定义 7 和公式 (18),维度平均因果涌现符合如下公式:
 +
 +
<math> \begin{multline}
 +
dCE(f_M,f_m)=\left(\frac{1}{n_M} \mathbb{E}_{X_M} \ln |\det\partial_{X_M}f_M| \right) \\ - \left(\frac{1}{n_M}\sum_{i=1}^{n_M} \ln \sigma_{i,M}^2 - \frac{1}{n_m} \sum_{i=1}^{n_m} \ln \sigma_{i,m}^2 \right)
 +
\end{multline} \tag{20}</math>
 +
 +
在式 20 中,<math>n</math> 维和 <math>L</math> 维的影响已被完全消除,结果只受方差的相对值和雅可比矩阵行列式的对数值的影响。数值计算中将主要使用式 20。Eff 因受 <math>L</math> 影响而弃用。
 +
 +
=结果=
 +
本节讨论NIS的理论性质和数值应用实例。
 +
==理论==
 +
理论中讨论神经信息压缩器框架找出最具信息量的宏观动态的原因,以及有效策略动态随<math>q</math>的变化。由于理论结果与输入数据的分布无关,该理论同时适用互信息与有效信息。
 +
===压缩信道===
 +
[[文件:NIS Fig 3.png|缩略图|'''图3.''' 神经信息压缩器压缩信道的图形模型。]]
 +
NIS框架(图 1)可以看作图 3 所示的信道,由于投影操作的存在,通道在中间被压缩。此为压缩信息通道。
 +
 +
 +
'''信息压缩的信息瓶颈'''
 +
 +
对于图 3 所示的压缩信道以及任意双射源<math>\psi</math>、投影器 <math>\chi_q</math>、宏观动力学 <math>f</math> 和随机噪声 <math>\mathbf{z}_{p-q} \sim \mathcal{N}(0,\mathcal{I}_{p-q})</math>,有:
 +
 +
<math>I(\mathbf{y}_t; \mathbf{y}(t+1) = I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1}), \tag{21}</math>
 +
 +
其中<math>\hat{\mathbf{x}}_{t+1}</math> 是NIS的预测值,<math>\mathbf{y}(t+1)</math>符合式2。
 +
 +
对于任何实现图 3 中一般框架的神经网络,宏观动态 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同,即对于任意时间从 <math>\mathbf{x}_t</math> 到 <math>\hat{\mathbf{x}}_{t+1}</math> 的映射。此定理是 NIS 的基础。实际上,宏观动力学 <math>f</math> 是整个通道的信息瓶颈 [45]。
 +
 +
===训练过程的变化===
 +
通过信息瓶颈理论,可以直观地理解当神经压缩器框架通过数据进行训练时会发生什么。
 +
首先,在神经网络训练过程中,整个框架的输出<math>\hat{\mathbf{x}}_{t+1}</math>对任意给定<math>\mathbf{x}_t</math>都接近于真实数据<math>\mathbf{x}_{t+1}</math>,对互信息同理。即如下定理:
 +
 +
 +
'''模型的互信息与数据的互信息接近'''
 +
 +
如果 NIS 框架中的神经网络是训练有素的(即对于任何<math>t \in [1,T]</math>训练周期结束时有 <math>Pr_\tau (\hat{\mathbf{x}}_{t+1} | \mathbf{x}_t)</math> 和 <math>Pr_\tau (\mathbf{x}_{t+1} | \mathbf{x}_t)</math> 之间的 Kullback- Leibler 散度趋近于 0),那么对于任何 t [1,T]:
 +
 +
<math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t) \simeq I(\mathbf{x}_{t+1} ; \mathbf{x}_t) \tag{22}</math>
 +
 +
其中 <math>\simeq</math> 表示<math>\tau \rightarrow \infty</math> 时的渐近等价。
 +
 +
由于微观状态<math>\mathbf{x}_t</math>的时间序列包含信息,假设互信息<math>I(\mathbf{x}_t,\mathbf{x}_{t+1})</math> 较大,否则不关注<math>\mathbf{x}_t</math>。因此,随着神经网络的训练,<math>I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t)</math>将增加,直到接近<math>I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math>。根据信息瓶颈理论,<math>I(\mathbf{y}_{t}; \mathbf{y}_{t+1} ) = I(\mathbf{x}_{t} ; \hat{\mathbf{x}}_{t+1})</math>也将增加,直到接近<math>I(\mathbf{x}_{t+1} ; \mathbf{x}_t)</math>。
 +
 +
因为宏观动态是整个通道的信息瓶颈,其信息必然随着训练而增加。同时,<math>\psi_\alpha</math>的雅可比矩阵的行列式和<math>\mathbf{y}_t</math>的熵一般也会增加。
 +
 +
 +
'''信息瓶颈是编码器的下界'''
 +
 +
对于图3中的压缩信息信道,<math>\psi_\alpha</math>的雅可比矩阵的行列式和<math>\mathbf{y}_t</math>的香农熵的下界是整个信道的信息:
 +
<math>H(\mathbf{x}_t)+ \mathbb{E}(\ln | \det (J_{\psi_\alpha} (\mathbf{x}_t))|) \geq H(\mathbf{y}_t + \mathbb{E}(\ln |\det(J_{\psi_\alpha}, \mathbf{y}_t))|) \geq I(\mathbf{x}_t ; \hat{\mathbf{x}_{t+1}}) \tag{23}</math>
 +
其中H为香农熵测度,<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>为双射<math>\psi_\alpha</math>输入<math>\mathbf{x}_t</math> 时的雅可比矩阵,<math>J_{\psi_\alpha , \mathbf{y}_t}(\mathbf{x}_t)</math> 为<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>在<math>\mathbf{x}'_t</math> 投影<math>\mathbf{y}_t</math>上的子矩阵。证明见附录D。
 +
由于给出了XT及其香农熵的分布,定理4指出 <math>|\det(J_{\psi_\alpha}(\mathbf{x}_t))|</math>的对数的期望以及<math>\mathbf{y}_t</math>必然大于整个信道的信息。
 +
因此,若<math>\mathbb{E} | \det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>的初始值和<math>\mathbf{y}_t</math>很小,随着模型的训练,整个信道的相互信息会增加,此时雅可比矩阵的行列式必然增大,宏观态<math>\mathbf{y}_t</math>也必然更分散。但若信息<math>I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1})</math>已对<math>I(\mathbf{x}_t; \mathbf{x}_{t+1})</math>或<math>\mathbb{E} |\det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>和<math>H(\mathbf{y}_t)</math>已足够大,则这些现象可能不会发生。
 +
=== 4.1.3 有效信息主要由粗粒化函数决定
 +
此前分析的是互信息而非宏观动力学的有效信息(因果涌现的关键要素)。实际上可以借助压缩信道的良好属性写出EI的宏观动力学表达式,但这一表达式没有明确的形式。由此得出确定因果出现的主要成分是双射器<math>\psi_\alpha</math>。
 +
 +
 +
'''宏观动力学有效信息的数学表达式'''
 +
 +
假设给定<math>\mathbf{x}_t</math>下<math>\mathbf{x}_{t+1}</math>的概率密度可以通过函数<math>Pr(\mathbf{x}_{t+1} | \mathbf{x}_t) \equiv G(\mathbf{x}_{t+1}, \mathbf{x}_t)</math>描述,且神经信息挤压框架训练有素,即可通过以下方式计算<math>f_\beta</math>的宏观动力学信息:
 +
<math>EI_L(f_\beta) = \frac{1}{(2L)^p} \cdot \int_\sigma \int_{\mathcal{R}^p} G(\mathbf{y}, \psi_\alpha^{-1}(\mathbf{x})) \ln \frac{(2L)^pG(\mathbf{y, \psi_\alpha^{-1}(\mathbf{x})})}{\int_\sigma G(\mathbf{y}, \psi_\alpha^{-1}(\mathbf{x}'))d\mathbf{x}'}d\mathbf{y} d\mathbf{x} \tag{24}</math>
 +
其中 <math>\sigma \equiv [-L,L]^p</math> 是<math>\mathbf{x}</math>与<math>\mathbf{x}'</math>的积分区间。
 +
 +
===互信息随尺度的变化===
 +
由信息瓶颈理论与互信息理论,推出如下推论:
 +
 +
 +
'''如果模型训练良好,宏观动力学的互信息不会发生变化'''
 +
 +
对于训练有素的NIS模型,宏观动力学<math>f_\beta</math>的互信息将与所有参数(包括刻度<math>q</math>)无关。
 +
如果神经网络训练有素,则有关宏观动力学的共同信息将接近数据<math>\{\mathbf{x}_t\}</math>中的信息。因此,无论<math>q</math>有多小(或尺度有多大),宏观动力学<math>f_\beta</math>的互信息都会保持恒定。
 +
由此可得,<math>q</math>是因果涌现的无关参数。但根据dEI的定义,较小的<math>q</math>意味着编码器将携带更多有效信息。
 +
 +
 +
'''理论6:信道越窄互信息越小'''
 +
 +
若<math>\mathbf{x}_t</math>是<math>p</math>维的,那么对于 <math>0 < q_1 < q_2 < p</math> 有
 +
<math>I(\mathbf{x}_t; \hat{\mathbf{x}}_{t+1}) \leq I(\mathbf{x}_t ; \mathbf{y}_t^{q_1}) \leq I(\mathbf{x}_t ; \mathbf{y}_t^{q_2}), \tag{25}</math>
 +
其中<math>\mathbf{y}_t^q</math> 表示 <math>\mathbf{y}_t</math> 的<math>q</math> 维向量。
 +
互信息描述了编码器(即在不同维度<math>q</math>中的微型状态<math>\mathbf{x}_t</math>和宏观状态<math>\mathbf{y}_t</math>)。该定理指出,随着<math>q</math>减小,编码器部分的互信息必然减小,且对信息限制<math>I( \mathbf{x}_t ; \hat{\mathbf{x}}_{t+1}) \simeq I(\mathbf{x}_t ; \mathbf{x}_{t+1})</math>更封闭。因此,整个信道将更加狭窄,编码器必须携带更有用和有效的信息才能转移到宏观动力学,预测变得更加困难。
 +
 +
==数值实验==
 +
在几个数据集上测试NIS(所有数据均由模拟动态模型生成)。此测试还包括连续动力学和离散马尔可夫动力学。
 +
 +
===带测量噪声的弹簧振荡器===
 +
振荡器符合如下动力学方程组:
 +
<math>\begin{cases}
 +
dz/dt = v \\
 +
dv/dt = -z
 +
\end{cases} \tag{26}</math>
 +
 +
其中<math>z</math>和<math>v</math>分别是振荡器的一维位置与速度。定义系统状态<math>\mathbf{x} = (z,v)</math>。
 +
 +
实验数据仅由两个带误差的传感器获得。假设观测模型为
 +
 +
<math>\begin{cases}
 +
\tilde{\mathbf{x}}_1 = \mathbf{x} + \xi \\
 +
\tilde{\mathbf{x}}_2 = \mathbf{x} - \xi \\
 +
\end{cases} \tag{27}</math>
 +
其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值,<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态,测量微状态<math>\tilde{\mathbf{x}_1}</math>,<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观X。
 +
[[文件:NIS Fig 4.png|居中|缩略图|'''图4.''' 具有测量噪声的简单弹簧振荡器的实验结果。]]
 +
根据式27,影响状态测量的噪音可以通过叠加两通道的数据消除。因此,如果在NIS中输入两个测量值的宏观状态,则可简单地获得正确的动力学。使用Euler方法(<math>dt = 1</math>)采样<math>10,000</math>批批次的数据,并在每个批次中生成100个随机初始状态并执行一个步骤动态,求得下一个时间步长中的状态。使用这些数据来训练神经网络,同时使用相同的数据集来训练具有相同数量参数的普通前馈神经网络以作比较。 结果如图4所示。
 +
 +
 +
下一组实验结果验证4.1节中提到的定理和信息瓶颈理论。当 q 取不同值时,<math>I(\mathbf{x}_t,\mathbf{x}_{t+1})</math>、<math>I(\mathbf{y}_t,\mathbf{y}_{t+1})</math>和<math>I(\hat{\mathbf{x}}_t,\hat{\mathbf{x}}_{t+1})</math>的互信息随迭代次数的变化情况,如图 5(c)(d)所示,其中所有的互信息的收敛均符合定理2、3。同时绘制不同 <math>q</math> 下的 <math>\mathbf{x}_t</math> 和 <math>\mathbf{y}_t</math> 之间的互信息来检验信道与互信息的关系。如图 5a所示,当 <math>q</math> 增加时,互信息增加。
 +
 +
根据信息瓶颈理论,在训练初期潜变量和输出之间的互信息可能会增加,且输入和潜变量之间的信息必然在增加后随着训练过程的进行而减少。NIS 模型证实了这一结论(图5b),其中宏观状态 yt 和预测 y(t +1) 都是潜变量。由于 <math>\mathbf{y}_t</math> 和 <math>\mathbf{y}(t+1)</math> 是瓶颈,而所有其他无关信息都被变量 <math>\mathbf{x}''_t</math> 弃用,在得到相同结论的情况下,NIS 模型的架构可以比一般的神经网络更清楚地反映信息瓶颈(图3)。
 +
 +
 +
===简单马尔可夫链===
 +
本案例展示NIS作用于离散马尔可夫链、粗粒化策略可以作用于状态空间的过程。生成数据的马尔可夫链是以下概率转移矩阵:
 +
 +
<math>\begin{pmatrix}
 +
1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\
 +
1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\
 +
1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\
 +
1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\
 +
1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\
 +
1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\
 +
1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\
 +
0  & 0  & 0  & 0  & 0  & 0  & 0  & 1 \\
 +
\end{pmatrix} \tag{28}</math>
 +
 +
该系统有 8 个状态,其中 7之间 个可以相互转移,最后一个状态是独立的。使用一个 one-hot 向量编码状态(例如状态2 将表示为 (0,1,0,0,0,0,0,0))。对初始状态进行 50,000 个批次的采样以生成数据,然后将 one-hot 向量输入 NIS 框架,经过 50,000 个迭代轮次的训练后可以得到一个有效的模型。结果如图 6 所示。
 +
![[Pasted image 20240520134811.png]]
 +
'''图6.''' 简单马尔可夫链的实验结果。
 +
 +
通过系统地搜索不同的 <math>q</math> 可以发现维度平均因果涌现(dCE)在 <math>q=1</math> 处达到峰值(图 6a)。可以通过图 6b 可视化在最佳尺度上的粗粒化策略,其中 <math>x</math> 坐标是不同状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。粗粒化映射成功地将前七个状态分类为一个宏观状态,同时保持最后一个状态不变。这种学习到的粗粒化策略与文献 [6] 中的示例相同。
 +
 +
将学习到的宏观动态可视化(图 6c)。 <math>y_t < 0</math> 时宏观动态是一个线性映射,<math>y_t > 0</math> 时它可被视为一个常数。因此,该动力学可以保证所有前七个微状态都可以与最后一个状态分离。图6d验证了定理2。
 +
 +
===简单布尔网络===
 +
布尔网络是离散动力系统的典型例子,其中每个节点有两种可能的状态(0 或 1),且节点状态受其相邻节点状态的影响。该网络的微观机制如下:图 7 展示了一个包含四个节点的布尔网络示例,每个节点的状态受到其相邻节点状态组合的概率影响,具体概率见图 7 中的表格。将所有节点的机制结合后,可以得到一个具有 <math>2^4 = 16</math> 个状态的大型马尔可夫转移矩阵。
 +
![[Pasted image 20240520145306.png]]
 +
'''图7.''' 布尔网络样例(左)及其原理(右)。
 +
 +
通过对整个网络进行 50,000 次状态转换的采样(每次采样包含 100 个从可能状态空间均匀随机采样的不同初始条件),将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(图 8a)。可视化结果显示出粗粒化策略(图 8b),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。与参考文献 [5] 中的示例相似,16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动态信息。这个示例验证了信息瓶颈理论与信道互信息之间的关系(图 8c, d)。
 +
![[Pasted image 20240520150135.png]]
 +
'''图8.''' 布尔网络的实验结果。
 +
 +
 +
=总结=
 +
 +
NIS(神经信息压缩器)是一种新的神经网络框架,可被用于发现时间序列数据中的粗粒化策略、宏观动态和涌现的因果关系。NIS中可逆神经网络的使用通过在编码器和解码器之间共享参数来减少参数数量,且使得分析 NIS 架构的数学特性更加方便。通过约束粗粒化策略来预测具有精度阈值的未来微观状态,从而定义有效的粗粒化策略和宏观动态,并推出因果涌现识别问题可以理解为在约束条件下最大化有效信息的问题。
 +
 +
NIS框架的弱点如下。首先,由于可逆神经网络很难在大数据集上训练,它只能在小数据集上工作;其次,该框架仍然缺乏可解释性;第三,该模型可预测的条件分布仅限于高斯或拉普拉斯分布。

2024年5月27日 (一) 22:49的版本

介绍

因果涌现的定义

  • 涌现(emergence) 是复杂系统中最重要的概念之一,描述了一种现象:一个整体展现了组成它的部分所不具有的特性。
  • 因果(causality) 是另一个重要概念,描述了动力学系统中原因事件与结果事件随时间的联系。
  • 因果涌现(causal emergence) 是一类特殊的涌现现象,指系统中宏观层面的事件可能比微观层面有更强的因果联系。其中,因果关系的强度可以用有效信息 (EI) 来衡量 。

因果涌现的识别

具体解决方案以及传统方案的不足

  • Klein提出的复杂网络中的因果涌现

复杂网络数据中因果涌现的识别困难在于系统性、自动搜索所有潜在的粗粒化策略。Klein的方法通过节点聚类提升EI,但假设底层节点动态是扩散的,未考虑真实系统中更复杂的动态。即使节点分组已知,粗粒化策略仍需考虑簇中所有节点的微观与宏观状态映射。

  • 部分信息分解方法

量化系统因果涌现的基于粗粒化的方法需系统的状态转移矩阵和粗粒化策略。信息分解方法避免了对粗粒化策略的讨论,但需在系统状态空间子集上长时间搜索以获得精确结果。现有数值近似方法仅能提供充分条件,缺乏现实意义的粗粒化策略和相应宏观动力学。

  • 传统方法的不足

这两种方法需明确的宏观与微观动力学马尔可夫转移矩阵,导致对罕见事件概率及连续数据的预测存在偏差。

基于机器学习的神经信息压缩方法

  • 神经信息压缩器的定义

因果涌现识别问题可表述为“在微观动态精确预测的约束下,最大化宏观动态的有效信息(EI)”。神经信息压缩器(NIS)是解决此问题的通用机器学习框架。NIS通过可逆神经网络建模粗粒化策略,将任意[math]\displaystyle{ \mathcal{R}^p }[/math][math]\displaystyle{ \mathcal{R}^q(q \leq p) }[/math] 的映射分解为一系列信息转换和弃用过程,可对整个框架进行数学分析。

  • NIS与因果表征学习以及因果模型抽象的关系

因果表征学习旨在提取观测数据背后的因果隐变量,编码过程可理解为粗粒化。因果涌现识别与因果表征学习相似,但目标不同:前者寻找更优粗粒化策略,后者提取数据中的因果关系。多尺度建模和粗粒化操作引入了新的理论问题。

问题定义

背景

动力学的定义

假设讨论的复杂系统动力学可由如下微分方程组描述:

[math]\displaystyle{ \frac{d{\mathbf{x}}}{dt} = g(\mathbf{x}(t),ξ) \tag{1} }[/math]

其中[math]\displaystyle{ \mathbf{x}(t) ∈ \mathcal{R}^p }[/math] 是系统的状态,[math]\displaystyle{ p ∈ \mathcal{Z} }[/math] 是一正整数,[math]\displaystyle{ ξ }[/math] 是高斯随机噪声。 通常,微观动态 [math]\displaystyle{ g }[/math] 总是马尔可夫的,可以等效地建模为条件概率 [math]\displaystyle{ Pr(\mathbf{x}(t + dt)|\mathbf{x}(t)) }[/math] 。根据该概率可求得系统状态的离散样本,这些状态即为微观状态。

定义

  • 微观态

动力系统状态(式1)[math]\displaystyle{ \mathbf{x}_t }[/math] 的每一个样本称为时间步长 [math]\displaystyle{ t }[/math] 的一个微观状态。以相等间隔和有限时间步长 T 采样的多变量时间序列 [math]\displaystyle{ \mathbf{x}_1,\mathbf{x}_2,···,\mathbf{x}_T }[/math] 可形成微观状态时间序列。

重建 [math]\displaystyle{ g }[/math] 时应有可观测的微观状态,但在噪声较强时,很难从微观状态中重建具有强因果关系的信息丰富的动力学机制。因果涌现的基本思想是,若忽略微观状态数据中的部分信息并将其转换为宏观状态时间序列,则可以重建一个具有更强因果关系的宏观动力描述系统的演化。信息丢弃过程即为粗粒化策略(或映射方法)。

  • [math]\displaystyle{ q }[/math] 维粗粒化策略

在宏观状态的维数为 [math]\displaystyle{ 0 \lt q \lt p ∈ \mathcal{Z}^+ }[/math] 的情况下,[math]\displaystyle{ q }[/math] 维粗粒化策略是一个连续微分函数,用于将微观状态 [math]\displaystyle{ \mathbf{x}_t ∈ \mathcal{R}^p }[/math] 映射到宏观状态 [math]\displaystyle{ \mathbf{y}_t ∈ \mathcal{R}^q }[/math]。粗粒化表示为 [math]\displaystyle{ q }[/math]

复杂系统经过粗粒化得到一个新的宏观状态时间序列数据,表示为 [math]\displaystyle{ \mathbf{y}_1 = \phi_q(\mathbf{x}_1), \mathbf{y}_2 = \phi_q(\mathbf{x}_2),···,\mathbf{y}_T = \phi_q(\mathbf{x}_T) }[/math] 。接着寻找另一个动力学模型(或马尔可夫链)[math]\displaystyle{ \hat{f}_{\phi_q} }[/math] 来描述 [math]\displaystyle{ \mathbf{y}_t }[/math] 的演变,即宏观动力学。

  • 宏观动力学

对于给定的宏观状态时间序列 [math]\displaystyle{ \mathbf{y}_1,\mathbf{y}_2,···,\mathbf{y}_T }[/math] ,宏观状态动力学是一组微分方程

[math]\displaystyle{ \frac{d\mathbf{y}}{dt} = \hat{f}_{\phi_q}(\mathbf{y}, ξ'), \tag{2} }[/math]

其中[math]\displaystyle{ \mathbf{y} ∈ \mathcal{R}^q }[/math] , [math]\displaystyle{ ξ' ∈ \mathcal{R}^q }[/math] 是宏观状态动力学中的高斯噪声,[math]\displaystyle{ \hat{f}_{\phi_q} }[/math] 是连续微分函数,可最小化方程 (2) 在任何给定的时间步长 [math]\displaystyle{ t ∈ [1,T] }[/math] 和给定的向量形式[math]\displaystyle{ \Vert \cdot \Vert }[/math] 下的解 [math]\displaystyle{ \mathbf{y}(t) }[/math]

[math]\displaystyle{ \langle \Vert \mathbf{y}_t-\mathbf{y}(t)\Vert \rangle_{ξ'} \tag{3} }[/math]

此公式不能排除一些琐碎的策略。例如,假设对于 [math]\displaystyle{ ∀ \mathbf{y}_t ∈ \mathcal{R}^p }[/math] , [math]\displaystyle{ q = 1 }[/math] 维的 [math]\displaystyle{ \phi_q }[/math] 定义为 [math]\displaystyle{ \phi_q(\mathbf{x}_t) = 1 }[/math] 。因此,相应的宏观动态只是 [math]\displaystyle{ d\mathbf{y}/dt = 0 }[/math][math]\displaystyle{ \mathbf{y}(0) = 1 }[/math]。由于宏观状态动态是琐碎的,粗粒化映射过于随意,此方程无意义。因此,必须对粗粒化策略和宏观动态设置限制以避免琐碎的策略和动态。

有效粗粒化策略和宏观动力学

有效粗粒化策略应是一个宏观态中可以尽量多地保存微观态信息的压缩映射。

  • [math]\displaystyle{ \epsilon }[/math]-effective q粗粒化策略与宏观动力学

如果存在一个函数[math]\displaystyle{ \phi_q^† :\mathcal{R}^q \rightarrow \mathcal{R}^p }[/math],使得对于给定的小实数[math]\displaystyle{ \varepsilon }[/math]和给定的向量范数[math]\displaystyle{ \Vert \cdot \Vert }[/math],以下不等式成立,则 [math]\displaystyle{ q }[/math] 粗粒化策略[math]\displaystyle{ \phi_q :\mathcal{R}^p \rightarrow \mathcal{R}^q }[/math][math]\displaystyle{ \epsilon }[/math]-effective的(或缩写为有效):

[math]\displaystyle{ \Vert \phi_q^† ( \mathbf{y}(t) - \mathbf{x}_t \Vert \lt \epsilon , \tag{4} }[/math]

同时,导出的宏观动力学[math]\displaystyle{ \hat{f}_{\phi_q} }[/math]也有效(其中[math]\displaystyle{ \mathbf{y}(t) }[/math] 是式2的解)。即对于所有[math]\displaystyle{ t = 1,2,···, T }[/math][math]\displaystyle{ \mathbf{y}(t)=\phi_q (\mathbf{x}_{t-1}) + \int_{t-1}^t \hat{f}_{\phi_q}(\mathbf{y}(\tau), \xi') d\tau \tag{5} }[/math]

可以通过[math]\displaystyle{ \phi_q^† }[/math]重构微观状态时间序列,使得宏观状态变量尽可能多地包含微观状态的信息。

此定义符合近似因果模型抽象。

问题定义

  • 最大化系统动力学的有效信息

若要寻找一个最具信息量的宏观动力学,则需在所有可能的有效策略和动态中优化粗粒化策略和宏观动态。 因此,粗粒化策略优化问题可以表述为:在约束方程4和5下,

[math]\displaystyle{ \max_{\phi_q,\hat{f}_{\phi_q},\phi_q^†,q} \mathcal{I}(\hat{f}_{\phi_q}), \tag{6} }[/math]

其中[math]\displaystyle{ \mathcal{I} }[/math]是有效信息的度量(可以是EI、Eff 或NIS主要使用的维度平均 EI。维度平均EI表示为 dEI,将于第 3.3.3 节中解析)。[math]\displaystyle{ \phi_q }[/math] 是一种有效的粗粒化策略,[math]\displaystyle{ \hat{f}_{\phi_q} }[/math]是一种有效的宏观动态。


神经信息压缩器模型

NIS是一种新的机器学习框架,基于可逆神经网络来解决式6中提出的问题。其由三个组件组成:编码器、动态学习器和解码器。它们分别用神经网络 [math]\displaystyle{ \psi_\alpha , f_\beta , }[/math][math]\displaystyle{ \psi_\alpha^{-1} }[/math] 表示,参数分别为[math]\displaystyle{ \alpha, \beta }[/math][math]\displaystyle{ \alpha }[/math] 。整个框架如图1所示。接下来将分别描述每个模块。

图1. 神经信息压缩器的工作流程和框架。

编码器

  • 投影操作

投影算子[math]\displaystyle{ \chi_{p,q} }[/math] 是一个从[math]\displaystyle{ \mathcal{R}^p }[/math][math]\displaystyle{ \mathcal{R}^q }[/math]的函数,表达为

[math]\displaystyle{ \chi_{p,q}(\mathbf{x}_q \bigoplus \mathbf{x}_{p-q}) = \mathbf{x}_q, \tag{7} }[/math]

其中[math]\displaystyle{ \bigoplus }[/math] 是向量串联算符,[math]\displaystyle{ \chi_q \in \mathcal{R}^q , \chi_{p-q} \in \mathcal{R}^{p-q} }[/math]。 若无歧义则[math]\displaystyle{ \chi_p,q }[/math]可简写为[math]\displaystyle{ \chi_q }[/math].

这样,编码器[math]\displaystyle{ (\phi) }[/math]将微观状态[math]\displaystyle{ \mathbf{x}_t }[/math]映射到宏观状态[math]\displaystyle{ \mathbf{y}_t }[/math],分为两个步骤:

[math]\displaystyle{ \phi_q=\chi_q \circ \psi_\alpha \tag{8} }[/math]

其中[math]\displaystyle{ \circ }[/math]表示函数组合运算。

第一步是从[math]\displaystyle{ \mathbf{x}_t \in \mathcal{R}^p }[/math][math]\displaystyle{ \mathbf{x}'_t \in \mathcal{R}^p }[/math]的双射(可逆)映射[math]\displaystyle{ \psi_\alpha : \mathcal{R}^p \rightarrow \mathcal{R}^p }[/math],无信息丢失,由可逆神经网络实现;第二步是通过将[math]\displaystyle{ \mathbf{x}_t \in \mathcal{R}^p }[/math]映射到[math]\displaystyle{ \mathbf{y}_t \in \mathcal{R}^q }[/math],丢弃[math]\displaystyle{ p-q }[/math]维上的信息,将得到的向量投影到[math]\displaystyle{ q }[/math]维。

  • 可逆神经网络
图2. 双射器基本模块的 RealNVP 神经网络 [math]\displaystyle{ (\psi) }[/math] 实现。

有多种方法可以实现可逆神经网络[41,42]。同时选择如图2所示的RealNVP模块[43]来具体实现可逆计算。

在该模块中,输入向量[math]\displaystyle{ \mathbf{x} }[/math]被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。[math]\displaystyle{ s_1,s_2 }[/math]是用于缩放的相同神经网络共享参数,[math]\displaystyle{ \bigotimes }[/math] 表示元素乘积。[math]\displaystyle{ t_1,t_2 }[/math]是用于平移的神经网络共享参数。这样,​​就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。


解码器

解码器将宏观状态 [math]\displaystyle{ \mathbf{y}(t + 1) }[/math] 的预测转换为微观状态 [math]\displaystyle{ \hat{\mathbf{x}}_{t+1} }[/math] 的预测。在这个框架中,粗粒化策略 [math]\displaystyle{ \phi_q }[/math] 可以分解为双射器 [math]\displaystyle{ \psi_\alpha }[/math] 和投影器 [math]\displaystyle{ \chi_q }[/math],因此解码器可以直接通过反转 [math]\displaystyle{ \psi_\alpha }[/math] 得到。然而,由于宏观状态的维度是 [math]\displaystyle{ q }[/math],而 [math]\displaystyle{ \psi_\alpha }[/math] 的输入维度是 [math]\displaystyle{ p \gt q }[/math],因此需要用 [math]\displaystyle{ p-q }[/math] 维高斯随机向量填充剩余的 [math]\displaystyle{ p-q }[/math] 维。对于任何 [math]\displaystyle{ \phi_q }[/math],解码映射可以定义为:

[math]\displaystyle{ \phi_q^† = \psi_\alpha^{-1} \circ \chi_q^† \tag{9} }[/math]

其中,[math]\displaystyle{ \psi_\alpha^{-1} }[/math][math]\displaystyle{ \psi_\alpha }[/math] 的反函数,[math]\displaystyle{ \circ \chi_q^† : \mathbb{R}^q \rightarrow \mathbb{R}^p }[/math] 定义为:

对于任意 [math]\displaystyle{ \mathbf{x} \in \mathbb{R}^p }[/math],有

[math]\displaystyle{ \chi_q^†(\mathbf{x}_q \bigoplus \mathbf{z}_{p-q}),\tag{10} }[/math]

其中,[math]\displaystyle{ \mathbf{z}_{p-q} \sim \mathcal{N}(0, \mathcal{I}_{p-q}) }[/math][math]\displaystyle{ p-q }[/math] 维的高斯随机噪声,[math]\displaystyle{ \mathcal{I}_{p-q} }[/math] 是同维度的单位矩阵。这样可以结合 [math]\displaystyle{ \mathbf{x}_q }[/math] 和一个来自 [math]\displaystyle{ p-q }[/math] 维标准正态分布的随机样本 [math]\displaystyle{ \mathbf{z}_{p-q} }[/math] 生成微状态。

解码器可以被视为条件概率 [math]\displaystyle{ Pr(\hat{\mathbf{x}}_{t+1} | \mathbf{y}(t+1)) }[/math] 的生成模型,而编码器执行正态化过程。

动力学学习器

动态学习器 [math]\displaystyle{ f_\beta }[/math] 是一个带有参数的常见前馈神经网络,它在宏观层面上学习有效的马尔可夫动力学。用 [math]\displaystyle{ f_\beta }[/math] 替换方程 (2) 中的 [math]\displaystyle{ \hat{f}_{\phi_q} }[/math],并使用 [math]\displaystyle{ dt = 1 }[/math] 的欧拉方法求解方程 (2)。假设噪声是加性高斯分布(或拉普拉斯分布),则可以将方程 (5) 简化为:

[math]\displaystyle{ \mathbf{y}(t+1) = \mathbf{y}_t + \int_t^{t+1} f_\beta (\mathbf{y}(\tau), \xi') d\tau \approx \mathbf{y}_t + f_\beta (\mathbf{y}_t)+\xi' \tag{11} }[/math]

其中,[math]\displaystyle{ \xi' \sim \mathcal{N}(0,\Sigma) }[/math][math]\displaystyle{ Laplacian(0, \Sigma), }[/math] [math]\displaystyle{ \Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2) }[/math] 是协方差矩阵,[math]\displaystyle{ \sigma_i }[/math] 是第 [math]\displaystyle{ i }[/math] 维度的标准差(可以学习或固定)。因此,该动态的转移概率可被写作:

[math]\displaystyle{ P(\mathbf{y}(t+1)|\mathbf{y}_t) = \mathcal{D}(\mu (\mathbf{y}_t), \Sigma) \tag{12} }[/math]

其中,[math]\displaystyle{ \mathcal{D} }[/math] 指表示高斯分布或拉普拉斯分布的概率密度函数,[math]\displaystyle{ \mu (\mathbf{y}_t) \equiv \mathbf{y}_t+f_\beta(\mathbf{y}_t) }[/math] 是分布的均值向量。

通过端到端的方式训练动态学习器,可以避免从数据中估计马尔可夫转移概率以减少偏差。

两步优化

尽管函数已被神经网络参数化,但由于必须综合考虑目标函数和约束条件,并且超参数 [math]\displaystyle{ q }[/math] 会影响神经网络的结构,因此直接优化式 6 仍然具有挑战性。因此,我们提出了一种两阶段优化方法。在第一阶段,我们固定超参数 [math]\displaystyle{ q }[/math],并优化预测的微观状态和观测数据的差异 [math]\displaystyle{ |\phi_q^† (\mathbf{y}(t))-\mathbf{x}_t| }[/math](即式 4),以确保粗粒化策略 [math]\displaystyle{ \phi_q }[/math] 和宏观动力学 [math]\displaystyle{ \hat{f}_q }[/math] 的有效性。此外,我们搜索所有可能的 [math]\displaystyle{ q }[/math] 值,以找到最佳值,最大化 [math]\displaystyle{ \mathcal{I} }[/math]

训练一个预测器

在第一阶段,可以使用概率最大化和随机梯度下降技术来获得有效的 [math]\displaystyle{ q }[/math] 粗粒化策略和宏观状态动态的有效预测器。目标函数由微观状态预测的概率定义。

前馈神经网络可以理解为一种用高斯或拉普拉斯分布建模条件概率的机器 [44]。因此,整个 NIS 框架可以理解为一个 [math]\displaystyle{ P(\hat{\mathbf{x}}_{t+dt} | \mathbf{x}_t) }[/math] 的模型,其输出 [math]\displaystyle{ \hat{\mathbf{x}}_{t+1} }[/math] 只是平均值。此外,目标函数方程 14 只是给定分布形式下观测数据的对数概率或交叉熵。

[math]\displaystyle{ \mathcal{L} = \sum_t \ln P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t) \tag{13} }[/math]

其中当 [math]\displaystyle{ l=2 }[/math] 时,[math]\displaystyle{ P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t) \sim \mathcal{N}(\hat{\mathbf{x}}_{t+1}, \Sigma) }[/math],而当 [math]\displaystyle{ l=1 }[/math] 时概率分布为 [math]\displaystyle{ Laplace(\hat{\mathbf{x}}_{t+1}, \Sigma) }[/math][math]\displaystyle{ \Sigma }[/math] 是协方差矩阵。[math]\displaystyle{ \Sigma }[/math] 始终是对角矩阵,其幅度为 [math]\displaystyle{ l = 2 }[/math] 时的均方误差或 [math]\displaystyle{ l = 1 }[/math] 时的绝对值平均值。

如果将高斯或拉普拉斯分布的具体形式带入条件概率,将看到最大化对数似然等同于最小化 [math]\displaystyle{ l }[/math] 范数目标函数:

[math]\displaystyle{ \mathcal{L}=\sum_t \Vert \hat{\mathbf{x}}_{t+1} - \mathbf{x}_{t+1} \Vert_l \tag{14} }[/math]

其中 [math]\displaystyle{ l = 1 }[/math][math]\displaystyle{ 2 }[/math]。接下来使用随机梯度下降技术来优化方程 (14)。

选择一个最优的尺度

在上一步中,经过大量的训练周期可以得到有效的 [math]\displaystyle{ q }[/math] 粗粒化策略和宏观状态动态,但训练结果依赖于 [math]\displaystyle{ q }[/math]

为了选择最优的 [math]\displaystyle{ q }[/math],可以比较不同 [math]\displaystyle{ q }[/math] 粗粒化宏观动态的有效信息度量 [math]\displaystyle{ \mathcal{I} }[/math]。由于参数 [math]\displaystyle{ q }[/math] 是一维的,其值范围也有限 [math]\displaystyle{ (0 \lt q \lt p) }[/math],可以简单地迭代所有 [math]\displaystyle{ q }[/math] 以找出最优的 [math]\displaystyle{ q }[/math] 和最优的有效策略。

有效信息

前馈神经网络的有效信息定义

一般而言,如果神经网络的输入为 [math]\displaystyle{ X =(x_1,x_2,··· ,x_n) \in [-L,L]^n }[/math],即 [math]\displaystyle{ X }[/math] 定义在大小为 [math]\displaystyle{ L }[/math] 的超立方体上([math]\displaystyle{ L }[/math] 是大整数),则输出为 [math]\displaystyle{ Y = (y_1,y_2,··· ,y_m) }[/math] ,且 [math]\displaystyle{ Y = \mu(X) }[/math]。神经网络实现的确定性映射为 [math]\displaystyle{ \mu: \mathcal{R}^n \rightarrow \mathcal{R}^m }[/math] ,其在 [math]\displaystyle{ X }[/math] 处的雅可比矩阵为 [math]\displaystyle{ \partial_{X' \mu} \equiv \Bigl\{ \frac{\partial \mu_i (X')}{\partial X'_j}|_{X'=X}\Bigr\}_{nm} }[/math] . 若可以将神经网络视为给定 [math]\displaystyle{ X }[/math] 下的高斯分布,则:

[math]\displaystyle{ p(\mathcal{Y}|X) = \frac{1}{\sqrt{(2 \pi)^m |\Sigma|}} \exp\left( - \frac{1}{2}(\mathcal{Y}-\mu(X))^T \Sigma^{-1}(\mathcal{Y}-\mu(X)) \right) \tag{15} }[/math]

其中,[math]\displaystyle{ \Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2) }[/math] 是协方差矩阵,[math]\displaystyle{ \sigma_i }[/math] 是第 [math]\displaystyle{ i }[/math] 维度的标准差(可由 [math]\displaystyle{ y_i }[/math] 的平均方差估计)。由此可计算有效信息 [math]\displaystyle{ EI }[/math]

(i) 若存在 [math]\displaystyle{ X }[/math] 使 [math]\displaystyle{ \det(\partial_{X' } \mu(X)) \neq 0 }[/math] ,则 [math]\displaystyle{ EI }[/math] 由如下式子导出:

[math]\displaystyle{ \begin{multline} EI_L(\mu) = I(do(X \sim \mathcal{U}([-L,L]^n;\mathcal{Y}) \approx - \frac{m+m \ln(2\pi)+\Sigma_{i=1}^m \sigma_i^2}{2} \\ +n \ln (2L)+ \mathbb{E}_{X \sim \mathcal{U}[-L,L]^n}(\ln | \det(\partial_{X' }\mu(X))|) \end{multline}\tag{16} }[/math]

其中 [math]\displaystyle{ \mathcal{U}([-L,L]^n) }[/math] 表示 [math]\displaystyle{ [-L,L]^n }[/math] 上的均匀分布,[math]\displaystyle{ |\cdot| }[/math] 表示绝对值,[math]\displaystyle{ \det }[/math] 表示行列式。

(ii) 若对于所有 [math]\displaystyle{ X }[/math] 都有 [math]\displaystyle{ \det (\partial_{X'}\mu(X)) \equiv 0 }[/math],则 [math]\displaystyle{ EI \approx 0 }[/math]

这个定义有如下新问题:(1)[math]\displaystyle{ EI }[/math] 容易受到输出维数 [math]\displaystyle{ m }[/math] 的影响,比较不同维动态的 [math]\displaystyle{ EI }[/math] 将较为繁琐,但可通过计算维度平均有效信息解决;(2)[math]\displaystyle{ EI }[/math] 依赖于 [math]\displaystyle{ L }[/math],当 [math]\displaystyle{ L }[/math] 很大时会发散,可通过计算维度平均因果涌现解决。


维度平均有效信息 ([math]\displaystyle{ dEI }[/math])

对于具有 [math]\displaystyle{ n }[/math] 维状态空间的动态 [math]\displaystyle{ f }[/math],则维度平均有效信息定义为:

[math]\displaystyle{ dEI(f)=\frac{EI(f)}{n} \tag{17} }[/math]

此时如果动态 [math]\displaystyle{ f }[/math] 连续且可被看作条件高斯分布,则根据 [math]\displaystyle{ EI }[/math] 的定义(式 16),维度平均 [math]\displaystyle{ EI }[/math] 可以计算为([math]\displaystyle{ m = n }[/math]):

[math]\displaystyle{ \begin{multline} dEI_L(f)= -\frac{1+\ln(2\pi)+\Sigma_{i=1}^n \sigma_i^2/n}{2}+\ln(2L)\\ + \frac{1}{n}\mathbb{E}_{X \sim \mathcal{U}([-L,L]^n)}(\ln | \det(\partial_{X'}f(X))|) \end{multline}\tag{18} }[/math]

式 18 中与维度 [math]\displaystyle{ n }[/math] 相关的所有项都已被消除。但是,等式中仍然存在 [math]\displaystyle{ L }[/math],当 [math]\displaystyle{ L }[/math] 很大时可能导致 [math]\displaystyle{ EI }[/math] 发散。

可以计算维度平均因果涌现([math]\displaystyle{ dCE }[/math])以消除 [math]\displaystyle{ L }[/math] 的影响。


维度平均因果涌现 ([math]\displaystyle{ dCE }[/math])

对于维度为 [math]\displaystyle{ n_M }[/math] 的宏观动力学 [math]\displaystyle{ f_M }[/math] 和维度为 [math]\displaystyle{ n_m }[/math] 的微观动力学 [math]\displaystyle{ f_m }[/math],将维度平均因果涌现定义为:

[math]\displaystyle{ dCE(f_M,f_m)=dEI(f_M)-dEI(f_m)=\frac{EI(f_M)}{n_M}-\frac{EI(f_m)}{n_m}. \tag{19} }[/math]

因此,如果动态 [math]\displaystyle{ f_M }[/math][math]\displaystyle{ f_m }[/math] 连续且可以被视为条件高斯分布,则根据定义 7 和公式 (18),维度平均因果涌现符合如下公式:

[math]\displaystyle{ \begin{multline} dCE(f_M,f_m)=\left(\frac{1}{n_M} \mathbb{E}_{X_M} \ln |\det\partial_{X_M}f_M| \right) \\ - \left(\frac{1}{n_M}\sum_{i=1}^{n_M} \ln \sigma_{i,M}^2 - \frac{1}{n_m} \sum_{i=1}^{n_m} \ln \sigma_{i,m}^2 \right) \end{multline} \tag{20} }[/math]

在式 20 中,[math]\displaystyle{ n }[/math] 维和 [math]\displaystyle{ L }[/math] 维的影响已被完全消除,结果只受方差的相对值和雅可比矩阵行列式的对数值的影响。数值计算中将主要使用式 20。Eff 因受 [math]\displaystyle{ L }[/math] 影响而弃用。 [math]\displaystyle{ p(\mathcal{Y}|X) = \frac{1}{\sqrt{(2 \pi)^m |\Sigma|}} \exp\left( - \frac{1}{2}(\mathcal{Y}-\mu(X))^T \Sigma^{-1}(\mathcal{Y}-\mu(X)) \right) \tag{15} }[/math]

其中,[math]\displaystyle{ \Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2) }[/math] 是协方差矩阵,[math]\displaystyle{ \sigma_i }[/math] 是第 [math]\displaystyle{ i }[/math] 维度的标准差(可由 [math]\displaystyle{ y_i }[/math] 的平均方差估计)。由此可计算有效信息 [math]\displaystyle{ EI }[/math]

(i) 若存在 [math]\displaystyle{ X }[/math] 使 [math]\displaystyle{ \det(\partial_{X' } \mu(X)) \neq 0 }[/math] ,则 [math]\displaystyle{ EI }[/math] 由如下式子导出:

[math]\displaystyle{ \begin{multline} EI_L(\mu) = I(do(X \sim \mathcal{U}([-L,L]^n;\mathcal{Y}) \approx - \frac{m+m \ln(2\pi)+\Sigma_{i=1}^m \sigma_i^2}{2} \\ +n \ln (2L)+ \mathbb{E}_{X \sim \mathcal{U}[-L,L]^n}(\ln | \det(\partial_{X'}\mu(X))|) \end{multline}\tag{16} }[/math]

其中 [math]\displaystyle{ \mathcal{U}([-L,L]^n) }[/math] 表示 [math]\displaystyle{ [-L,L]^n }[/math] 上的均匀分布,[math]\displaystyle{ |\cdot| }[/math] 表示绝对值,[math]\displaystyle{ \det }[/math] 表示行列式。

(ii) 若对于所有 [math]\displaystyle{ X }[/math] 都有 [math]\displaystyle{ \det (\partial_{X'}\mu(X)) \equiv 0 }[/math],则 [math]\displaystyle{ EI \approx 0 }[/math]

这个定义有如下新问题:(1)[math]\displaystyle{ EI }[/math] 容易受到输出维数 [math]\displaystyle{ m }[/math] 的影响,比较不同维动态的 [math]\displaystyle{ EI }[/math] 将较为繁琐,但可通过计算维度平均有效信息解决;(2)[math]\displaystyle{ EI }[/math] 依赖于 [math]\displaystyle{ L }[/math],当 [math]\displaystyle{ L }[/math] 很大时会发散,可通过计算维度平均因果涌现解决。


维度平均有效信息 ([math]\displaystyle{ dEI }[/math])

对于具有 [math]\displaystyle{ n }[/math] 维状态空间的动态 [math]\displaystyle{ f }[/math],则维度平均有效信息定义为:

[math]\displaystyle{ dEI(f)=\frac{EI(f)}{n} \tag{17} }[/math]

此时如果动态 [math]\displaystyle{ f }[/math] 连续且可被看作条件高斯分布,则根据 [math]\displaystyle{ EI }[/math] 的定义(式 16),维度平均 [math]\displaystyle{ EI }[/math] 可以计算为([math]\displaystyle{ m = n }[/math]):

[math]\displaystyle{ \begin{multline} dEI_L(f)= -\frac{1+\ln(2\pi)+\Sigma_{i=1}^n \sigma_i^2/n}{2}+\ln(2L)\\ + \frac{1}{n}\mathbb{E}_{X \sim \mathcal{U}([-L,L]^n)}(\ln | \det(\partial_{X'}f(X))|) \end{multline}\tag{18} }[/math]

式 18 中与维度 [math]\displaystyle{ n }[/math] 相关的所有项都已被消除。但是,等式中仍然存在 [math]\displaystyle{ L }[/math],当 [math]\displaystyle{ L }[/math] 很大时可能导致 [math]\displaystyle{ EI }[/math] 发散。

可以计算维度平均因果涌现([math]\displaystyle{ dCE }[/math])以消除 [math]\displaystyle{ L }[/math] 的影响。


维度平均因果涌现 ([math]\displaystyle{ dCE }[/math])

对于维度为 [math]\displaystyle{ n_M }[/math] 的宏观动力学 [math]\displaystyle{ f_M }[/math] 和维度为 [math]\displaystyle{ n_m }[/math] 的微观动力学 [math]\displaystyle{ f_m }[/math],将维度平均因果涌现定义为:

[math]\displaystyle{ dCE(f_M,f_m)=dEI(f_M)-dEI(f_m)=\frac{EI(f_M)}{n_M}-\frac{EI(f_m)}{n_m}. \tag{19} }[/math]

因此,如果动态 [math]\displaystyle{ f_M }[/math][math]\displaystyle{ f_m }[/math] 连续且可以被视为条件高斯分布,则根据定义 7 和公式 (18),维度平均因果涌现符合如下公式:

[math]\displaystyle{ \begin{multline} dCE(f_M,f_m)=\left(\frac{1}{n_M} \mathbb{E}_{X_M} \ln |\det\partial_{X_M}f_M| \right) \\ - \left(\frac{1}{n_M}\sum_{i=1}^{n_M} \ln \sigma_{i,M}^2 - \frac{1}{n_m} \sum_{i=1}^{n_m} \ln \sigma_{i,m}^2 \right) \end{multline} \tag{20} }[/math]

在式 20 中,[math]\displaystyle{ n }[/math] 维和 [math]\displaystyle{ L }[/math] 维的影响已被完全消除,结果只受方差的相对值和雅可比矩阵行列式的对数值的影响。数值计算中将主要使用式 20。Eff 因受 [math]\displaystyle{ L }[/math] 影响而弃用。

结果

本节讨论NIS的理论性质和数值应用实例。

理论

理论中讨论神经信息压缩器框架找出最具信息量的宏观动态的原因,以及有效策略动态随[math]\displaystyle{ q }[/math]的变化。由于理论结果与输入数据的分布无关,该理论同时适用互信息与有效信息。

压缩信道

图3. 神经信息压缩器压缩信道的图形模型。

NIS框架(图 1)可以看作图 3 所示的信道,由于投影操作的存在,通道在中间被压缩。此为压缩信息通道。


信息压缩的信息瓶颈

对于图 3 所示的压缩信道以及任意双射源[math]\displaystyle{ \psi }[/math]、投影器 [math]\displaystyle{ \chi_q }[/math]、宏观动力学 [math]\displaystyle{ f }[/math] 和随机噪声 [math]\displaystyle{ \mathbf{z}_{p-q} \sim \mathcal{N}(0,\mathcal{I}_{p-q}) }[/math],有:

[math]\displaystyle{ I(\mathbf{y}_t; \mathbf{y}(t+1) = I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1}), \tag{21} }[/math]

其中[math]\displaystyle{ \hat{\mathbf{x}}_{t+1} }[/math] 是NIS的预测值,[math]\displaystyle{ \mathbf{y}(t+1) }[/math]符合式2。

对于任何实现图 3 中一般框架的神经网络,宏观动态 [math]\displaystyle{ f_{\phi_q} }[/math] 的互信息与整个动力学模型相同,即对于任意时间从 [math]\displaystyle{ \mathbf{x}_t }[/math][math]\displaystyle{ \hat{\mathbf{x}}_{t+1} }[/math] 的映射。此定理是 NIS 的基础。实际上,宏观动力学 [math]\displaystyle{ f }[/math] 是整个通道的信息瓶颈 [45]。

训练过程的变化

通过信息瓶颈理论,可以直观地理解当神经压缩器框架通过数据进行训练时会发生什么。 首先,在神经网络训练过程中,整个框架的输出[math]\displaystyle{ \hat{\mathbf{x}}_{t+1} }[/math]对任意给定[math]\displaystyle{ \mathbf{x}_t }[/math]都接近于真实数据[math]\displaystyle{ \mathbf{x}_{t+1} }[/math],对互信息同理。即如下定理:


模型的互信息与数据的互信息接近

如果 NIS 框架中的神经网络是训练有素的(即对于任何[math]\displaystyle{ t \in [1,T] }[/math]训练周期结束时有 [math]\displaystyle{ Pr_\tau (\hat{\mathbf{x}}_{t+1} | \mathbf{x}_t) }[/math][math]\displaystyle{ Pr_\tau (\mathbf{x}_{t+1} | \mathbf{x}_t) }[/math] 之间的 Kullback- Leibler 散度趋近于 0),那么对于任何 t [1,T]:

[math]\displaystyle{ I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t) \simeq I(\mathbf{x}_{t+1} ; \mathbf{x}_t) \tag{22} }[/math]

其中 [math]\displaystyle{ \simeq }[/math] 表示[math]\displaystyle{ \tau \rightarrow \infty }[/math] 时的渐近等价。

由于微观状态[math]\displaystyle{ \mathbf{x}_t }[/math]的时间序列包含信息,假设互信息[math]\displaystyle{ I(\mathbf{x}_t,\mathbf{x}_{t+1}) }[/math] 较大,否则不关注[math]\displaystyle{ \mathbf{x}_t }[/math]。因此,随着神经网络的训练,[math]\displaystyle{ I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t) }[/math]将增加,直到接近[math]\displaystyle{ I(\mathbf{x}_{t+1} ; \mathbf{x}_t) }[/math]。根据信息瓶颈理论,[math]\displaystyle{ I(\mathbf{y}_{t}; \mathbf{y}_{t+1} ) = I(\mathbf{x}_{t} ; \hat{\mathbf{x}}_{t+1}) }[/math]也将增加,直到接近[math]\displaystyle{ I(\mathbf{x}_{t+1} ; \mathbf{x}_t) }[/math]

因为宏观动态是整个通道的信息瓶颈,其信息必然随着训练而增加。同时,[math]\displaystyle{ \psi_\alpha }[/math]的雅可比矩阵的行列式和[math]\displaystyle{ \mathbf{y}_t }[/math]的熵一般也会增加。


信息瓶颈是编码器的下界

对于图3中的压缩信息信道,[math]\displaystyle{ \psi_\alpha }[/math]的雅可比矩阵的行列式和[math]\displaystyle{ \mathbf{y}_t }[/math]的香农熵的下界是整个信道的信息: [math]\displaystyle{ H(\mathbf{x}_t)+ \mathbb{E}(\ln | \det (J_{\psi_\alpha} (\mathbf{x}_t))|) \geq H(\mathbf{y}_t + \mathbb{E}(\ln |\det(J_{\psi_\alpha}, \mathbf{y}_t))|) \geq I(\mathbf{x}_t ; \hat{\mathbf{x}_{t+1}}) \tag{23} }[/math] 其中H为香农熵测度,[math]\displaystyle{ J_{\psi_\alpha}(\mathbf{x}_t) }[/math]为双射[math]\displaystyle{ \psi_\alpha }[/math]输入[math]\displaystyle{ \mathbf{x}_t }[/math] 时的雅可比矩阵,[math]\displaystyle{ J_{\psi_\alpha , \mathbf{y}_t}(\mathbf{x}_t) }[/math][math]\displaystyle{ J_{\psi_\alpha}(\mathbf{x}_t) }[/math][math]\displaystyle{ \mathbf{x}'_t }[/math] 投影[math]\displaystyle{ \mathbf{y}_t }[/math]上的子矩阵。证明见附录D。 由于给出了XT及其香农熵的分布,定理4指出 [math]\displaystyle{ |\det(J_{\psi_\alpha}(\mathbf{x}_t))| }[/math]的对数的期望以及[math]\displaystyle{ \mathbf{y}_t }[/math]必然大于整个信道的信息。 因此,若[math]\displaystyle{ \mathbb{E} | \det (J_{\psi_\alpha}(\mathbf{x}_t))| }[/math]的初始值和[math]\displaystyle{ \mathbf{y}_t }[/math]很小,随着模型的训练,整个信道的相互信息会增加,此时雅可比矩阵的行列式必然增大,宏观态[math]\displaystyle{ \mathbf{y}_t }[/math]也必然更分散。但若信息[math]\displaystyle{ I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1}) }[/math]已对[math]\displaystyle{ I(\mathbf{x}_t; \mathbf{x}_{t+1}) }[/math][math]\displaystyle{ \mathbb{E} |\det (J_{\psi_\alpha}(\mathbf{x}_t))| }[/math][math]\displaystyle{ H(\mathbf{y}_t) }[/math]已足够大,则这些现象可能不会发生。 === 4.1.3 有效信息主要由粗粒化函数决定 此前分析的是互信息而非宏观动力学的有效信息(因果涌现的关键要素)。实际上可以借助压缩信道的良好属性写出EI的宏观动力学表达式,但这一表达式没有明确的形式。由此得出确定因果出现的主要成分是双射器[math]\displaystyle{ \psi_\alpha }[/math]


宏观动力学有效信息的数学表达式

假设给定[math]\displaystyle{ \mathbf{x}_t }[/math][math]\displaystyle{ \mathbf{x}_{t+1} }[/math]的概率密度可以通过函数[math]\displaystyle{ Pr(\mathbf{x}_{t+1} | \mathbf{x}_t) \equiv G(\mathbf{x}_{t+1}, \mathbf{x}_t) }[/math]描述,且神经信息挤压框架训练有素,即可通过以下方式计算[math]\displaystyle{ f_\beta }[/math]的宏观动力学信息: [math]\displaystyle{ EI_L(f_\beta) = \frac{1}{(2L)^p} \cdot \int_\sigma \int_{\mathcal{R}^p} G(\mathbf{y}, \psi_\alpha^{-1}(\mathbf{x})) \ln \frac{(2L)^pG(\mathbf{y, \psi_\alpha^{-1}(\mathbf{x})})}{\int_\sigma G(\mathbf{y}, \psi_\alpha^{-1}(\mathbf{x}'))d\mathbf{x}'}d\mathbf{y} d\mathbf{x} \tag{24} }[/math] 其中 [math]\displaystyle{ \sigma \equiv [-L,L]^p }[/math][math]\displaystyle{ \mathbf{x} }[/math][math]\displaystyle{ \mathbf{x}' }[/math]的积分区间。

互信息随尺度的变化

由信息瓶颈理论与互信息理论,推出如下推论:


如果模型训练良好,宏观动力学的互信息不会发生变化

对于训练有素的NIS模型,宏观动力学[math]\displaystyle{ f_\beta }[/math]的互信息将与所有参数(包括刻度[math]\displaystyle{ q }[/math])无关。 如果神经网络训练有素,则有关宏观动力学的共同信息将接近数据[math]\displaystyle{ \{\mathbf{x}_t\} }[/math]中的信息。因此,无论[math]\displaystyle{ q }[/math]有多小(或尺度有多大),宏观动力学[math]\displaystyle{ f_\beta }[/math]的互信息都会保持恒定。 由此可得,[math]\displaystyle{ q }[/math]是因果涌现的无关参数。但根据dEI的定义,较小的[math]\displaystyle{ q }[/math]意味着编码器将携带更多有效信息。


理论6:信道越窄互信息越小

[math]\displaystyle{ \mathbf{x}_t }[/math][math]\displaystyle{ p }[/math]维的,那么对于 [math]\displaystyle{ 0 \lt q_1 \lt q_2 \lt p }[/math][math]\displaystyle{ I(\mathbf{x}_t; \hat{\mathbf{x}}_{t+1}) \leq I(\mathbf{x}_t ; \mathbf{y}_t^{q_1}) \leq I(\mathbf{x}_t ; \mathbf{y}_t^{q_2}), \tag{25} }[/math] 其中[math]\displaystyle{ \mathbf{y}_t^q }[/math] 表示 [math]\displaystyle{ \mathbf{y}_t }[/math][math]\displaystyle{ q }[/math] 维向量。 互信息描述了编码器(即在不同维度[math]\displaystyle{ q }[/math]中的微型状态[math]\displaystyle{ \mathbf{x}_t }[/math]和宏观状态[math]\displaystyle{ \mathbf{y}_t }[/math])。该定理指出,随着[math]\displaystyle{ q }[/math]减小,编码器部分的互信息必然减小,且对信息限制[math]\displaystyle{ I( \mathbf{x}_t ; \hat{\mathbf{x}}_{t+1}) \simeq I(\mathbf{x}_t ; \mathbf{x}_{t+1}) }[/math]更封闭。因此,整个信道将更加狭窄,编码器必须携带更有用和有效的信息才能转移到宏观动力学,预测变得更加困难。

数值实验

在几个数据集上测试NIS(所有数据均由模拟动态模型生成)。此测试还包括连续动力学和离散马尔可夫动力学。

带测量噪声的弹簧振荡器

振荡器符合如下动力学方程组: [math]\displaystyle{ \begin{cases} dz/dt = v \\ dv/dt = -z \end{cases} \tag{26} }[/math]

其中[math]\displaystyle{ z }[/math][math]\displaystyle{ v }[/math]分别是振荡器的一维位置与速度。定义系统状态[math]\displaystyle{ \mathbf{x} = (z,v) }[/math]

实验数据仅由两个带误差的传感器获得。假设观测模型为

[math]\displaystyle{ \begin{cases} \tilde{\mathbf{x}}_1 = \mathbf{x} + \xi \\ \tilde{\mathbf{x}}_2 = \mathbf{x} - \xi \\ \end{cases} \tag{27} }[/math] 其中[math]\displaystyle{ \xi \sim \mathcal{N}(0,\sigma) }[/math] 是符合二维高斯分布的随机数值,[math]\displaystyle{ \sigma }[/math] 是位置与速度标准差的向量。将状态[math]\displaystyle{ \mathbf{x} }[/math]理解为潜在宏观状态,测量微状态[math]\displaystyle{ \tilde{\mathbf{x}_1} }[/math][math]\displaystyle{ \tilde{\mathbf{x}_2} }[/math]。 NIS从测量值中恢复潜在的宏观X。

图4. 具有测量噪声的简单弹簧振荡器的实验结果。

根据式27,影响状态测量的噪音可以通过叠加两通道的数据消除。因此,如果在NIS中输入两个测量值的宏观状态,则可简单地获得正确的动力学。使用Euler方法([math]\displaystyle{ dt = 1 }[/math])采样[math]\displaystyle{ 10,000 }[/math]批批次的数据,并在每个批次中生成100个随机初始状态并执行一个步骤动态,求得下一个时间步长中的状态。使用这些数据来训练神经网络,同时使用相同的数据集来训练具有相同数量参数的普通前馈神经网络以作比较。 结果如图4所示。


下一组实验结果验证4.1节中提到的定理和信息瓶颈理论。当 q 取不同值时,[math]\displaystyle{ I(\mathbf{x}_t,\mathbf{x}_{t+1}) }[/math][math]\displaystyle{ I(\mathbf{y}_t,\mathbf{y}_{t+1}) }[/math][math]\displaystyle{ I(\hat{\mathbf{x}}_t,\hat{\mathbf{x}}_{t+1}) }[/math]的互信息随迭代次数的变化情况,如图 5(c)(d)所示,其中所有的互信息的收敛均符合定理2、3。同时绘制不同 [math]\displaystyle{ q }[/math] 下的 [math]\displaystyle{ \mathbf{x}_t }[/math][math]\displaystyle{ \mathbf{y}_t }[/math] 之间的互信息来检验信道与互信息的关系。如图 5a所示,当 [math]\displaystyle{ q }[/math] 增加时,互信息增加。

根据信息瓶颈理论,在训练初期潜变量和输出之间的互信息可能会增加,且输入和潜变量之间的信息必然在增加后随着训练过程的进行而减少。NIS 模型证实了这一结论(图5b),其中宏观状态 yt 和预测 y(t +1) 都是潜变量。由于 [math]\displaystyle{ \mathbf{y}_t }[/math][math]\displaystyle{ \mathbf{y}(t+1) }[/math] 是瓶颈,而所有其他无关信息都被变量 [math]\displaystyle{ \mathbf{x}''_t }[/math] 弃用,在得到相同结论的情况下,NIS 模型的架构可以比一般的神经网络更清楚地反映信息瓶颈(图3)。


简单马尔可夫链

本案例展示NIS作用于离散马尔可夫链、粗粒化策略可以作用于状态空间的过程。生成数据的马尔可夫链是以下概率转移矩阵:

[math]\displaystyle{ \begin{pmatrix} 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\ 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\ 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\ 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\ 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\ 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\ 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 \\ \end{pmatrix} \tag{28} }[/math]

该系统有 8 个状态,其中 7之间 个可以相互转移,最后一个状态是独立的。使用一个 one-hot 向量编码状态(例如状态2 将表示为 (0,1,0,0,0,0,0,0))。对初始状态进行 50,000 个批次的采样以生成数据,然后将 one-hot 向量输入 NIS 框架,经过 50,000 个迭代轮次的训练后可以得到一个有效的模型。结果如图 6 所示。 !Pasted image 20240520134811.png 图6. 简单马尔可夫链的实验结果。

通过系统地搜索不同的 [math]\displaystyle{ q }[/math] 可以发现维度平均因果涌现(dCE)在 [math]\displaystyle{ q=1 }[/math] 处达到峰值(图 6a)。可以通过图 6b 可视化在最佳尺度上的粗粒化策略,其中 [math]\displaystyle{ x }[/math] 坐标是不同状态的十进制编码,[math]\displaystyle{ y }[/math] 坐标表示宏观状态的编码。粗粒化映射成功地将前七个状态分类为一个宏观状态,同时保持最后一个状态不变。这种学习到的粗粒化策略与文献 [6] 中的示例相同。

将学习到的宏观动态可视化(图 6c)。 [math]\displaystyle{ y_t \lt 0 }[/math] 时宏观动态是一个线性映射,[math]\displaystyle{ y_t \gt 0 }[/math] 时它可被视为一个常数。因此,该动力学可以保证所有前七个微状态都可以与最后一个状态分离。图6d验证了定理2。

简单布尔网络

布尔网络是离散动力系统的典型例子,其中每个节点有两种可能的状态(0 或 1),且节点状态受其相邻节点状态的影响。该网络的微观机制如下:图 7 展示了一个包含四个节点的布尔网络示例,每个节点的状态受到其相邻节点状态组合的概率影响,具体概率见图 7 中的表格。将所有节点的机制结合后,可以得到一个具有 [math]\displaystyle{ 2^4 = 16 }[/math] 个状态的大型马尔可夫转移矩阵。 !Pasted image 20240520145306.png 图7. 布尔网络样例(左)及其原理(右)。

通过对整个网络进行 50,000 次状态转换的采样(每次采样包含 100 个从可能状态空间均匀随机采样的不同初始条件),将这些数据输入 NIS 模型。通过系统搜索不同的 [math]\displaystyle{ q }[/math] 值,发现维度平均因果涌现峰值出现在 q = 1 处(图 8a)。可视化结果显示出粗粒化策略(图 8b),其中 [math]\displaystyle{ x }[/math] 坐标是微观状态的十进制编码,[math]\displaystyle{ y }[/math] 坐标表示宏观状态的编码。数据点根据其 [math]\displaystyle{ y }[/math] 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。与参考文献 [5] 中的示例相似,16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动态信息。这个示例验证了信息瓶颈理论与信道互信息之间的关系(图 8c, d)。 !Pasted image 20240520150135.png 图8. 布尔网络的实验结果。


总结

NIS(神经信息压缩器)是一种新的神经网络框架,可被用于发现时间序列数据中的粗粒化策略、宏观动态和涌现的因果关系。NIS中可逆神经网络的使用通过在编码器和解码器之间共享参数来减少参数数量,且使得分析 NIS 架构的数学特性更加方便。通过约束粗粒化策略来预测具有精度阈值的未来微观状态,从而定义有效的粗粒化策略和宏观动态,并推出因果涌现识别问题可以理解为在约束条件下最大化有效信息的问题。

NIS框架的弱点如下。首先,由于可逆神经网络很难在大数据集上训练,它只能在小数据集上工作;其次,该框架仍然缺乏可解释性;第三,该模型可预测的条件分布仅限于高斯或拉普拉斯分布。