NIS

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
LJR.json讨论 | 贡献2024年6月23日 (日) 22:56的版本 (更改词条结构(历史、简介部分不完整))
跳到导航 跳到搜索

历史

数学框架:最大化EI

Normalizing Flow技术

简介

数学定义

神经网络框架

问题与展望

问题描述

背景知识

动力学的定义

假设讨论的复杂系统动力学可由如下微分方程组描述:

[math]\displaystyle{ \frac{d{\mathbf{x}}}{dt} = g(\mathbf{x}(t),ξ) }[/math]

 

 

 

 

(1)

其中[math]\displaystyle{ \mathbf{x}(t) ∈ \mathcal{R}^p }[/math] 是系统的状态,[math]\displaystyle{ p ∈ \mathcal{Z} }[/math] 是一正整数,[math]\displaystyle{ ξ }[/math] 是高斯随机噪声。 通常,微观动力学 [math]\displaystyle{ g }[/math] 总是马尔可夫的,可以等效地建模为条件概率 [math]\displaystyle{ Pr(\mathbf{x}(t + dt)|\mathbf{x}(t)) }[/math] 。根据该概率可求得系统状态的离散样本,这些状态即为微观状态。

其它定义

  • 微观态

动力系统状态(式1[math]\displaystyle{ \mathbf{x}_t }[/math] 的每一个样本称为时间步长 [math]\displaystyle{ t }[/math] 的一个微观状态。以相等间隔和有限时间步长 T 采样的多变量时间序列 [math]\displaystyle{ \mathbf{x}_1,\mathbf{x}_2,···,\mathbf{x}_T }[/math] 可形成微观状态时间序列。

重建 [math]\displaystyle{ g }[/math] 时应有可观测的微观状态,但在噪声较强时,很难从微观状态中重建具有强因果关系的信息丰富的动力学机制。因果涌现的基本思想是,若忽略微观状态数据中的部分信息并将其转换为宏观状态时间序列,则可以重建一个具有更强因果关系的宏观动力描述系统的演化。信息丢弃过程即为粗粒化策略(或映射方法)。

  • [math]\displaystyle{ q }[/math] 维粗粒化策略

在宏观状态的维数为 [math]\displaystyle{ 0 \lt q \lt p ∈ \mathcal{Z}^+ }[/math] 的情况下,[math]\displaystyle{ q }[/math] 维粗粒化策略是一个连续微分函数,用于将微观状态 [math]\displaystyle{ \mathbf{x}_t ∈ \mathcal{R}^p }[/math] 映射到宏观状态 [math]\displaystyle{ \mathbf{y}_t ∈ \mathcal{R}^q }[/math]。粗粒化表示为 [math]\displaystyle{ q }[/math]

复杂系统经过粗粒化得到一个新的宏观状态时间序列数据,表示为 [math]\displaystyle{ \mathbf{y}_1 = \phi_q(\mathbf{x}_1), \mathbf{y}_2 = \phi_q(\mathbf{x}_2),···,\mathbf{y}_T = \phi_q(\mathbf{x}_T) }[/math] 。接着寻找另一个动力学模型(或马尔可夫链)[math]\displaystyle{ \hat{f}_{\phi_q} }[/math] 来描述 [math]\displaystyle{ \mathbf{y}_t }[/math] 的演变,即宏观动力学。

  • 宏观动力学

对于给定的宏观状态时间序列 [math]\displaystyle{ \mathbf{y}_1,\mathbf{y}_2,···,\mathbf{y}_T }[/math] ,宏观状态动力学是一组微分方程

[math]\displaystyle{ \frac{d\mathbf{y}}{dt} = \hat{f}_{\phi_q}(\mathbf{y}, ξ') }[/math]

 

 

 

 

(2)

其中[math]\displaystyle{ \mathbf{y} ∈ \mathcal{R}^q }[/math] , [math]\displaystyle{ ξ' ∈ \mathcal{R}^q }[/math] 是宏观状态动力学中的高斯噪声,[math]\displaystyle{ \hat{f}_{\phi_q} }[/math] 是连续微分函数,可最小化方程2在任何给定的时间步长 [math]\displaystyle{ t ∈ [1,T] }[/math] 和给定的向量形式[math]\displaystyle{ \Vert \cdot \Vert }[/math] 下的解

[math]\displaystyle{ \mathbf{y}(t) }[/math]

[math]\displaystyle{ \langle \Vert \mathbf{y}_t-\mathbf{y}(t)\Vert \rangle_{ξ'} }[/math]

 

 

 

 

(3)

此公式不能排除一些琐碎的策略。例如,假设对于 [math]\displaystyle{ ∀ \mathbf{y}_t ∈ \mathcal{R}^p }[/math] , [math]\displaystyle{ q = 1 }[/math] 维的 [math]\displaystyle{ \phi_q }[/math] 定义为 [math]\displaystyle{ \phi_q(\mathbf{x}_t) = 1 }[/math] 。因此,相应的宏观动力学只是 [math]\displaystyle{ d\mathbf{y}/dt = 0 }[/math][math]\displaystyle{ \mathbf{y}(0) = 1 }[/math]。由于宏观状态动力学是琐碎的,粗粒化映射过于随意,此方程无意义。因此,必须对粗粒化策略和宏观动力学设置限制以避免琐碎的策略和动力学。

有效粗粒化策略和宏观动力学

有效粗粒化策略应是一个宏观态中可以尽量多地保存微观态信息的压缩映射。

  • [math]\displaystyle{ \epsilon }[/math]-effective q粗粒化策略与宏观动力学

如果存在一个函数[math]\displaystyle{ \phi_q^† :\mathcal{R}^q \rightarrow \mathcal{R}^p }[/math],使得对于给定的小实数[math]\displaystyle{ \varepsilon }[/math]和给定的向量范数[math]\displaystyle{ \Vert \cdot \Vert }[/math],以下不等式成立,则 [math]\displaystyle{ q }[/math] 粗粒化策略[math]\displaystyle{ \phi_q :\mathcal{R}^p \rightarrow \mathcal{R}^q }[/math][math]\displaystyle{ \epsilon }[/math]-effective的(或缩写为有效):

[math]\displaystyle{ \Vert \phi_q^† ( \mathbf{y}(t) - \mathbf{x}_t \Vert \lt \epsilon , }[/math]

 

 

 

 

(4)

同时,导出的宏观动力学[math]\displaystyle{ \hat{f}_{\phi_q} }[/math]也有效(其中[math]\displaystyle{ \mathbf{y}(t) }[/math] 是式2的解)。即对于所有[math]\displaystyle{ t = 1,2,···, T }[/math]

[math]\displaystyle{ \mathbf{y}(t)=\phi_q (\mathbf{x}_{t-1}) + \int_{t-1}^t \hat{f}_{\phi_q}(\mathbf{y}(\tau), \xi') d\tau }[/math]

 

 

 

 

(5)

可以通过[math]\displaystyle{ \phi_q^† }[/math]重构微观状态时间序列,使得宏观状态变量尽可能多地包含微观状态的信息。

此定义符合近似因果模型抽象。

数学框架

  • 最大化系统动力学的有效信息

若要寻找一个最具信息量的宏观动力学,则需在所有可能的有效策略和动力学中优化粗粒化策略和宏观动力学。 因此,粗粒化策略优化问题可以表述为:在约束方程45下,

[math]\displaystyle{ \max_{\phi_q,\hat{f}_{\phi_q},\phi_q^†,q} \mathcal{I}(\hat{f}_{\phi_q}) }[/math]

 

 

 

 

(6)

其中[math]\displaystyle{ \mathcal{I} }[/math]是有效信息的度量(可以是EI、Eff 或NIS主要使用的维度平均 EI。维度平均EI表示为 dEI,将于第 3.3.3 节中解析)。[math]\displaystyle{ \phi_q }[/math] 是一种有效的粗粒化策略,[math]\displaystyle{ \hat{f}_{\phi_q} }[/math]是一种有效的宏观动力学。

该定义与近似因果模型摘要一致[1]


NIS框架

NIS是一种新的机器学习框架,基于可逆神经网络来解决式6中提出的问题。其由三个组件组成:编码器、动力学学习器和解码器。它们分别用神经网络 [math]\displaystyle{ \psi_\alpha , f_\beta , }[/math][math]\displaystyle{ \psi_\alpha^{-1} }[/math] 表示,参数分别为[math]\displaystyle{ \alpha, \beta }[/math][math]\displaystyle{ \alpha }[/math] 。整个框架如图1所示。接下来将分别描述每个模块。

图1. 神经信息压缩器的工作流程和框架。

编码器

  • 投影操作

投影算子[math]\displaystyle{ \chi_{p,q} }[/math] 是一个从[math]\displaystyle{ \mathcal{R}^p }[/math][math]\displaystyle{ \mathcal{R}^q }[/math]的函数,表达为

[math]\displaystyle{ \chi_{p,q}(\mathbf{x}_q \bigoplus \mathbf{x}_{p-q}) = \mathbf{x}_q, }[/math]

 

 

 

 

(7)

其中[math]\displaystyle{ \bigoplus }[/math] 是向量串联算符,[math]\displaystyle{ \chi_q \in \mathcal{R}^q , \chi_{p-q} \in \mathcal{R}^{p-q} }[/math]。 若无歧义则[math]\displaystyle{ \chi_p,q }[/math]可简写为[math]\displaystyle{ \chi_q }[/math]. 这样,编码器[math]\displaystyle{ (\phi) }[/math]将微观状态[math]\displaystyle{ \mathbf{x}_t }[/math]映射到宏观状态[math]\displaystyle{ \mathbf{y}_t }[/math],分为两个步骤:

[math]\displaystyle{ \phi_q=\chi_q \circ \psi_\alpha }[/math]

 

 

 

 

(8)

其中[math]\displaystyle{ \circ }[/math]表示函数组合运算。

第一步是从[math]\displaystyle{ \mathbf{x}_t \in \mathcal{R}^p }[/math][math]\displaystyle{ \mathbf{x}'_t \in \mathcal{R}^p }[/math]的双射(可逆)映射[math]\displaystyle{ \psi_\alpha : \mathcal{R}^p \rightarrow \mathcal{R}^p }[/math],无信息丢失,由可逆神经网络实现;第二步是通过将[math]\displaystyle{ \mathbf{x}_t \in \mathcal{R}^p }[/math]映射到[math]\displaystyle{ \mathbf{y}_t \in \mathcal{R}^q }[/math],丢弃[math]\displaystyle{ p-q }[/math]维上的信息,将得到的向量投影到[math]\displaystyle{ q }[/math]维。

动力学学习器

动力学学习器 [math]\displaystyle{ f_\beta }[/math] 是一个带有参数的常见前馈神经网络,它在宏观层面上学习有效的马尔可夫动力学。用 [math]\displaystyle{ f_\beta }[/math] 替换方程2中的 [math]\displaystyle{ \hat{f}_{\phi_q} }[/math],并使用 [math]\displaystyle{ dt = 1 }[/math] 的欧拉方法求解方程 (2)。假设噪声是加性高斯分布(或拉普拉斯分布),则可以将方程5简化为:

[math]\displaystyle{ \mathbf{y}(t+1) = \mathbf{y}_t + \int_t^{t+1} f_\beta (\mathbf{y}(\tau), \xi') d\tau \approx \mathbf{y}_t + f_\beta (\mathbf{y}_t)+\xi' }[/math]

 

 

 

 

(11)

其中,[math]\displaystyle{ \xi' \sim \mathcal{N}(0,\Sigma) }[/math][math]\displaystyle{ Laplacian(0, \Sigma), }[/math] [math]\displaystyle{ \Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2) }[/math] 是协方差矩阵,[math]\displaystyle{ \sigma_i }[/math] 是第 [math]\displaystyle{ i }[/math] 维度的标准差(可以学习或固定)。因此,该动力学的转移概率可被写作:

[math]\displaystyle{ P(\mathbf{y}(t+1)|\mathbf{y}_t) = \mathcal{D}(\mu (\mathbf{y}_t), \Sigma) }[/math]

 

 

 

 

(12)

其中,[math]\displaystyle{ \mathcal{D} }[/math] 指表示高斯分布或拉普拉斯分布的概率密度函数,[math]\displaystyle{ \mu (\mathbf{y}_t) \equiv \mathbf{y}_t+f_\beta(\mathbf{y}_t) }[/math] 是分布的均值向量。

通过端到端的方式训练动力学学习器,可以避免从数据中估计马尔可夫转移概率以减少偏差。


解码器

解码器将宏观状态 [math]\displaystyle{ \mathbf{y}(t + 1) }[/math] 的预测转换为微观状态 [math]\displaystyle{ \hat{\mathbf{x}}_{t+1} }[/math] 的预测。在这个框架中,粗粒化策略 [math]\displaystyle{ \phi_q }[/math] 可以分解为双射器 [math]\displaystyle{ \psi_\alpha }[/math] 和投影器 [math]\displaystyle{ \chi_q }[/math],因此解码器可以直接通过反转 [math]\displaystyle{ \psi_\alpha }[/math] 得到。然而,由于宏观状态的维度是 [math]\displaystyle{ q }[/math],而 [math]\displaystyle{ \psi_\alpha }[/math] 的输入维度是 [math]\displaystyle{ p \gt q }[/math],因此需要用 [math]\displaystyle{ p-q }[/math] 维高斯随机向量填充剩余的 [math]\displaystyle{ p-q }[/math] 维。对于任何 [math]\displaystyle{ \phi_q }[/math],解码映射可以定义为:

[math]\displaystyle{ \phi_q^† = \psi_\alpha^{-1} \circ \chi_q^† }[/math]

 

 

 

 

(9)

其中,[math]\displaystyle{ \psi_\alpha^{-1} }[/math][math]\displaystyle{ \psi_\alpha }[/math] 的反函数,[math]\displaystyle{ \circ \chi_q^† : \mathbb{R}^q \rightarrow \mathbb{R}^p }[/math] 定义为:对于任意 [math]\displaystyle{ \mathbf{x} \in \mathbb{R}^p }[/math],有

[math]\displaystyle{ \chi_q^†(\mathbf{x}_q \bigoplus \mathbf{z}_{p-q}) }[/math]

 

 

 

 

(10)

其中,[math]\displaystyle{ \mathbf{z}_{p-q} \sim \mathcal{N}(0, \mathcal{I}_{p-q}) }[/math][math]\displaystyle{ p-q }[/math] 维的高斯随机噪声,[math]\displaystyle{ \mathcal{I}_{p-q} }[/math] 是同维度的单位矩阵。这样可以结合 [math]\displaystyle{ \mathbf{x}_q }[/math] 和一个来自 [math]\displaystyle{ p-q }[/math] 维标准正态分布的随机样本 [math]\displaystyle{ \mathbf{z}_{p-q} }[/math] 生成微状态。

解码器可以被视为条件概率 [math]\displaystyle{ Pr(\hat{\mathbf{x}}_{t+1} | \mathbf{y}(t+1)) }[/math] 的生成模型[2][3],而编码器执行正态化过程。

为什么使用可逆神经网络?

图2. 双射器基本模块的 RealNVP 神经网络 [math]\displaystyle{ (\psi) }[/math] 实现。

有多种方法可以实现可逆神经网络[4][5]。同时选择如图2所示的RealNVP模块[6]来具体实现可逆计算。

在该模块中,输入向量[math]\displaystyle{ \mathbf{x} }[/math]被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。[math]\displaystyle{ s_1,s_2 }[/math]是用于缩放的相同神经网络共享参数,[math]\displaystyle{ \bigotimes }[/math] 表示元素乘积。[math]\displaystyle{ t_1,t_2 }[/math]是用于平移的神经网络共享参数。这样,​​就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。

两步优化

尽管函数已被神经网络参数化,但由于必须综合考虑目标函数和约束条件,并且超参数 [math]\displaystyle{ q }[/math] 会影响神经网络的结构,因此直接优化式 6 仍然具有挑战性。因此,我们提出了一种两阶段优化方法。在第一阶段,我们固定超参数 [math]\displaystyle{ q }[/math],并优化预测的微观状态和观测数据的差异 [math]\displaystyle{ |\phi_q^† (\mathbf{y}(t))-\mathbf{x}_t| }[/math](即式 4),以确保粗粒化策略 [math]\displaystyle{ \phi_q }[/math] 和宏观动力学 [math]\displaystyle{ \hat{f}_q }[/math] 的有效性。此外,我们搜索所有可能的 [math]\displaystyle{ q }[/math] 值,以找到最佳值,最大化 [math]\displaystyle{ \mathcal{I} }[/math]

训练一个预测器

在第一阶段,可以使用概率最大化和随机梯度下降技术来获得有效的 [math]\displaystyle{ q }[/math] 粗粒化策略和宏观状态动力学的有效预测器。目标函数由微观状态预测的概率定义。

前馈神经网络可以理解为一种用高斯或拉普拉斯分布建模条件概率[7]的机器。因此,整个 NIS 框架可以理解为一个 [math]\displaystyle{ P(\hat{\mathbf{x}}_{t+dt} | \mathbf{x}_t) }[/math] 的模型,其输出 [math]\displaystyle{ \hat{\mathbf{x}}_{t+1} }[/math] 只是平均值。此外,目标函数方程 14 只是给定分布形式下观测数据的对数概率或交叉熵。

[math]\displaystyle{ \mathcal{L} = \sum_t \ln P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t) }[/math]

 

 

 

 

(13)

其中当 [math]\displaystyle{ l=2 }[/math] 时,[math]\displaystyle{ P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t) \sim \mathcal{N}(\hat{\mathbf{x}}_{t+1}, \Sigma) }[/math],而当 [math]\displaystyle{ l=1 }[/math] 时概率分布为 [math]\displaystyle{ Laplace(\hat{\mathbf{x}}_{t+1}, \Sigma) }[/math][math]\displaystyle{ \Sigma }[/math] 是协方差矩阵。[math]\displaystyle{ \Sigma }[/math] 始终是对角矩阵,其幅度为 [math]\displaystyle{ l = 2 }[/math] 时的均方误差或 [math]\displaystyle{ l = 1 }[/math] 时的绝对值平均值。

如果将高斯或拉普拉斯分布的具体形式带入条件概率,将看到最大化对数似然等同于最小化 [math]\displaystyle{ l }[/math] 范数目标函数:

[math]\displaystyle{ \mathcal{L}=\sum_t \Vert \hat{\mathbf{x}}_{t+1} - \mathbf{x}_{t+1} \Vert_l }[/math]

 

 

 

 

(14)

其中 [math]\displaystyle{ l = 1 }[/math][math]\displaystyle{ 2 }[/math]。接下来使用随机梯度下降技术来优化方程14

选择一个最优的尺度

在上一步中,经过大量的训练周期可以得到有效的 [math]\displaystyle{ q }[/math] 粗粒化策略和宏观状态动力学,但训练结果依赖于 [math]\displaystyle{ q }[/math]

为了选择最优的 [math]\displaystyle{ q }[/math],可以比较不同 [math]\displaystyle{ q }[/math] 粗粒化宏观动力学的有效信息度量 [math]\displaystyle{ \mathcal{I} }[/math]。由于参数 [math]\displaystyle{ q }[/math] 是一维的,其值范围也有限 [math]\displaystyle{ (0 \lt q \lt p) }[/math],可以简单地迭代所有 [math]\displaystyle{ q }[/math] 以找出最优的 [math]\displaystyle{ q }[/math] 和最优的有效策略。


NIS的理论性质

压缩信道理论

图3. 神经信息压缩器压缩信道的图形模型。

NIS框架(图 1)可以看作图 3 所示的信道,由于投影操作的存在,通道在中间被压缩。此为压缩信息通道。


信息压缩的信息瓶颈

对于图 3 所示的压缩信道以及任意双射源[math]\displaystyle{ \psi }[/math]、投影器 [math]\displaystyle{ \chi_q }[/math]、宏观动力学 [math]\displaystyle{ f }[/math] 和随机噪声 [math]\displaystyle{ \mathbf{z}_{p-q} \sim \mathcal{N}(0,\mathcal{I}_{p-q}) }[/math],有:

[math]\displaystyle{ I(\mathbf{y}_t; \mathbf{y}(t+1) = I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1}), }[/math]

 

 

 

 

(21)

其中[math]\displaystyle{ \hat{\mathbf{x}}_{t+1} }[/math] 是NIS的预测值,[math]\displaystyle{ \mathbf{y}(t+1) }[/math]符合式2

对于任何实现图 3 中一般框架的神经网络,宏观动力学 [math]\displaystyle{ f_{\phi_q} }[/math] 的互信息与整个动力学模型相同,即对于任意时间从 [math]\displaystyle{ \mathbf{x}_t }[/math][math]\displaystyle{ \hat{\mathbf{x}}_{t+1} }[/math] 的映射。此定理是 NIS 的基础。实际上,宏观动力学 [math]\displaystyle{ f }[/math] 是整个通道的信息瓶颈 [45]。

训练过程的变化

通过信息瓶颈理论,可以直观地理解当神经压缩器框架通过数据进行训练时会发生什么。 首先,在神经网络训练过程中,整个框架的输出[math]\displaystyle{ \hat{\mathbf{x}}_{t+1} }[/math]对任意给定[math]\displaystyle{ \mathbf{x}_t }[/math]都接近于真实数据[math]\displaystyle{ \mathbf{x}_{t+1} }[/math],对互信息同理。即如下定理:


模型的互信息与数据的互信息接近

如果 NIS 框架中的神经网络是训练有素的(即对于任何[math]\displaystyle{ t \in [1,T] }[/math]训练周期结束时有 [math]\displaystyle{ Pr_\tau (\hat{\mathbf{x}}_{t+1} | \mathbf{x}_t) }[/math][math]\displaystyle{ Pr_\tau (\mathbf{x}_{t+1} | \mathbf{x}_t) }[/math] 之间的 Kullback- Leibler 散度趋近于 0),那么对于任何 t [1,T]:

[math]\displaystyle{ I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t) \simeq I(\mathbf{x}_{t+1} ; \mathbf{x}_t) }[/math]

 

 

 

 

(22)

其中 [math]\displaystyle{ \simeq }[/math] 表示[math]\displaystyle{ \tau \rightarrow \infty }[/math] 时的渐近等价。

由于微观状态[math]\displaystyle{ \mathbf{x}_t }[/math]的时间序列包含信息,假设互信息[math]\displaystyle{ I(\mathbf{x}_t,\mathbf{x}_{t+1}) }[/math] 较大,否则不关注[math]\displaystyle{ \mathbf{x}_t }[/math]。因此,随着神经网络的训练,[math]\displaystyle{ I(\hat{\mathbf{x}}_{t+1}; \mathbf{x}_t) }[/math]将增加,直到接近[math]\displaystyle{ I(\mathbf{x}_{t+1} ; \mathbf{x}_t) }[/math]。根据信息瓶颈理论,[math]\displaystyle{ I(\mathbf{y}_{t}; \mathbf{y}_{t+1} ) = I(\mathbf{x}_{t} ; \hat{\mathbf{x}}_{t+1}) }[/math]也将增加,直到接近[math]\displaystyle{ I(\mathbf{x}_{t+1} ; \mathbf{x}_t) }[/math]

因为宏观动力学是整个通道的信息瓶颈,其信息必然随着训练而增加。同时,[math]\displaystyle{ \psi_\alpha }[/math]的雅可比矩阵的行列式和[math]\displaystyle{ \mathbf{y}_t }[/math]的熵一般也会增加。


信息瓶颈是编码器的下界

对于图3中的压缩信息信道,[math]\displaystyle{ \psi_\alpha }[/math]的雅可比矩阵的行列式和[math]\displaystyle{ \mathbf{y}_t }[/math]的香农熵的下界是整个信道的信息:

[math]\displaystyle{ H(\mathbf{x}_t)+ \mathbb{E}(\ln | \det (J_{\psi_\alpha} (\mathbf{x}_t))|) \geq H(\mathbf{y}_t + \mathbb{E}(\ln |\det(J_{\psi_\alpha}, \mathbf{y}_t))|) \geq I(\mathbf{x}_t ; \hat{\mathbf{x}_{t+1}}) }[/math]

 

 

 

 

(23)

其中H为香农熵测度,[math]\displaystyle{ J_{\psi_\alpha}(\mathbf{x}_t) }[/math]为双射[math]\displaystyle{ \psi_\alpha }[/math]输入[math]\displaystyle{ \mathbf{x}_t }[/math] 时的雅可比矩阵,[math]\displaystyle{ J_{\psi_\alpha , \mathbf{y}_t}(\mathbf{x}_t) }[/math][math]\displaystyle{ J_{\psi_\alpha}(\mathbf{x}_t) }[/math][math]\displaystyle{ \mathbf{x}'_t }[/math] 投影[math]\displaystyle{ \mathbf{y}_t }[/math]上的子矩阵。证明见附录D。

由于给出了XT及其香农熵的分布,定理4指出 [math]\displaystyle{ |\det(J_{\psi_\alpha}(\mathbf{x}_t))| }[/math]的对数的期望以及[math]\displaystyle{ \mathbf{y}_t }[/math]必然大于整个信道的信息。

因此,若[math]\displaystyle{ \mathbb{E} | \det (J_{\psi_\alpha}(\mathbf{x}_t))| }[/math]的初始值和[math]\displaystyle{ \mathbf{y}_t }[/math]很小,随着模型的训练,整个信道的相互信息会增加,此时雅可比矩阵的行列式必然增大,宏观态[math]\displaystyle{ \mathbf{y}_t }[/math]也必然更分散。但若信息[math]\displaystyle{ I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1}) }[/math]已对[math]\displaystyle{ I(\mathbf{x}_t; \mathbf{x}_{t+1}) }[/math][math]\displaystyle{ \mathbb{E} |\det (J_{\psi_\alpha}(\mathbf{x}_t))| }[/math][math]\displaystyle{ H(\mathbf{y}_t) }[/math]已足够大,则这些现象可能不会发生。

有效信息主要由粗粒化函数决定

此前分析的是互信息而非宏观动力学的有效信息(因果涌现的关键要素)。实际上可以借助压缩信道的良好属性写出EI的宏观动力学表达式,但这一表达式没有明确的形式。由此得出确定因果出现的主要成分是双射器[math]\displaystyle{ \psi_\alpha }[/math]


宏观动力学有效信息的数学表达式

假设给定[math]\displaystyle{ \mathbf{x}_t }[/math][math]\displaystyle{ \mathbf{x}_{t+1} }[/math]的概率密度可以通过函数[math]\displaystyle{ Pr(\mathbf{x}_{t+1} | \mathbf{x}_t) \equiv G(\mathbf{x}_{t+1}, \mathbf{x}_t) }[/math]描述,且神经信息挤压框架训练有素,即可通过以下方式计算[math]\displaystyle{ f_\beta }[/math]的宏观动力学信息:

[math]\displaystyle{ EI_L(f_\beta) = \frac{1}{(2L)^p} \cdot \int_\sigma \int_{\mathcal{R}^p} G(\mathbf{y}, \psi_\alpha^{-1}(\mathbf{x})) \ln \frac{(2L)^pG(\mathbf{y, \psi_\alpha^{-1}(\mathbf{x})})}{\int_\sigma G(\mathbf{y}, \psi_\alpha^{-1}(\mathbf{x}'))d\mathbf{x}'}d\mathbf{y} d\mathbf{x} }[/math]

 

 

 

 

(24)

其中 [math]\displaystyle{ \sigma \equiv [-L,L]^p }[/math][math]\displaystyle{ \mathbf{x} }[/math][math]\displaystyle{ \mathbf{x}' }[/math]的积分区间。

互信息随尺度的变化

由信息瓶颈理论与互信息理论,推出如下推论:


如果模型训练良好,宏观动力学的互信息不会发生变化

对于训练有素的NIS模型,宏观动力学[math]\displaystyle{ f_\beta }[/math]的互信息将与所有参数(包括刻度[math]\displaystyle{ q }[/math])无关。 如果神经网络训练有素,则有关宏观动力学的共同信息将接近数据[math]\displaystyle{ \{\mathbf{x}_t\} }[/math]中的信息。因此,无论[math]\displaystyle{ q }[/math]有多小(或尺度有多大),宏观动力学[math]\displaystyle{ f_\beta }[/math]的互信息都会保持恒定。

由此可得,[math]\displaystyle{ q }[/math]是因果涌现的无关参数。但根据dEI的定义,较小的[math]\displaystyle{ q }[/math]意味着编码器将携带更多有效信息。


理论6:信道越窄互信息越小

[math]\displaystyle{ \mathbf{x}_t }[/math][math]\displaystyle{ p }[/math]维的,那么对于 [math]\displaystyle{ 0 \lt q_1 \lt q_2 \lt p }[/math]

[math]\displaystyle{ I(\mathbf{x}_t; \hat{\mathbf{x}}_{t+1}) \leq I(\mathbf{x}_t ; \mathbf{y}_t^{q_1}) \leq I(\mathbf{x}_t ; \mathbf{y}_t^{q_2}), }[/math]

 

 

 

 

(25)

其中[math]\displaystyle{ \mathbf{y}_t^q }[/math] 表示 [math]\displaystyle{ \mathbf{y}_t }[/math][math]\displaystyle{ q }[/math] 维向量。

互信息描述了编码器(即在不同维度[math]\displaystyle{ q }[/math]中的微型状态[math]\displaystyle{ \mathbf{x}_t }[/math]和宏观状态[math]\displaystyle{ \mathbf{y}_t }[/math])。该定理指出,随着[math]\displaystyle{ q }[/math]减小,编码器部分的互信息必然减小,且对信息限制[math]\displaystyle{ I( \mathbf{x}_t ; \hat{\mathbf{x}}_{t+1}) \simeq I(\mathbf{x}_t ; \mathbf{x}_{t+1}) }[/math]更封闭。因此,整个信道将更加狭窄,编码器必须携带更有用和有效的信息才能转移到宏观动力学,预测变得更加困难。

数值实验

在几个数据集上测试NIS(所有数据均由模拟动力学模型生成)。此测试还包括连续动力学和离散马尔可夫动力学。

带测量噪声的弹簧振荡器

振荡器符合如下动力学方程组:

[math]\displaystyle{ \begin{cases} dz/dt = v \\ dv/dt = -z \end{cases} }[/math]

 

 

 

 

(26)

其中[math]\displaystyle{ z }[/math][math]\displaystyle{ v }[/math]分别是振荡器的一维位置与速度。定义系统状态[math]\displaystyle{ \mathbf{x} = (z,v) }[/math]

实验数据仅由两个带误差的传感器获得。假设观测模型为

[math]\displaystyle{ \begin{cases} \tilde{\mathbf{x}}_1 = \mathbf{x} + \xi \\ \tilde{\mathbf{x}}_2 = \mathbf{x} - \xi \\ \end{cases} }[/math]

 

 

 

 

(27)

其中[math]\displaystyle{ \xi \sim \mathcal{N}(0,\sigma) }[/math] 是符合二维高斯分布的随机数值,[math]\displaystyle{ \sigma }[/math] 是位置与速度标准差的向量。将状态[math]\displaystyle{ \mathbf{x} }[/math]理解为潜在宏观状态,测量微状态[math]\displaystyle{ \tilde{\mathbf{x}_1} }[/math][math]\displaystyle{ \tilde{\mathbf{x}_2} }[/math]。 NIS从测量值中恢复潜在的宏观X。

图4. 具有测量噪声的简单弹簧振荡器的实验结果。

根据式27,影响状态测量的噪音可以通过叠加两通道的数据消除。因此,如果在NIS中输入两个测量值的宏观状态,则可简单地获得正确的动力学。使用Euler方法([math]\displaystyle{ dt = 1 }[/math])采样[math]\displaystyle{ 10,000 }[/math]批批次的数据,并在每个批次中生成100个随机初始状态并执行一个步骤动力学,求得下一个时间步长中的状态。使用这些数据来训练神经网络,同时使用相同的数据集来训练具有相同数量参数的普通前馈神经网络以作比较。 结果如图4所示。

图5. 变量间的各类互信息随着训练迭代次数而发生变化。


下一组实验结果验证4.1节中提到的定理和信息瓶颈理论。当 q 取不同值时,[math]\displaystyle{ I(\mathbf{x}_t,\mathbf{x}_{t+1}) }[/math][math]\displaystyle{ I(\mathbf{y}_t,\mathbf{y}_{t+1}) }[/math][math]\displaystyle{ I(\hat{\mathbf{x}}_t,\hat{\mathbf{x}}_{t+1}) }[/math]的互信息随迭代次数的变化情况,如图 5(c)(d)所示,其中所有的互信息的收敛均符合定理2、3。同时绘制不同 [math]\displaystyle{ q }[/math] 下的 [math]\displaystyle{ \mathbf{x}_t }[/math][math]\displaystyle{ \mathbf{y}_t }[/math] 之间的互信息来检验信道与互信息的关系。如图 5a所示,当 [math]\displaystyle{ q }[/math] 增加时,互信息增加。

根据信息瓶颈理论[8],在训练初期潜变量和输出之间的互信息可能会增加,且输入和潜变量之间的信息必然在增加后随着训练过程的进行而减少。NIS 模型证实了这一结论(图5b),其中宏观状态 yt 和预测 y(t +1) 都是潜变量。由于 [math]\displaystyle{ \mathbf{y}_t }[/math][math]\displaystyle{ \mathbf{y}(t+1) }[/math] 是瓶颈,而所有其他无关信息都被变量 [math]\displaystyle{ \mathbf{x}''_t }[/math] 弃用,在得到相同结论的情况下,NIS 模型的架构可以比一般的神经网络更清楚地反映信息瓶颈(图3)。


简单马尔可夫链

本案例展示NIS作用于离散马尔可夫链、粗粒化策略可以作用于状态空间的过程。生成数据的马尔可夫链是以下概率转移矩阵:

[math]\displaystyle{ \begin{pmatrix} 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\ 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\ 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\ 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\ 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\ 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\ 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 1/7 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 \\ \end{pmatrix} }[/math]

 

 

 

 

(28)

图6. 简单马尔可夫链的实验结果。

该系统有 8 个状态,其中 7之间 个可以相互转移,最后一个状态是独立的。使用一个 one-hot 向量编码状态(例如状态2 将表示为 (0,1,0,0,0,0,0,0))。对初始状态进行 50,000 个批次的采样以生成数据,然后将 one-hot 向量输入 NIS 框架,经过 50,000 个迭代轮次的训练后可以得到一个有效的模型。结果如图 6 所示。

通过系统地搜索不同的 [math]\displaystyle{ q }[/math] 可以发现维度平均因果涌现(dCE)在 [math]\displaystyle{ q=1 }[/math] 处达到峰值(图 6a)。可以通过图 6b 可视化在最佳尺度上的粗粒化策略,其中 [math]\displaystyle{ x }[/math] 坐标是不同状态的十进制编码,[math]\displaystyle{ y }[/math] 坐标表示宏观状态的编码。粗粒化映射成功地将前七个状态分类为一个宏观状态,同时保持最后一个状态不变。这种学习到的粗粒化策略与文献[6]中的示例相同。

将学习到的宏观动力学可视化(图 6c)。 [math]\displaystyle{ y_t \lt 0 }[/math] 时宏观动力学是一个线性映射,[math]\displaystyle{ y_t \gt 0 }[/math] 时它可被视为一个常数。因此,该动力学可以保证所有前七个微状态都可以与最后一个状态分离。图6d验证了定理2。

简单布尔网络

图7. 布尔网络样例(左)及其原理(右)。

布尔网络是离散动力系统的典型例子,其中每个节点有两种可能的状态(0 或 1),且节点状态受其相邻节点状态的影响。该网络的微观机制如下:图 7 展示了一个包含四个节点的布尔网络示例,每个节点的状态受到其相邻节点状态组合的概率影响,具体概率见图 7 中的表格。将所有节点的机制结合后,可以得到一个具有 [math]\displaystyle{ 2^4 = 16 }[/math] 个状态的大型马尔可夫转移矩阵。

图8. 布尔网络的实验结果。

通过对整个网络进行 50,000 次状态转换的采样(每次采样包含 100 个从可能状态空间均匀随机采样的不同初始条件),将这些数据输入 NIS 模型。通过系统搜索不同的 [math]\displaystyle{ q }[/math] 值,发现维度平均因果涌现峰值出现在 q = 1 处(图 8a)。可视化结果显示出粗粒化策略(图 8b),其中 [math]\displaystyle{ x }[/math] 坐标是微观状态的十进制编码,[math]\displaystyle{ y }[/math] 坐标表示宏观状态的编码。数据点根据其 [math]\displaystyle{ y }[/math] 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。与参考文献5中的示例相似,16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。这个示例验证了信息瓶颈理论与信道互信息之间的关系(图 8c, d)。

有效信息的度量

前馈神经网络的有效信息定义

一般而言,如果神经网络的输入为 [math]\displaystyle{ X =(x_1,x_2,··· ,x_n) \in [-L,L]^n }[/math],即 [math]\displaystyle{ X }[/math] 定义在大小为 [math]\displaystyle{ L }[/math] 的超立方体上([math]\displaystyle{ L }[/math] 是大整数),则输出为 [math]\displaystyle{ Y = (y_1,y_2,··· ,y_m) }[/math] ,且 [math]\displaystyle{ Y = \mu(X) }[/math]。神经网络实现的确定性映射为 [math]\displaystyle{ \mu: \mathcal{R}^n \rightarrow \mathcal{R}^m }[/math] ,其在 [math]\displaystyle{ X }[/math] 处的雅可比矩阵为 [math]\displaystyle{ \partial_{X' \mu} \equiv \Bigl\{ \frac{\partial \mu_i (X')}{\partial X'_j}|_{X'=X}\Bigr\}_{nm} }[/math] . 若可以将神经网络视为给定 [math]\displaystyle{ X }[/math] 下的高斯分布,则:

[math]\displaystyle{ p(\mathcal{Y}|X) = \frac{1}{\sqrt{(2 \pi)^m |\Sigma|}} \exp\left( - \frac{1}{2}(\mathcal{Y}-\mu(X))^T \Sigma^{-1}(\mathcal{Y}-\mu(X)) \right) }[/math]

 

 

 

 

(15)

其中,[math]\displaystyle{ \Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2) }[/math] 是协方差矩阵,[math]\displaystyle{ \sigma_i }[/math] 是第 [math]\displaystyle{ i }[/math] 维度的标准差(可由 [math]\displaystyle{ y_i }[/math] 的平均方差估计)。由此可计算有效信息 [math]\displaystyle{ EI }[/math]

(i) 若存在 [math]\displaystyle{ X }[/math] 使 [math]\displaystyle{ \det(\partial_{X' } \mu(X)) \neq 0 }[/math] ,则 [math]\displaystyle{ EI }[/math] 由如下式子导出:

[math]\displaystyle{ EI_L(\mu) = I(do(X \sim \mathcal{U}([-L,L]^n;\mathcal{Y}) \approx - \frac{m+m \ln(2\pi)+\Sigma_{i=1}^m \sigma_i^2}{2}+n \ln (2L)+ \mathbb{E}_{X \sim \mathcal{U}[-L,L]^n}(\ln | \det(\partial_{X' }\mu(X))|) }[/math]

 

 

 

 

(16)

其中 [math]\displaystyle{ \mathcal{U}([-L,L]^n) }[/math] 表示 [math]\displaystyle{ [-L,L]^n }[/math] 上的均匀分布,[math]\displaystyle{ |\cdot| }[/math] 表示绝对值,[math]\displaystyle{ \det }[/math] 表示行列式。

(ii) 若对于所有 [math]\displaystyle{ X }[/math] 都有 [math]\displaystyle{ \det (\partial_{X'}\mu(X)) \equiv 0 }[/math],则 [math]\displaystyle{ EI \approx 0 }[/math]

这个定义有如下新问题:(1)[math]\displaystyle{ EI }[/math] 容易受到输出维数 [math]\displaystyle{ m }[/math] 的影响,比较不同维动力学的 [math]\displaystyle{ EI }[/math] 将较为繁琐,但可通过计算维度平均有效信息解决;(2)[math]\displaystyle{ EI }[/math] 依赖于 [math]\displaystyle{ L }[/math],当 [math]\displaystyle{ L }[/math] 很大时会发散,可通过计算维度平均因果涌现解决。

维度平均有效信息 ([math]\displaystyle{ dEI }[/math])

对于具有 [math]\displaystyle{ n }[/math] 维状态空间的动力学 [math]\displaystyle{ f }[/math],则维度平均有效信息定义为:

[math]\displaystyle{ dEI(f)=\frac{EI(f)}{n} }[/math]

 

 

 

 

(17)

此时如果动力学 [math]\displaystyle{ f }[/math] 连续且可被看作条件高斯分布,则根据 [math]\displaystyle{ EI }[/math] 的定义(式16),维度平均 [math]\displaystyle{ EI }[/math] 可以计算为([math]\displaystyle{ m = n }[/math]):

[math]\displaystyle{ dEI_L(f)= -\frac{1+\ln(2\pi)+\Sigma_{i=1}^n \sigma_i^2/n}{2}+\ln(2L) + \frac{1}{n}\mathbb{E}_{X \sim \mathcal{U}([-L,L]^n)}(\ln | \det(\partial_{X'}f(X))|) \qquad (18) }[/math]

 

 

 

 

(18)

18中与维度 [math]\displaystyle{ n }[/math] 相关的所有项都已被消除。但是,等式中仍然存在 [math]\displaystyle{ L }[/math],当 [math]\displaystyle{ L }[/math] 很大时可能导致 [math]\displaystyle{ EI }[/math] 发散。

可以计算维度平均因果涌现([math]\displaystyle{ dCE }[/math])以消除 [math]\displaystyle{ L }[/math] 的影响。

维度平均因果涌现 ([math]\displaystyle{ dCE }[/math])

对于维度为 [math]\displaystyle{ n_M }[/math] 的宏观动力学 [math]\displaystyle{ f_M }[/math] 和维度为 [math]\displaystyle{ n_m }[/math] 的微观动力学 [math]\displaystyle{ f_m }[/math],将维度平均因果涌现定义为:

[math]\displaystyle{ dCE(f_M,f_m)=dEI(f_M)-dEI(f_m)=\frac{EI(f_M)}{n_M}-\frac{EI(f_m)}{n_m}. }[/math]

 

 

 

 

(19)

因此,如果动力学 [math]\displaystyle{ f_M }[/math][math]\displaystyle{ f_m }[/math] 连续且可以被视为条件高斯分布,则根据定义 7 和公式 (18),维度平均因果涌现符合如下公式:

[math]\displaystyle{ dCE(f_M,f_m)=\left(\frac{1}{n_M} \mathbb{E}_{X_M} \ln |\det\partial_{X_M}f_M| \right) - \left(\frac{1}{n_M}\sum_{i=1}^{n_M} \ln \sigma_{i,M}^2 - \frac{1}{n_m} \sum_{i=1}^{n_m} \ln \sigma_{i,m}^2 \right) }[/math]

 

 

 

 

(20)

在式20中,[math]\displaystyle{ n }[/math] 维和 [math]\displaystyle{ L }[/math] 维的影响已被完全消除,结果只受方差的相对值和雅可比矩阵行列式的对数值的影响。数值计算中将主要使用式 20。Eff 因受 [math]\displaystyle{ L }[/math] 影响而弃用。 理论中讨论神经信息压缩器框架找出最具信息量的宏观动力学的原因,以及有效策略动力学随[math]\displaystyle{ q }[/math]的变化。由于理论结果与输入数据的分布无关,该理论同时适用互信息与有效信息。

总结与展望

NIS的优点

NIS(神经信息压缩器)是一种新的神经网络框架,可被用于发现时间序列数据中的粗粒化策略、宏观动力学和涌现的因果关系。NIS中可逆神经网络的使用通过在编码器和解码器之间共享参数来减少参数数量,且使得分析 NIS 架构的数学特性更加方便。通过约束粗粒化策略来预测具有精度阈值的未来微观状态,从而定义有效的粗粒化策略和宏观动力学,并推出因果涌现识别问题可以理解为在约束条件下最大化有效信息的问题。

NIS的缺点

NIS框架的弱点如下。首先,由于可逆神经网络很难在大数据集上训练,它只能在小数据集上工作;其次,该框架仍然缺乏可解释性[9];第三,该模型可预测的条件分布仅限于高斯或拉普拉斯分布。

未来展望:NIS+框架

参考文献

  1. Beckers, S.; Eberhardt, F.; Halpern, J.Y. Approximate Causal Abstraction. arXiv 2019, arXiv:1906.11583v2.
  2. Li, S.H.; Wang, L. Neural Network Renormalization Group. Phys. Rev. Lett. 2018, 121, 260601.
  3. Hu,H.; Wu,D.; You, Y.Z.; Olshausen, B.; Chen, Y. RG-Flow: A hierarchical and explainable flow model based on renormalization group and sparse prior. Mach. Learn. Sci. Technol. 2022, 3, 035009.
  4. Teshima, T.; Ishikawa, I.; Tojo, K.; Oono, K.; Ikeda, M.; Sugiyama, M. Coupling-based invertible neural networks are universal diffeomorphism approximators. Adv. Neural Inf. Process. Syst. 2020, 33, 3362–3373.
  5. Teshima, T.; Tojo, K.; Ikeda, M.; Ishikawa, I.; Oono, K. Universal approximation property of neural ordinary differential equations. arXiv 2017, arXiv:2012.02414.
  6. Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.
  7. Kingma, D.P.; Welling, M. Auto-encoding variational bayes. arXiv 2013, arXiv:1312.6114.
  8. Shwartz-Ziv, R.; Tishby, N. Opening the black box of deep neural networks via information. arXiv 2017, arXiv:1703.00810.
  9. Williams, P.L.; Beer., R.D. Nonnegative decomposition of multivariate information. arXiv 2017, arXiv:1004.2515.

此词条由因果涌现第五季读书会词条梳理志愿者LJR.json编撰,未经专家审核,带来阅读不便,请见谅。