NIS
1. 介绍
1.1 因果涌现的定义
- 涌现(emergence) 是复杂系统中最重要的概念之一,描述了一种现象:一个整体展现了组成它的部分所不具有的特性。
- 因果(causality) 是另一个重要概念,描述了动力学系统中原因事件与结果事件随时间的联系。
- 因果涌现(causal emergence) 是一类特殊的涌现现象,指系统中宏观层面的事件可能比微观层面有更强的因果联系。其中,因果关系的强度可以用有效信息 (EI) 来衡量 。
1.2 因果涌现的识别
1.2.1 具体解决方案以及传统方案的不足
- Klein提出的复杂网络中的因果涌现
复杂网络数据中因果涌现的识别困难在于系统性、自动搜索所有潜在的粗粒化策略。Klein的方法通过节点聚类提升EI,但假设底层节点动态是扩散的,未考虑真实系统中更复杂的动态。即使节点分组已知,粗粒化策略仍需考虑簇中所有节点的微观与宏观状态映射。
- 部分信息分解方法
量化系统因果涌现的基于粗粒化的方法需系统的状态转移矩阵和粗粒化策略。信息分解方法避免了对粗粒化策略的讨论,但需在系统状态空间子集上长时间搜索以获得精确结果。现有数值近似方法仅能提供充分条件,缺乏现实意义的粗粒化策略和相应宏观动力学。
- 传统方法的不足
这两种方法需明确的宏观与微观动力学马尔可夫转移矩阵,导致对罕见事件概率及连续数据的预测存在偏差。
1.2.2 基于机器学习的神经信息压缩方法
- 神经信息压缩器的定义
因果涌现识别问题可表述为“在微观动态精确预测的约束下,最大化宏观动态的有效信息(EI)”。神经信息压缩器(NIS)是解决此问题的通用机器学习框架。NIS通过可逆神经网络建模粗粒化策略,将任意[math]\displaystyle{ \mathcal{R}^p }[/math]到[math]\displaystyle{ \mathcal{R}^q(q \leq p) }[/math] 的映射分解为一系列信息转换和弃用过程,可对整个框架进行数学分析。
- NIS与因果表征学习以及因果模型抽象的关系
因果表征学习旨在提取观测数据背后的因果隐变量,编码过程可理解为粗粒化。因果涌现识别与因果表征学习相似,但目标不同:前者寻找更优粗粒化策略,后者提取数据中的因果关系。多尺度建模和粗粒化操作引入了新的理论问题。
2. 问题定义
2.1 背景
2.1.1 动力学的定义
假设讨论的复杂系统动力学可由如下微分方程组描述: [math]\displaystyle{ \frac{d{\mathbf{x}}}{dt} = g(\mathbf{x}(t),ξ) \tag{1} }[/math]
其中[math]\displaystyle{ \mathbf{x}(t) ∈ \mathcal{R}^p }[/math] 是系统的状态,[math]\displaystyle{ p ∈ \mathcal{Z} }[/math] 是一正整数,[math]\displaystyle{ ξ }[/math] 是高斯随机噪声。 通常,微观动态 [math]\displaystyle{ g }[/math] 总是马尔可夫的,可以等效地建模为条件概率 [math]\displaystyle{ Pr(\mathbf{x}(t + dt)|\mathbf{x}(t)) }[/math] 。根据该概率可求得系统状态的离散样本,这些状态即为微观状态。
2.1.2 定义
- 微观态
动力系统状态(式1)[math]\displaystyle{ \mathbf{x}_t }[/math] 的每一个样本称为时间步长 [math]\displaystyle{ t }[/math] 的一个微观状态。以相等间隔和有限时间步长 T 采样的多变量时间序列 [math]\displaystyle{ \mathbf{x}_1,\mathbf{x}_2,···,\mathbf{x}_T }[/math] 可形成微观状态时间序列。
重建 [math]\displaystyle{ g }[/math] 时应有可观测的微观状态,但在噪声较强时,很难从微观状态中重建具有强因果关系的信息丰富的动力学机制。因果涌现的基本思想是,若忽略微观状态数据中的部分信息并将其转换为宏观状态时间序列,则可以重建一个具有更强因果关系的宏观动力描述系统的演化。信息丢弃过程即为粗粒化策略(或映射方法)。
- [math]\displaystyle{ q }[/math] 维粗粒化策略
在宏观状态的维数为 [math]\displaystyle{ 0 \lt q \lt p ∈ \mathcal{Z}^+ }[/math] 的情况下,[math]\displaystyle{ q }[/math] 维粗粒化策略是一个连续微分函数,用于将微观状态 [math]\displaystyle{ \mathbf{x}_t ∈ \mathcal{R}^p }[/math] 映射到宏观状态 [math]\displaystyle{ \mathbf{y}_t ∈ \mathcal{R}^q }[/math]。粗粒化表示为 [math]\displaystyle{ q }[/math]。
复杂系统经过粗粒化得到一个新的宏观状态时间序列数据,表示为 [math]\displaystyle{ \mathbf{y}_1 = \phi_q(\mathbf{x}_1), \mathbf{y}_2 = \phi_q(\mathbf{x}_2),···,\mathbf{y}_T = \phi_q(\mathbf{x}_T) }[/math] 。接着寻找另一个动力学模型(或马尔可夫链)[math]\displaystyle{ \hat{f}_{\phi_q} }[/math] 来描述 [math]\displaystyle{ \mathbf{y}_t }[/math] 的演变,即宏观动力学。
- 宏观动力学
对于给定的宏观状态时间序列 [math]\displaystyle{ \mathbf{y}_1,\mathbf{y}_2,···,\mathbf{y}_T }[/math] ,宏观状态动力学是一组微分方程 [math]\displaystyle{ \frac{d\mathbf{y}}{dt} = \hat{f}_{\phi_q}(\mathbf{y}, ξ'), \tag{2} }[/math]
其中[math]\displaystyle{ \mathbf{y} ∈ \mathcal{R}^q }[/math] , [math]\displaystyle{ ξ' ∈ \mathcal{R}^q }[/math] 是宏观状态动力学中的高斯噪声,[math]\displaystyle{ \hat{f}_{\phi_q} }[/math] 是连续微分函数,可最小化方程 (2) 在任何给定的时间步长 [math]\displaystyle{ t ∈ [1,T] }[/math] 和给定的向量形式[math]\displaystyle{ \Vert \cdot \Vert }[/math] 下的解 [math]\displaystyle{ \mathbf{y}(t) }[/math] : [math]\displaystyle{ \langle \Vert \mathbf{y}_t-\mathbf{y}(t)\Vert \rangle_{ξ'} \tag{3} }[/math]
此公式不能排除一些琐碎的策略。例如,假设对于 [math]\displaystyle{ ∀ \mathbf{y}_t ∈ \mathcal{R}^p }[/math] , [math]\displaystyle{ q = 1 }[/math] 维的 [math]\displaystyle{ \phi_q }[/math] 定义为 [math]\displaystyle{ \phi_q(\mathbf{x}_t) = 1 }[/math] 。因此,相应的宏观动态只是 [math]\displaystyle{ d\mathbf{y}/dt = 0 }[/math] 和 [math]\displaystyle{ \mathbf{y}(0) = 1 }[/math]。由于宏观状态动态是琐碎的,粗粒化映射过于随意,此方程无意义。因此,必须对粗粒化策略和宏观动态设置限制以避免琐碎的策略和动态。
2.2 有效粗粒化策略和宏观动力学
有效粗粒化策略应是一个宏观态中可以尽量多地保存微观态信息的压缩映射。
- [math]\displaystyle{ \epsilon }[/math]-effective q粗粒化策略与宏观动力学
如果存在一个函数[math]\displaystyle{ \phi_q^† :\mathcal{R}^q \rightarrow \mathcal{R}^p }[/math],使得对于给定的小实数[math]\displaystyle{ \varepsilon }[/math]和给定的向量范数[math]\displaystyle{ \Vert \cdot \Vert }[/math],以下不等式成立,则 [math]\displaystyle{ q }[/math] 粗粒化策略[math]\displaystyle{ \phi_q :\mathcal{R}^p \rightarrow \mathcal{R}^q }[/math]是[math]\displaystyle{ \epsilon }[/math]-effective的(或缩写为有效): [math]\displaystyle{ \Vert \phi_q^† ( \mathbf{y}(t) - \mathbf{x}_t \Vert \lt \epsilon , \tag{4} }[/math] 同时,导出的宏观动力学[math]\displaystyle{ \hat{f}_{\phi_q} }[/math]也有效(其中[math]\displaystyle{ \mathbf{y}(t) }[/math] 是式2的解)。即对于所有[math]\displaystyle{ t = 1,2,···, T }[/math]: [math]\displaystyle{ \mathbf{y}(t)=\phi_q (\mathbf{x}_{t-1}) + \int_{t-1}^t \hat{f}_{\phi_q}(\mathbf{y}(\tau), \xi') d\tau \tag{5} }[/math] 可以通过[math]\displaystyle{ \phi_q^† }[/math]重构微观状态时间序列,使得宏观状态变量尽可能多地包含微观状态的信息。 此定义符合近似因果模型抽象。
2.3 问题定义
- 最大化系统动力学的有效信息
若要寻找一个最具信息量的宏观动力学,则需在所有可能的有效策略和动态中优化粗粒化策略和宏观动态。 因此,粗粒化策略优化问题可以表述为:在约束方程4和5下, [math]\displaystyle{ \max_{\phi_q,\hat{f}_{\phi_q},\phi_q^†,q} \mathcal{I}(\hat{f}_{\phi_q}), \tag{6} }[/math] 其中[math]\displaystyle{ \mathcal{I} }[/math]是有效信息的度量(可以是EI、Eff 或NIS主要使用的维度平均 EI。维度平均EI表示为 dEI,将于第 3.3.3 节中解析)。[math]\displaystyle{ \phi_q }[/math] 是一种有效的粗粒化策略,[math]\displaystyle{ \hat{f}_{\phi_q} }[/math]是一种有效的宏观动态。