更改

NIS+ (查看源代码)

2024年7月31日 (三) 21:31的版本

删除1,736字节、 2024年7月31日 (星期三)

无编辑摘要

第22行：第22行：

=== 基于信息分解的因果涌现识别 ===

−

~~Rosas等学者通过信息分解来识别量化~~[[因果涌现]]，但是信息分解框架中定义的信息原子难以计算，所以作者推导出只需要计算互信息的近似公式，提出了判定[[因果涌现]]发生的充分条件，即<math>\Psi_{t, t+1}(V) </math>，具体公式如下：

+

Rosas等学者通过信息分解框架给出了和Hoel等人不同的对因果涌现的新定义。作者通过信息分解来识别量化[[因果涌现]]，但是信息分解框架中定义的信息原子难以计算，所以作者推导出只需要计算互信息的近似公式，提出了判定[[因果涌现]]发生的充分条件，即<math>\Psi_{t, t+1}(V) </math>，具体公式如下：

<math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math>

第40行：第40行：

3）高维系统中，<math>\Psi </math>作为近似条件，误差非常大，很容易得到负值，从而无法判断是否有因果涌现发生。

−

Kaplanis等人基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>：使用<math>f_{\theta}</math>神经网络来学习将微观输入<math>X_t</math>粗粒化成宏观输出<math>V_t</math>，同时使用神经网络<math>g_{\phi}</math>和<math>h_{\xi}</math>来分别学习<math>I(V_t;V_{t+1})</math>和<math>\sum_i(I(V_{t+1};X_{t}^i))</math>两者互信息的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。 ''（暂定）''

+

Kaplanis等人基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>：使用神经网络来学习将微观输入粗粒化成宏观输出，同时使用两个神经网络来分别学习互信息的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。 ''（暂定）''

−

~~<nowiki>*******</nowiki>~~

−

~~Rosas等学者通过将过量熵（excess entropy）分解成不重叠的部分来识别量化因果涌现，且提出了判定因果涌现发生的充分条件。~~

−

为了简化问题且不失通用性，以有两个输入变量（X1、X2）和一个输出变量（Y）的系统为例，目标变量和联合源变量的互信息<math>I(X_1,X_2; Y) </math>可以通过部分信息分解（Partial Information Decomposition，简称PID）分解成三种信息，分别是冗余信息（Redundant information，简称Red）、独特信息（Unique information，简称Un）、协同信息（Synergistic information，简称Syn），具体公式如下：

−

~~<math>I(X_1,X_2; Y) = Red(X_1,X_2; Y) + Un(X_1; Y |X_2) + Un(X_2; Y |X_1) + Syn(X_1,X_2; Y) </math>~~

−

不过，PID只适用于单个目标变量的情景，无法有效的应用于跨时间步长的系统。故，Rosas等学者提出了整合信息分解（Integrated Information Decomposition，简称ΦID）。当且仅当协同信息大于0的时候，系统有能力发生因果涌现。

−

~~<math>Syn(X_{t};X_{t+1}) > 0 </math>~~

−

在给定宏观状态<math>V </math>的情况下，<math>Syn(X_{t};X_{t+1}) ≥ Un(V_t;X_{t+1}|X_t) </math>。所以，如果宏观变量（Vt）所持有的关于微观变量独特信息大于0，则出现因果涌现。

−

~~<math>Syn(X_{t};X_{t+1}) ≥ Un(V_t;X_{t+1}|X_t) > 0 </math>~~

−

~~通过互信息的相关计算公式，可以得知：~~

−

~~<math>Un(V_t;X_{t+1}|X_t) ≥ I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) + Red(V_t, V_{t+1};X_t) </math>~~

−

~~式中，<math>X_t^j </math>表示第 j 维t时刻的微观变量，<math>V_t ; V_{t+1} </math>代表两个连续时间的宏观状态变量。~~

−

由于<math>Red(V_t, V_{t+1};X_t) </math>为非负数，所以可以提出一个充分非必要条件<math>\Psi_{t, t+1}(V) </math>，用于测量两个时间步宏观变量的互信息减去每个t时刻微观变量和t+1时刻宏观变量的互信息。

−

~~当<math>\Psi_{t, t+1}(V) > 0 </math>，系统发生因果涌现。但当<math>\mathrm{\Psi}<0 </math>，我们不能确定系统是否发生因果涌现。~~

−

~~<math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math>~~

−

~~该方法避开讨论粗粒化策略，但是也存在很多缺点：~~

−

~~1）该方法只是基于互信息计算没有考虑因果，且得到的仅仅是发生因果涌现的近似的充分条件；~~

−

~~2）该方法需要预设宏观变量，且对宏观变量的不同选择会对结果造成显著影响；~~

−

~~3）当系统具有大量冗余信息或具有许多变量时，该方法的计算复杂度仍然很高。~~

−

Kaplanis等人基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>：使用<math>f_{\theta}</math>神经网络来学习将微观输入<math>X_t</math>粗粒化成宏观输出<math>V_t</math>，同时使用神经网络<math>g_{\phi}</math>和<math>h_{\xi}</math>来分别学习<math>I(V_t;V_{t+1})</math>和<math>\sum_i(I(V_{t+1};X_{t}^i))</math>两者互信息的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。 ''（暂定）''

=== NIS系列 ===

−

[[张江]]等<ref>Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref>学者尝试基于神经网络和数据驱动提出了一种方法，能从时间序列数据中识别系统中的因果涌现，并且自动提取有效的粗粒化策略和宏观动力学，即神经信息压缩器（Neural Information ~~Squeezer，简称NIS）。~~

+

[[张江]]等<ref>Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref>学者尝试基于神经网络和数据驱动提出了一种方法，能从时间序列数据中识别系统中的因果涌现，并且自动提取有效的粗粒化策略和宏观动力学，即[[NIS|神经信息压缩器]]（Neural Information Squeezer，简称[[NIS]]）。

−

模型由编码器（encoder）、动力学学习器（<math>f </math>）以及解码器（decoder）三个部分构成，编码器和解码器主要由[[可逆神经网络]]（Invertible Neural Network，简称INN）构建，动力学学习器由多层感知机（Multilayer Perceptron，简称MLP）构建。此模型框架可以看成是一个神经信息压缩器，将包含噪音的微观态压缩成宏观态，丢弃无用的信息，从而使得宏观动力学的因果性更强。NIS方法的模型框架如右图所示。

+

模型由编码器（encoder）、动力学学习器（<math>f </math>）以及解码器（decoder）三个部分构成，编码器和解码器主要由[[可逆神经网络]]（Invertible Neural Network，简称INN）构建，动力学学习器由多层感知机（Multilayer Perceptron，简称MLP）构建。此模型框架可以看成是一个[[NIS|神经信息压缩器]]，将包含噪音的微观态压缩成宏观态，丢弃无用的信息，从而使得宏观动力学的因果性更强。[[NIS]]方法的模型框架如右图所示。

[[文件:NISImage.png|边框|右|无框]]

图中，模型输入是微观状态<math>X_t\ (X_t^1,X_t^2,…,X_t^p ) </math>，<math>p </math>表示输入数据的维数。<math>ϕ </math>是粗粒化函数（编码器），将输入的<math>p </math>维数据映射到<math>q </math>维数据上，得到宏观变量<math>Y_t </math>，此步丢失<math>p-q </math>维信息。<math>f </math>是动力学学习器，在宏观层面上学习有效的马尔可夫动力学。<math>\hat{y}_{t+1} </math>是预测的t+1时刻的宏观状态。由于此时数据是<math>q </math>维的，为了使用反粗粒化函数<math>ϕ^† </math>（解码器），需要用<math>p-q </math>维高斯随机向量填充数据。宏观变量经过反粗粒化函数之后可以得到预测的微观变量<math>\hat{x}_{t+1} </math>。而<math>x_t+1 </math>和<math>\hat{x}_{t+1} </math>之间的差值即为损失。

第94行：第57行：

目前，机器学习需要在训练数据和测试数据是独立同分布（Independent and Identically Distributed，简称IID）的基础之上，这是一种理想化的假设。现实应用中，几乎不能满足IID假设，所以模型的性能都会有不同程度的下降。

−

以一个狗识别的图像判别任务为例。训练图像的背景一般是在草地上，可以看见整个狗。经过大量数据训练后，若给模型一个在草地上的狗的图像，那模型的正确率可以在95%以上；若给一张在水泥地上，且遮挡了狗部分身体的图像，那么模型的正确率可能是一半；若给模型一张在游泳池中，只露出狗头的图像，那么模型的正确率可能只有10%。

+

以一个狗识别的图像判别任务为例。训练图像的背景一般是在草地上，可以看见整个狗。经过大量数据训练后，若给模型一个在草地上的狗的图像，那模型的正确率可以在95%以上；若给一张在水泥地上，且遮挡了狗部分身体的图像，那么模型的正确率可能是一半。

−

~~机器学习经过训练学习得到的很大程度上是变量之间的相关关系，相关关系的来源可以分成三种：~~

−

~~1）因果关系（Causation）：当且仅当T发生改变时，Y发生改变。比如在夏天的时候，冰淇淋的销量会上升。~~

+

机器学习经过训练学习得到的很大程度上是变量之间的相关关系，这种相关关系可能来自样本选择偏差（Sample Selection Bias）。当考虑了其他变量后，原本看似有相关性的变量可能实际上并无关联，是一种虚假的相关关系。在上面的狗识别的例子中，机器学习学到的可能是根据草地和狗鼻子这两个因素来判断是不是狗，但是有因果关系的是狗鼻子，草地只是由于样本的分布不均匀，这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说，草地和标签之间是强相关、弱因果，狗鼻子和标签之间是强相关、强因果。

−

2）混杂因素（Confounding）：X导致T和Y都上升，但是模型没有学到背后的X，只学出了T的上升导致Y上升，是一种虚假的相关关系。比如当人的年龄增加，很多人会吸烟和发福，而模型可能学出了是因为人吸烟，所以人发福。当给模型输入一组年龄一样，但是吸烟情况不一样的数据时，模型的有效性变会下降。

+

而在动力学系统中，模型可能对初始条件非常敏感，即使是微小的初始条件变化也可能导致系统行为的显著差异。如果训练数据的初始条件分布与测试数据不同，模型可能无法准确预测测试数据下的系统行为。甚至如果一些动力学参数不一样，也会造成模型的结果不准确。

−

3）样本选择偏差（Sample Selection Bias）：当考虑了其他变量后，原本看似有相关性的变量可能实际上并无关联，是一种虚假的相关关系。在上面的狗识别的例子中，机器学习学到的可能是根据草地和狗鼻子这两个因素来判断是不是狗，但是有因果关系的是狗鼻子，草地只是由于样本的分布不均匀，这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说，草地和标签之间是强相关、弱因果，狗鼻子和标签之间是强相关、强因果。

在实际应用中，我们希望学习到的是因果关系（Causation），结果更加稳定且具有可解释性。

第108行：第67行：

分布外泛化（Out-of-Distribution Generalization，简称OOD Generalization）是指模型在面对与训练数据分布不同的新数据时，仍然能够保持较好的性能，涉及到模型对未知或未见情况的适应能力，削弱样本选择偏差的情况。此问题通常表现为模型在训练集上运行良好，但在面对分布外的各种数据时，模型性能有所下降。造成这个问题的原因可能是过度拟合训练数据，导致泛化能力差；也可能是由于训练数据无法覆盖所有可能的输入情况，特别是对于罕见或极端的情况。

−

为了增强分布外泛化能力，可以生成多样化的数据，模拟不同的测试环境，还可以通过域适应技术，使模型可以适应不同的测试数据分布，还有不变性学习、元学习等方法。

+

为了增强分布外泛化能力，学者可以生成多样化的数据，模拟不同的测试环境，还可以通过域适应技术，使模型可以适应不同的测试数据分布，还有不变性学习、元学习等方法。

= 神经信息压缩机（NIS）介绍 =

第114行：第73行：

== 概述 ==

−

假设复杂动态系统的行为数据是时间序列 <math>\{x_t\}</math>，时间步长<math>t = 1,2，…， T</math>，维数是p，它们构成了可观测的微观状态，我们假设不存在未观测变量。一个粗粒化策略（编码器） <math>ϕ: R_p → R_q</math> ，其中 <math>q ≤ p</math>， <math>q </math>是宏观状态的维度，作为超参数给定；一个相应的反粗粒化策略（解码器）<math>ϕ^\dagger: R_q → R_p</math>，以及一个宏观层面的马尔可夫动力学（动力学学习器）<math>f_q</math> ，使得<math>f_q</math>的有效信息（<math>\mathcal{J}</math>）值在通过<math>ϕ</math>、<math>f_q</math>和<math>ϕ^\dagger</math>预测出的<math>x_{t+1}</math>与<math>x_{t+1}</math>的实际数据的差距最小的约束下最大化。<math>\epsilon</math>~~是给定的常数。NIS使用神经网络对方程中所有需要优化的函数进行参数化。它们的关系用方程表示为：~~

+

假设复杂动态系统的行为数据是时间序列 <math>\{x_t\}</math>，时间步长<math>t = 1,2，…， T</math>，维数是p，它们构成了可观测的微观状态，我们假设不存在未观测变量。一个粗粒化策略（编码器） <math>ϕ: R_p → R_q</math> ，其中 <math>q ≤ p</math>， <math>q </math>是宏观状态的维度，作为超参数给定；一个相应的反粗粒化策略（解码器）<math>ϕ^\dagger: R_q → R_p</math>，以及一个宏观层面的马尔可夫动力学（动力学学习器）<math>f_q</math> ，使得<math>f_q</math>的有效信息（<math>\mathcal{J}</math>）值在通过<math>ϕ</math>、<math>f_q</math>和<math>ϕ^\dagger</math>预测出的<math>x_{t+1}</math>与<math>x_{t+1}</math>的实际数据的差距最小的约束下最大化。<math>\epsilon</math>是给定的常数。它们的关系用方程表示为：

<math>\begin{aligned}&\max_{\phi,f_{q},\phi^{+}}\mathcal{J}(f_{q}),\\&s.t.\begin{cases}\parallel\hat{x}_{t+1}-x_{t+1}\parallel<\epsilon,\\\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right).\end{cases}\end{aligned}</math>

第124行：第83行：

②投影运算，<math>\chi_q </math>，此步将输入的<math>p </math>维数据映射到<math>q </math>维数据上，得到宏观变量<math>Y_t </math>，此步丢失<math>p-q </math>维信息。

−

+

解码器也分为两个步骤：

第130行：第89行：

①用<math>p-q </math>维高斯随机向量填充数据得到<math>p </math>维数据。式中，ξ为p−q维的标准高斯随机向量，⊕表示向量拼接操作。

−

②使用反粗粒化函数得到预测的微观变量<math>\hat{x}_{t+1} </math>。

+

②使用反粗粒化函数得到预测的微观变量<math>\hat{x}_{t+1} </math>。由于使用可逆神经网络，此步和编码器中的双射映射共享参数。

<math>

第140行：第99行：

然而由于该目标函数是一个泛函优化问题，往往很难优化。为了解决这个问题，将优化过程分为两个阶段。

−

第一个阶段：在给定宏观尺度<math>q </math>的情况下，最小化预测误差<math>\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\| </math>~~。可以通过训练神经网络解决。~~

+

第一个阶段：在给定宏观尺度<math>q </math>的情况下，最小化预测误差<math>\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\| </math>。可以采用随机梯度下降技术，通过训练神经网络解决。在此步，我们可以得到依赖于q的有效粗粒化策略和宏观动力学。

第二个阶段：由于参数 <math>q</math> 是一维的，且 <math>0 < q < p</math>，简单迭代找到有效信息最大的宏观尺度。此步将复杂的泛函问题转化成一维空间中线性搜索问题。

−

虽然可以通过两个阶段得到结果，但是NIS没有真正地最大化有效信息。由于此方法的数学形式是一个泛函问题，无法直接进行优化，在NIS+中，将通过计算变分下界解决泛函问题。

+

具体请阅读词条[[NIS]]。

== NIS的缺陷 ==

−

虽然可以通过两个阶段得到结果，但是NIS没有真正地最大化有效信息。由于此方法的数学形式是一个泛函问题，无法直接进行优化，在NIS+中，将通过计算变分下界解决泛函问题。

+

此模型在弹簧振子、马尔科夫链、布尔网络上都进行了实验，实验效果理想，表明此模型的正确性、有效性。

+

但是此模型还有一些缺点和尚未改进的地方：

+

1）INN网络在大数据集上难以训练，此模型目前只能在小数据集上使用。

+

2）虽然我们可以说明什么是粗粒度函数，并将其清晰地分解为信息转换和信息丢弃两个部分，但变量的分组方法隐式编码在可逆神经网络中。框架仍然缺乏可解释性，

+

3）模型所能预测的条件分布实际上仅限于高斯分布或拉普拉斯分布。

+

4）此方法的数学形式是一个泛函问题，无法直接进行优化，虽然可以通过两个阶段得到结果，但是[[NIS]]没有真正地最大化有效信息。在NIS+中，学者将通过计算变分下界解决泛函问题。

+

具体请阅读词条[[NIS]]。

= 强化版神经信息压缩机（NIS+）=

第291行：第261行：

Kaplanis等人基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>：使用<math>f_{\theta}</math>神经网络来学习将微观输入<math>X_t</math>粗粒化成宏观输出<math>V_t</math>，同时使用神经网络<math>g_{\phi}</math>和<math>h_{\xi}</math>来分别学习<math>I(V_t;V_{t+1})</math>和<math>\sum_i(I(V_{t+1};X_{t}^i))</math>两者互信息的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。 ''（暂定）''

+

机器学习经过训练学习得到的很大程度上是变量之间的相关关系，相关关系的来源可以分成三种：

+

1）因果关系（Causation）：当且仅当T发生改变时，Y发生改变。比如在夏天的时候，冰淇淋的销量会上升。

+

2）混杂因素（Confounding）：X导致T和Y都上升，但是模型没有学到背后的X，只学出了T的上升导致Y上升，是一种虚假的相关关系。比如当人的年龄增加，很多人会吸烟和发福，而模型可能学出了是因为人吸烟，所以人发福。当给模型输入一组年龄一样，但是吸烟情况不一样的数据时，模型的有效性变会下降。

+

3）样本选择偏差（Sample Selection Bias）：当考虑了其他变量后，原本看似有相关性的变量可能实际上并无关联，是一种虚假的相关关系。在上面的狗识别的例子中，机器学习学到的可能是根据草地和狗鼻子这两个因素来判断是不是狗，但是有因果关系的是狗鼻子，草地只是由于样本的分布不均匀，这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说，草地和标签之间是强相关、弱因果，狗鼻子和标签之间是强相关、强因果。

= 参考文献 =

念

259

个编辑

更改

NIS+ (查看源代码)

2024年7月31日 (三) 21:31的版本

导航菜单

搜索