第43行: |
第43行: |
| | | |
| === NIS系列 === | | === NIS系列 === |
− | [[张江]]等<ref>Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref>学者尝试基于神经网络和数据驱动提出了一种方法,能从时间序列数据中识别系统中的因果涌现,并且自动提取有效的粗粒化策略和宏观动力学,即[[NIS|神经信息压缩器]](Neural Information Squeezer,简称[[NIS]])。 | + | [[张江]]等<ref name=":1">Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref>学者尝试基于神经网络和数据驱动提出了一种方法,能从时间序列数据中识别系统中的因果涌现,并且自动提取有效的粗粒化策略和宏观动力学,即[[NIS|神经信息压缩器]](Neural Information Squeezer,简称[[NIS]])。 |
| | | |
| 模型由编码器(encoder)、动力学学习器(<math>f </math>)以及解码器(decoder)三个部分构成,编码器和解码器主要由[[可逆神经网络]](Invertible Neural Network,简称INN)<ref>Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.</ref>构建,动力学学习器由多层感知机(Multilayer Perceptron,简称MLP)构建。此模型框架可以看成是一个[[NIS|神经信息压缩器]],将包含噪音的微观态压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强。[[NIS]]方法的模型框架如右图所示。 | | 模型由编码器(encoder)、动力学学习器(<math>f </math>)以及解码器(decoder)三个部分构成,编码器和解码器主要由[[可逆神经网络]](Invertible Neural Network,简称INN)<ref>Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.</ref>构建,动力学学习器由多层感知机(Multilayer Perceptron,简称MLP)构建。此模型框架可以看成是一个[[NIS|神经信息压缩器]],将包含噪音的微观态压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强。[[NIS]]方法的模型框架如右图所示。 |
第55行: |
第55行: |
| == 机器学习领域的分布外泛化问题 == | | == 机器学习领域的分布外泛化问题 == |
| | | |
− | 目前,机器学习需要在训练数据和测试数据是独立同分布(Independent and Identically Distributed,简称IID)的基础之上,这是一种理想化的假设。现实应用中,几乎不能满足IID假设,所以模型的性能都会有不同程度的下降。 | + | 目前,机器学习需要在训练数据和测试数据是独立同分布(Independent and Identically Distributed,简称IID)的基础之上,这是一种理想化的假设。现实应用中,几乎不能满足IID假设,所以模型的性能都会有不同程度的下降<ref>Cui, Peng, Athey, et al. Stable learning establishes some common ground between causal inference and machine learning''. nature machine intelligence'', 2022, 4(2): 110-115</ref>。 |
| | | |
| 以一个狗识别的图像判别任务为例。训练图像的背景一般是在草地上,可以看见整个狗。经过大量数据训练后,若给模型一个在草地上的狗的图像,那模型的正确率可以在95%以上;若给一张在水泥地上,且遮挡了狗部分身体的图像,那么模型的正确率可能是一半。 | | 以一个狗识别的图像判别任务为例。训练图像的背景一般是在草地上,可以看见整个狗。经过大量数据训练后,若给模型一个在草地上的狗的图像,那模型的正确率可以在95%以上;若给一张在水泥地上,且遮挡了狗部分身体的图像,那么模型的正确率可能是一半。 |
第61行: |
第61行: |
| 机器学习经过训练学习得到的很大程度上是变量之间的相关关系,这种相关关系可能来自样本选择偏差(Sample Selection Bias)。当考虑了其他变量后,原本看似有相关性的变量可能实际上并无关联,是一种虚假的相关关系。在上面的狗识别的例子中,机器学习学到的可能是根据草地和狗鼻子这两个因素来判断是不是狗,但是有因果关系的是狗鼻子,草地只是由于样本的分布不均匀,这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说,草地和标签之间是强相关、弱因果,狗鼻子和标签之间是强相关、强因果。 | | 机器学习经过训练学习得到的很大程度上是变量之间的相关关系,这种相关关系可能来自样本选择偏差(Sample Selection Bias)。当考虑了其他变量后,原本看似有相关性的变量可能实际上并无关联,是一种虚假的相关关系。在上面的狗识别的例子中,机器学习学到的可能是根据草地和狗鼻子这两个因素来判断是不是狗,但是有因果关系的是狗鼻子,草地只是由于样本的分布不均匀,这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说,草地和标签之间是强相关、弱因果,狗鼻子和标签之间是强相关、强因果。 |
| | | |
− | 而在动力学系统中,模型可能对初始条件非常敏感,即使是微小的初始条件变化也可能导致系统行为的显著差异。如果训练数据的初始条件分布与测试数据不同,模型可能无法准确预测测试数据下的系统行为。我们希望的是,模型可以透过初始条件的差异,抓住系统动力学的本质。甚至有时候,我们期待模型可以泛化到某些动力学参数不同的系统测试数据上,依旧有不错的表现。在实际应用中,我们希望学习到的是因果关系(Causation),结果更加稳定且具有可解释性。
| + | 而在动力学系统中,模型可能对初始条件非常敏感,即使是微小的初始条件变化也可能导致系统行为的显著差异。如果训练数据的初始条件分布与测试数据不同,模型可能无法准确预测测试数据下的系统行为。我们希望的是,模型可以透过初始条件的差异,抓住系统动力学的本质。甚至有时候,我们期待模型可以泛化到某些动力学参数不同的系统测试数据上,依旧有不错的表现。在实际应用中,我们希望学习到的是因果关系(Causation)<ref>Arjovsky, M.; Bottou, L.; Gulrajani, I.; Lopez-Paz, D. Invariant risk minimization. arXiv 2019, arXiv:1907.02893</ref>,结果更加稳定且具有可解释性。 |
| | | |
| 分布外泛化(Out-of-Distribution Generalization,简称OOD Generalization)是指模型在面对与训练数据分布不同的新数据时,仍然能够保持较好的性能,涉及到模型对未知或未见情况的适应能力,削弱样本选择偏差的情况。此问题通常表现为模型在训练集上运行良好,但在面对分布外的各种数据时,模型性能有所下降。造成这个问题的原因可能是过度拟合训练数据,导致泛化能力差;也可能是由于训练数据无法覆盖所有可能的输入情况,特别是对于罕见或极端的情况。 | | 分布外泛化(Out-of-Distribution Generalization,简称OOD Generalization)是指模型在面对与训练数据分布不同的新数据时,仍然能够保持较好的性能,涉及到模型对未知或未见情况的适应能力,削弱样本选择偏差的情况。此问题通常表现为模型在训练集上运行良好,但在面对分布外的各种数据时,模型性能有所下降。造成这个问题的原因可能是过度拟合训练数据,导致泛化能力差;也可能是由于训练数据无法覆盖所有可能的输入情况,特别是对于罕见或极端的情况。 |
第122行: |
第122行: |
| <math>\Delta\mathcal{J}=\left(\frac{1}{q}\mathbf{E}_{X_M}\ln|\det \partial_{X_M}\mu_M|-\frac{1}{p}\mathbf{E}_{X_m}\ln|\det \partial_{X_m}\mu_m|\right)-\left(\frac{1}{q}\sum_{i=1}^{q}\ln\sigma_{i,M}^2-\frac{1}{p}\sum_{i=1}^{p}\ln\sigma_{i,m}^2\right)</math> | | <math>\Delta\mathcal{J}=\left(\frac{1}{q}\mathbf{E}_{X_M}\ln|\det \partial_{X_M}\mu_M|-\frac{1}{p}\mathbf{E}_{X_m}\ln|\det \partial_{X_m}\mu_m|\right)-\left(\frac{1}{q}\sum_{i=1}^{q}\ln\sigma_{i,M}^2-\frac{1}{p}\sum_{i=1}^{p}\ln\sigma_{i,m}^2\right)</math> |
| | | |
− | 式中,其中<math>\sigma_{i,M}</math>和<math>\sigma_{i,m}</math>分别是<math>µ_M</math>和<math>µ_m</math>在第i维上的标准差。 | + | 式中,其中<math>\sigma_{i,M}</math>和<math>\sigma_{i,m}</math>分别是<math>\mu_M</math>和<math>\mu_m</math>在第i维上的标准差。 |
| | | |
| 此时,完全消除了输入或输出维度以及参数L的影响,使其成为一个更可靠的指标。从数据中识别因果涌现的结果只受到雅可比矩阵的方差的相对值和行列式的对数值的影响。 | | 此时,完全消除了输入或输出维度以及参数L的影响,使其成为一个更可靠的指标。从数据中识别因果涌现的结果只受到雅可比矩阵的方差的相对值和行列式的对数值的影响。 |
第144行: |
第144行: |
| | | |
| == 概述 == | | == 概述 == |
− | [[文件:NIS+ new.png|右|无框|660x660像素]] | + | [[文件:NIS+odd.png|替代=|右|无框|660x660像素|1]] |
| 为了最大化方程1中定义的EI,我们将NIS的框架扩展为NIS+。在NIS+中,我们首先使用互信息和变分不等式的公式将互信息的最大化问题转化为机器学习问题,其次,我们引入神经网络<math>g</math>来学习逆宏观动力学,即使用<math>y_{t+1}=\phi(x_{t+1})</math>来预测<math>y_{t}</math>,从而保证互信息最大化。最后,利用概率重加权技术来解决均匀分布干预的挑战,从而优化EI。所有这些技术组成了增强版神经信息压缩机(NIS+)。 | | 为了最大化方程1中定义的EI,我们将NIS的框架扩展为NIS+。在NIS+中,我们首先使用互信息和变分不等式的公式将互信息的最大化问题转化为机器学习问题,其次,我们引入神经网络<math>g</math>来学习逆宏观动力学,即使用<math>y_{t+1}=\phi(x_{t+1})</math>来预测<math>y_{t}</math>,从而保证互信息最大化。最后,利用概率重加权技术来解决均匀分布干预的挑战,从而优化EI。所有这些技术组成了增强版神经信息压缩机(NIS+)。 |
| | | |
| == 数学推导 == | | == 数学推导 == |
| + | 在此章节,我们将使用大写字母来表示相应的随机变量。 |
| | | |
− | === 问题的形式化表达 === | + | 例如,<math>X_{t} </math>表示时间t的微观状态<math>x_{t} </math>的随机变量,<math> |
− | 在[[NIS]]中的不等式约束下的最大化问题可转化为无约束的损失函数最小化问题,即:
| + | Y_t+1 |
| + | </math>表示时间t+1的宏观状态<math> |
| + | y_t+1 |
| + | </math>对应的随机变量。对于任意随机变量X, <math>\tilde{X} </math>表示干预后的同一随机变量X。<math>\hat{X} </math>表示神经网络对X的预测。 |
| + | |
| + | === 宏观EI的变分下界 === |
| + | |
| + | 首先,先给出三个辅助定理和一个假设。 |
| + | |
| + | 辅助定理1——双射映射不影响互信息<ref name=":1" />: |
| + | |
| + | 对于任意给定的连续随机变量X和Z,如果存在一个双射(一对一)映射f与另一个随机变量Y,使得对于任意<math>x\in Dom (X)</math>存在一个<math>y=f (x)\in Dom (Y)</math>,反之亦然,其中<math>Dom (X)</math>表示变量X的域,则X与Z之间的互信息等于Y与Z之间的互信息,即: |
| + | |
| + | <math>I (X;Z)=I (Y;Z)</math> |
| + | |
| + | 辅助定理2——连续自变量不影响互信息<ref name=":1" />: |
| + | |
| + | 若<math>X\in Dom (X)</math>与<math>Y\in Dom (Y)</math>构成一条马尔可夫链<math>X\rightarrow Y</math>,且<math>Z\in Dom (Z)</math>是一个与X、Y均无关的随机变量,则: |
| + | |
| + | <math>I (X;Y)=I (X;Y\bigoplus Z)</math> |
| + | |
| + | 辅助定理3——条件熵的变分上界: |
| + | |
| + | 给定一个条件熵<math>H(\boldsymbol{y}|\boldsymbol{x})</math>,其中<math>\boldsymbol{x}\in \mathcal{R}^s</math>,<math>\boldsymbol{y}\in \mathcal{R}^q</math>,则该条件熵存在一个变分上界: |
| + | |
| + | <math>H(Y|X)\le -\iint p(\boldsymbol{y}, \boldsymbol{x})\ln g(\boldsymbol{y}|\boldsymbol{x}) \mathrm{d}\boldsymbol{y} \mathrm{d}\boldsymbol{x}</math> |
| + | |
| + | 其中<math>H(Y|X) \in R^q × R^s</math>是任意分布。 |
| + | |
| + | 假设<ref>C. Blundell, J. Cornebise, K. Kavukcuoglu, and D. Wierstra, “Weight uncertainty in neural |
| + | |
| + | network,” in International conference on machine learning. PMLR, 2015, pp. 1613–1622.</ref>: |
| + | |
| + | 逆动力学<math>g_{\theta '}</math>与编码器<math>\phi</math>的组合可以看作是一个条件概率<math>P(\hat{Y}_{t}|X_{t+1})</math>,这个概率可以近似为高斯分布<math>N(g_{\theta'}(\phi(\boldsymbol{x}_{t+1})),\Sigma)</math>,其中<math>\Sigma=diag(\sigma_1, \sigma_2,\cdot\cdot\cdot,\sigma_q)</math>,<math>\sigma_i</math>为输出<math>\hat{Y}_{t+1}</math>的第 i 维的MSE损失。进一步,假设<math>\sigma_i</math>是有界的,则<math>\sigma_i\in[\sigma_m,\sigma_M]</math>,其中<math>\sigma_m</math>和<math>\sigma_M</math>分别是MSE的最小值和最大值。 |
| + | |
| + | 根据以上公式,对于给定的维度q,在[[NIS]]中的不等式约束下的最大化问题方程{{EquationNote|1}}即可转化为无约束的损失函数最小化问题,这也是所定义的有约束目标函数的下界,即: |
| | | |
| <math> | | <math> |
第205行: |
第241行: |
| ω | | ω |
| </math>由原始分布与修改后的分布之比决定。 | | </math>由原始分布与修改后的分布之比决定。 |
| + | === 编码器的通用逼近定理 === |
| + | |
| + | |
| | | |
− | === 宏观EI的变分下界 ===
| |
| | | |
| | | |
− | === 编码器的通用逼近定理 === | + | == 机器学习算法 == |
| | | |
| + | === 样本重加权 === |
| + | 为了使用逆概率加权技术,我们需要估计样本的概率分布。KDE(Kernel Density Estimation)是一种常用的估计方法,它可以有效地消除离群值对整体概率分布估计的影响。 |
| | | |
| + | 对于一个样本<math> |
| + | (x_1, x_2, ..., x_n) |
| + | </math>,我们有如下的核密度估计: |
| | | |
| + | <math> |
| + | \hat{f}_h(x)=\frac{1}{nh}\sum_{i=1}^n K(\frac{x-x_i}{h}) |
| + | </math> |
| | | |
| + | 式中,n表示样本数,超参数h表示带宽(根据数据的粗略范围确定),文章中,作者一般设为0.05。K是核函数,具体来说是标准正态密度函数。 |
| | | |
− | == 机器学习算法 ==
| + | 得到估计函数后,对每个样本点单独求值,得到每个样本点对应的概率值。将目标分布(均匀分布)的概率除以我们估计的概率值,得到每个样本点对应的逆概率权值。为了覆盖所有的样本点,需要用参数L来限制均匀分布的范围,以保证边长为2L的正方形可以覆盖所有维度的所有样本点。 |
| | | |
− | === 样本重加权 ===
| + | 此时获得的权重与样本量有关,因此需要对它们进行归一化。然而,这将导致与样本对应的权重值非常小。因此,有必要将它们乘以样本数量以将权重值放大回其正常范围。然后,将该权值乘以每个样本的训练损失,增强稀疏区域的训练,达到逆概率加权的目的。由于每次迭代时编码器参数都会发生变化,导致<math> |
| + | y_t |
| + | </math>的分布发生变化,因此作者将每1000次迭代使用KDE重新估计整个样本的概率分布。 |
| | | |
| === 反向动力学 === | | === 反向动力学 === |