第42行: |
第42行: |
| | | |
| | | |
− | 式中,<math>X_t^j </math>表示第 j 维t时刻的微观变量。 | + | 式中,<math>X_t^j </math>表示第 j 维t时刻的微观变量,<math>V_t ; V_{t+1} </math>代表两个连续时间的宏观状态变量。 |
| | | |
| 由于<math>Red(V_t, V_{t+1};X_t) </math>为非负数,所以可以提出一个充分非必要条件<math>\Psi_{t, t+1}(V) </math>,用于测量两个时间步宏观变量的互信息减去每个t时刻微观变量和t+1时刻宏观变量的互信息。 | | 由于<math>Red(V_t, V_{t+1};X_t) </math>为非负数,所以可以提出一个充分非必要条件<math>\Psi_{t, t+1}(V) </math>,用于测量两个时间步宏观变量的互信息减去每个t时刻微观变量和t+1时刻宏观变量的互信息。 |
第54行: |
第54行: |
| | | |
| | | |
− | 该方法避开讨论粗粒化策略,但是也存在很多缺点:1)该方法只是基于互信息计算没有考虑因果,且得到的仅仅是发生因果涌现的充分条件;2)该方法需要预设宏观变量,且对宏观变量的不同选择会对结果造成显著影响;3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。
| + | 该方法避开讨论粗粒化策略,但是也存在很多缺点:1)该方法只是基于互信息计算没有考虑因果,且得到的仅仅是发生因果涌现的近似的充分条件;2)该方法需要预设宏观变量,且对宏观变量的不同选择会对结果造成显著影响;3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。 |
| | | |
| Kaplanis等人<ref name=":2">Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>:使用<math>f_{\theta}</math>神经网络来学习将微观输入<math>X_t</math>粗粒化成宏观输出<math>V_t</math>,同时使用神经网络<math>g_{\phi}</math>和<math>h_{\xi}</math>来分别学习<math>I(V_t;V_{t+1})</math>和<math>\sum_i(I(V_{t+1};X_{t}^i))</math>两者互信息的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。 ''<u>(暂定)</u>'' | | Kaplanis等人<ref name=":2">Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>:使用<math>f_{\theta}</math>神经网络来学习将微观输入<math>X_t</math>粗粒化成宏观输出<math>V_t</math>,同时使用神经网络<math>g_{\phi}</math>和<math>h_{\xi}</math>来分别学习<math>I(V_t;V_{t+1})</math>和<math>\sum_i(I(V_{t+1};X_{t}^i))</math>两者互信息的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。 ''<u>(暂定)</u>'' |
| | | |
| === NIS系列 === | | === NIS系列 === |
− | [[张江]]等<ref>Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref>尝试基于神经网络和数据驱动提出了一种方法,该方法能从时间序列数据中识别系统中的因果涌现,并且自动提取有效的粗粒度策略和宏观动力学,即神经信息压缩器(Neural Information Squeezer,简称NIS)。 | + | [[张江]]等<ref>Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref>学者尝试基于神经网络和数据驱动提出了一种方法,该方法能从时间序列数据中识别系统中的因果涌现,并且自动提取有效的粗粒度策略和宏观动力学,即神经信息压缩器(Neural Information Squeezer,简称NIS)。 |
| | | |
− | 模型由编码器(encoder)、动力学学习器(<math>f </math>)以及解码器(decoder)三个部分构成,编码器和解码器主要由[[可逆神经网络]](Invertible Neural Network,简称INN)构建,动力学学习器由神经网络(Neural Network,简称NN)构建。此模型框架可以看成是一个神经信息压缩器,将包含噪音的微观态压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强。NIS方法的模型框架如图所示。''<u>(加图)</u>'' | + | 模型由编码器(encoder)、动力学学习器(<math>f </math>)以及解码器(decoder)三个部分构成,编码器和解码器主要由[[可逆神经网络]](Invertible Neural Network,简称INN)构建,动力学学习器由神经网络(Neural Network,简称NN)构建。此模型框架可以看成是一个神经信息压缩器,将包含噪音的微观态压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强。NIS方法的模型框架如右图所示。 |
| + | [[文件:NISImage.png|边框|右|无框]] |
| + | 图中,模型输入是微观状态<math>X_t\ (X_t^1,X_t^2,…,X_t^p ) </math>,<math>p </math>表示输入数据的维数。<math>ϕ </math>是粗粒化函数(编码器),将输入的<math>p </math>维数据映射到<math>q </math>维数据上,得到宏观变量<math>Y_t </math>,此步丢失<math>p-q </math>维信息。<math>f </math>是动力学学习器,在宏观层面上学习有效的马尔可夫动力学。<math>\hat{y}_{t+1} </math>是预测的t+1时刻的宏观状态。由于此时数据是<math>q </math>维的,为了使用反粗粒化函数<math>ϕ^† </math>(解码器),需要用<math>p-q </math>维高斯随机向量填充数据。宏观变量经过反粗粒化函数之后可以得到预测的微观变量<math>\hat{x}_{t+1} </math>。而<math>x_t+1 </math>和<math>\hat{x}_{t+1} </math>之间的差值即为损失。 |
| | | |
| + | 在编码器一步,虽然有丢失信息,但是通过数学证明可以得知,当神经网络训练收敛时,数据中相邻宏观状态之间的互信息倾向于接近两个相邻时间步的微观态互信息,丢失的信息与预测几乎无关,所有有效信息都汇聚到动力学学习器的信息瓶颈之中。且在此框架下,信息瓶颈的应用更加明显、更具可解释性。 |
| | | |
− | 具体来说,模型输入是微观状态<math>X_t\ (X_t^1,X_t^2,…,X_t^p ) </math>,<math>p </math>表示输入数据的维数,输出预测下一个时刻的微观状态<math>\hat{X}_{t+1}\left(\hat{X}_{t+1}^1, \hat{X}_{t+1}^2, \ldots, \hat{X}_{t+1}^p\right) </math>,该方法的目标函数是希望保证微观状态预测误差很小的条件下最大化有效信息,在保证预测误差约束足够小的情况下,NIS方法可以避免trivial解的出现。
| + | 该方法的目标函数是希望在保证微观状态预测误差很小的条件下最大化有效信息,保证预测误差约束足够小是为了避免平凡解(粗粒化丢失太多信息,以致宏观动力学无效)的出现。最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\phi}_q} </math>。 |
− | | |
− | 最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\phi}_q} </math>。
| |
| | | |
| 然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,将优化过程分为两个阶段。 | | 然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,将优化过程分为两个阶段。 |
| | | |
− | 第一个阶段:在给定宏观尺度<math>q </math>的情况下,使<math>\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>最小。 | + | 第一个阶段:在给定宏观尺度<math>q </math>的情况下,最小化预测误差<math>\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\| </math>。可以通过训练神经网络解决。 |
− | | |
− | 第二个阶段:由于参数 <math>q</math> 是一维的,且 <math>0 < q < p</math>,简单迭代找到有效信息最大的宏观尺度。
| |
− | | |
| | | |
| + | 第二个阶段:由于参数 <math>q</math> 是一维的,且 <math>0 < q < p</math>,简单迭代找到有效信息最大的宏观尺度。此步将复杂的泛函问题转化成一维空间中线性搜索问题。 |
| | | |
− | 总的来说,NIS是一种新的神经网络框架,可被用于发现时间序列数据中的粗粒化策略、宏观动力学和涌现的因果关系。但是,此方法并未真正地最大化有效信息,可预测的条件分布也仅限于高斯或者拉普拉斯分布。
| + | 虽然可以通过两个阶段得到结果,但是NIS没有真正地最大化有效信息。由于此方法的数学形式是一个泛函问题,无法直接进行优化,在NIS+中,将通过计算变分下界解决泛函问题。 |
| | | |
| 具体内容请参考[[NIS]]。 | | 具体内容请参考[[NIS]]。 |
第82行: |
第81行: |
| == 机器学习领域的分布外泛化问题 == | | == 机器学习领域的分布外泛化问题 == |
| | | |
− | 分布外泛化(Out-of-Distribution Generalization,简称OOD Generalization)是指模型在面对与训练数据分布不同的新数据时,仍然能够保持较好的性能,涉及到模型对未知或未见情况的适应能力。 | + | 分布外泛化(Out-of-Distribution Generalization,简称OOD Generalization)是指模型在面对与训练数据分布不同的新数据时,仍然能够保持较好的性能,涉及到模型对未知或未见情况的适应能力。此问题通常表现为模型在训练集上运行良好,但在面对分布外的各种数据时,模型性能有所下降。造成这个问题的原因可能是过度拟合训练数据,导致泛化能力差;也可能是由于训练数据无法覆盖所有可能的输入情况,特别是对于罕见或极端的情况。 |
| + | |
| + | 目前,机器学习需要在训练数据和测试数据是独立同分布(Independent and Identically Distributed,简称IID)的基础之上,这是一种理想化的假设。现实应用中,几乎不能满足IID假设,所以模型的性能都会有不同程度的下降。 |
| | | |
− | 此问题通常表现为模型在训练集上运行良好,但在面对分布外的各种数据时,模型性能有所下降。造成这个问题的原因可能是过度拟合训练数据,导致泛化能力差;也可能是由于训练数据无法覆盖所有可能的输入情况,特别是对于罕见或极端的情况。
| + | 以一个狗识别的图像判别任务为例。训练图像的背景一般是在草地上、少数是在地面上,且图像中,基本可以看见狗的整个身子。经过大量数据的训练之后,如果给模型一个在草地上奔跑的狗的图像,那么模型大概95%以上会判定这是狗;如果给一张在水泥地上,且遮挡了狗部分身体的图像,那么模型可能有一半的概率可以识别出图像中的动物是狗;如果给模型一张狗在游泳池中,只露出头的图像,那么模型大概率不能识别出来图像中的是狗。 |
| | | |
− | 为了提高模型的OOD泛化能力,可以增加训练数据的多样性、使用Dropout、元学习等方法。
| + | 假设我们训练了一个图像分类模型,该模型在训练数据集上表现非常好,能够准确地识别猫和狗的图片。训练数据集中的图片都是在室内拍摄的,背景相对简单。然而,当我们将这个模型应用到新的数据集上时,这些图片是在户外拍摄的,背景复杂多变,甚至可能包含其他动物或物体。此时,如果模型仍然能够准确地识别猫和狗,这就说明模型具有良好的分布外泛化能力。 |
| | | |
| = 神经信息压缩机(NIS)介绍 = | | = 神经信息压缩机(NIS)介绍 = |