更改

添加1,636字节 、 2024年9月4日 (星期三)
无编辑摘要
第16行: 第16行:  
现实中,当我们要应用涌现的量化框架时,会出现微观状态的数据难以获取、粗粒化策略不好确定的问题,所以,我们需要找到从可观测数据中直接识别因果涌现的方法。
 
现实中,当我们要应用涌现的量化框架时,会出现微观状态的数据难以获取、粗粒化策略不好确定的问题,所以,我们需要找到从可观测数据中直接识别因果涌现的方法。
   −
识别出复杂系统中的因果涌现,一方面可以节约预测成本,增强预测效果,尤其是泛化效果;一方面也可以诱导或者预防涌现的发生。在实际应用中,一些微观数据难以捕捉,我们往往只能收集到观测数据,并且,无法得到系统的真实动力学。因此,从可观测数据中识别系统中因果涌现的发生是一个关键的问题。近年来,基于神经网络的机器学习方法取得了突破性进展,借助此方法,以数据驱动的方式自主发现复杂系统的因果关系甚至动力学成为可能。此外,机器学习和神经网络还可以帮助我们找到更好的粗粒化策略、从数据中发现宏观层面的因果关系。
+
识别出复杂系统中的因果涌现,一方面可以节约预测成本,增强预测效果,尤其是泛化效果;一方面也可以诱导或者预防涌现的发生。在实际应用中,一些微观数据难以捕捉,我们往往只能收集到观测数据,并且,无法得到系统的真实动力学。因此,从可观测数据中识别系统中因果涌现的发生是一个关键的问题。近年来,基于神经网络的机器学习方法取得了突破性进展<ref>Vlachas P-R, Arampatzis G and Uhler C et al. Multiscale simulations of complex systems by learning their effective dynamics. Nat Mach Intell 2022; 4: 359–366.</ref><ref>Kemeth F-P, Bertalan T and Thiem T et al. Learning emergent partial differential equations in a learned emergent space. Nat Commun 2022; 13: 3318.</ref><ref>Floryan D and Graham M-D. Data-driven discovery of intrinsic dynamics. Nat Mach Intell 2022; 4: 1113–1120.</ref><ref>Cai L and Ji S. A multi-scale approach for graph link prediction. Proceedings of the AAAI Conference on Artificial Intelligence, New York, 20-27 February 2020.</ref><ref>Chen Z, Li S and Yang B et al. Multi-scale spatial temporal graph convolutional network for skeleton-based action recognition. Proceedings of the AAAI Conference on Artificial Intelligence, New York, 22 February - 1 March 2022.</ref>,借助此方法,以数据驱动的方式自主发现复杂系统的因果关系甚至动力学成为可能。此外,机器学习和神经网络还可以帮助我们找到更好的粗粒化策略、从数据中发现宏观层面的因果关系。
    
下面介绍两种因果涌现的识别方法:①基于信息分解的因果涌现识别近似方法、②[[NIS|神经信息压缩器]]方法系列(Neural Information Squeezer,简称NIS)。
 
下面介绍两种因果涌现的识别方法:①基于信息分解的因果涌现识别近似方法、②[[NIS|神经信息压缩器]]方法系列(Neural Information Squeezer,简称NIS)。
第62行: 第62行:  
机器学习经过训练学习得到的很大程度上是变量之间的相关关系,这种相关关系可能来自样本选择偏差(Sample Selection Bias)。当考虑了其他变量后,原本看似有相关性的变量可能实际上并无关联,是一种虚假的相关关系。在上面的狗识别的例子中,机器学习学到的可能是根据草地和狗鼻子这两个因素来判断是不是狗,但是有因果关系的是狗鼻子,草地只是由于样本的分布不均匀,这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说,草地和标签之间是强相关、弱因果的,狗鼻子和标签之间是强相关、强因果的。
 
机器学习经过训练学习得到的很大程度上是变量之间的相关关系,这种相关关系可能来自样本选择偏差(Sample Selection Bias)。当考虑了其他变量后,原本看似有相关性的变量可能实际上并无关联,是一种虚假的相关关系。在上面的狗识别的例子中,机器学习学到的可能是根据草地和狗鼻子这两个因素来判断是不是狗,但是有因果关系的是狗鼻子,草地只是由于样本的分布不均匀,这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说,草地和标签之间是强相关、弱因果的,狗鼻子和标签之间是强相关、强因果的。
   −
而在动力学系统中,模型可能对初始条件非常敏感,即使是微小的初始条件变化也可能导致系统行为的显著差异。如果训练数据的初始条件分布与测试数据不同,模型可能无法准确预测测试数据下的系统行为。我们希望的是,模型可以透过初始条件的差异,抓住系统动力学的本质。甚至有时候,我们期待模型可以泛化到某些动力学参数不同的系统测试数据上,依旧有不错的表现。在实际应用中,我们希望学习到的是因果关系(Causation)<ref>Arjovsky, M.; Bottou, L.; Gulrajani, I.; Lopez-Paz, D. Invariant risk minimization. arXiv 2019, arXiv:1907.02893</ref>,只有这样才能使得结果更加稳定且具有可解释性。
+
而在动力学系统中,模型可能对初始条件非常敏感,即使是微小的初始条件变化也可能导致系统行为的显著差异<ref>Wang F ,Wei Z ,Zhang W . Sliding homoclinic orbits and chaotic dynamics in a class of 3D piecewise-linear Filippov systems [J]. Nonlinear Dynamics, 2024, (prepublish): 1-21.</ref>。如果训练数据的初始条件分布与测试数据不同,模型可能无法准确预测测试数据下的系统行为。我们希望的是,模型可以透过初始条件的差异,抓住系统动力学的本质。甚至有时候,我们期待模型可以泛化到某些动力学参数不同的系统测试数据上,依旧有不错的表现。在实际应用中,我们希望学习到的是因果关系(Causation)<ref>Arjovsky, M.; Bottou, L.; Gulrajani, I.; Lopez-Paz, D. Invariant risk minimization. arXiv 2019, arXiv:1907.02893</ref>,只有这样才能使得结果更加稳定且具有可解释性。
    
分布外泛化(Out-of-Distribution Generalization,简称OOD Generalization)是指模型在面对与训练数据分布不同的新数据时,仍然能够保持较好的性能,涉及到模型对未知或未见情况的适应能力,以及是否能削弱样本选择偏差的情况。此问题通常表现为模型在训练集上运行良好,但在面对分布外的各种数据时,模型性能有所下降。造成这个问题的原因可能是过度拟合训练数据,导致模型泛化能力差;也可能是由于训练数据无法覆盖所有可能的输入情况,特别是对于罕见或极端的情况。
 
分布外泛化(Out-of-Distribution Generalization,简称OOD Generalization)是指模型在面对与训练数据分布不同的新数据时,仍然能够保持较好的性能,涉及到模型对未知或未见情况的适应能力,以及是否能削弱样本选择偏差的情况。此问题通常表现为模型在训练集上运行良好,但在面对分布外的各种数据时,模型性能有所下降。造成这个问题的原因可能是过度拟合训练数据,导致模型泛化能力差;也可能是由于训练数据无法覆盖所有可能的输入情况,特别是对于罕见或极端的情况。
   −
为了增强分布外泛化能力,学者可以生成多样化的数据,模拟不同的测试环境,还可以通过域适应技术(Domain Adaptation),使模型可以适应不同的测试数据分布,还有不变性学习(Invariant Learning)、元学习(Meta Learning)等方法。
+
为了增强分布外泛化能力,学者可以生成多样化的数据,模拟不同的测试环境,还可以通过域适应技术(Domain Adaptation)<ref>Stan S ,Rostami M . Source-free domain adaptation for semantic image segmentation using internal representations [J]. Frontiers in Big Data, 2024, 7 1359317-1359317.</ref>,使模型可以适应不同的测试数据分布,还有不变性学习(Invariant Learning)<ref>L G M ,S A D ,M C S . Variability in training unlocks generalization in visual perceptual learning through invariant representations. [J]. Current biology : CB, 2023, 33 (5): 817-826.e3.</ref>、元学习(Meta Learning)<ref>Zhang B ,Gao B ,Liang S , et al. A classification algorithm based on improved meta learning and transfer learning for few‐shot medical images [J]. IET Image Processing, 2023, 17 (12): 3589-3598.</ref>等方法。
    
= 神经信息压缩机(NIS)介绍 =
 
= 神经信息压缩机(NIS)介绍 =
   −
== 概述 ==
+
== 数学问题定义 ==
    
假设复杂动态系统的行为数据是时间序列 <math>\{x_t\}</math>,时间步长<math>t = 1,2,…, T</math>,维数是p,它们构成了可观测的微观状态,我们假设不存在未观测变量。一个粗粒化策略(编码器) <math>ϕ: R_p → R_q</math> ,其中 <math>q ≤ p</math>, <math>q </math>是宏观状态的维度,作为超参数给定;一个相应的反粗粒化策略(解码器)<math>ϕ^\dagger: R_q → R_p</math>,以及一个宏观层面的马尔可夫动力学(动力学学习器)<math>f_q</math> ,使得<math>f_q</math>的有效信息(<math>\mathcal{J}</math>)值在通过<math>ϕ</math>、<math>f_q</math>和<math>ϕ^\dagger</math>预测出的<math>x_{t+1}</math>与<math>x_{t+1}</math>的实际数据的差距最小的约束下最大化。<math>\epsilon</math>是给定的常数。它们的关系用方程表示为:
 
假设复杂动态系统的行为数据是时间序列 <math>\{x_t\}</math>,时间步长<math>t = 1,2,…, T</math>,维数是p,它们构成了可观测的微观状态,我们假设不存在未观测变量。一个粗粒化策略(编码器) <math>ϕ: R_p → R_q</math> ,其中 <math>q ≤ p</math>, <math>q </math>是宏观状态的维度,作为超参数给定;一个相应的反粗粒化策略(解码器)<math>ϕ^\dagger: R_q → R_p</math>,以及一个宏观层面的马尔可夫动力学(动力学学习器)<math>f_q</math> ,使得<math>f_q</math>的有效信息(<math>\mathcal{J}</math>)值在通过<math>ϕ</math>、<math>f_q</math>和<math>ϕ^\dagger</math>预测出的<math>x_{t+1}</math>与<math>x_{t+1}</math>的实际数据的差距最小的约束下最大化。<math>\epsilon</math>是给定的常数。它们的关系用方程表示为:
第103行: 第103行:     
具体请阅读词条[[NIS]]。
 
具体请阅读词条[[NIS]]。
  −
== 神经网络上的EI计算 ==
  −
如果神经网络的输入<math> X=(x_1,x_2,\cdot\cdot\cdot,x_n)\in [-L,L]^n</math>,则表示X定义在一个大小为L的超立方体上,其中L是一个非常大的整数。输出为<math>Y=(y_1,y_2,\cdot\cdot\cdot,y_m)</math>, <math>Y=\mu(X)</math>。这里µ是神经网络实现的确定性映射:<math>\mu: \mathcal{R}^n\rightarrow \mathcal{R}^m</math>,它在X处的雅可比矩阵是<math>\partial_{X'} \mu(X)\equiv \left\{\frac{\partial \mu_i(X')}{\partial X'_j}\left|_{X'=X}\right.\right\}_{nm}</math>。如果神经网络可以看作是给定X条件下的高斯分布,则神经网络的有效信息(EI)可以用以下方法计算:{{NumBlk|:|2=[math]\displaystyle{ EI_L(μ)=I(do(X\sim U([-L,L]^{n};Y) ≈ -\frac{m+m\ln(2\pi)+\sum_{i=1}^m\sigma_i^2/m}{2}+n\ln(2L)+\mathbf{E}_{X\sim U([-L,L]^n} \left(\ln {{!}}\det(\partial_{X'} f(X)){{!}}\right) }[/math]|3={{EquationRef|2}}}}式中,<math>\Sigma=diag(\sigma_1^2,\sigma_2^2,\cdot\cdot\cdot,\sigma_m^2)</math> 是协方差矩阵, <math>\sigma_i</math>是输出<math>y_i</math>的标准差,可由<math>y_i</math>的均方误差估计得到,<math>U([-L,L]^n)</math>为<math>[-L,L]^n</math>上的均匀分布,<math>| · |</math>为绝对值,det为行列式。如果<math>\det(\partial_{X'} \mu(X))\equiv 0</math>对于所有X,则令EI≈0。
  −
  −
但是,此公式不能直接应用于实际情况,因为它会随着输入n或输出m的维数增加而增加。解决这一问题的方法是通过除以输入维数来定义维度平均有效信息(dEI),记为:
  −
  −
<math>\mathcal{J}_L = \frac{EI_L(\mu)}{n}</math>
  −
  −
当输入输出数相同时(m = n),则:
  −
  −
<math>\mathcal{J}_L(\mu)=-\frac{1+\ln(2\pi)+\sum_{i=1}^n\sigma_i^2/n}{2}+\ln(2L)+\frac{1}{n}\mathbf{E}_{X\sim U([-L,L]^n} \left(\ln |\det(\partial_{X'} f(X))|\right)</math>
  −
  −
不过,此式子依赖于参数L,输入数据的域范围。为了消除L的影响,作者计算维度平均CE。对于维度q的宏观动力学<math>f_M</math>和维度p的微观动力学<math>f_m</math>,我们将维度平均CE定义为:
  −
  −
<math>\Delta\mathcal{J}_L(f_M,f_m)=\mathcal{J}_L(f_M)-\mathcal{J}_L(f_m)=\frac{EI_L(f_M)}{q}-\frac{EI_L(f_m)}{p}</math>
  −
  −
如果<math>f_M</math>和<math>f_m</math>由q维的<math>µ_M</math>和p维的<math>µ_m</math>的神经网络参数化,则:
  −
  −
<math>\Delta\mathcal{J}=\left(\frac{1}{q}\mathbf{E}_{X_M}\ln|\det \partial_{X_M}\mu_M|-\frac{1}{p}\mathbf{E}_{X_m}\ln|\det \partial_{X_m}\mu_m|\right)-\left(\frac{1}{q}\sum_{i=1}^{q}\ln\sigma_{i,M}^2-\frac{1}{p}\sum_{i=1}^{p}\ln\sigma_{i,m}^2\right)</math>
  −
  −
式中,其中<math>\sigma_{i,M}</math>和<math>\sigma_{i,m}</math>分别是<math>\mu_M</math>和<math>\mu_m</math>在第i维上的标准差。
  −
  −
此时,完全消除了输入或输出维度以及参数L的影响,使其成为一个更可靠的指标。从数据中识别因果涌现的结果只受到雅可比矩阵的方差的相对值和行列式的对数值的影响。
      
== NIS的缺陷 ==
 
== NIS的缺陷 ==
第134行: 第111行:  
1)此框架目前只能在小数据集上使用,难以拓展到更大规模的复杂系统上。
 
1)此框架目前只能在小数据集上使用,难以拓展到更大规模的复杂系统上。
   −
2)此方法的数学形式是一个泛函问题,无法直接进行优化,虽然可以通过两个阶段得到结果,但是[[NIS]]没有真正地最大化有效信息。在NIS+中,作者将通过优化变分下界解决泛函问题。
+
2)此方法的数学形式是一个泛函问题,无法直接进行优化,虽然可以通过两个阶段得到结果,但是[[NIS]]没有真正地最大化[[有效信息]]。在NIS+中,作者将通过优化变分下界解决泛函问题。
    
具体请阅读词条[[NIS]]。
 
具体请阅读词条[[NIS]]。
第655行: 第632行:     
③作者的工作是对<ref name=":8" /><ref name=":9" />中提出的研究的延伸,这些研究假设动力学是马尔可夫的。然而,当动态表现出强烈的非马尔可夫特征时,其他量化涌现的框架,如<ref name=":0" /><ref name=":10" />中提出的框架,可能具有更大的优势。
 
③作者的工作是对<ref name=":8" /><ref name=":9" />中提出的研究的延伸,这些研究假设动力学是马尔可夫的。然而,当动态表现出强烈的非马尔可夫特征时,其他量化涌现的框架,如<ref name=":0" /><ref name=":10" />中提出的框架,可能具有更大的优势。
 +
 +
 +
== 神经网络上的EI计算 ==
 +
如果神经网络的输入<math> X=(x_1,x_2,\cdot\cdot\cdot,x_n)\in [-L,L]^n</math>,则表示X定义在一个大小为L的超立方体上,其中L是一个非常大的整数。输出为<math>Y=(y_1,y_2,\cdot\cdot\cdot,y_m)</math>, <math>Y=\mu(X)</math>。这里µ是神经网络实现的确定性映射:<math>\mu: \mathcal{R}^n\rightarrow \mathcal{R}^m</math>,它在X处的雅可比矩阵是<math>\partial_{X'} \mu(X)\equiv \left\{\frac{\partial \mu_i(X')}{\partial X'_j}\left|_{X'=X}\right.\right\}_{nm}</math>。如果神经网络可以看作是给定X条件下的高斯分布,则神经网络的有效信息(EI)可以用以下方法计算:{{NumBlk|:|2=[math]\displaystyle{ EI_L(μ)=I(do(X\sim U([-L,L]^{n};Y) ≈ -\frac{m+m\ln(2\pi)+\sum_{i=1}^m\sigma_i^2/m}{2}+n\ln(2L)+\mathbf{E}_{X\sim U([-L,L]^n} \left(\ln {{!}}\det(\partial_{X'} f(X)){{!}}\right) }[/math]|3={{EquationRef|2}}}}式中,<math>\Sigma=diag(\sigma_1^2,\sigma_2^2,\cdot\cdot\cdot,\sigma_m^2)</math> 是协方差矩阵, <math>\sigma_i</math>是输出<math>y_i</math>的标准差,可由<math>y_i</math>的均方误差估计得到,<math>U([-L,L]^n)</math>为<math>[-L,L]^n</math>上的均匀分布,<math>| · |</math>为绝对值,det为行列式。如果<math>\det(\partial_{X'} \mu(X))\equiv 0</math>对于所有X,则令EI≈0。
 +
 +
但是,此公式不能直接应用于实际情况,因为它会随着输入n或输出m的维数增加而增加。解决这一问题的方法是通过除以输入维数来定义维度平均有效信息(dEI),记为:
 +
 +
<math>\mathcal{J}_L = \frac{EI_L(\mu)}{n}</math>
 +
 +
当输入输出数相同时(m = n),则:
 +
 +
<math>\mathcal{J}_L(\mu)=-\frac{1+\ln(2\pi)+\sum_{i=1}^n\sigma_i^2/n}{2}+\ln(2L)+\frac{1}{n}\mathbf{E}_{X\sim U([-L,L]^n} \left(\ln |\det(\partial_{X'} f(X))|\right)</math>
 +
 +
不过,此式子依赖于参数L,输入数据的域范围。为了消除L的影响,作者计算维度平均CE。对于维度q的宏观动力学<math>f_M</math>和维度p的微观动力学<math>f_m</math>,我们将维度平均CE定义为:
 +
 +
<math>\Delta\mathcal{J}_L(f_M,f_m)=\mathcal{J}_L(f_M)-\mathcal{J}_L(f_m)=\frac{EI_L(f_M)}{q}-\frac{EI_L(f_m)}{p}</math>
 +
 +
如果<math>f_M</math>和<math>f_m</math>由q维的<math>µ_M</math>和p维的<math>µ_m</math>的神经网络参数化,则:
 +
 +
<math>\Delta\mathcal{J}=\left(\frac{1}{q}\mathbf{E}_{X_M}\ln|\det \partial_{X_M}\mu_M|-\frac{1}{p}\mathbf{E}_{X_m}\ln|\det \partial_{X_m}\mu_m|\right)-\left(\frac{1}{q}\sum_{i=1}^{q}\ln\sigma_{i,M}^2-\frac{1}{p}\sum_{i=1}^{p}\ln\sigma_{i,m}^2\right)</math>
 +
 +
式中,其中<math>\sigma_{i,M}</math>和<math>\sigma_{i,m}</math>分别是<math>\mu_M</math>和<math>\mu_m</math>在第i维上的标准差。
 +
 +
此时,完全消除了输入或输出维度以及参数L的影响,使其成为一个更可靠的指标。从数据中识别因果涌现的结果只受到雅可比矩阵的方差的相对值和行列式的对数值的影响。
    
= 参考文献 =
 
= 参考文献 =
259

个编辑