更改

跳到导航 跳到搜索
添加8,274字节 、 2024年7月23日 (星期二)
1
第1行: 第1行:     
= 问题背景 =
 
= 问题背景 =
 +
<s>(近年来真实动态复杂系统(如气候、生态、鸟群、、蚁群、细胞、大脑等系统)积累的原始观测数据越来越多,并表现出多种非线性动力学行为,如何仅从这些数据中识别、测量涌现和捕捉涌现的动力学模式,已成为复杂系统再探索需要解决的关键问题。)</s>
 +
 +
在自然界和人类社会中,存在着许多由无数相互作用的元素构成的复杂系统,如气候系统、生态系统、鸟群、蚁群、细胞和大脑等。这些系统展现出丰富的非线性动力学行为,它们的行为模式复杂且难以预测。同时,复杂系统具有涌现现象,即系统的整体行为超越了其组成部分的简单总和,整体展现出其组成部分所不具备的新特性,这是理解宏观与微观之间关系的关键。<s>(复杂系统涌现)</s>
 +
 +
涌现性与因果关系紧密相连。一方面,涌现性是系统内部各元素间复杂非线性相互作用的结果;另一方面,这些涌现的特性又会对系统中的个体产生影响。因果涌现描述了宏观层面相对于微观层面在因果效应上的增强,揭示了宏观与微观状态之间的差异和联系。
 +
 +
因果涌现的概念不仅将人工智能中的因果推理与复杂系统的涌现特性相结合,而且为解决一系列哲学问题提供了一个定量化的视角。<s>(涌现和因果)</s>
 +
 +
目前,关于如何定义因果涌现,有四个主要代表,分别是:①Erik Hoel等基于粗粒化方法的因果涌现理论、②Rosas等基于信息分解的因果涌现理论、③张江等人基于奇异值分解的因果涌现理论、④Barnett L等的动力学解耦。具体内容可以参考词条[[因果涌现]]。<s>(因果涌现理论)</s>
    
== 因果涌现识别 ==
 
== 因果涌现识别 ==
   −
近年来真实动态复杂系统(如气候、生态、鸟群、、蚁群、细胞、大脑等系统)积累的原始观测数据越来越多,并表现出多种非线性动力学行为,如何仅从这些数据中识别、测量涌现和捕捉涌现的动力学模式,已成为复杂系统再探索需要解决的关键问题。
+
在实际应用中,一些微观数据难以捕捉,我们往往只能收集到观测数据,并且,无法得到系统的真实动力学。因此,从可观测数据中识别系统中因果涌现的发生是一个关键的问题。近年来,基于神经网络的机器学习方法取得了突破性进展,借助此方法,以数据驱动的方式自主发现复杂系统的因果关系甚至动力学成为可能。此外,机器学习和神经网络还可以帮助我们找到更好的粗粒化策略、从数据中发现宏观层面的因果关系。<s>(数据驱动)</s>
 +
 
 +
下面介绍两种因果涌现的识别方法:①基于[[互信息]]的近似方法、②[[NIS|神经信息压缩器]]方法系列(Neural Information Squeezer,简称NIS)。
 +
 
 +
=== 基于互信息的近似方法 ===
 +
 
 +
Rosas等提出了判定因果涌现发生的充分条件,且基于[[互信息]]提出三个新指标,<math>\mathrm{\Psi} </math> 、<math>\mathrm{\Delta} </math> 、<math>\mathrm{\Gamma} </math>。这三个指标用于识别系统中的因果涌现,具体计算公式如下:<u>''(对三个指标的介绍)''</u>
 +
 
 +
 
 +
<math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math>
 +
 
 +
<math>\Delta_{t, t+1}(V):=\max _j\left(I\left(V_t ; X_{t+1}^j\right)-\sum_i I\left(X_t^i ; X_{t+1}^j\right)\right) </math>
 +
 
 +
<math>\Gamma_{t, t+1}(V):=\max _j I\left(V_t ; X_{t+1}^j\right) </math>
 +
 
 +
 
 +
当<math>\mathrm{\Psi}>0 </math>时,宏观状态<math>V </math>会发生涌现。当<math>\mathrm{\Psi}<0 </math>,我们不能确定宏观状态<math>V </math>是否发生涌现,此时需要借助<math>\mathrm{\Delta} </math>。
 +
 
 +
当<math>\mathrm{\Delta}>0 </math>时,宏观状态<math>V </math>发生向下因果。当<math>\mathrm{\Delta}>0 </math>且<math>\mathrm{\Gamma}=0 </math>时,宏观状态<math>V </math>发生因果涌现且发生因果解耦。<u>''(δ<0的情况?γ≠0的情况?)(介绍X)''</u>
 +
 
 +
 
 +
该方法避开讨论粗粒化策略。但是也存在很多缺点:1)该方法提出的三个指标 ,<math>\mathrm{\Psi} </math> ,<math>\mathrm{\Delta} </math> 和<math>\mathrm{\Gamma} </math>只是基于互信息计算没有考虑因果,同时该方法得到的仅仅是发生因果涌现的充分条件;2)该方法无法得到显式的宏观动力学以及粗粒化策略,然而这两项对于下游的任务往往十分重要;3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。因此,该方法不是一种最优的方法,基于数据驱动的神经信息压缩方法应运而生。
 +
 
 +
 
 +
Kaplanis等人<ref name=":2">Zhang J, Tao R, Yuan B. Dynamical Reversibility and A New Theory of Causal Emergence. arXiv preprint arXiv:2402.15054. 2024 Feb 23.</ref>基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>:使用<math>f_{\theta}</math>神经网络来学习将微观输入<math>X_t</math>粗粒化成宏观输出<math>V_t</math>,同时使用神经网络<math>g_{\phi}</math>和<math>h_{\xi}</math>来分别学习<math>I(V_t;V_{t+1})</math>和<math>\sum_i(I(V_{t+1};X_{t}^i))</math>两者互信息的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。  ''<u>(详细介绍?)</u>''
 +
 
 +
=== NIS系列 ===
 +
[[张江]]等<ref>Zhang J, Liu K. Neural information squeezer for causal emergence[J]. Entropy, 2022, 25(1): 26.</ref>尝试基于神经网络和数据驱动提出了一种方法,该方法能从时间序列数据中识别系统中的因果涌现,并且自动提取有效的粗粒度策略和宏观动力学,即神经信息压缩器(Neural Information Squeezer,简称NIS)。
 +
 
 +
模型由编码器(encoder)、动力学学习器(<math>f </math>)以及解码器(decoder)三个部分构成,编码器和解码器主要由[[可逆神经网络]](Invertible Neural Network,简称INN)构建,动力学学习器由神经网络(Neural Network,简称NN)构建。此模型框架可以看成是一个神经信息压缩器,将包含噪音的微观态压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强。NIS方法的模型框架如图所示。''<u>(加图)</u>''
 +
 
 +
 
 +
具体来说,模型输入是微观状态<math>X_t\ (X_t^1,X_t^2,…,X_t^p ) </math>,<math>p </math>表示输入数据的维数,输出预测下一个时刻的微观状态<math>\hat{X}_{t+1}\left(\hat{X}_{t+1}^1, \hat{X}_{t+1}^2, \ldots, \hat{X}_{t+1}^p\right) </math>,该方法的目标函数是希望保证微观状态预测误差很小的条件下最大化有效信息,在保证预测误差约束足够小的情况下,NIS方法可以避免trivial解的出现。
 +
 
 +
具体计算公式如下所示:
 +
 
 +
 
 +
<math>[math]\displaystyle{ \text{s.t.}\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|\lt \epsilon }[/math] </math>
 +
 
 +
 
 +
<math>\max _{\phi_q, \hat{f}_q, \phi_q^{\dagger}, q} E I\left(f_{\phi_q}\right) \quad  </math>
 +
 
 +
<math>\text{s.t.}\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>
   −
== 基于信息分解的近似方法 ==
+
最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\phi}_q} </math>。
    +
然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,将优化过程分为两个阶段。
    +
第一个阶段:在给定宏观尺度<math>q </math>的情况下,使<math>\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>最小。
   −
== 解决思路 ==
+
第二个阶段:由于参数 <math>q</math> 是一维的,且 <math>0 < q < p</math>,简单迭代找到有效信息最大的宏观尺度。
   −
受因果涌现(CE)理论的启发,本文介绍了一种名为强化版神经信息压缩机(NIS+)的机器学习框架,该框架可以最大限度地增加有效信息(EI),并可以在各种条件下有效量化CE 度,从而生成具有更强因果效应的宏观动力学模型。
+
 
 +
总的来说,NIS是一种新的神经网络框架,可被用于发现时间序列数据中的粗粒化策略、宏观动力学和涌现的因果关系。但是,此方法并未真正地最小化有效信息,可预测的条件分布也仅限于高斯或者拉普拉斯分布。
 +
 
 +
具体内容请参考[[NIS]]。
 +
 
 +
== 机器学习领域的分布外泛化问题''<u>(从那几方面写?)</u>'' ==
 +
 
 +
分布外泛化(Out-of-Distribution Generalization,简称OOD Generalization)是指模型在面对与训练数据分布不同的新数据时,仍然能够保持较好的性能,涉及到模型对未知或未见情况的适应能力。
 +
 
 +
此问题通常表现为模型在训练集上运行良好,但在面对分布外的各种数据时,模型性能有所下降。造成这个问题的原因可能是过度拟合训练数据,导致泛化能力差;也可能是由于训练数据无法覆盖所有可能的输入情况,特别是对于罕见或极端的情况。
 +
 
 +
为了提高模型的OOD泛化能力,可以增加训练数据的多样性、使用Dropout、元学习等方法。
    
= 神经信息压缩机(NIS)介绍 =
 
= 神经信息压缩机(NIS)介绍 =
第55行: 第119行:     
其中,p为do(yt ~ Uq)干预后宏观状态yt的新分布,p为数据的自然分布。在实践中,p(yt)是通过核密度估计(KDE)来估计的。我们假设近似分布p (yt)是均匀分布,其特征为一个常数。因此,权重ω被计算为这两个分布的比值。
 
其中,p为do(yt ~ Uq)干预后宏观状态yt的新分布,p为数据的自然分布。在实践中,p(yt)是通过核密度估计(KDE)来估计的。我们假设近似分布p (yt)是均匀分布,其特征为一个常数。因此,权重ω被计算为这两个分布的比值。
 +
 +
== 概述 ==
 +
 +
 +
== 数学推导 ==
 +
 +
=== 问题的形式化表达 ===
 +
 +
=== 宏观EI的变分下界 ===
 +
 +
=== 编码器的通用逼近定理 ===
 +
 +
 +
== 机器学习算法 ==
 +
 +
=== 样本重加权 ===
 +
 +
=== 反向动力学 ===
 +
 +
=== 分阶段训练 ===
 +
 +
=== 面对大规模复杂系统的拓展 ===
    
= NIS 和NIS+ 的原理图 =
 
= NIS 和NIS+ 的原理图 =
第64行: 第150行:  
在实践中,通过在训练数据上设置归一化MAE(平均绝对误差除以x的标准差)来获得λ的值。标准化MAE的选择确保了不同实验的一致标准,考虑到不同的数值范围。通过改变q,我们可以得到不同维度的宏观动力学。如果q = p,那么fp就是学习到的微动力学。然后我们可以对任意q进行Jq和Jp的比较。因果涌现的量化计算以下差值:∆J ≡ J (fq) − J (fp), 其中∆J定义为因果涌现的程度。如果∆J > 0,则数据内存在因果涌现。
 
在实践中,通过在训练数据上设置归一化MAE(平均绝对误差除以x的标准差)来获得λ的值。标准化MAE的选择确保了不同实验的一致标准,考虑到不同的数值范围。通过改变q,我们可以得到不同维度的宏观动力学。如果q = p,那么fp就是学习到的微动力学。然后我们可以对任意q进行Jq和Jp的比较。因果涌现的量化计算以下差值:∆J ≡ J (fq) − J (fp), 其中∆J定义为因果涌现的程度。如果∆J > 0,则数据内存在因果涌现。
   −
= NIS+ 框架有效性的验证 =
+
= NIS+ 框架有效性的验证(数值实验) =
    
== SIR模型实验 ==
 
== SIR模型实验 ==
第89行: 第175行:     
NIS+可以通过最大化EI来学习最优宏观动态和粗粒度策略。这种最大化增强了它对超出训练数据范围的情况的泛化能力。学习到的宏观状态有效地识别了平均群体行为,并且可以使用IG方法将其归因于个体位置。此外,CE的程度随外在噪声的增加而增加,而随内在噪声的减少而减少。这一观察结果表明,通过粗粒化可以消除外在噪声,而内在噪声则不能。
 
NIS+可以通过最大化EI来学习最优宏观动态和粗粒度策略。这种最大化增强了它对超出训练数据范围的情况的泛化能力。学习到的宏观状态有效地识别了平均群体行为,并且可以使用IG方法将其归因于个体位置。此外,CE的程度随外在噪声的增加而增加,而随内在噪声的减少而减少。这一观察结果表明,通过粗粒化可以消除外在噪声,而内在噪声则不能。
 +
 +
== 生命游戏模型实验 ==
    
== 大脑fMRI 时间序列数据模型实验 ==
 
== 大脑fMRI 时间序列数据模型实验 ==
第103行: 第191行:  
综上所述,NIS+展示了其学习和粗化来自大脑的复杂fMRI信号的能力,允许使用单个宏观状态模拟复杂的动态。这一发现揭示了电影观看过程中复杂的神经活动可以被一维宏观状态编码,主要集中在视觉(VIS)子网络内的区域。
 
综上所述,NIS+展示了其学习和粗化来自大脑的复杂fMRI信号的能力,允许使用单个宏观状态模拟复杂的动态。这一发现揭示了电影观看过程中复杂的神经活动可以被一维宏观状态编码,主要集中在视觉(VIS)子网络内的区域。
   −
= 小结 =
+
= 总结与展望 =
    
NIS+框架的显著特征是,它专注于在保持有效性约束的同时最大化学习宏观动力学的有效信息(EI)。这使得学习到的涌现宏观动力学能够识别尽可能独立于输入数据分布的不变因果机制。这个特性不仅使NIS+能够识别不同环境中的数据CE,而且还增强了它对不同于训练数据的环境进行泛化的能力。因此,NIS+扩展了Hoel的CE理论,使其既适用于离散和连续动力系统,也适用于实际数据。
 
NIS+框架的显著特征是,它专注于在保持有效性约束的同时最大化学习宏观动力学的有效信息(EI)。这使得学习到的涌现宏观动力学能够识别尽可能独立于输入数据分布的不变因果机制。这个特性不仅使NIS+能够识别不同环境中的数据CE,而且还增强了它对不同于训练数据的环境进行泛化的能力。因此,NIS+扩展了Hoel的CE理论,使其既适用于离散和连续动力系统,也适用于实际数据。
第116行: 第204行:     
NIS+也存在一些局限性,首先,NIS+需要大量的训练数据来学习宏观动态和粗粒度策略,这在很多现实情况下可能是不可行的。如果培训不充分,可能导致CE的错误识别。因此,有必要结合其他数值方法,如Rosas的ΦID,以做出准确的判断。其次,神经网络的可解释性,特别是对于宏观动态学习者来说,仍然是一个难点。最后,当前的框架主要是为马尔可夫动力学设计的,而许多真实的复杂系统表现出长期记忆或涉及不可观察的变量。扩展NIS+框架以适应非马尔可夫动力学是未来研究的一个重要领域,解决这些限制并探索这些改进途径可以让NIS+应用于更广泛的复杂系统的数据分析。
 
NIS+也存在一些局限性,首先,NIS+需要大量的训练数据来学习宏观动态和粗粒度策略,这在很多现实情况下可能是不可行的。如果培训不充分,可能导致CE的错误识别。因此,有必要结合其他数值方法,如Rosas的ΦID,以做出准确的判断。其次,神经网络的可解释性,特别是对于宏观动态学习者来说,仍然是一个难点。最后,当前的框架主要是为马尔可夫动力学设计的,而许多真实的复杂系统表现出长期记忆或涉及不可观察的变量。扩展NIS+框架以适应非马尔可夫动力学是未来研究的一个重要领域,解决这些限制并探索这些改进途径可以让NIS+应用于更广泛的复杂系统的数据分析。
 +
 +
== 总结 ==
 +
 +
== 展望 ==
 +
 +
= 参考文献 =
259

个编辑

导航菜单