更改

添加10,120字节 、 2024年8月22日 (星期四)
第488行: 第488行:     
= NIS+ 框架有效性的验证(数值实验) =
 
= NIS+ 框架有效性的验证(数值实验) =
 +
在此部分中,我们将介绍验证NIS+框架有效性的四个实验:SIR模型实验、Boids模型实验、生命游戏模型实验、大脑fMRI 时间序列数据模型实验。实验数据包括人类的磁共振成像数据和不同的人工模型(动态系统、多智能体系统和元胞自动机)和生成的数据。每个实验中,我们将评估模型的预测能力、泛化能力、识别CE的能力,并将识别结果与<math>\Psi </math>指标进行比较。
    
== SIR模型实验 ==
 
== SIR模型实验 ==
   −
在这个实验中,SIR(易感、感染、恢复或死亡)模型是一个简单的宏观动态系统,而微观变量则是通过在宏观变量中引入噪声产生的。主要目的是评估我们的模型是否能够有效地去除噪声、发现有意义的宏观动态、识别CE,并展示超越训练数据集分布的泛化能力。
+
在本实验中,SIR(易感、感染、恢复或死亡)模型是一个简单的宏观动态系统,而微观变量是通过在宏观变量中引入噪声来产生的。此实验有四个基本目标:①评估模型有效去除噪声的能力,②模型能否发现真正的宏观动态,③识别CE,④模型的泛化能力。
   −
[[文件:NIS+ sir.jpg|替代=|居中|缩略图|529x529像素]]
+
设置感染率β = 1、康复率γ = 0.5。由于模型只有两个自由度(<math>S + I + R = 1 </math>),故仅用S和I构成宏观状态变量<math>\boldsymbol{y}=(S,I) </math>。图(a)显示了SIR动力学的相空间(S, I, R),所有的宏观状态都分布在三维的三角形平面上。同时,学者通过引入高斯噪声将<math>\boldsymbol{y}=(S,I) </math>展开为一个四维变量,并将其看做微观状态。我们在图(a)的三角形区域内采样,以此来随机选择初始条件,并使用上述过程生成时间序列数据,用以训练模型。
   −
(a) SIR模型的相空间,以及具有相同感染率和恢复率或死亡率的四个示例轨迹。同时显示用于训练的完整数据集(蓝色区域)和部分数据集(虚线区域),分别由63,000和42,000个均匀分布的数据点组成。(b)曲线描述了不同模型的维平均有效信息(J)随训练时间的变化。线表示平均值,而带宽表示五次重复实验的标准差。(c)比较了SIR动力学的矢量场、NIS+的习得宏观动力学和习得编码器的雅可比矩阵变换后的宏观动力学。每个箭头代表一个方向,以及在该坐标点的动力学导数的大小。(d)将整体与局部进行比较,以评估在部分数据集(缺失42,000个数据点)或完整数据集上训练的不同模型的多步预测误差。这些模型包括NIS+、NIS、前馈神经网络(NN)、具有逆概率加权和反向动力学学习技术的前馈神经网络(NN+)、变分自编码器(VAE)及其重加权和反向动力学版本(VAE+)。(e).微观动力学(J (fm))和宏观动力学(J (fm))的CE(∆J)和EI的变化绘制为观测噪声变化的标准差σ。所有这些指标都是跨维度平均的。按照Rosas对CE的定义和计算方法,黄线表示Rosas ' Ψ的变化。垂直线表示归一化MAE的阈值为0.3。当σ大于阈值时,则不符合式1的误差约束,结果不可靠。(f)将SIR动力学的矢量场、NIS的习得宏观动力学和NIS的编码器雅可比矩阵变换后的宏观动力学与(c)进行比较。
+
[[文件:NIS+ sir.jpg|替代=|529x529像素|右|无框]]
 +
 
 +
一、与其他模型比较预测未来状态的能力。
 +
 
 +
比较的模型包括NIS模型、前馈神经网络(NN)、变分自编码器(VAE)。为了进行公平比较,学者确保所有模型具有大致相同数量的参数,且将样本重加权技术和反向动力学技术应用于前馈神经网络(NN)和变分自编码器(VAE),构建出NN+和VAE+。然后,在单独的测试数据集上预测多个时间步(10步)的未来状态。
 +
 
 +
实验结果表明(图(d)),NIS+和NIS在整体数据集上(绿色条)表现优于其他模型(NN、NN+、VAE、VAE+)。这说明在编码器和解码器中使用可逆神经网络。
 +
 
 +
二、泛化能力。
 +
 
 +
以图(a)中带点区域(<math>\frac{1}{3} ≤ S ≤ 1 </math>)为训练数据集,以图(a)中整个蓝色三角形为测试数据集。
 +
 
 +
实验结果表明(图(d)),NIS+的分布外泛化能力优于其他模型,在部分数据集上,不同模型之间的差异较大。
 +
 
 +
三、模型能否发现真正的宏观动态。
 +
 
 +
将真实的SIR动力学的向量场(<math>d\boldsymbol{y}/dt </math>)(红色)、基于编码器的雅可比矩阵得到的理论向量(蓝色)与通过模型学习到的宏观动态的向量(<math>d(h_1,h_2)/dt </math>)(绿色)进行比较。
 +
 
 +
实验结果表明(图(c)表示NIS+,图(f)表示NIS),学习到的向量与真实向量对齐和理论向量对齐。NIS+明显优于NIS,尤其是在没有训练样本的外围区域。
 +
 
 +
四、EI最大化和量化CE。
 +
 
 +
首先,为了确保EI被NIS+最大化,我们观察EI(维平均)J在训练时期的演变。
 +
 
 +
实验结果表明(图(b)),NIS+(红色实线)、NIS(黑色虚线)和VAE+(绿色实线)的曲线呈上升趋势,但NIS+的增长速度更快。这表明NIS+比其他模型更能有效地最大化J。值得注意的是,NIS也表现出EI的自然增长,因为它逐渐使预测误差最小化。
 +
 
 +
其次,为了检验NIS+检测和量化CE的能力,我们计算随着噪音的增大,∆J 的变化,并将其与<math>\Psi </math>指标进行比较。学者利用从NIS+中学习到的宏观状态来计算<math>\Psi </math>。结果用图(e)中的黑色和黄色实线表示。
   −
比率导致观察到CE的发生。然而,当Rosas的Ψ < 0时,我们不能做出明确的判断,因为Ψ只能为CE提供充分条件。这两个指标在σ = 10−2处达到峰值,这与我们模拟中使用的时间步长(dt = 0.01)的大小相对应,反映了微观状态的变化水平。另一方面,如果噪声过大,有限的观测数据将使NIS+难以从数据中准确识别正确的宏观动力学。因此,CE的∆J的程度降至零。虽然NIS+判定σ > 10时不存在CE,但这一结果并不可靠,因为σ = 10−2后的归一化预测误差已经超过了所选阈值0.3(垂直虚线和虚线)。
+
实验结果表明(图(e)),当<math>σ <0.01 </math>时,<math>\Delta{J}>0 </math>始终保持不变,但<math>\sigma=10^{-3} </math>后,<math>\Psi>0 </math>。NIS+表明在低噪声水平因果涌现始终发生,而信息分解的方法则并非如此。NIS+的结果更合理,因为它可以从有噪声的数据中提取出类似于ground-truth的宏观动力学,并且这种确定性动力学应该比有噪声的微观动力学具有更大的EI。学者还分别绘制了宏观和微观动力学曲线<math>J(f_M) </math>(红色虚线)和<math>J(f_m) </math>(绿色虚线)。这些曲线随着σ的增大而减小,但<math>J(f_m) </math>的减小速度更快,导致观测到CE的发生。但是,当<math>\Psi>0 </math>时,因为Ψ只能为CE提供充分条件,我们不能做出明确的判断。这两个指标在<math>\sigma=10^{-2} </math>处达到峰值,这与我们模拟中使用的时间步长(<math>dt=0.01 </math>)的大小相对应,反映了微观状态的变化水平。另一方面,如果噪声过大,有限的观测数据将使NIS+难以从数据中准确识别正确的宏观动力学。因此,CE<math>\Delta{J}>0 </math>的程度降至零。虽然NIS+判定<math>σ > 10 </math>时不存在CE,但这一结果并不可靠,因为<math>\sigma=10^{-2} </math>后的归一化预测误差已经超过了所选阈值0.3(垂直虚线和虚线)。
   −
因此,这些实验表明,通过最大化EI和学习独立的因果机制,NIS+可以有效地忽略数据中的噪声,准确地学习真实宏观动态,并泛化到未见数据。此外,NIS+在量化CE方面表现出优越的性能。
+
综上可知,通过最大化EI和学习独立的因果机制,NIS+可以有效地忽略数据中的噪声,准确地学习真实宏观动态,并有良好的泛化能力。此外,NIS+在量化CE方面表现出优越的性能。
    
== Boids 模型实验 ==
 
== Boids 模型实验 ==
   −
Boids模型是一个著名的模拟鸟类集体行为的多代理模型,在这个实验中测试了NIS+ 在具有内在和外在噪声的不同环境中识别突发集体行为和CE 量化的能力。为了提高训练粗粒度策略的可解释性,将尝试在学习到的宏观状态和微观状态之间给出明确的对应关系。在300×300画布上使用N = 16个boids进行模拟以生成训练数据。为了评估NIS+发现有意义的宏观状态的能力,我们将所有boids分为两组,并人为地修改boids模型,为每组引入不同的恒定转向力。这种修改确保了两组具有不同转弯角度的独立轨迹。每个物体在每个时间步长的微观状态包括它们的水平和垂直位置,以及它们的二维速度。所有生物的微观状态形成一个4N维实数向量,作为训练NIS+的输入。
+
Boids模型,是一个著名的多智能体模型,用于模拟鸟类的集体行为<ref name=":5">Reynolds C-W. Flocks, herds and schools: A distributed behavioral model. Proceedings of the 14th annual conference on Computer graphics and interactive techniques, Denver,
 +
 
 +
27 July - 1 August 1987.</ref><ref>Reynolds C-W. Flocks, herds and schools: A distributed behavioral model. Proceedings of the 14th annual conference on Computer graphics and interactive techniques, Denver,
 +
 
 +
27 July - 1 August 1987.</ref>。此实验有两个基本目标:①评估在具有内在和外在噪声的不同环境下捕获涌现现象和CE量化的能力,②试图给出学习到的宏观状态和微观状态之间的显式对应关系,以此来提高训练粗粒度策略的可解释性。
 +
 
 +
我们根据Reynolds(1987)<ref name=":5" />的方法模拟Boids模型,在300 × 300的画布上用N = 16个鸟生成训练数据。为了评估NIS+发现有意义的宏观状态的能力,我们将鸟群分为两组,并为每组引入不同的恒定转向力。这一修改确保了两组分别沿着不同转弯角度的轨迹运动,如图(a)所示。我们通过模拟生成训练和测试数据。在每个时间步长t上,微状态生成为4N维向量:
 +
 
 +
<math>X_t=(x_1^t,y_1^t,v_{x,1}^t,v_{y,1}^t, \dots, x_N^t,y_N^t,v_{x,N}^t,v_{y,N}^t) </math>
 +
 
 +
其中<math>(x_i^t,y_i^t) </math>是位置,<math>(v_{x,i}^t,v_{y,i}^t) </math>是时刻t的速度,<math>i=1,2,\dots,16 </math>。
 +
 
 +
如图4a中的三角形所示,预测的50步紧急集体飞行行为与两组的地面真实轨迹密切相关,特别是在初始阶段。这些预测轨迹是通过将预测的宏观状态解码为相应的微观状态来生成的,两条实线表示它们的平均值。
 +
 
 +
根据观察到CE在q = 8时始终达到最大值,如图4c所示,本实验选择超参数q = 8,即宏观变量的维度。
 +
 
 +
如图4a中的三角形所示,预测的50步紧急集体飞行行为与两组的地面真实轨迹密切相关,特别是在初始阶段。这些预测轨迹是通过将预测的宏观状态解码为相应的微观状态来生成的,两条实线表示它们的平均值。
 +
 
 +
根据观察到CE在q = 8时始终达到最大值,如图4c所示,本实验选择超参数q = 8,即宏观变量的维度。
 +
 
 +
为了增强NIS+中习得的宏观状态和粗粒度函数的可解释性,我们利用集成梯度(IG)方法[47](见支持信息3.3节)来识别每个习得的紧急宏观状态维度中最重要的微观状态。我们将计算的IG归一化,并在每个宏观状态中增强微观状态的最大梯度,忽略每个物体的速度尺寸,因为它们与宏观状态的相关性较低。归一化IG绘制成矩阵图(图4d)。如图4d所示,宏观状态的第1、2、5、6维分别对应第一组(ID<8)中的ID,第3、4、7、8维对应第二组(ID>=8)中的ID。因此,学习到的粗粒度策略使用两个位置坐标来表示所有其他信息,形成一个维度的宏观状态。对于宏观状态,我们需要注意,对于一群鸟,需要两个坐标相关的维度和两个速度相关的维度来描述它们的运动状态。所以两组鸟需要八个维度。我们可以推测有一只鸟作为这群鸟的代表,观察这只鸟的情况可以预测这群鸟的整体运动趋势。然后我们利用两倍的位置维度来进行预测。除了表示位置的两个维度外,速度还可以由两个连续时刻之间的位置差导出。然而,一次只能输入来自单个时刻的信息,这就需要额外的自由度来表示速度。因此,我们仍然需要八个自由度来描述两组鸟的宏观状态
 +
 
 +
为了比较NIS+和NIS的学习和预测效果,我们通过测试它们在不同于训练数据集的初始条件下的性能来评估它们的泛化能力。在生成训练数据的仿真过程中,所有体的位置被约束在一个半径为r的圆内,如图4a所示。然而,当初始位置位于较大的圆上时,我们评估了两种模型的预测能力。图4b显示了NIS+和NIS的MAEs,其随半径r的增加而增加,其中预测误差越小,泛化越好。结果清楚地表明,与NIS相比,NIS+在所有测试半径r上具有优越的泛化性
 +
 
 +
此外,为了研究内在扰动和观测扰动对CE的影响,引入了两种类型的噪声。通过在每个时间步长为每个物体增加随机转角,将固有噪声纳入该规则。这些角度均匀分布在区间α·[−π, π]内,其中α∈[0,1]是控制本振噪声大小的参数。另一方面,假定外部噪声会影响观测的微观状态。在这种情况下,我们假设不能直接观察到每个物体的微观状态,而是获得有噪声的数据。外部或观测噪声δ ~ N (0, δmax)被添加到微观状态中,δmax是决定该噪声水平的参数。
 +
 
 +
结果如图4f和4g所示,在这两种情况下,归一化MAE都增加了,这表明随着内在和外在噪声的增加,预测任务更具挑战性。然而,这两种类型的噪声之间的差异可以通过检查CE(∆J)的程度来观察。从图4f可以看出,∆J随外部噪声(δmax)的增大而增大,说明粗粒化可以在一定范围内减轻噪声,增强因果效应。δmax < 0.1时,归一化MAE小于0.3(黑色虚线),满足式1的约束。在这种情况下,CE的程度随着δmax的增大而增大。然而,当超过0.3的阈值时,即使∆J减小,我们也无法得出有意义的结论,因为违反了方程1中的约束,结果的可靠性就会降低
 +
 
 +
另一方面,图4g表明,∆J随着本振噪声(α)水平的增加而减小。这可以归因于宏观层面的动态学习者试图在这一阶段捕捉每个群体的群集行为。然而,随着本征噪声的增加,蜂群行为逐渐减弱,导致CE降低。我们没有包括α > 0.6的情况,因为归一化MAE超过0.3的阈值,违反了方程1中的约束。图4e显示了α = 0.4的随机偏转角噪声的真实轨迹和预测。可以观察到,在早期可以预测直线趋势,但随着噪声引起的偏差逐渐增大,误差也随之增大,这直观地反映了CE的降低。为了进行比较,我们还对Ψ测试了相同的曲线,结果显示在支持信息第6节中,因为所有的值都是负的,而且幅度很大。
 +
 
 +
这些实验证明了NIS+识别突发性集体行为的能力,以及噪声对突发性集体行为的影响程度。
 +
 
 +
 
 +
在300×300画布上使用N = 16个boids进行模拟以生成训练数据。为了评估NIS+发现有意义的宏观状态的能力,我们将所有boids分为两组,并人为地修改boids模型,为每组引入不同的恒定转向力。这种修改确保了两组具有不同转弯角度的独立轨迹。每个物体在每个时间步长的微观状态包括它们的水平和垂直位置,以及它们的二维速度。所有生物的微观状态形成一个4N维实数向量,作为训练NIS+的输入。
    
[[文件:NIS+ boid.png|NIS+ boid|缩略图|462x462px|替代=|居中]]
 
[[文件:NIS+ boid.png|NIS+ boid|缩略图|462x462px|替代=|居中]]
第658行: 第718行:  
\min_{f,g,\phi,\phi\dagger}\sum_{t=1}^{T-1}w(\boldsymbol{x}_t)||\boldsymbol{y}_t-g(\boldsymbol{y}_{t+1})||+\lambda||\hat{x}_{t+1}-\boldsymbol{x}_{t+1}||
 
\min_{f,g,\phi,\phi\dagger}\sum_{t=1}^{T-1}w(\boldsymbol{x}_t)||\boldsymbol{y}_t-g(\boldsymbol{y}_{t+1})||+\lambda||\hat{x}_{t+1}-\boldsymbol{x}_{t+1}||
 
</math>
 
</math>
 +
 +
(a) SIR模型的相空间,以及具有相同感染率和恢复率或死亡率的四个示例轨迹。同时显示用于训练的完整数据集(蓝色区域)和部分数据集(虚线区域),分别由63,000和42,000个均匀分布的数据点组成。(b)曲线描述了不同模型的维平均有效信息(J)随训练时间的变化。线表示平均值,而带宽表示五次重复实验的标准差。(c)比较了SIR动力学的矢量场、NIS+的习得宏观动力学和习得编码器的雅可比矩阵变换后的宏观动力学。每个箭头代表一个方向,以及在该坐标点的动力学导数的大小。(d)将整体与局部进行比较,以评估在部分数据集(缺失42,000个数据点)或完整数据集上训练的不同模型的多步预测误差。这些模型包括NIS+、NIS、前馈神经网络(NN)、具有逆概率加权和反向动力学学习技术的前馈神经网络(NN+)、变分自编码器(VAE)及其重加权和反向动力学版本(VAE+)。(e).微观动力学(J (fm))和宏观动力学(J (fm))的CE(∆J)和EI的变化绘制为观测噪声变化的标准差σ。所有这些指标都是跨维度平均的。按照Rosas对CE的定义和计算方法,黄线表示Rosas ' Ψ的变化。垂直线表示归一化MAE的阈值为0.3。当σ大于阈值时,则不符合式1的误差约束,结果不可靠。(f)将SIR动力学的矢量场、NIS的习得宏观动力学和NIS的编码器雅可比矩阵变换后的宏观动力学与(c)进行比较。
    
= 参考文献 =
 
= 参考文献 =
196

个编辑