更改

跳到导航 跳到搜索
添加207字节 、 2024年9月22日 (星期日)
第224行: 第224行:  
[[鸟群算法|Boids模型]],是一个著名的多主体模型,用于模拟鸟类的集体行为<ref name=":5">Reynolds C-W. Flocks, herds and schools: A distributed behavioral model. Proceedings of the 14th annual conference on Computer graphics and interactive techniques, Denver,
 
[[鸟群算法|Boids模型]],是一个著名的多主体模型,用于模拟鸟类的集体行为<ref name=":5">Reynolds C-W. Flocks, herds and schools: A distributed behavioral model. Proceedings of the 14th annual conference on Computer graphics and interactive techniques, Denver,
   −
27 July - 1 August 1987.</ref>。使用此数据有四个基本目标:①NIS+识别[[因果涌现|CE]]的能力;②提高NIS+训练粗粒化策略的可解释性;③NIS+的泛化能力;④内在噪音和外部噪音对NIS+识别[[因果涌现|CE]]的影响。
+
27 July - 1 August 1987.</ref>。使用此模型生成的数据检测NIS+在下面四个方面的能力:①识别[[因果涌现]]的能力;②粗粒化策略的可解释性;③分布外数据泛化能力;④内在噪音和外部噪音对识别[[因果涌现]]的影响。
   −
作者根据Reynolds(1987)<ref name=":5" />的方法模拟[[鸟群算法|Boids模型]],在300 × 300的画布上用N = 16个鸟生成训练数据。为了评估NIS+发现有意义的宏观状态的能力,作者将鸟群分为两组,并为每组引入不同的恒定转向力。这一修改确保了两组分别沿着不同转弯角度的轨迹运动,如图(a)所示。作者通过模拟生成训练和测试数据。在每个时间步长t上,微状态生成为4N维向量:
+
作者根据Reynolds(1987)<ref name=":5" />的方法模拟[[鸟群算法|Boids模型]],在300 × 300的画布上用N = 16个鸟生成训练数据。为了评估NIS+发现有意义的宏观状态的能力,作者将鸟群分为两组,并为每组引入不同的恒定转向力。这一修改确保了两组分别沿着不同转弯角度的轨迹运动,如图(a)所示。作者通过模拟生成训练和测试数据。在每个时间步长t上,微观状态为4N维向量:
    
<math>X_t=(x_1^t,y_1^t,v_{x,1}^t,v_{y,1}^t, \dots, x_N^t,y_N^t,v_{x,N}^t,v_{y,N}^t) </math>
 
<math>X_t=(x_1^t,y_1^t,v_{x,1}^t,v_{y,1}^t, \dots, x_N^t,y_N^t,v_{x,N}^t,v_{y,N}^t) </math>
   −
其中<math>(x_i^t,y_i^t) </math>是位置,<math>(v_{x,i}^t,v_{y,i}^t) </math>是时刻t的速度,<math>i=1,2,\dots,16 </math>。
+
其中<math>(x_i^t,y_i^t) </math>是第i只鸟在t时刻的位置坐标,<math>(v_{x,i}^t,v_{y,i}^t) </math>是i在时刻t的速度向量,其中<math>i=1,2,\dots,16 </math>。
    
[[文件:Boids1.png|替代=|无框|800x800像素]]
 
[[文件:Boids1.png|替代=|无框|800x800像素]]
   −
====NIS+识别[[因果涌现|CE]]的能力====
+
====NIS+识别[[因果涌现]]的能力====
   −
结果表明(图(a)),预测的涌现集体飞行行为(50步)与两组的真实轨迹密切相关,特别是在初始阶段。这些预测轨迹是通过将预测的宏观状态解码为相应的微观状态来生成的,两条实线表示它们的平均值。
+
预测的涌现集体飞行行为(50步)与两组的真实轨迹密切相关,特别是在初始阶段。这些预测轨迹是通过将预测的宏观状态解码为相应的微观状态来生成的,两条实线表示它们的平均值。
   −
对于宏观状态,一群鸟需要两个坐标相关的维度和两个速度相关的维度来描述它们的运动状态。所以两组鸟需要八个维度。作者推测有一只鸟作为这群鸟的代表,观察这只鸟的情况可以预测这群鸟的整体运动趋势。然后作者利用两个位置维度来进行预测。除了表示位置的两个维度外,速度还可以由两个连续时刻之间的位置差导出。然而,一次只能输入来自单个时刻的信息,这就需要额外的自由度来表示速度。因此,作者仍然需要八个自由度来描述两组鸟的宏观状态。
+
在不同宏观态维度超参下,结果表明(图(a)),[[因果涌现]]在q = 8时达到最大值,如图(c)所示,这与作者选择超参数q = 8(宏观变量的维度)相符,这刚好对应两组鸟的中心代表点的状态空间维数(两个空间坐标和两个时间坐标,一共两组,所以共有8个维度)。
   −
根据观察,[[因果涌现|CE]]在q = 8时达到最大值,如图(c)所示,这与作者选择超参数q = 8(宏观变量的维度)相符。
      
====NIS+粗粒化策略的可解释性====
 
====NIS+粗粒化策略的可解释性====
第246行: 第245行:  
作者利用积分梯度(IG)<ref name=":6">Sundararajan M, Taly A and Yan Q. Axiomatic attribution for deep networks. Proceedings of the 34th International Conference on Machine Learning, Sydney, 6-11 August
 
作者利用积分梯度(IG)<ref name=":6">Sundararajan M, Taly A and Yan Q. Axiomatic attribution for deep networks. Proceedings of the 34th International Conference on Machine Learning, Sydney, 6-11 August
   −
2017.</ref>来识别每个学到的涌现宏观状态维度中最重要的微观状态,将计算的IG归一化,并在每个宏观状态中提高微观状态的最大梯度,并且忽略每只鸟的速度维度(与宏观状态的相关性较低)。最后,作者将归一化的IG绘制成矩阵图,用以描述每个宏观维度(纵轴)和每只鸟空间坐标(横轴)之间的关系,并用橙色点表示每个宏观状态中最重要的微观状态。
+
2017.</ref>来识别每个学到的涌现宏观状态维度中最重要的微观状态,将计算的IG归一化,并在每个宏观状态中提高微观状态的最大梯度,并且忽略每只鸟的速度维度(与宏观状态的相关性较低)。最后,作者将归一化的IG绘制成图d,用以描述每个宏观维度(纵轴)和每只鸟空间坐标(横轴)之间的关系,并用橙色点表示每个宏观状态中最重要的微观状态。
   −
结果表明(图(d)),宏观状态的第1、2、5、6维分别对应第一组中的ID(ID<8)(图(d)中group 1 的橙色点在第1行、第2行、第5行、第6行),第3、4、7、8维对应第二组中的ID(ID>=8)(图(d)中group 2 的橙色点在第3行、第4行、第7行、第8行)。因此,学习到的粗粒化策略使用两个位置坐标来表示所有其他信息,形成一个维度的宏观状态。
+
结果表明(图(d)),宏观状态的第1、2、5、6维分别对应第一组中的ID(ID<8)(图(d)中group 1 的橙色点在第1行、第2行、第5行、第6行),第3、4、7、8维对应第二组中的ID(ID>=8)(图(d)中group 2 的橙色点在第3行、第4行、第7行、第8行)。因此,学习到的粗粒化策略使用两个位置坐标来表示所有其他信息,形成一个维度的宏观状态。NIS+学习出来的维度并不能刚好对应每个组中心的位置和速度,而是与特定鸟的位置有关(图d)。作者推测这只鸟实际上被NIS+选定为这群鸟的代表,观察这只鸟的情况可以预测这群鸟的整体运动趋势。NIS+并没有利用任何的速度数据,而仅仅使用了位置数据,作者认为这是因为NIS+可以通过额外的自由度来表示速度,因为通过两个连续时刻之间的位置差计算出速度。因此,NIS+仍然需要八个自由度来描述两组鸟的宏观状态。
    
====NIS+的泛化能力====
 
====NIS+的泛化能力====
   −
在生成训练数据的仿真过程中,所有鸟的位置被约束在一个半径为r的圆内,如图(a)所示。作者评估当初始位置位于较大的圆上时两种模型的预测能力。
+
为了比较不同模型在分布外数据上的泛化能力,作者在生成训练数据的仿真过程中,令所有鸟的位置被约束在一个半径为r的圆内,如图(a)所示。作者评估当初始位置位于较大的圆上时两种模型的预测能力。
   −
结果表明(图(b)),NIS+和[[NIS]]的MAE值随半径r的增加而增加,而预测误差MAE越小,泛化能力越好。结果清楚地表明,与[[NIS]]相比,NIS+在所有测试半径r上具有优越的泛化能力。
+
结果表明(图(b)),NIS+和[[NIS]]的MAE值都随半径r的增加而增加,而预测误差MAE越小,泛化能力越好。结果清楚地表明,与[[NIS]]相比,NIS+在所有测试半径r上具有优越的泛化能力。
   −
====内在噪音和外部噪音对NIS+识别[[因果涌现|CE]]的影响====
+
====内在噪音和外部噪音对NIS+识别[[因果涌现]]的影响====
   −
通过在每个时间步长为每只鸟增加随机转角,引入内在噪声。这些角度均匀分布在区间<math>\alpha\cdot [-\pi,\pi] </math>内,其中<math>\alpha\in[0,1] </math>是控制内在噪声大小的参数。另一方面,假定外部噪声会影响观测的微观状态。在这种情况下,作者假设不能直接观察到每个物体的微观状态,而是获得有噪声的数据。将外部或观测噪声<math>\delta\sim \mathcal{N}(0,\delta_{max}) </math>添加到微观状态中,<math>\delta_{max} </math>是决定该噪声水平的参数。
+
通过在每个时间步长为每只鸟增加随机转角,引入内在噪声。这些角度均匀分布在区间<math>\alpha\cdot [-\pi,\pi] </math>内,其中<math>\alpha\in[0,1] </math>是控制内在噪声强度大小的参数。另一方面,外部噪声是指影响观测数据的噪声,在Boid模型中,即是观测的微观状态的噪声,也就是对每一个时刻的微观态都加上外部或观测噪声<math>\delta\sim \mathcal{N}(0,\delta_{max}) </math>,其中,<math>\delta_{max} </math>是决定该噪声大小的参数。
   −
结果表明(图(f)和图(g)),在这两种情况下,归一化MAE都增加了,这表明随着内在和外在噪声的增加,预测任务更具挑战性。然而,这两种类型的噪声之间的差异可以通过检查CE(<math>\Delta{J}>0 </math>)的程度来观察。从图(f)可以看出,<math>\Delta{J}>0 </math>随外部噪声(<math>\delta_{max} </math>)的增大而增大,说明粗粒化策略可以在一定范围内减轻噪声,增强[[因果效应]]<math>\delta_{max}<0.1 </math>时,归一化MAE小于0.3(黑色虚线),满足式{{EquationNote|1}}的约束。在这种情况下,[[因果涌现|CE]]的程度随着<math>\delta_{max} </math>的增大而增大。然而,当超过0.3的阈值时,即使<math>\Delta{J}>0 </math>减小,作者也无法得出有意义的结论(违反了式{{EquationNote|1}}中的约束),结果的可靠性就会降低。从图(g)可以看出,<math>\Delta{J}>0 </math>随着内部噪声(α)水平的增加而减小。这是由于宏观层面的动态学习器试图在这一阶段捕捉每个群体的群体行为。然而,随着内部噪声的增加,群体行为逐渐减弱,导致[[因果涌现|CE]]降低。因为归一化MAE超过0.3的阈值时违反了式{{EquationNote|1}}中的约束,作者没有计算<math>\alpha>0.6 </math>的情况。图(e)显示了随机偏转角噪声<math>\alpha=0.4 </math>时候的真实轨迹和预测。可以观察到,在早期可以预测直线趋势,但随着噪声引起的偏差逐渐增大,误差也随之增大,[[因果涌现|CE]]降低。
+
结果表明(图(f)和图(g)),在这两种情况下,归一化MAE都增加了,这表明随着内在和外在噪声的增加,预测任务更具挑战性。然而,这两种类型的噪声之间的差异可以通过检查因果涌现(<math>\Delta{J}>0 </math>)的程度来观察。从图(f)可以看出,<math>\Delta{J}>0 </math>随外部噪声(<math>\delta_{max} </math>)的增大而增大,说明粗粒化策略可以在一定范围内减轻噪声影响,增强[[因果效应]]的效果。<math>\delta_{max}<0.1 </math>时,归一化MAE小于0.3(黑色虚线),满足式{{EquationNote|1}}的约束。在这种情况下,[[因果涌现]]的程度随着<math>\delta_{max} </math>的增大而增大。然而,当超过0.3的阈值时,即使<math>\Delta{J}>0 </math>减小,作者也无法得出有意义的结论(违反了式{{EquationNote|1}}中的约束),结果的可靠性就会降低。从图(g)可以看出,<math>\Delta{J}>0 </math>随着内部噪声(α)水平的增加而减小。这是由于宏观层面的动力学学习器试图在这一阶段捕捉每个群体的群体行为。然而,随着内部噪声的增加,群体行为逐渐减弱,导致[[因果涌现]]降低。因为归一化MAE超过0.3的阈值时违反了式{{EquationNote|1}}中的约束,作者没有计算<math>\alpha>0.6 </math>的情况。图(e)显示了当内在噪声<math>\alpha=0.4 </math>时候的真实轨迹和预测。可以观察到,在早期可以预测直线趋势,但随着噪声引起的偏差逐渐增大,误差也随之增大,[[因果涌现]]降低。
    
综上可知,NIS+具有识别涌现集体行为和噪声对涌现集体行为的影响程度的能力。
 
综上可知,NIS+具有识别涌现集体行为和噪声对涌现集体行为的影响程度的能力。
   −
NIS+可以学习最优宏观动态和粗粒度策略,具有良好的泛化能力。学习到的宏观状态有效地识别了平均群体行为,并且可以使用IG方法将其归因于个体位置。此外,[[因果涌现|CE]]的程度随外在噪声的增加而增加,随内在噪声的增大而减少。这一观察结果表明,通过粗粒化可以消除外在噪声,而不能消除内在噪声。
+
NIS+可以学习最优宏观动态和粗粒度策略,具有良好的泛化能力。学习到的宏观状态有效地识别了平均群体行为,并且可以使用IG方法将其归因于个体之上。此外,[[因果涌现]]的程度随外在噪声的增加而增加,随内在噪声的增大而减少。这一观察结果表明,通过粗粒化可以消除外在噪声,而不能消除内在噪声。
    
=== 生命游戏模型数据 ===
 
=== 生命游戏模型数据 ===
786

个编辑

导航菜单