更改

NIS+ (查看源代码)

2024年9月26日 (四) 21:52的版本

添加439字节、 2024年9月26日 (星期四)

无编辑摘要

第191行：第191行：

其中，<math>\boldsymbol{\xi}_1,\boldsymbol{\xi}_2 \sim \scriptsize{N}(0,\Sigma) </math>为相互独立的二维高斯噪声，<math>\Sigma </math>为相关矩阵。微观状态序列<math>\boldsymbol{x}_t = (\boldsymbol{S}'_t,\boldsymbol{I}'_t) </math>作为训练样本。作者在图(a)的三角形区域内采样，以此来随机选择初始条件，并使用上述过程生成时间序列数据，用以训练模型。

−

~~[[文件:Sir1.jpg|左|无框]]~~

−

+

[[文件:Sir1.jpg|替代=|无框]]

====NIS+识别[[因果涌现]]的能力====

首先，为了确保[[有效信息|EI]]被NIS+最大化，作者绘制相应图形，观察维度平均的[[有效信息]](J)在训练时期的演变。

−

~~[[文件:Sir1 - 副本.jpg|左|无框]]~~

−

+

[[文件:Sir1_-_副本.jpg|替代=|无框]]

结果表明（图(b)），NIS+(红色实线)、[[NIS]](黑色虚线)和VAE+(绿色实线)的曲线呈上升趋势，但NIS+的增长速度更快。这表明NIS+比其他模型更能有效地最大化J。值得注意的是，[[NIS]]也表现出EI的自然增长，因为它逐渐使预测误差最小化。

其次，为了检验NIS+检测和识别因果涌现的能力，图(e)展示了随着噪音的增大，因果涌现强度<math>\Delta\mathcal{J} </math>的变化趋势，并将其与[[Rosas的因果涌现度量]]<math>\Psi </math>指标进行了比较（为了让<math>\Psi </math>可计算，作者利用从NIS+中学习到的宏观状态来作为[math]\Psi[/math]计算中的宏观变量。结果用图(e)中的黑色和黄色实线表示。

−

~~[[文件:Sir1 - 副本 (3).jpg|左|无框]]~~

−

+

[[文件:Sir1_-_副本_(3).jpg|替代=|无框]]

结果表明（图(e)），当噪音水平<math>σ ＜0.01 </math>时，<math>\Delta\mathcal{J}>0 </math>始终保持不变，这表明，NIS+方法认为在低噪声水平[[因果涌现]]始终发生，而因为<math>\sigma=10^{-3} </math>后，<math>\Psi>0 </math>，这表明Rosas的方法认为因果涌现始终发生。NIS+的结果更合理，因为它可以从有噪声的数据中提取出类似于真实宏观机制的宏观动力学，并且这种确定性动力学应该比有噪声的微观动力学具有更大的EI。作者还分别绘制了宏观和微观动力学的EI曲线<math>J(f_M) </math>(红色虚线)和<math>J(f_m) </math>(绿色虚线)。这些曲线随着σ的增大而减小，但<math>J(f_m) </math>的减小速度更快，导致观测到[[因果涌现]]的发生。但是，当<math>\Psi<0 </math>时，因为Ψ只能为[[因果涌现]]提供充分条件，作者不能做出明确的判断。这两个指标在<math>\sigma=10^{-2} </math>处达到峰值，这与作者模拟中使用的时间步长（<math>dt=0.01 </math>）的大小相对应，反映了微观状态的变化水平。另一方面，如果噪声过大，有限的观测数据将使NIS+难以从数据中准确识别正确的宏观动力学。因此，[[因果涌现|CE]]的程度降至零。虽然NIS+判定<math>σ ＞ 10 </math>时不存在[[因果涌现]]，但这一结果并不可靠，因为<math>\sigma=10^{-2} </math>后的归一化预测误差已经超过了所选阈值0.3(垂直虚线和虚线)。

第237行：第213行：

在单独的测试数据集上预测多个时间步（10步）的未来状态，以比较NIS+与其他模型的预测未来状态的能力。之后，以图(a)中带点区域为训练数据集，即<math>\frac{1}{3} ≤ S ≤ 1 </math>的部分。以图(a)中整个蓝色三角形为测试数据集，即<math>0 ≤ S ≤ 1 </math>的部分。这样训练NIS+的时候不会用到<math>0 ≤ S ≤ \frac{1}{3} </math>的数据，但是测试NIS+的时候会用到<math>0 ≤ S ≤ \frac{1}{3} </math>的数据，可以通过测试<math>0 ≤ S ≤ \frac{1}{3} </math>的数据的误差大小来比较各个模型的泛化能力。

−

~~[[文件:Sir1 - 副本 (4).jpg|左|无框]]~~

−

+

[[文件:Sir1_-_副本_(4).jpg|替代=|无框]]

结果表明（图(d)），NIS+和[[NIS]]在整体数据集上（绿色条）表现优于其他模型（NN、NN+、VAE、VAE+）。这说明在编码器和解码器中使用[[可逆神经网络]]会更好。NIS+的分布外泛化能力优于其他模型，在部分数据集上，不同模型之间的差异较大。

第252行：第221行：

将真实的[[SIR]]动力学的向量场（<math>d\boldsymbol{y}/dt </math>）（红色）、基于编码器的雅可比矩阵得到的理论向量（蓝色）与通过模型学习到的宏观动态的向量（<math>d(h_1,h_2)/dt </math>）（绿色）进行比较。

−

~~[[文件:Sir1 - 副本 (5).jpg|左|无框]]~~

−

+

[[文件:Sir1_-_副本_(5).jpg|替代=|无框]]

结果表明（图(c)表示NIS+，图(f)表示[[NIS]]），学习到的向量与真实向量对齐及理论向量（用雅可比矩阵计算）对齐。NIS+明显优于[[NIS]]，尤其是在没有训练样本的外围区域。

第278行：第240行：

其中<math>(x_i^t,y_i^t) </math>是第i只鸟在t时刻的位置坐标，<math>(v_{x,i}^t,v_{y,i}^t) </math>是i在时刻t的速度向量，其中<math>i=1,2,\dots,16 </math>。

−

[[文件:~~Boids1~~.png~~|替代=~~|无框~~|800x800像素~~]]

+

[[文件:B-a.png|无框]]

====NIS+识别[[因果涌现]]的能力====

第285行：第247行：

在不同宏观态维度超参下，结果表明（图(a)），[[因果涌现]]在q = 8时达到最大值，如图(c)所示，这与作者选择超参数q = 8（宏观变量的维度）相符，这刚好对应两组鸟的中心代表点的状态空间维数（两个空间坐标和两个时间坐标，一共两组，所以共有8个维度）。

+

[[文件:Boids1 - 副本 (6).png|无框]]

====NIS+粗粒化策略的可解释性====

第290行：第254行：

作者利用积分梯度(IG)<ref name=":6">Sundararajan M, Taly A and Yan Q. Axiomatic attribution for deep networks. Proceedings of the 34th International Conference on Machine Learning, Sydney, 6-11 August

−

2017.</ref>来识别每个学到的涌现宏观状态维度中最重要的微观状态，将计算的IG归一化，并在每个宏观状态中提高微观状态的最大梯度，并且忽略每只鸟的速度维度（与宏观状态的相关性较低）。最后，作者将归一化的IG绘制成图d，用以描述每个宏观维度（纵轴）和每只鸟空间坐标（横轴）之间的关系，并用橙色点表示每个宏观状态中最重要的微观状态。

+

2017.</ref>来识别每个学到的涌现宏观状态维度中最重要的微观状态，将计算的IG归一化，并在每个宏观状态中提高微观状态的最大梯度，并且忽略每只鸟的速度维度（与宏观状态的相关性较低）。最后，作者将归一化的IG绘制成图(d)，用以描述每个宏观维度（纵轴）和每只鸟空间坐标（横轴）之间的关系，并用橙色点表示每个宏观状态中最重要的微观状态。

+

[[文件:Boids1 - 副本 (5).png|无框|500x500像素]]

结果表明（图(d)），宏观状态的第1、2、5、6维分别对应第一组中的ID（ID<8）（图(d)中group 1 的橙色点在第1行、第2行、第5行、第6行），第3、4、7、8维对应第二组中的ID（ID>=8）（图(d)中group 2 的橙色点在第3行、第4行、第7行、第8行）。因此，学习到的粗粒化策略使用两个位置坐标来表示所有其他信息，形成一个维度的宏观状态。NIS+学习出来的维度并不能刚好对应每个组中心的位置和速度，而是与特定鸟的位置有关（图d）。作者推测这只鸟实际上被NIS+选定为这群鸟的代表，观察这只鸟的情况可以预测这群鸟的整体运动趋势。NIS+并没有利用任何的速度数据，而仅仅使用了位置数据，作者认为这是因为NIS+可以通过额外的自由度来表示速度，因为通过两个连续时刻之间的位置差计算出速度。因此，NIS+仍然需要八个自由度来描述两组鸟的宏观状态。

第297行：第263行：

为了比较不同模型在分布外数据上的泛化能力，作者在生成训练数据的仿真过程中，令所有鸟的初始位置被约束在一个半径为r的圆内，如图(a)所示。作者评估当测试数据的初始位置取值是在半径更大的圆上的时候，模型的测试误差如何随半径变化？

+

[[文件:Bb.png|无框]]

结果表明（图(b)），NIS+和[[NIS]]的MAE值都随半径r的增加而增加，而预测误差MAE越小，泛化能力越好。而且与[[NIS]]相比，NIS+在所有测试半径r上误差更小，因此它具有更优越的泛化能力。

第303行：第271行：

通过在每个时间步长为每只鸟增加随机转角，引入内在噪声(Intrinsic Noise)。这些角度均匀分布在区间<math>\alpha\cdot [-\pi,\pi] </math>内，其中<math>\alpha\in[0,1] </math>是控制内在噪声强度大小的参数。另一方面，外部噪声（Extrinsic Noise，或Observational Noise）是指影响观测数据的噪声，在Boid模型中，即是加到微观状态上的噪声，也就是最终的观测数据是对每一个时刻的微观态都加上外部或观测噪声<math>\delta\sim \mathcal{N}(0,\delta_{max}) </math>，其中，<math>\delta_{max} </math>是决定该噪声大小的参数。

+

[[文件:Boids1 - 副本 (3).png|无框]][[文件:Boids1 - 副本 (2).png|无框]]

结果表明（图(f)和图(g)），在这两种情况下，归一化MAE都增加了，这表明随着内在和外在噪声的增加，预测任务更具挑战性。然而，这两种类型的噪声之间的差异可以通过检查因果涌现(<math>\Delta\mathcal{J}>0 </math>)的程度来观察。从图(f)可以看出，<math>\Delta\mathcal{J}>0 </math>随外部噪声(<math>\delta_{max} </math>)的增大而增大，说明粗粒化策略可以在一定范围内减轻噪声影响，增强[[因果效应]]的效果。<math>\delta_{max}<0.1 </math>时，归一化MAE小于0.3(黑色虚线)，满足式{{EquationNote|1}}的约束。在这种情况下，[[因果涌现]]的程度随着<math>\delta_{max} </math>的增大而增大。然而，当超过0.3的阈值时，即使<math>\Delta\mathcal{J}>0 </math>减小，原则上我们也无法得出有意义的结论（违反了式{{EquationNote|1}}中的约束），结果的可靠性就会降低。从图(g)可以看出，<math>\Delta\mathcal{J}>0 </math>随着内部噪声(α)水平的增加而减小。这是由于宏观层面的动力学学习器试图在这一阶段捕捉每个群体的群体行为。然而，随着内部噪声的增加，群体行为逐渐减弱，导致[[因果涌现]]降低。因为归一化MAE超过0.3的阈值时违反了式{{EquationNote|1}}中的约束。图(e)显示了当内在噪声<math>\alpha=0.4 </math>时候的真实轨迹和预测。可以观察到，在早期可以预测直线趋势，但随着噪声引起的偏差逐渐增大，误差也随之增大，[[因果涌现]]降低。

+

[[文件:Boids1 - 副本 (4).png|无框]]

综上可知，NIS+具有识别涌现集体行为和噪声对涌现集体行为的影响程度的能力。

第313行：第285行：

康威的生命游戏是一个著名的二维元胞自动机模型，在这个模型上出现了滑翔机、正方形、花朵、信号灯、蜂窝、交通灯等各种有趣的动态模式。与[[SIR]]模型和[[鸟群算法|Boids模型]]不同的是，在规则网格上，生命游戏模型在每个时间步长的微观状态是离散的（0或1）。此外，微观动力学不能用微分方程或差分方程来表示，而是用规则表来表示。

−

~~[[文件:Gamelife.png|替代=|无框|800x800像素]]~~

====NIS+的拓展====

为了使用此数据，作者在空间和时间维度上对元胞自动机的微观状态进行粗粒化处理。为此，作者引入了时空卷积的概念。

+

[[文件:Gamelife - 副本.png|无框]]

作者使用的体系结构如图(e)所示。整个粗粒化过程可分为两个步骤：①在固定大小的窗口（本文为3x3窗口）内聚合信息，获得空间粗粒化结果；②将这些结果在多个连续的时间步长上聚合，形成一个时空粗粒化的宏观状态。所有这些过程都是通过NIS+中的并行编码器实现的。

第324行：第296行：

====NIS+捕获模式的能力====

−

作者使用随机初始条件下模拟生成的数据来训练NIS+，并提取从第100步到第120步的状态时间序列。图(a)、(b)和(c)显示了由真实宏观机制模拟(第一行)和NIS+预测(第三行)生成的动态模式，以及可以进行这些预测的涌现宏观状态(第二行)。作者将两个连续时间步长的图像输入到NIS+中，再用两个连续时间步长得到另一个图像对。把上面的图片和下面的图片比较一下，图案是相似的。然而，由于在随机初始条件下具有某些模式的训练样本出现有限，第三列的学习和预测模式有些（特别是“滑翔机”模式）显得模糊。为了提高预测的质量，作者生成一组包含两个“滑翔机”初始条件的新训练样本。结果如图(d)所示，尽管这个测试环境中的滑翔机数量是3个，预测也更加清晰。这意味着，NIS+可以捕获包括移动、静态和振荡结构在内的模式。

+

作者使用随机初始条件下模拟生成的数据来训练NIS+，并提取从第100步到第120步的状态时间序列。图(a)、(b)和(c)显示了由真实宏观机制模拟(第一行)和NIS+预测(第三行)生成的动态模式，以及可以进行这些预测的涌现宏观状态(第二行)。作者将两个连续时间步长的图像输入到NIS+中，再用两个连续时间步长得到另一个图像对。把上面的图片和下面的图片比较一下，图案是相似的。然而，由于在随机初始条件下具有某些模式的训练样本出现有限，第三列的学习和预测模式有些（特别是“滑翔机”模式）显得模糊。为了提高预测的质量，作者生成一组包含两个“滑翔机”初始条件的新训练样本。

+

[[文件:Gamelifec.png|无框|700x700像素]]

+

结果如图(d)所示，尽管这个测试环境中的滑翔机数量是3个，预测也更加清晰。这意味着，NIS+可以捕获包括移动、静态和振荡结构在内的模式。

====NIS+的泛化能力====

作者比较了在不同于初始随机模式下，[[NIS]]和NIS+对8种不同模式类型的多步预测性能。

+

[[文件:Gamelife - 副本 (2).png|无框]]

结果表明（图(f)），对于所有模式类型，NIS+始终比[[NIS]]具有更高的AUC(曲线下面积)。其中，在x坐标的刻度标签中，作者采用“模式名称(数量)”的格式来表示各种初始条件。例如，“滑翔机(2)”表示包含两个滑翔机的初始配置。结果表明，NIS+在捕获这些模式方面具有优越的泛化能力。

第335行：第313行：

在比较过程中，作者使用相同的模式作为初始条件。

+

[[文件:Gamelife (1).png|无框]]

结果表明（图(g)），除“随机”情况外，其余8例均发生[[因果涌现]]。由于出现“滑翔机”的训练样本有限，NIS+在此部分训练不充分，故“滑翔机”型预测不良，[[因果涌现]]（[math]\Delta\mathcal{J}[/math]）程度最低（见图(c)）。其余7种模式的<math>\Delta\mathcal{J} </math>值相似。这些结果表明，<math>\Delta\mathcal{J} </math>提供了[[因果涌现]]发生的更合理的指示。但是，对于Ψ，所有情况产生的值都小于或等于0，这可能是因为此系统是一个高维的复杂系统，冗余信息更多，而Ψ的近似忽略了许多冗余信息，使得Ψ无法确定[[因果涌现]]是否发生。因此，本文提出的<math>\Delta\mathcal{J} </math>是一种较好的鉴别[[因果涌现]]的方法。

第341行：第321行：

作者在830名受试者(AOMIC ID1000)的大脑fMRI真实时间序列数据上测试了NIS+<ref name=":7">Snoek L, Miesen M and Beemsterboer T et al. The amsterdam open mri collection, a set of multimodal mri datasets for individual difference analyses. Sci Data 2021; 8: 03.</ref>。fMRI扫描数据是在受试者观看同一段电影时收集的，这对应于具有不同初始条件的相同动力学的时间序列。采样率（重复时间）为：ID1000为2.2s，PIOP2为2s。作者通过Schaefer atlas方法对原始数据进行预处理<ref name=":11">Schaefer A, Kong R and Gordon E-M et al. Local-Global Parcellation of the Human Cerebral Cortex from Intrinsic Functional Connectivity MRI. Cereb Cortex 2017; 28:3095–3114.</ref>，将每个受试者的时间序列维数从大约140,000（不同受试者的维数不同）降至100，使NIS+能够运行并获得更清晰的结果。然后，选取前800个时间序列数据进行训练，剩下的30个时间序列进行测试。作者还将结果与另一个fMRI数据集AOMIC PIOP2<ref name=":7" />进行了比较，其中50名受试者处于静息状态。

−

~~[[文件:NIS+_brain.jpg|替代=|无框|650x650像素]]~~

====对微观状态的预测能力====

+

[[文件:NIS+ brainf.jpg|无框]][[文件:NIS+ brain - 副本.jpg|无框]]

结果表明（图(a)），当q = 27和q = 1时，NIS+的预测效果更好。具体来说，随着预测步骤的增加，与q = 1的曲线相比，q = 27的曲线显示出较慢的增长率。这表明选择超参数q为27可能比1更合适。

第353行：第332行：

====尝试研究粗粒化如何将输入数据转化为一维宏观状态====

+

[[文件:NIS+ brain - 副本 (3).jpg|无框]][[文件:NIS+ brain - 副本 (2).jpg|无框]]

作者利用归因分析技术，追踪这一个维度的宏观态数据到底和哪些原始数据维度有关（图(c)），并把归因分析的强度值分配到这100个原始微观态维度所对应的脑区。结果如图(d)所示，可以看出，颜色较深的区域大多都是负责视觉信号加工的脑区。

念

237

个编辑

更改

NIS+ (查看源代码)

2024年9月26日 (四) 21:52的版本

导航菜单

搜索