更改

跳到导航 跳到搜索
添加53字节 、 2024年8月5日 (星期一)
第219行: 第219行:  
<math>\max _{\phi_q, \hat{f}_q, \phi_q^{\dagger}, q} E I\left(f_{\phi_q}\right) \quad \text{s.t.}\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>
 
<math>\max _{\phi_q, \hat{f}_q, \phi_q^{\dagger}, q} E I\left(f_{\phi_q}\right) \quad \text{s.t.}\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>
   −
最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\phi}_q} </math>,然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段,第一个阶段表示在给定宏观尺度<math>q </math>的情况下<math>\min _{\phi_q, \hat{f}_q, \phi_q^{\dagger}}\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>,第二阶段将复杂的函数优化问题转换成线性搜索不同的<math>q </math>,使得找到有效信息最大的宏观尺度<math>\mathop{max}\limits_{q}EI(\hat{f}_{\phi_q}^\ast) </math> 。
+
最终希望得到有效的粗粒化维度<math>q </math>、粗粒化策略<math>\mathrm{\phi}_q </math>和宏观动力学<math>{\hat{f}}_{\mathrm{\phi}_q} </math>,然而由于该目标函数是一个[[泛函优化]]问题,往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段,第一个阶段表示在给定宏观尺度<math>q </math>的情况下<math>\min _{\phi_q, \hat{f}_q, \phi_q^{\dagger}}\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math>,第二阶段将复杂的函数优化问题转换成线性搜索不同的<math>q </math>,使得找到有效信息最大的宏观尺度<math>\mathop{max}\limits_{q}EI(\hat{f}_{\phi_q}^\ast) </math> 。
   −
除了能基于时序数据自动识别因果涌现,该框架还有很好的理论证明,其中有两个重要定理,定理一:神经信息挤压器的信息瓶颈,即对于任意的双射<math>\mathrm{\Psi}_\alpha </math>、投影<math>\chi_q </math>、宏观动力学<math>f </math>以及高斯噪音<math>z_{p-q}\simΝ\left (0,I_{p-q}\right ) </math>,<math>I\left(Y_t;Y_{t+1}\right)=I\left(X_t;{\hat{X}}_{t+1}\right) </math>恒成立,这意味着,编码器丢弃的所有信息实际上都是与预测无关的纯粹噪声;定理二:对于一个训练好的模型,<math>I\left(X_t;{\hat{X}}_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。因此,综合定理一和定理二,可以得到对于一个训练好的模型<math>I\left(Y_t;Y_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。
+
除了能基于时序数据自动识别因果涌现,该框架还有很好的理论证明,其中有两个重要定理,定理一:神经信息挤压器的[[信息瓶颈]],即对于任意的双射<math>\mathrm{\Psi}_\alpha </math>、投影<math>\chi_q </math>、宏观动力学<math>f </math>以及高斯噪音<math>z_{p-q}\simΝ\left (0,I_{p-q}\right ) </math>,<math>I\left(Y_t;Y_{t+1}\right)=I\left(X_t;{\hat{X}}_{t+1}\right) </math>恒成立,这意味着,编码器丢弃的所有信息实际上都是与预测无关的纯粹噪声;定理二:对于一个训练好的模型,<math>I\left(X_t;{\hat{X}}_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。因此,综合定理一和定理二,可以得到对于一个训练好的模型<math>I\left(Y_t;Y_{t+1}\right)\approx I\left(X_t;X_{t+1}\right) </math>。
   −
该工作的一个重要优点就是该框架能同时处理离散和连续动力学系统,通过将神经网络看作是给定输入条件下的高斯分布<math>p\left(Y| X\right) </math>,可以定义新的有效信息计算公式,公式如下见[[有效信息]]词条的前馈神经网络部分:
+
该工作的一个重要优点就是该框架能同时处理离散和连续动力学系统,通过将神经网络看作是给定输入条件下的[[高斯分布]]<math>p\left(Y| X\right) </math>,可以定义新的有效信息计算公式,公式如下见[[有效信息]]词条的[[前馈神经网络]]部分:
   −
[[NIS]]框架与前面章节中提到的计算力学存在很多相似之处,NIS可以被视为一种<math>\epsilon - machine </math>,所有历史过程构成的集合<math>\overleftarrow{S}</math>可以看作是微观状态,所有<math>R \in \mathcal{R} </math>表示宏观状态,函数<math>\eta </math>可以理解为一种粗粒化函数,<math>\epsilon </math>可以理解为一种有效的粗粒化策略,<math>T </math> 对应于有效的宏观动力学。最小随机性特征表征了宏观动力学的确定性,在因果涌现中可以用有效信息衡量。当整个框架训练足够充分的时候,可以精确地预测未来的微观状态时,编码的宏观状态收敛到有效状态,而有效状态可以被视为计算力学中的因果状态。
+
[[NIS]]框架与前面章节中提到的计算力学存在很多相似之处,NIS可以被视为一种<math>\epsilon - machine </math>,所有历史过程构成的集合<math>\overleftarrow{S}</math>可以看作是微观状态,所有<math>R \in \mathcal{R} </math>表示宏观状态,函数<math>\eta </math>可以理解为一种粗粒化函数,<math>\epsilon </math>可以理解为一种有效的粗粒化策略,<math>T </math> 对应于有效的宏观动力学。最小随机性特征表征了宏观动力学的确定性,在因果涌现中可以用[[有效信息]]衡量。当整个框架训练足够充分的时候,可以精确地预测未来的微观状态时,编码的宏观状态收敛到有效状态,而有效状态可以被视为计算力学中的[[因果态]]。
    
同时NIS方法与前面提到的G-emergence也有相似之处,例如,NIS同样采用了[[格兰杰因果关系|格兰杰因果]]的思想:通过预测下一个时间步的微观状态来优化有效的宏观状态。然而,这两个框架之间有几个明显的区别:a)在G-emergence理论中,宏观状态需要人工选择,然后NIS中是通过自动优化粗粒化策略来得到宏观状态;b)NIS使用神经网络来预测未来状态,而G-emergence使用自回归技术来拟合数据。
 
同时NIS方法与前面提到的G-emergence也有相似之处,例如,NIS同样采用了[[格兰杰因果关系|格兰杰因果]]的思想:通过预测下一个时间步的微观状态来优化有效的宏观状态。然而,这两个框架之间有几个明显的区别:a)在G-emergence理论中,宏观状态需要人工选择,然后NIS中是通过自动优化粗粒化策略来得到宏观状态;b)NIS使用神经网络来预测未来状态,而G-emergence使用自回归技术来拟合数据。
   −
作者在弹簧振子模型中进行了实验,如下图所示,图a展示下一时刻通过编码的结果与通过宏观动力学的迭代结果线性重合验证了模型的有效性,图b展示了学习到的两个动力学和真实的动力学同样线性重合,进一步验证了模型的有效性,图c是模型多步预测的效果,预测和真实的曲线很接近,图d展示了不同尺度下的因果涌现大小,发现在尺度为2时因果涌现最显著,对应了真实的弹簧振子模型也只需要两个状态(位置和速度)就可以描述整个系统。
+
作者在[[弹簧振子模型]]中进行了实验,如下图所示,图a展示下一时刻通过编码的结果与通过宏观动力学的迭代结果线性重合验证了模型的有效性,图b展示了学习到的两个动力学和真实的动力学同样线性重合,进一步验证了模型的有效性,图c是模型多步预测的效果,预测和真实的曲线很接近,图d展示了不同尺度下的因果涌现大小,发现在尺度为2时因果涌现最显著,对应了真实的弹簧振子模型也只需要两个状态(位置和速度)就可以描述整个系统。
 
[[文件:弹簧振子模型1.png|居中|400x400像素|替代=弹簧振子模型1|弹簧振子模型|缩略图]]
 
[[文件:弹簧振子模型1.png|居中|400x400像素|替代=弹簧振子模型1|弹簧振子模型|缩略图]]
   第251行: 第251行:     
[[文件:NIS+.png|居中|400x400像素|替代=NIS模型框架图|NIS+模型框架图|缩略图]]
 
[[文件:NIS+.png|居中|400x400像素|替代=NIS模型框架图|NIS+模型框架图|缩略图]]
文章对不同的动力学系统进行了实验,包括SIR动力学、Boids模型、生命游戏以及脑神经系统模型,这里我们选择鸟群和脑实验进行分析。
+
文章对不同的动力学系统进行了实验,包括[[SIR动力学]]、[[Boids模型]]、[[生命游戏]]以及[[脑神经系统]]模型,这里我们选择鸟群和脑实验进行分析。
   −
下图为NIS+学习Boids模型的群集行为的实验结果。(a)和(e)给出了不同条件下鸟群的实际和预测轨迹。具体来说,作者将鸟群分为两个组,并且比较了在不同内在噪声水平(<math>\alpha</math>分别为0.001和0.4)下的多步预测结果,在噪音比较小时预测很好,在噪音比较大时预测曲线会发散。(b)展示了多步预测的平均绝对误差(MAE)随着半径r的增加而逐渐上升。(c)展示了不同尺度(q)下的<math>\Delta J</math>与预测误差(MAE)随着训练epoch的变化,发现在q=8时因果涌现最显著。(d)为归因显著性图,直观地描述了每个宏观维度与每只鸟的空间坐标之间的关联。这里用橙色点突出了每个宏观状态维度中最重要值所对应的微观状态,这些值是使用模型的积分梯度(IG)方法确定的。横轴表示16个物体在微观状态下的x和y坐标,纵轴表示8个宏观维度。淡蓝色的虚线区分了不同个体的坐标,而蓝色实线分隔了两个鸟群。(f)和(g)表示不同噪声水平下<math>\Delta J</math>和归一化MAE的变化,(f)表示外部噪声的变化(即观测噪音加入到微观数据), (g)表示内在噪声(用<math>\alpha</math>表示,通过修改Boids模型的动力学加入)。在(f)和(g)中,水平线表示违反误差约束的阈值。当归一化MAE大于阈值0.3时,违反约束,结果不可靠。
+
下图为NIS+学习Boids模型的群集行为的实验结果。(a)和(e)给出了不同条件下鸟群的实际和预测轨迹。具体来说,作者将鸟群分为两个组,并且比较了在不同内在噪声水平(<math>\alpha</math>分别为0.001和0.4)下的多步预测结果,在噪音比较小时预测很好,在噪音比较大时预测曲线会发散。(b)展示了多步预测的平均绝对误差(MAE)随着半径r的增加而逐渐上升。(c)展示了不同尺度(q)下的<math>\Delta J</math>与预测误差(MAE)随着训练epoch的变化,发现在q=8时因果涌现最显著。(d)为归因显著性图,直观地描述了每个宏观维度与每只鸟的空间坐标之间的关联。这里用橙色点突出了每个宏观状态维度中最重要值所对应的微观状态,这些值是使用模型的[[积分梯度(IG)]]方法确定的。横轴表示16个物体在微观状态下的x和y坐标,纵轴表示8个宏观维度。淡蓝色的虚线区分了不同个体的坐标,而蓝色实线分隔了两个鸟群。(f)和(g)表示不同噪声水平下<math>\Delta J</math>和归一化MAE的变化,(f)表示外部噪声的变化(即观测噪音加入到微观数据), (g)表示内在噪声(用<math>\alpha</math>表示,通过修改Boids模型的动力学加入)。在(f)和(g)中,水平线表示违反误差约束的阈值。当归一化MAE大于阈值0.3时,违反约束,结果不可靠。
   −
NIS+可以通过最大化EI来学习宏观状态和粗粒化策略。这种最大化增强了模型对超出训练数据范围情况的泛化能力。学习到的宏观状态有效地识别了平均群体行为,并且可以使用IG方法将其归因于个体位置。此外,CE的程度随外在噪声的增加而增加,而随内在噪声的减少而减少。这一观察结果表明,通过粗粒化可以消除外在噪声,而内在噪声则不能。
+
[[NIS+]]可以通过最大化EI来学习宏观状态和粗粒化策略。这种最大化增强了模型对超出训练数据范围情况的泛化能力。学习到的宏观状态有效地识别了平均群体行为,并且可以使用IG方法将其归因于个体位置。此外,CE的程度随外在噪声的增加而增加,而随内在噪声的减少而减少。这一观察结果表明,通过粗粒化可以消除外在噪声,而内在噪声则不能。
    
[[文件:NIS+ boids.png|居中|400x400像素|缩略图|鸟群中的因果涌现]]
 
[[文件:NIS+ boids.png|居中|400x400像素|缩略图|鸟群中的因果涌现]]
   −
脑实验基于FMRI数据,选择人的静息态和看电影视觉任务,由于原始维度比较高,首先通过使用Schaefer atlas方法对原始的14000维数据降维到100个脑区,构建了6个尺度动力学,图a展示了不同尺度下的多步预测误差,图b展示了在静息态和看电影视觉任务中NIS与NIS+方法的对比,在视觉任务数据中发现scale=1时因果涌现最显著,通过归因分析发现视觉区发挥的作用最大(图c),与真实的场景保持一致,图d展示了脑区归因的不同视角图。
+
脑实验基于FMRI数据,选择人的静息态和看电影视觉任务,由于原始维度比较高,首先通过使用[[Schaefer atlas]]方法对原始的14000维数据降维到100个脑区,构建了6个尺度动力学,图a展示了不同尺度下的多步预测误差,图b展示了在静息态和看电影视觉任务中NIS与NIS+方法的对比,在视觉任务数据中发现scale=1时因果涌现最显著,通过归因分析发现视觉区发挥的作用最大(图c),与真实的场景保持一致,图d展示了脑区归因的不同视角图。
 
[[文件:NIS+ 脑数据.png|居中|400x400像素|缩略图|脑神经系统中的因果涌现]]
 
[[文件:NIS+ 脑数据.png|居中|400x400像素|缩略图|脑神经系统中的因果涌现]]
  
1,878

个编辑

导航菜单