第426行: |
第426行: |
| | | |
| 所谓的因果涌现识别问题是指这样的一个泛函优化问题: | | 所谓的因果涌现识别问题是指这样的一个泛函优化问题: |
| + | |
| | | |
| {{NumBlk|:| | | {{NumBlk|:| |
第432行: |
第433行: |
| </math> | | </math> |
| |{{EquationRef|2}}}} | | |{{EquationRef|2}}}} |
| + | |
| | | |
| 这里,[math]\mathcal{J}[/math] 为维度平均的 <math>EI</math>(参见[[有效信息]]词条),<math>\mathrm{\phi} </math> 为粗粒化策略函数,<math>f_{q} </math> 为宏观动力学,<math>q </math> 为粗粒化后的宏观态维度,[math]\hat{X}_{t+1}[/math] 是整个框架对 <math>t+1</math> 时刻的微观态的预测,这一预测是将 <math>t+1</math> 时刻的宏观态预测 [math]\hat{Y}_{t+1}[/math] 进行反粗粒化操作([math]\phi^{\dagger}[/math] 为反粗粒化函数)得到;这里 [math]\hat{Y}_{t+1}\equiv f_q(Y_t)[/math] 为动力学学习器根据 <math>t</math> 时刻的宏观态 [math]Y_t[/math] 对 <math>t+1</math> 时刻宏观态的预测,其中 [math]Y_t\equiv \phi(X_t)[/math] 为 <math>t</math> 时刻的宏观态,它是对 [math]X_t[/math] 进行粗粒化 [math]\phi[/math] 而得来。最后,将 [math]\hat{X}_{t+1}[/math] 与真实的微观态数据 [math]X_{t+1}[/math] 进行求差比较,即得到微观的预测误差。 | | 这里,[math]\mathcal{J}[/math] 为维度平均的 <math>EI</math>(参见[[有效信息]]词条),<math>\mathrm{\phi} </math> 为粗粒化策略函数,<math>f_{q} </math> 为宏观动力学,<math>q </math> 为粗粒化后的宏观态维度,[math]\hat{X}_{t+1}[/math] 是整个框架对 <math>t+1</math> 时刻的微观态的预测,这一预测是将 <math>t+1</math> 时刻的宏观态预测 [math]\hat{Y}_{t+1}[/math] 进行反粗粒化操作([math]\phi^{\dagger}[/math] 为反粗粒化函数)得到;这里 [math]\hat{Y}_{t+1}\equiv f_q(Y_t)[/math] 为动力学学习器根据 <math>t</math> 时刻的宏观态 [math]Y_t[/math] 对 <math>t+1</math> 时刻宏观态的预测,其中 [math]Y_t\equiv \phi(X_t)[/math] 为 <math>t</math> 时刻的宏观态,它是对 [math]X_t[/math] 进行粗粒化 [math]\phi[/math] 而得来。最后,将 [math]\hat{X}_{t+1}[/math] 与真实的微观态数据 [math]X_{t+1}[/math] 进行求差比较,即得到微观的预测误差。 |
第437行: |
第439行: |
| | | |
| 整个优化框架如下图所示: | | 整个优化框架如下图所示: |
| + | |
| | | |
| [[文件:NIS_Optimization.png|替代=NIS优化框架|居左|400x400像素|NIS优化框架]] | | [[文件:NIS_Optimization.png|替代=NIS优化框架|居左|400x400像素|NIS优化框架]] |
| + | |
| | | |
| 这一优化问题的目标函数为 <math>EI</math>,它是函数 [math]\phi,\hat{f}_q,\phi^{\dagger}[/math] 的泛函(这里宏观维度 [math]q[/math] 是超参),因此较难优化,我们需要使用机器学习的方法来尝试解决。 | | 这一优化问题的目标函数为 <math>EI</math>,它是函数 [math]\phi,\hat{f}_q,\phi^{\dagger}[/math] 的泛函(这里宏观维度 [math]q[/math] 是超参),因此较难优化,我们需要使用机器学习的方法来尝试解决。 |
第445行: |
第449行: |
| =====NIS===== | | =====NIS===== |
| 为了识别系统中的因果涌现,作者提出一种[[神经信息压缩器]](Neural Information Squeezer,NIS)神经网络架构<ref name="NIS" />,该架构基于一种编码器-动力学学习器-解码器框架,即模型由三个部分构成,分别用于对原始数据进行粗粒化得到宏观态、拟合宏观动力学和反粗粒化运算(将宏观态配合随机噪声解码为微观态)。其中,作者们用[[可逆神经网络]](INN)构建编码器(Encoder)和解码器(Decoder),分别近似对应粗粒化函数[math]\phi[/math]和反粗粒化函数 [math]\phi^{\dagger}[/math]。之所以采用[[可逆神经网络]]是因为我们可以简单倒置该网络就可以得到反粗粒化函数(即 [math]\phi^{\dagger}\approx \phi^{-1}[/math])。该模型框架可以看成是一个神经信息压缩器,将包含噪音的微观态数据置入一个狭窄的信息通道,压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强,之后再解码成微观状态的预测。NIS方法的模型框架如下图所示: | | 为了识别系统中的因果涌现,作者提出一种[[神经信息压缩器]](Neural Information Squeezer,NIS)神经网络架构<ref name="NIS" />,该架构基于一种编码器-动力学学习器-解码器框架,即模型由三个部分构成,分别用于对原始数据进行粗粒化得到宏观态、拟合宏观动力学和反粗粒化运算(将宏观态配合随机噪声解码为微观态)。其中,作者们用[[可逆神经网络]](INN)构建编码器(Encoder)和解码器(Decoder),分别近似对应粗粒化函数[math]\phi[/math]和反粗粒化函数 [math]\phi^{\dagger}[/math]。之所以采用[[可逆神经网络]]是因为我们可以简单倒置该网络就可以得到反粗粒化函数(即 [math]\phi^{\dagger}\approx \phi^{-1}[/math])。该模型框架可以看成是一个神经信息压缩器,将包含噪音的微观态数据置入一个狭窄的信息通道,压缩成宏观态,丢弃无用的信息,从而使得宏观动力学的因果性更强,之后再解码成微观状态的预测。NIS方法的模型框架如下图所示: |
| + | |
| | | |
| [[文件:NIS模型框架图.png|居左|500x500像素|替代=NIS模型框架图|NIS模型框架图]] | | [[文件:NIS模型框架图.png|居左|500x500像素|替代=NIS模型框架图|NIS模型框架图]] |
| + | |
| | | |
| 具体的,编码器函数 [math]\phi[/math] 由两部分构成: | | 具体的,编码器函数 [math]\phi[/math] 由两部分构成: |
| + | |
| | | |
| <math> | | <math> |
| \phi\equiv \chi\circ\psi | | \phi\equiv \chi\circ\psi |
| </math> | | </math> |
| + | |
| | | |
| 其中 [math]\psi[/math] 为一个可逆函数,由一个[[可逆神经网络]]来实现,[math]\chi[/math] 为[[投影函数]],即去除 [math]p[/math] 维向量中的后 [math]p-q[/math] 个维度分量,这里 [math]p,q[/math] 分别为微观态和宏观态的维度。[math]\circ[/math] 为函数的合成操作。 | | 其中 [math]\psi[/math] 为一个可逆函数,由一个[[可逆神经网络]]来实现,[math]\chi[/math] 为[[投影函数]],即去除 [math]p[/math] 维向量中的后 [math]p-q[/math] 个维度分量,这里 [math]p,q[/math] 分别为微观态和宏观态的维度。[math]\circ[/math] 为函数的合成操作。 |
第458行: |
第466行: |
| | | |
| 解码器为函数 [math]\phi^{\dagger}[/math],它定义为: | | 解码器为函数 [math]\phi^{\dagger}[/math],它定义为: |
| + | |
| | | |
| <math> | | <math> |
| \phi^{\dagger}(y)\equiv \psi^{-1}(y\bigoplus z) | | \phi^{\dagger}(y)\equiv \psi^{-1}(y\bigoplus z) |
| </math> | | </math> |
| + | |
| | | |
| 这里 [math]z\sim\mathcal{Ν}\left (0,I_{p-q}\right )[/math] 为一个 [math]p-q[/math] 维随机向量,服从标准正态分布。 | | 这里 [math]z\sim\mathcal{Ν}\left (0,I_{p-q}\right )[/math] 为一个 [math]p-q[/math] 维随机向量,服从标准正态分布。 |
| | | |
| | | |
− | 然而,如果我们直接优化维度平均的[[有效信息]]会存在着一定的困难,文章<ref name="NIS" />并没有直接优化公式{{EquationNote|1}},而是采用了一种取巧的方法。为了解决这个问题,作者将优化过程分为两个阶段,第一个阶段为在给定宏观尺度 <math>q </math> 的情况下最小化微观态预测误差,即 <math>\min _{\phi, f_q, \phi^{\dagger}}\left\|\phi^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math> 并得到最优的宏观态动力学 [math]f_q^\ast[/math];第二阶段为搜索超参 <math>q </math>,使得有效信息 [math]\mathcal{J}[/math] 能够最大化,即 <math>\max_{q}\mathcal{J}(f_{q}^\ast) </math> 。实践证明,这种方法可以有效地找到宏观动力学和粗粒化函数,但是并不能真正地事先EI最大化。 | + | 然而,如果我们直接优化维度平均的[[有效信息]]会存在着一定的困难,文章<ref name="NIS" />并没有直接优化公式{{EquationNote|1}},而是采用了一种取巧的方法。为了解决这个问题,作者将优化过程分为两个阶段,第一个阶段为在给定宏观尺度 <math>q </math> 的情况下最小化微观态预测误差,即 <math>\min _{\phi, f_q, \phi^{\dagger}}\left\|\phi^{\dagger}(Y(t+1))-X_{t+1}\right\|<\epsilon </math> 并得到最优的宏观态动力学 [math]f_q^\ast[/math];第二阶段为搜索超参 <math>q </math>,使得有效信息 [math]\mathcal{J}[/math] 能够最大化,即 <math>\max_{q}\mathcal{J}(f_{q}^\ast) </math> 。实践证明,这种方法可以有效地找到宏观动力学和粗粒化函数,但是并不能真正地事先使 EI 最大化。 |
| | | |
| | | |
第473行: |
第483行: |
| | | |
| '''定理一''':神经信息挤压器的[[信息瓶颈]],即对于任意的双射 <math>\mathrm{\psi} </math>、投影 <math>\chi </math>、宏观动力学 <math>f </math>以及高斯噪音 <math>z_{p-q}\sim\mathcal{Ν}\left (0,I_{p-q}\right ) </math>, | | '''定理一''':神经信息挤压器的[[信息瓶颈]],即对于任意的双射 <math>\mathrm{\psi} </math>、投影 <math>\chi </math>、宏观动力学 <math>f </math>以及高斯噪音 <math>z_{p-q}\sim\mathcal{Ν}\left (0,I_{p-q}\right ) </math>, |
| + | |
| | | |
| <math> | | <math> |
| I\left(Y_t;Y_{t+1}\right)=I\left(X_t;{\hat{X}}_{t+1}\right) | | I\left(Y_t;Y_{t+1}\right)=I\left(X_t;{\hat{X}}_{t+1}\right) |
| </math> | | </math> |
| + | |
| | | |
| 恒成立,这意味着,编码器丢弃的所有信息实际上都是与预测无关的噪声信息。 | | 恒成立,这意味着,编码器丢弃的所有信息实际上都是与预测无关的噪声信息。 |
第489行: |
第501行: |
| | | |
| ======与经典理论的比较====== | | ======与经典理论的比较====== |
− | [[NIS]]框架与前面章节中提到的[[计算力学]]框架存在很多相似之处,NIS可以被视为一种<math>\epsilon</math>- machine 。[[计算力学]]中的所有历史过程构成的集合<math>\overleftarrow{S}</math>可以被看作是微观状态,所有<math>R \in \mathcal{R} </math>表示宏观状态,函数<math>\eta </math>可以理解为一种粗粒化函数,<math>\epsilon </math>可以理解为一种有效的粗粒化策略,<math>T</math> 对应于有效的宏观动力学。最小随机性指标特征表征了宏观动力学的确定性,在因果涌现中可以用[[有效信息]]替代。当整个框架训练充分的时候,可以精确地预测未来的微观状态时,编码的宏观状态收敛到有效状态,而有效状态可以被视为计算力学中的[[因果态]]。 | + | [[NIS]]框架与前面章节中提到的[[计算力学]]框架存在很多相似之处,NIS 可以被视为一种 <math>\epsilon</math>- machine。[[计算力学]]中的所有历史过程构成的集合 <math>\overleftarrow{S}</math> 可以被看作是微观状态,所有 <math>R \in \mathcal{R} </math> 表示宏观状态,函数 <math>\eta </math> 可以理解为一种粗粒化函数,<math>\epsilon </math> 可以理解为一种有效的粗粒化策略,<math>T</math> 对应于有效的宏观动力学。最小随机性指标特征表征了宏观动力学的确定性,在因果涌现中可以用[[有效信息]]替代。当整个框架训练充分的时候,可以精确地预测未来的微观状态时,编码的宏观状态收敛到有效状态,而有效状态可以被视为计算力学中的[[因果态]]。 |
| + | |
| + | |
| + | 同时[[NIS]]框架与前面提到的 G-emergence 理论也有相似之处,例如,[[NIS]]同样采用了[[格兰杰因果关系|格兰杰因果]]的思想:通过预测下一个时间步的微观状态来优化有效的宏观状态。然而,这两个框架之间有几个明显的区别:a)在 G-emergence 理论中,宏观状态需要人工选择,而[[NIS]]则是通过自动优化粗粒化策略来得到宏观状态的;b)NIS使用神经网络来预测未来状态,而 G-emergence 使用自回归技术来拟合数据。 |
| | | |
− | 同时[[NIS]]框架与前面提到的G-emergence理论也有相似之处,例如,[[NIS]]同样采用了[[格兰杰因果关系|格兰杰因果]]的思想:通过预测下一个时间步的微观状态来优化有效的宏观状态。然而,这两个框架之间有几个明显的区别:a)在G-emergence理论中,宏观状态需要人工选择,而[[NIS]]则是通过自动优化粗粒化策略来得到宏观状态的;b)NIS使用神经网络来预测未来状态,而G-emergence使用自回归技术来拟合数据。
| |
| | | |
| ======计算实例====== | | ======计算实例====== |
| + | NIS 作者在[[弹簧振子模型]]中进行了实验,结果如下图所示,图a展示下一时刻通过编码的结果与通过宏观动力学的迭代结果线性重合验证了模型的有效性,图 b 展示了学习到的两个动力学和真实的动力学同样重合,进一步验证了模型的有效性,图 c 是模型多步预测的效果,预测和真实的曲线很接近,图 d 展示了不同尺度下的因果涌现大小,发现在尺度为2时因果涌现最显著,对应了真实的弹簧振子模型也只需要两个状态(位置和速度)就可以描述整个系统。 |
| | | |
− | NIS作者在[[弹簧振子模型]]中进行了实验,结果如下图所示,图a展示下一时刻通过编码的结果与通过宏观动力学的迭代结果线性重合验证了模型的有效性,图b展示了学习到的两个动力学和真实的动力学同样重合,进一步验证了模型的有效性,图c是模型多步预测的效果,预测和真实的曲线很接近,图d展示了不同尺度下的因果涌现大小,发现在尺度为2时因果涌现最显著,对应了真实的弹簧振子模型也只需要两个状态(位置和速度)就可以描述整个系统。
| |
| | | |
| [[文件:弹簧振子模型1.png|居左|600x600像素|替代=弹簧振子模型1|弹簧振子模型]] | | [[文件:弹簧振子模型1.png|居左|600x600像素|替代=弹簧振子模型1|弹簧振子模型]] |
| + | |
| | | |
| =====NIS+===== | | =====NIS+===== |
| + | NIS 虽然率先提出了对 EI 进行优化,从而在数据中辨识因果涌现的方案,但是该方法存在一些不足:作者将优化过程分为两个阶段,但是并没有真正的最大化有效信息,即公式{{EquationNote|1}}。因此,[[杨明哲]]等人<ref name=":6" />进一步改进该方法,提出了 [[NIS+]] 方案,通过引入反向动力学以及[[重加权技术]]借助[[变分不等式]]将原始的最大化有效信息转换成最大化其变分下界来直接优化目标函数。 |
| | | |
− | NIS虽然率先提出了对EI进行优化,从而在数据中辨识因果涌现的方案,但是该方法存在一些不足:作者将优化过程分为两个阶段,但是并没有真正的最大化有效信息,即公式{{EquationNote|1}}。因此,[[杨明哲]]等人<ref name=":6" />进一步改进该方法,提出了[[NIS+]]方案,通过引入反向动力学以及[[重加权技术]]借助[[变分不等式]]将原始的最大化有效信息转换成最大化其变分下界来直接优化目标函数。
| |
| | | |
| ======数学原理====== | | ======数学原理====== |
| + | 具体地,根据变分不等式和[[逆概率加权]]方法,公式{{EquationNote|2}}所给出的带约束的优化问题可以转变为如下不带约束的最小化问题: |
| | | |
− | 具体地,根据变分不等式和[[逆概率加权]]方法,公式{{EquationNote|2}}所给出的带约束的优化问题可以转变为如下不带约束的最小化问题:
| |
| | | |
| <math>\min_{\omega,\theta,\theta'} \sum_{i=0}^{T-1}w(\boldsymbol{x}_t)||\boldsymbol{y}_t-g_{\theta'}(\boldsymbol{y}_{t+1})||+\lambda|| \hat{\boldsymbol{x}}_{t+1}-\boldsymbol{x}_{t+1} ||</math> | | <math>\min_{\omega,\theta,\theta'} \sum_{i=0}^{T-1}w(\boldsymbol{x}_t)||\boldsymbol{y}_t-g_{\theta'}(\boldsymbol{y}_{t+1})||+\lambda|| \hat{\boldsymbol{x}}_{t+1}-\boldsymbol{x}_{t+1} ||</math> |
| | | |
− | 其中<math>g</math>是反向动力学,它可以通过神经网络来近似,并通过宏观态的数据对[math]y_{t+1},y_{t}[/math]训练得到。<math>w(x_t)</math>为逆概率权值,具体计算方式如下所示: | + | |
| + | 其中 <math>g</math> 是反向动力学,它可以通过神经网络来近似,并通过宏观态的数据对[math]y_{t+1},y_{t}[/math]训练得到。<math>w(x_t)</math> 为逆概率权值,具体计算方式如下所示: |
| + | |
| | | |
| <math> | | <math> |
第515行: |
第532行: |
| </math> | | </math> |
| | | |
− | 其中<math>\tilde{p}(\boldsymbol{y}_{t})</math>是目标分布,<math>p(\boldsymbol{y}_{t})</math>是数据的原始分布。 | + | |
| + | 其中 <math>\tilde{p}(\boldsymbol{y}_{t})</math> 是目标分布,<math>p(\boldsymbol{y}_{t})</math> 是数据的原始分布。 |
| + | |
| | | |
| ======工作流与模型架构====== | | ======工作流与模型架构====== |
| + | 下图展示了 NIS+ 的整个模型框架,图 a 是模型的输入:时间序列数据,可以是轨迹序列、连续图像序列以及脑电时间序列数据等;图c是模型的输出,包括因果涌现的程度、宏观动力学、涌现模式以及粗粒化策略;图b是具体的模型架构,区别于 NIS 方法,增加了反向动力学和重加权技术两部分。 |
| | | |
− | 下图展示了NIS+的整个模型框架,图a是模型的输入:时间序列数据,可以是轨迹序列、连续图像序列以及脑电时间序列数据等;图c是模型的输出,包括因果涌现的程度、宏观动力学、涌现模式以及粗粒化策略;图b是具体的模型架构,区别于NIS方法,增加了反向动力学和重加权技术两部分。
| |
| | | |
| [[文件:NIS+.png|居左|600x600像素|替代=NIS模型框架图|NIS+模型框架图]] | | [[文件:NIS+.png|居左|600x600像素|替代=NIS模型框架图|NIS+模型框架图]] |
| + | |
| | | |
| ======实例分析====== | | ======实例分析====== |
| + | 文章对不同的时间序列数据集进行了实验,包括疾病传播动力系统模型[[SIR动力学]]、鸟群模型([[Boids模型]])和元胞自动机:[[生命游戏]]所生成的数据,以及真实人类被试的[[脑神经系统]]fMRI信号数据,这里我们选择鸟群和脑信号分别实验进行介绍说明。 |
| + | |
| | | |
− | 文章对不同的时间序列数据集进行了实验,包括疾病传播动力系统模型[[SIR动力学]]、鸟群模型([[Boids模型]])和元胞自动机:[[生命游戏]]所生成的数据,以及真实人类被试的[[脑神经系统]]fMRI信号数据,这里我们选择鸟群和脑信号分别实验进行介绍说明。
| + | 下图为 NIS+ 学习 Boids 模型的群集行为的实验结果。(a)和(e)给出了不同条件下鸟群的实际和预测轨迹。具体来说,作者将鸟群分为两个组,并且比较了在不同噪声水平(<math>\alpha</math> 分别为 0.001 和 0.4)下的多步预测结果,在噪音比较小时预测很好,在噪音比较大时预测曲线会发散。(b)展示了多步预测的平均绝对误差(MAE)随着半径 r 的增加而逐渐上升。(c)展示了不同维度(q)下的[[因果涌现度量]] <math>\Delta J</math> 与预测误差(MAE)随着训练 epoch 的变化,作者发现在宏观态维度 q = 8 时因果涌现最显著。(d)为宏观变量对微观变量进行归因分析,得到的显著性图,直观地描述了学习得到的粗粒化函数。其中,每个宏观维度可以对应到每只鸟的空间坐标(微观维度),颜色越深表示关联度越高。这里用橙色点突出了每个宏观状态维度最大关联所对应的微观坐标,这些归因显著性值是使用的[[积分梯度]](Integrated Gradient,简称 IG)方法得到的。横轴表示 16 只鸟在微观状态下的 x 和 y 坐标,纵轴表示 8 个宏观维度。淡蓝色的虚线区分了不同个体 Boid 的坐标,而蓝色实线分隔了两个鸟群。(f)和(g)表示不同噪声水平下因果涌现度量 <math>\Delta J</math> 和归一化误差MAE的变化趋势,(f)表示外部噪声的变化(即观测噪音加入到微观数据)对因果涌现的影响, (g)表示内在噪声(用 <math>\alpha</math> 表示,通过修改 Boids 模型的动力学加入)对因果涌现的影响。在(f)和(g)中,水平线表示违反公式 {{EquationNote|1}} 中误差约束的阈值。当归一化 MAE 大于阈值 0.3 时,约束遭到破坏,结果不可靠。 |
| | | |
− | 下图为NIS+学习Boids模型的群集行为的实验结果。(a)和(e)给出了不同条件下鸟群的实际和预测轨迹。具体来说,作者将鸟群分为两个组,并且比较了在不同噪声水平(<math>\alpha</math>分别为0.001和0.4)下的多步预测结果,在噪音比较小时预测很好,在噪音比较大时预测曲线会发散。(b)展示了多步预测的平均绝对误差(MAE)随着半径r的增加而逐渐上升。(c)展示了不同维度(q)下的[[因果涌现度量]]<math>\Delta J</math>与预测误差(MAE)随着训练epoch的变化,作者发现在宏观态维度q=8时因果涌现最显著。(d)为宏观变量对微观变量进行归因分析,得到的显著性图,直观地描述了学习得到的粗粒化函数。其中,每个宏观维度可以对应到每只鸟的空间坐标(微观维度),颜色越深表示关联度越高。这里用橙色点突出了每个宏观状态维度最大关联所对应的微观坐标,这些归因显著性值是使用的[[积分梯度]](Integrated Gradient,简称IG)方法得到的。横轴表示16只鸟在微观状态下的x和y坐标,纵轴表示8个宏观维度。淡蓝色的虚线区分了不同个体Boid的坐标,而蓝色实线分隔了两个鸟群。(f)和(g)表示不同噪声水平下因果涌现度量<math>\Delta J</math>和归一化误差MAE的变化趋势,(f)表示外部噪声的变化(即观测噪音加入到微观数据)对因果涌现的影响, (g)表示内在噪声(用<math>\alpha</math>表示,通过修改Boids模型的动力学加入)对因果涌现的影响。在(f)和(g)中,水平线表示违反公式{{EquationNote|1}}中误差约束的阈值。当归一化MAE大于阈值0.3时,约束遭到破坏,结果不可靠。
| |
| | | |
| 这组实验表明,[[NIS+]]可以通过最大化EI来学习宏观状态和粗粒化策略。这种最大化增强了模型对超出训练数据范围情况的泛化能力。学习到的宏观状态有效地识别了平均[[群体行为]],并且可以使用梯度积分方法将其归因于个体位置。此外,因果涌现的程度随外在噪声的增加而增加,而随内在噪声的增加而减少。这一观察结果表明,模型通过粗粒化可以消除外在噪声,而不能削减内在噪声。 | | 这组实验表明,[[NIS+]]可以通过最大化EI来学习宏观状态和粗粒化策略。这种最大化增强了模型对超出训练数据范围情况的泛化能力。学习到的宏观状态有效地识别了平均[[群体行为]],并且可以使用梯度积分方法将其归因于个体位置。此外,因果涌现的程度随外在噪声的增加而增加,而随内在噪声的增加而减少。这一观察结果表明,模型通过粗粒化可以消除外在噪声,而不能削减内在噪声。 |
| + | |
| | | |
| [[文件:NIS+ boids.png|居左|700x700像素|鸟群中的因果涌现]] | | [[文件:NIS+ boids.png|居左|700x700像素|鸟群中的因果涌现]] |
| | | |
− | 脑实验是基于真实的FMRI数据,该数据通过对830个人类被试做了两组实验得到。第一组是让被试执行看一段电影短片的视觉任务记录完成,第二组实验是让他们处于静息态下记录完成。由于原始维度比较高,作者们首先通过使用[[Schaefer atlas]]方法对原始的14000维数据降维到100个维度,每个维度对应一个脑区。之后,作者们通过NIS+学习这些数据,并提炼出6个不同宏观尺度下的动力学,图a展示了不同尺度下的多步预测误差结果,图b展示了在静息态和看电影视觉任务中NIS与NIS+方法在不同宏观维度上EI的对比。作者们发现在视觉任务中,宏观态维度在q=1时因果涌现最显著,通过归因分析发现视觉区发挥的作用最大(图c),与真实的场景保持一致。图d展示了脑区归因的不同视角图。而在静息态下,1个宏观维度不足以预测微观时间序列数据,因果涌现最大的维度是表现在3-7维之间。
| + | |
| + | 脑实验是基于真实的 fMRI 数据,该数据通过对 830 个人类被试做了两组实验得到。第一组是让被试执行看一段电影短片的视觉任务记录完成,第二组实验是让他们处于静息态下记录完成。由于原始维度比较高,作者们首先通过使用 [[Schaefer atlas]] 方法对原始的 14000 维数据降维到 100 个维度,每个维度对应一个脑区。之后,作者们通过 NIS+ 学习这些数据,并提炼出 6 个不同宏观尺度下的动力学,图a展示了不同尺度下的多步预测误差结果,图b展示了在静息态和看电影视觉任务中 NIS 与 NIS+ 方法在不同宏观维度上 EI 的对比。作者们发现在视觉任务中,宏观态维度在q=1时因果涌现最显著,通过归因分析发现视觉区发挥的作用最大(图 c),与真实的场景保持一致。图d展示了脑区归因的不同视角图。而在静息态下,1 个宏观维度不足以预测微观时间序列数据,因果涌现最大的维度是表现在 3-7 维之间。 |
| + | |
| | | |
| [[文件:NIS+ 脑数据.png|居左|700x700像素|脑神经系统中的因果涌现]] | | [[文件:NIS+ 脑数据.png|居左|700x700像素|脑神经系统中的因果涌现]] |
| | | |
− | 这些实验表明NIS+不仅可以辨识数据中的因果涌现、发现涌现的宏观动力学和粗粒化策略,而且另外的实验还表明,[[NIS+]]模型还能够通过EI最大化而增加模型的分布外泛化能力。
| + | |
| + | 这些实验表明 NIS+ 不仅可以辨识数据中的因果涌现、发现涌现的宏观动力学和粗粒化策略,而且另外的实验还表明,[[NIS+]] 模型还能够通过 EI 最大化而增加模型的分布外泛化能力。 |
| + | |
| | | |
| ==应用== | | ==应用== |
| + | 本小节主要讲解因果涌现在各个[[复杂系统 Complex Systems|复杂系统]]中的潜在应用, 包括: 生物系统、[[神经网络]]、脑神经系统、[[人工智能]]([[因果表示学习]]、[[基于世界模型的强化学习]]、[[因果模型抽象]])以及在一些其他的潜在应用(包括意识研究和中国古典哲学)等。 |
| | | |
− | 本小节主要讲解因果涌现在各个[[复杂系统 Complex Systems|复杂系统]]中的潜在应用, 包括: 生物系统、[[神经网络]]、脑神经系统、[[人工智能]]([[因果表示学习]]、[[基于世界模型的强化学习]]、[[因果模型抽象]])以及在一些其他的潜在应用(包括意识研究和中国古典哲学)等。
| |
| | | |
| ===复杂网络中的因果涌现=== | | ===复杂网络中的因果涌现=== |