第122行: |
第122行: |
| [[文件:NIS+odd.png|替代=|无框|800x800像素]] | | [[文件:NIS+odd.png|替代=|无框|800x800像素]] |
| | | |
− | 为了最大化式{{EquationNote|1}}中定义的EI,作者将NIS的框架扩展为NIS+。在NIS+中(如图(b)),我们首先使用互信息和变分不等式的公式将互信息的最大化问题转化为机器学习问题,其中,使用<math>y_{t+1}=\phi(x_{t+1})</math>来预测<math>y_{t}</math>,从而保证[[互信息]]最大化。这里,[math]\phi[/math]是反向动力学学习器神经网络。最后,利用样本重加权技术来解决均匀分布干预的挑战,从而优化EI。所有这些技术组成了增强版神经信息压缩机(NIS+)<ref>Mingzhe Yang, Zhipeng Wang, Kaiwei Liu, et al. Finding emergence in data by maximizing effective information. National Science Review, 2024, nwae279</ref>。在此框架中,输入可观测的数据(如图(a),可以是轨迹、图像序列、时间序列。),输出是因果涌现的程度、宏观动力学、涌现斑图以及粗粒化策略(如图(c))。 | + | 为了最大化式{{EquationNote|1}}中定义的EI,作者将NIS的框架扩展为NIS+。在此框架中,输入可观测的数据(如图(a),可以是轨迹、图像序列、时间序列),输出是因果涌现的程度、宏观动力学、涌现斑图以及粗粒化策略(如图(c))。在NIS+中(如图(b)),我们首先使用互信息和变分不等式的公式将互信息的最大化问题转化为机器学习问题,其中,使用<math>y_{t+1}=\phi(x_{t+1})</math>来预测<math>y_{t}</math>,从而保证[[互信息]]最大化。这里,[math]\phi[/math]是反向动力学学习器神经网络。最后,利用样本重加权技术来解决均匀分布干预的挑战,从而优化EI。所有这些技术组成了增强版神经信息压缩机(NIS+)<ref>Mingzhe Yang, Zhipeng Wang, Kaiwei Liu, et al. Finding emergence in data by maximizing effective information. National Science Review, 2024, nwae279</ref>。 |
| | | |
| == NIS+ 框架有效性的验证(数值实验) == | | == NIS+ 框架有效性的验证(数值实验) == |
第165行: |
第165行: |
| 在单独的测试数据集上预测多个时间步(10步)的未来状态,以比较NIS+与其他模型的预测未来状态的能力。之后,以图(a)中带点区域为训练数据集,即<math>\frac{1}{3} ≤ S ≤ 1 </math>的部分。以图(a)中整个蓝色三角形为测试数据集,即<math>0 ≤ S ≤ 1 </math>的部分。这样训练NIS+的时候不会用到<math>0 ≤ S ≤ \frac{1}{3} </math>的数据,但是测试NIS+的时候会用到<math>0 ≤ S ≤ \frac{1}{3} </math>的数据,可以通过测试<math>0 ≤ S ≤ \frac{1}{3} </math>的数据的误差大小来比较各个模型的泛化能力。 | | 在单独的测试数据集上预测多个时间步(10步)的未来状态,以比较NIS+与其他模型的预测未来状态的能力。之后,以图(a)中带点区域为训练数据集,即<math>\frac{1}{3} ≤ S ≤ 1 </math>的部分。以图(a)中整个蓝色三角形为测试数据集,即<math>0 ≤ S ≤ 1 </math>的部分。这样训练NIS+的时候不会用到<math>0 ≤ S ≤ \frac{1}{3} </math>的数据,但是测试NIS+的时候会用到<math>0 ≤ S ≤ \frac{1}{3} </math>的数据,可以通过测试<math>0 ≤ S ≤ \frac{1}{3} </math>的数据的误差大小来比较各个模型的泛化能力。 |
| | | |
− | 实验结果表明(图(d)),NIS+和[[NIS]]在整体数据集上(绿色条)表现优于其他模型(NN、NN+、VAE、VAE+)。这说明在编码器和解码器中使用[[可逆神经网络]]会更好。 | + | 实验结果表明(图(d)),NIS+和[[NIS]]在整体数据集上(绿色条)表现优于其他模型(NN、NN+、VAE、VAE+)。这说明在编码器和解码器中使用[[可逆神经网络]]会更好。NIS+的分布外泛化能力优于其他模型,在部分数据集上,不同模型之间的差异较大。 |
− | | |
− | 实验结果表明(图(d)),NIS+的分布外泛化能力优于其他模型,在部分数据集上,不同模型之间的差异较大。
| |
| | | |
| 三、NIS+能否发现真正的宏观动态。 | | 三、NIS+能否发现真正的宏观动态。 |
第229行: |
第227行: |
| 为了进行此实验,作者在空间和时间维度上对元胞自动机的微观状态进行粗粒化处理。为此,作者引入了时空卷积的概念。 | | 为了进行此实验,作者在空间和时间维度上对元胞自动机的微观状态进行粗粒化处理。为此,作者引入了时空卷积的概念。 |
| | | |
− | 本实验中使用的体系结构如图10(e)所示。整个粗粒化过程可分为两个步骤:①在固定大小的窗口(本文为3x3窗口)内聚合信息,获得空间粗粒化结果;②将这些结果在多个连续的时间步长上聚合,形成一个时空粗粒化的宏观状态。所有这些过程都是通过NIS+中的并行编码器实现的。
| + | 本实验中使用的体系结构如图(e)所示。整个粗粒化过程可分为两个步骤:①在固定大小的窗口(本文为3x3窗口)内聚合信息,获得空间粗粒化结果;②将这些结果在多个连续的时间步长上聚合,形成一个时空粗粒化的宏观状态。所有这些过程都是通过NIS+中的并行编码器实现的。 |
| | | |
| 二、NIS+捕获模式的能力。 | | 二、NIS+捕获模式的能力。 |
第263行: |
第261行: |
| 二、尝试研究粗粒化如何将输入数据转化为一维宏观状态。 | | 二、尝试研究粗粒化如何将输入数据转化为一维宏观状态。 |
| | | |
− | 作者利用归因分析技术,追踪这一个维度的宏观态数据到底和哪些原始数据维度有关,并把归因分析的强度值分配到这100个原始微观态维度所对应的脑区。结果如(d)所示,可以看出,颜色较深的区域大多都是负责视觉信号加工的脑区。
| + | 作者利用归因分析技术,追踪这一个维度的宏观态数据到底和哪些原始数据维度有关(图(c)),并把归因分析的强度值分配到这100个原始微观态维度所对应的脑区。结果如图(d)所示,可以看出,颜色较深的区域大多都是负责视觉信号加工的脑区。 |
| | | |
| 综上,NIS+是可以直接从fMRI时间序列数据揭示出大脑在不同尺度的动力学,并发现[[因果涌现]]主要发生在哪个尺度;当被试集中看视频的时候,大脑活动可以被一个维度的宏观信号所概括,这一维度主要代表的是视觉区域的活动状态,大脑发生了非常明显的[[因果涌现]]现象;而在静息态下,被试大脑虽然也发生了[[因果涌现]]现象,但强度明显低于前者。大脑的主要活动则相对第一组更复杂,因为它不能简单地被一个维度的宏观态所概括,而是集中在一个3~7维的介观尺度上。 | | 综上,NIS+是可以直接从fMRI时间序列数据揭示出大脑在不同尺度的动力学,并发现[[因果涌现]]主要发生在哪个尺度;当被试集中看视频的时候,大脑活动可以被一个维度的宏观信号所概括,这一维度主要代表的是视觉区域的活动状态,大脑发生了非常明显的[[因果涌现]]现象;而在静息态下,被试大脑虽然也发生了[[因果涌现]]现象,但强度明显低于前者。大脑的主要活动则相对第一组更复杂,因为它不能简单地被一个维度的宏观态所概括,而是集中在一个3~7维的介观尺度上。 |
第548行: |
第546行: |
| [[文件:NISandNIS+.png|替代=|无框|450x450像素]] | | [[文件:NISandNIS+.png|替代=|无框|450x450像素]] |
| | | |
− | 正向动力学<math> f </math>训练是最小化预测误差<math>L_1</math>,即<math>\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\| </math>,保证动力学预测未来的准确性,但是EI作为一种特殊的互信息,不仅与确定性有关,还与简并性有关。我们需要在提高动力学学习器的确定性的同时,提高它的非简并性。因此,作者在NIS的框架基础之上,加入了反向动力学<math> g </math>,用以反向预测。即输入<math>y_{t+1}</math>,通过动力学学习器<math>g</math>之后,得到宏观量的反向预测值<math>\hat{y}_{t}</math>,使<math>y_{t+1}</math>和<math>\hat{y}_{t}</math>之间的误差值<math>L_2</math>最小化。通过训练反向动力学学习器<math>g</math>,我们可以影响编码器,进而影响隐空间中的数据分布,从而使得动力学学习器<math>f</math>可以学到一个简并性低的动力学。 | + | 正向动力学<math> f </math>训练是最小化预测误差<math>L_1</math>,即<math>\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\| </math>,保证动力学预测未来的准确性,但是EI作为一种特殊的[[互信息]],不仅与确定性有关,还与简并性有关。我们需要在提高动力学学习器的确定性的同时,提高它的非简并性。因此,作者在[[NIS]]的框架(图(a))基础之上,加入了反向动力学<math> g </math>,用以反向预测(图(b))。即输入<math>y_{t+1}</math>,通过动力学学习器<math>g</math>之后,得到宏观量的反向预测值<math>\hat{y}_{t}</math>,使<math>y_{t+1}</math>和<math>\hat{y}_{t}</math>之间的误差值<math>L_2</math>最小化。通过训练反向动力学学习器<math>g</math>,我们可以影响编码器,进而影响隐空间中的数据分布,从而使得动力学学习器<math>f</math>可以学到一个简并性低的动力学。 |
| | | |
| === 分阶段训练 === | | === 分阶段训练 === |
第566行: |
第564行: |
| 在实际应用中,如果系统不是小规模系统,而是类似[[元胞自动机 Cellular Automata|元胞自动机]]的大规模的复杂系统,我们需要对此框架进行拓展,将编码器(解码器)进行组合,从而减轻模型训练的压力和难度。 | | 在实际应用中,如果系统不是小规模系统,而是类似[[元胞自动机 Cellular Automata|元胞自动机]]的大规模的复杂系统,我们需要对此框架进行拓展,将编码器(解码器)进行组合,从而减轻模型训练的压力和难度。 |
| | | |
− | 首先,在处理高维复杂系统时,一次丢弃多个维度会给训练神经网络带来很大的挑战。我们可以将一系列基本编码器堆叠(串联)在一起并逐渐丢弃维度,降低训练难度。如右图a所示。
| + | 首先,在处理高维复杂系统时,一次丢弃多个维度会给训练神经网络带来很大的挑战。我们可以将一系列基本编码器堆叠(串联)在一起并逐渐丢弃维度,降低训练难度。如图(a)所示。 |
| | | |
− | 此外,一些大规模复杂系统具有先验知识,我们可以根据先验知识对微观维度进行分组,分组之后,对每一组都用编码器进行编码,相当于把编码器进行了并联。并行编码器之间共享参数,故神经网络依然可以高效、准确地获得粗粒化规则。最后,将从所有编码器获得的宏观变量连接成一个向量,以导出总体的宏观变量。这种并行结构也可以与卷积神经网络等架构结合起来。如右图b所示。
| + | 此外,一些大规模复杂系统具有先验知识,我们可以根据先验知识对微观维度进行分组,分组之后,对每一组都用编码器进行编码,相当于把编码器进行了并联。并行编码器之间共享参数,故神经网络依然可以高效、准确地获得粗粒化规则。最后,将从所有编码器获得的宏观变量连接成一个向量,以导出总体的宏观变量。这种并行结构也可以与卷积神经网络等架构结合起来。如图(b)所示。 |
| | | |
− | 为了提高搜索最优尺度的效率,我们可以利用堆叠编码器获得隐藏空间的多个尺度,同时训练多个不同尺度的动力学学习器(相当于搜索不同q的宏观动力学),从而避免重新训练编码器,提高模型效率。如右图c所示。
| + | 为了提高搜索最优尺度的效率,我们可以利用堆叠编码器获得隐藏空间的多个尺度,同时训练多个不同尺度的动力学学习器(相当于搜索不同q的宏观动力学),从而避免重新训练编码器,提高模型效率。如图(c)所示。 |
| | | |
| 将NIS+的编码器替换为堆叠编码器与并行编码器的任意组合时,式{{EquationNote|3}}的最优化函数依然适用(引理5、引理6)。 | | 将NIS+的编码器替换为堆叠编码器与并行编码器的任意组合时,式{{EquationNote|3}}的最优化函数依然适用(引理5、引理6)。 |
第778行: |
第776行: |
| ③作者的工作是对<ref name=":8" /><ref name=":9" />中提出的研究的延伸,这些研究假设动力学是马尔可夫的。然而,当动态表现出强烈的非马尔可夫特征时,其他量化涌现的框架,如<ref name=":0" /><ref name=":10" />中提出的框架,可能具有更大的优势。 | | ③作者的工作是对<ref name=":8" /><ref name=":9" />中提出的研究的延伸,这些研究假设动力学是马尔可夫的。然而,当动态表现出强烈的非马尔可夫特征时,其他量化涌现的框架,如<ref name=":0" /><ref name=":10" />中提出的框架,可能具有更大的优势。 |
| | | |
− |
| |
− | == 神经网络上的EI计算 ==
| |
− | 如果神经网络的输入<math> X=(x_1,x_2,\cdot\cdot\cdot,x_n)\in [-L,L]^n</math>,则表示X定义在一个大小为L的超立方体上,其中L是一个非常大的整数。输出为<math>Y=(y_1,y_2,\cdot\cdot\cdot,y_m)</math>, <math>Y=\mu(X)</math>。这里µ是神经网络实现的确定性映射:<math>\mu: \mathcal{R}^n\rightarrow \mathcal{R}^m</math>,它在X处的雅可比矩阵是<math>\partial_{X'} \mu(X)\equiv \left\{\frac{\partial \mu_i(X')}{\partial X'_j}\left|_{X'=X}\right.\right\}_{nm}</math>。如果神经网络可以看作是给定X条件下的高斯分布,则神经网络的有效信息(EI)可以用以下方法计算:{{NumBlk|:|2=[math]\displaystyle{ EI_L(μ)=I(do(X\sim U([-L,L]^{n};Y) ≈ -\frac{m+m\ln(2\pi)+\sum_{i=1}^m\sigma_i^2/m}{2}+n\ln(2L)+\mathbf{E}_{X\sim U([-L,L]^n} \left(\ln {{!}}\det(\partial_{X'} f(X)){{!}}\right) }[/math]|3={{EquationRef|2}}}}式中,<math>\Sigma=diag(\sigma_1^2,\sigma_2^2,\cdot\cdot\cdot,\sigma_m^2)</math> 是协方差矩阵, <math>\sigma_i</math>是输出<math>y_i</math>的标准差,可由<math>y_i</math>的均方误差估计得到,<math>U([-L,L]^n)</math>为<math>[-L,L]^n</math>上的均匀分布,<math>| · |</math>为绝对值,det为行列式。如果<math>\det(\partial_{X'} \mu(X))\equiv 0</math>对于所有X,则令EI≈0。
| |
− |
| |
− | 但是,此公式不能直接应用于实际情况,因为它会随着输入n或输出m的维数增加而增加。解决这一问题的方法是通过除以输入维数来定义维度平均有效信息(dEI),记为:
| |
− |
| |
− | <math>\mathcal{J}_L = \frac{EI_L(\mu)}{n}</math>
| |
− |
| |
− | 当输入输出数相同时(m = n),则:
| |
− |
| |
− | <math>\mathcal{J}_L(\mu)=-\frac{1+\ln(2\pi)+\sum_{i=1}^n\sigma_i^2/n}{2}+\ln(2L)+\frac{1}{n}\mathbf{E}_{X\sim U([-L,L]^n} \left(\ln |\det(\partial_{X'} f(X))|\right)</math>
| |
− |
| |
− | 不过,此式子依赖于参数L,输入数据的域范围。为了消除L的影响,作者计算维度平均CE。对于维度q的宏观动力学<math>f_M</math>和维度p的微观动力学<math>f_m</math>,我们将维度平均CE定义为:
| |
− |
| |
− | <math>\Delta\mathcal{J}_L(f_M,f_m)=\mathcal{J}_L(f_M)-\mathcal{J}_L(f_m)=\frac{EI_L(f_M)}{q}-\frac{EI_L(f_m)}{p}</math>
| |
− |
| |
− | 如果<math>f_M</math>和<math>f_m</math>由q维的<math>µ_M</math>和p维的<math>µ_m</math>的神经网络参数化,则:
| |
− |
| |
− | <math>\Delta\mathcal{J}=\left(\frac{1}{q}\mathbf{E}_{X_M}\ln|\det \partial_{X_M}\mu_M|-\frac{1}{p}\mathbf{E}_{X_m}\ln|\det \partial_{X_m}\mu_m|\right)-\left(\frac{1}{q}\sum_{i=1}^{q}\ln\sigma_{i,M}^2-\frac{1}{p}\sum_{i=1}^{p}\ln\sigma_{i,m}^2\right)</math>
| |
− |
| |
− | 式中,其中<math>\sigma_{i,M}</math>和<math>\sigma_{i,m}</math>分别是<math>\mu_M</math>和<math>\mu_m</math>在第i维上的标准差。
| |
− |
| |
− | 此时,完全消除了输入或输出维度以及参数L的影响,使其成为一个更可靠的指标。从数据中识别因果涌现的结果只受到雅可比矩阵的方差的相对值和行列式的对数值的影响。
| |
| | | |
| = 参考文献 = | | = 参考文献 = |