更改

跳到导航 跳到搜索
删除10,108字节 、 2024年8月24日 (星期六)
无编辑摘要
第1行: 第1行: −
'''NIS+(Neural Information Squeezer Plus)'''是一个机器学习框架,可学习宏观动力学,并量化因果涌现的程度。该框架通过最大化有效信息,得到一个宏观动态模型。研究者通过在模拟数据和实际数据上的实验,证明了该框架的有效性。且该框架在不同测试环境里表现出更强的泛化能力。
+
'''NIS+(Neural Information Squeezer Plus)'''是一个机器学习框架,可学习宏观动力学,并识别因果涌现。该框架通过最大化有效信息,得到一个宏观动态模型。作者通过在模拟数据和实际数据上的实验,证明了该框架的有效性。且该框架在不同测试环境里表现出更强的泛化能力。
    
= 问题与背景 =
 
= 问题与背景 =
第94行: 第94行:  
在编码器一步,虽然有丢失信息,但是通过数学证明可以得知,当神经网络训练收敛时,数据中相邻宏观状态之间的互信息倾向于接近两个相邻时间步的微观态互信息,丢失的信息与预测几乎无关,所有有效信息都汇聚到动力学学习器的信息瓶颈之中。且在此框架下,信息瓶颈的应用更加明显、更具可解释性。
 
在编码器一步,虽然有丢失信息,但是通过数学证明可以得知,当神经网络训练收敛时,数据中相邻宏观状态之间的互信息倾向于接近两个相邻时间步的微观态互信息,丢失的信息与预测几乎无关,所有有效信息都汇聚到动力学学习器的信息瓶颈之中。且在此框架下,信息瓶颈的应用更加明显、更具可解释性。
   −
然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,将优化过程分为两个阶段。
+
然而由于该目标函数是一个泛函优化问题,往往很难优化。为了解决这个问题,作者将优化过程分为两个阶段。
    
第一个阶段:在给定宏观尺度<math>q </math>的情况下,最小化预测误差<math>\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\| </math>。可以采用随机梯度下降技术,通过训练神经网络解决。在此步,我们可以得到依赖于q的有效粗粒化策略和宏观动力学。
 
第一个阶段:在给定宏观尺度<math>q </math>的情况下,最小化预测误差<math>\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\| </math>。可以采用随机梯度下降技术,通过训练神经网络解决。在此步,我们可以得到依赖于q的有效粗粒化策略和宏观动力学。
第147行: 第147行:     
== 数学推导 ==
 
== 数学推导 ==
式{{EquationNote|1}}中,数学形式是一个泛函问题,无法直接进行优化,学者将通过计算并优化变分下界来解决泛函优化问题。同时,在NIS+框架中,学者使用了编码器将p维的输入数据进行粗粒化,得到q维的宏观数据,下面编码器的通用逼近定理将证明编码器的可以近似任意复杂的粗粒化函数。
+
式{{EquationNote|1}}中,数学形式是一个泛函问题,无法直接进行优化,作者将通过计算并优化变分下界来解决泛函优化问题。同时,在NIS+框架中,作者使用了编码器将p维的输入数据进行粗粒化,得到q维的宏观数据,下面编码器的通用逼近定理将证明编码器的可以近似任意复杂的粗粒化函数。
   −
在此章节,我们将使用大写字母来表示相应的随机变量。
+
在此章节,作者将使用大写字母来表示相应的随机变量。
    
例如,<math>X_{t} </math>表示时间t的微观状态<math>x_{t} </math>的随机变量,<math>
 
例如,<math>X_{t} </math>表示时间t的微观状态<math>x_{t} </math>的随机变量,<math>
第398行: 第398行:     
=== 样本重加权 ===
 
=== 样本重加权 ===
输入数据的分布会对结果产生一定的影响,为了减少此影响,学者需要对样本进行重加权,也就是通过为数据中的每个单元分配适当的权重来改变输入数据的分布,解决选择偏差问题。在因果机器学习、因果推断领域、因果特征学习(Causal feature learning)和稳定学习(Stable learning)中发挥着重要作用。可以使结果减少偏见的影响,提高模型在未知环境下的泛化能力<ref name=":4" />。
+
输入数据的分布会对结果产生一定的影响,为了减少此影响,作者需要对样本进行重加权,也就是通过为数据中的每个单元分配适当的权重来改变输入数据的分布,解决选择偏差问题。在因果机器学习、因果推断领域、因果特征学习(Causal feature learning)和稳定学习(Stable learning)中发挥着重要作用。可以使结果减少偏见的影响,提高模型在未知环境下的泛化能力<ref name=":4" />。
    
为了使用逆概率加权技术,我们需要估计样本的概率分布。KDE(Kernel Density Estimation)是一种常用的估计方法,它可以有效地消除离群值对整体概率分布估计的影响。
 
为了使用逆概率加权技术,我们需要估计样本的概率分布。KDE(Kernel Density Estimation)是一种常用的估计方法,它可以有效地消除离群值对整体概率分布估计的影响。
第427行: 第427行:  
[[文件:NISandNIS+.png|右|无框|500x500像素|1]]
 
[[文件:NISandNIS+.png|右|无框|500x500像素|1]]
   −
正向动力学<math> f </math>训练是最小化预测误差<math>L_1</math>,即<math>\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\| </math>,保证动力学预测未来的准确性,但是EI作为一种特殊的互信息,不仅与确定性有关,还与简并性有关。我们需要在提高动力学学习器的确定性的同时,提高它的非简并性。因此,学者在NIS的框架基础之上,加入了反向动力学<math> g </math>,用以反向预测。即输入<math>y_{t+1}</math>,通过动力学学习器<math>g</math>之后,得到宏观量的反向预测值<math>\hat{y}_{t}</math>,使<math>y_{t+1}</math>和<math>\hat{y}_{t}</math>之间的误差值<math>L_2</math>最小化。通过训练反向动力学学习器<math>g</math>,我们可以影响编码器,进而影响隐空间中的数据分布,从而使得动力学学习器<math>f</math>可以学到一个简并性低的动力学。
+
正向动力学<math> f </math>训练是最小化预测误差<math>L_1</math>,即<math>\left\|\phi_q^{\dagger}(Y(t+1))-X_{t+1}\right\| </math>,保证动力学预测未来的准确性,但是EI作为一种特殊的互信息,不仅与确定性有关,还与简并性有关。我们需要在提高动力学学习器的确定性的同时,提高它的非简并性。因此,作者在NIS的框架基础之上,加入了反向动力学<math> g </math>,用以反向预测。即输入<math>y_{t+1}</math>,通过动力学学习器<math>g</math>之后,得到宏观量的反向预测值<math>\hat{y}_{t}</math>,使<math>y_{t+1}</math>和<math>\hat{y}_{t}</math>之间的误差值<math>L_2</math>最小化。通过训练反向动力学学习器<math>g</math>,我们可以影响编码器,进而影响隐空间中的数据分布,从而使得动力学学习器<math>f</math>可以学到一个简并性低的动力学。
    
=== 分阶段训练 ===
 
=== 分阶段训练 ===
在实践中,为了减轻机器学习的压力,我们可以先让模型学到比较靠谱的编码策略,然后通过反向动力学将编码策略调整至最优解。NIS+的训练过程分为两个阶段。
+
在实践中,为了减轻机器学习的压力,作者先让模型学到比较靠谱的编码策略,然后通过反向动力学将编码策略调整至最优解。NIS+的训练过程分为两个阶段。
    
第一阶段:只训练前向神经网络,最小化预测误差<math>w(\boldsymbol{x}_t)\parallel\boldsymbol{y}_t-g(\boldsymbol{y}_{t+1})\parallel </math>。
 
第一阶段:只训练前向神经网络,最小化预测误差<math>w(\boldsymbol{x}_t)\parallel\boldsymbol{y}_t-g(\boldsymbol{y}_{t+1})\parallel </math>。
第488行: 第488行:     
= NIS+ 框架有效性的验证(数值实验) =
 
= NIS+ 框架有效性的验证(数值实验) =
在此部分中,我们将介绍验证NIS+框架有效性的四个实验:SIR模型实验、Boids模型实验、生命游戏模型实验、大脑fMRI实验。实验数据包括人脑的核磁共振成像数据和不同的人工模型(动态系统、多智能体系统和元胞自动机)生成的数据。每个实验中,我们将评估NIS+的因果涌现识别能力和泛化能力。
+
在此部分中,我们将介绍验证NIS+框架有效性的四个实验:SIR模型实验、Boids模型实验、生命游戏模型实验、大脑fMRI实验。实验数据包括人脑的核磁共振成像数据和不同的人工模型(动态系统、多主体系统和元胞自动机)生成的数据。每个实验中,我们将评估NIS+的因果涌现识别能力和泛化能力。
    
== SIR模型实验 ==
 
== SIR模型实验 ==
第494行: 第494行:  
在本实验中,SIR(Susceptible<math>\rightarrow</math>Infected<math>\rightarrow</math>Recovered Model)模型是一个简单的宏观动态系统,而微观变量是通过在宏观变量中引入噪声来产生的。这是一个已知宏观机制的玩具模型,可以验证NIS+是否真的做到了宏观有效信息最大化。
 
在本实验中,SIR(Susceptible<math>\rightarrow</math>Infected<math>\rightarrow</math>Recovered Model)模型是一个简单的宏观动态系统,而微观变量是通过在宏观变量中引入噪声来产生的。这是一个已知宏观机制的玩具模型,可以验证NIS+是否真的做到了宏观有效信息最大化。
   −
在此实验中,学者设置感染率β = 1、康复率γ = 0.5。由于SIR模型只有两个自由度(<math>S + I + R = 1 </math>),故学者仅用S和I构成宏观状态变量<math>\boldsymbol{y}=(S,I) </math>。图(a)显示了SIR动力学的相空间(S, I, R),所有的宏观状态都分布在三维的三角形平面上。同时,学者通过引入高斯噪声将<math>\boldsymbol{y}=(S,I) </math>展开为一个四维变量,并将其看做微观状态。我们在图(a)的三角形区域内采样,以此来随机选择初始条件,并使用上述过程生成时间序列数据,用以训练模型。
+
SIR宏观动力学可以描述为:
   −
[[文件:NIS+ sir.jpg|替代=|800x800px|右|无框]]
+
<math>\begin{cases} 
 +
\frac{\mathrm{d}S}{\mathrm{d}t}=-\beta SI,  \\
 +
\frac{\mathrm{d}I}{\mathrm{d}t}=\beta SI - \gamma I, \\
 +
\frac{\mathrm{d}R}{\mathrm{d}t}= \gamma I,
 +
\end{cases}</math>
   −
一、与其他模型比较预测未来状态的能力。
+
其中<math>S,I,R\in[0,1]</math>表示种群中健康,感染和康复或死亡个体的比例,<math>\beta=1</math>是感染率,即健康人感染成感染者的概率,<math>\gamma=0.5</math>是恢复率,即感染者康复或者死亡的概率。图(a)显示了SIR动力学的相空间(S, I, R)。由于SIR模型只有两个自由度(<math>S + I + R = 1 </math>),所以所有的宏观状态都分布在三维的三角形平面上,故作者仅用S和I构成宏观状态变量<math>\boldsymbol{y}=(S,I) </math>。
   −
比较的模型包括NIS模型、前馈神经网络(NN)、变分自编码器(VAE)。为了进行公平比较,学者确保所有模型具有大致相同数量的参数,且将样本重加权技术和反向动力学技术应用于前馈神经网络(NN)和变分自编码器(VAE),构建出NN+和VAE+。然后,在单独的测试数据集上预测多个时间步(10步)的未来状态。
+
同时,作者通过引入高斯噪声将<math>\boldsymbol{y}=(S,I) </math>展开为一个四维变量,并将其看做微观状态。
   −
实验结果表明(图(d)),NIS+和NIS在整体数据集上(绿色条)表现优于其他模型(NN、NN+、VAE、VAE+)。这说明在编码器和解码器中使用可逆神经网络。
+
<math>\begin{cases}\boldsymbol{S}'=(S,S)+\boldsymbol{\xi}_1,  \\\boldsymbol{I}'=(I,I)+\boldsymbol{\xi}_2\end{cases} </math>
   −
二、泛化能力。
+
其中,<math>\boldsymbol{\xi}_1,\boldsymbol{\xi}_2 \sim \scriptsize{N}(0,\Sigma) </math>为相互独立的二维高斯噪声,<math>\Sigma </math>为相关矩阵。微观状态序列<math>\boldsymbol{x}_t = (\boldsymbol{S}'_t,\boldsymbol{I}'_t) </math>作为实验中的训练样本。作者在图(a)的三角形区域内采样,以此来随机选择初始条件,并使用上述过程生成时间序列数据,用以训练模型。
   −
以图(a)中带点区域(<math>\frac{1}{3} ≤ S ≤ 1 </math>)为训练数据集,以图(a)中整个蓝色三角形为测试数据集。
+
[[文件:NIS+ sir.jpg|替代=|800x800px|无框|左]]
   −
实验结果表明(图(d)),NIS+的分布外泛化能力优于其他模型,在部分数据集上,不同模型之间的差异较大。
     −
三、模型能否发现真正的宏观动态。
+
一、NIS+识别CE的能力。
 +
 
 +
首先,为了确保EI被NIS+最大化,我们观察EI(维平均)J在训练时期的演变。
 +
 
 +
实验结果表明(图(b)),NIS+(红色实线)、NIS(黑色虚线)和VAE+(绿色实线)的曲线呈上升趋势,但NIS+的增长速度更快。这表明NIS+比其他模型更能有效地最大化J。值得注意的是,NIS也表现出EI的自然增长,因为它逐渐使预测误差最小化。
 +
 
 +
其次,为了检验NIS+检测和识别CE的能力,我们计算随着噪音的增大,<math>\Delta{J} </math>的变化,并将其与<math>\Psi </math>指标进行比较。比较过程中,作者利用从NIS+中学习到的宏观状态来计算<math>\Psi </math>。结果用图(e)中的黑色和黄色实线表示。
 +
 
 +
实验结果表明(图(e)),当<math>σ <0.01 </math>时,<math>\Delta{J}>0 </math>始终保持不变,但<math>\sigma=10^{-3} </math>后,<math>\Psi>0 </math>。NIS+表明在低噪声水平因果涌现始终发生,而信息分解的方法则并非如此。NIS+的结果更合理,因为它可以从有噪声的数据中提取出类似于真实宏观机制的宏观动力学,并且这种确定性动力学应该比有噪声的微观动力学具有更大的EI。作者还分别绘制了宏观和微观动力学曲线<math>J(f_M) </math>(红色虚线)和<math>J(f_m) </math>(绿色虚线)。这些曲线随着σ的增大而减小,但<math>J(f_m) </math>的减小速度更快,导致观测到CE的发生。但是,当<math>\Psi>0 </math>时,因为Ψ只能为CE提供充分条件,我们不能做出明确的判断。这两个指标在<math>\sigma=10^{-2} </math>处达到峰值,这与我们模拟中使用的时间步长(<math>dt=0.01 </math>)的大小相对应,反映了微观状态的变化水平。另一方面,如果噪声过大,有限的观测数据将使NIS+难以从数据中准确识别正确的宏观动力学。因此,CE的程度降至零。虽然NIS+判定<math>σ > 10 </math>时不存在CE,但这一结果并不可靠,因为<math>\sigma=10^{-2} </math>后的归一化预测误差已经超过了所选阈值0.3(垂直虚线和虚线)。
 +
 
 +
二、NIS+与其他模型比较预测未来状态的能力。
 +
 
 +
比较的模型包括NIS模型、前馈神经网络(NN)、变分自编码器(VAE)。为了进行公平比较,作者确保所有模型具有大致相同数量的参数,且将样本重加权技术和反向动力学技术应用于前馈神经网络(NN)和变分自编码器(VAE),构建出NN+和VAE+。然后,在单独的测试数据集上预测多个时间步(10步)的未来状态。
   −
将真实的SIR动力学的向量场(<math>d\boldsymbol{y}/dt </math>)(红色)、基于编码器的雅可比矩阵得到的理论向量(蓝色)与通过模型学习到的宏观动态的向量(<math>d(h_1,h_2)/dt </math>)(绿色)进行比较。
+
实验结果表明(图(d)),NIS+和NIS在整体数据集上(绿色条)表现优于其他模型(NN、NN+、VAE、VAE+)。这说明在编码器和解码器中使用可逆神经网络会更好。
   −
实验结果表明(图(c)表示NIS+,图(f)表示NIS),学习到的向量与真实向量对齐和理论向量对齐。NIS+明显优于NIS,尤其是在没有训练样本的外围区域。
+
三、NIS+的泛化能力。
   −
四、EI最大化和量化CE。
+
以图(a)中带点区域为训练数据集,即<math>\frac{1}{3} ≤ S ≤ 1 </math>的部分。以图(a)中整个蓝色三角形为测试数据集,即<math>0 ≤ S ≤ 1 </math>的部分。这样训练NIS+的时候不会用到<math>0 ≤ S ≤ \frac{1}{3} </math>的数据,但是测试NIS+的时候会用到<math>0 ≤ S ≤ \frac{1}{3} </math>的数据,可以通过测试<math>0 ≤ S ≤ \frac{1}{3} </math>的数据的误差大小来比较各个模型的泛化能力。
   −
首先,为了确保EI被NIS+最大化,我们观察EI(维平均)J在训练时期的演变。
+
实验结果表明(图(d)),NIS+的分布外泛化能力优于其他模型,在部分数据集上,不同模型之间的差异较大。
   −
实验结果表明(图(b)),NIS+(红色实线)、NIS(黑色虚线)和VAE+(绿色实线)的曲线呈上升趋势,但NIS+的增长速度更快。这表明NIS+比其他模型更能有效地最大化J。值得注意的是,NIS也表现出EI的自然增长,因为它逐渐使预测误差最小化。
+
四、NIS+能否发现真正的宏观动态。
   −
其次,为了检验NIS+检测和量化CE的能力,我们计算随着噪音的增大,∆J 的变化,并将其与<math>\Psi </math>指标进行比较。学者利用从NIS+中学习到的宏观状态来计算<math>\Psi </math>。结果用图(e)中的黑色和黄色实线表示。
+
将真实的SIR动力学的向量场(<math>d\boldsymbol{y}/dt </math>)(红色)、基于编码器的雅可比矩阵得到的理论向量(蓝色)与通过模型学习到的宏观动态的向量(<math>d(h_1,h_2)/dt </math>)(绿色)进行比较。
   −
实验结果表明(图(e)),当<math>σ <0.01 </math>时,<math>\Delta{J}>0 </math>始终保持不变,但<math>\sigma=10^{-3} </math>后,<math>\Psi>0 </math>。NIS+表明在低噪声水平因果涌现始终发生,而信息分解的方法则并非如此。NIS+的结果更合理,因为它可以从有噪声的数据中提取出类似于ground-truth的宏观动力学,并且这种确定性动力学应该比有噪声的微观动力学具有更大的EI。学者还分别绘制了宏观和微观动力学曲线<math>J(f_M) </math>(红色虚线)和<math>J(f_m) </math>(绿色虚线)。这些曲线随着σ的增大而减小,但<math>J(f_m) </math>的减小速度更快,导致观测到CE的发生。但是,当<math>\Psi>0 </math>时,因为Ψ只能为CE提供充分条件,我们不能做出明确的判断。这两个指标在<math>\sigma=10^{-2} </math>处达到峰值,这与我们模拟中使用的时间步长(<math>dt=0.01 </math>)的大小相对应,反映了微观状态的变化水平。另一方面,如果噪声过大,有限的观测数据将使NIS+难以从数据中准确识别正确的宏观动力学。因此,CE的程度降至零。虽然NIS+判定<math>σ > 10 </math>时不存在CE,但这一结果并不可靠,因为<math>\sigma=10^{-2} </math>后的归一化预测误差已经超过了所选阈值0.3(垂直虚线和虚线)。
+
实验结果表明(图(c)表示NIS+,图(f)表示NIS),学习到的向量与真实向量对齐和理论向量对齐。NIS+明显优于NIS,尤其是在没有训练样本的外围区域。
    
综上可知,通过最大化EI和学习独立的因果机制,NIS+可以有效地忽略数据中的噪声,准确地学习真实宏观动态,并有良好的泛化能力。此外,NIS+在识别CE方面表现出优越的性能。
 
综上可知,通过最大化EI和学习独立的因果机制,NIS+可以有效地忽略数据中的噪声,准确地学习真实宏观动态,并有良好的泛化能力。此外,NIS+在识别CE方面表现出优越的性能。
第530行: 第545行:  
== Boids 模型实验 ==
 
== Boids 模型实验 ==
   −
Boids模型,是一个著名的多智能体模型,用于模拟鸟类的集体行为<ref name=":5">Reynolds C-W. Flocks, herds and schools: A distributed behavioral model. Proceedings of the 14th annual conference on Computer graphics and interactive techniques, Denver,
+
Boids模型,是一个著名的多主体模型,用于模拟鸟类的集体行为<ref name=":5">Reynolds C-W. Flocks, herds and schools: A distributed behavioral model. Proceedings of the 14th annual conference on Computer graphics and interactive techniques, Denver,
   −
27 July - 1 August 1987.</ref>。此实验有两个基本目标:①评估在具有内在和外在噪声的不同环境下捕获涌现现象和CE量化的能力,②试图给出学习到的宏观状态和微观状态之间的显式对应关系,以此来提高训练粗粒度策略的可解释性,③模型的泛化能力。
+
27 July - 1 August 1987.</ref>。此实验有四个基本目标:①NIS+识别CE的能力;②提高NIS+训练粗粒化策略的可解释性;③NIS+的泛化能力;④内在噪音和外部噪音对NIS+识别CE的影响。
    
我们根据Reynolds(1987)<ref name=":5" />的方法模拟Boids模型,在300 × 300的画布上用N = 16个鸟生成训练数据。为了评估NIS+发现有意义的宏观状态的能力,我们将鸟群分为两组,并为每组引入不同的恒定转向力。这一修改确保了两组分别沿着不同转弯角度的轨迹运动,如图(a)所示。我们通过模拟生成训练和测试数据。在每个时间步长t上,微状态生成为4N维向量:
 
我们根据Reynolds(1987)<ref name=":5" />的方法模拟Boids模型,在300 × 300的画布上用N = 16个鸟生成训练数据。为了评估NIS+发现有意义的宏观状态的能力,我们将鸟群分为两组,并为每组引入不同的恒定转向力。这一修改确保了两组分别沿着不同转弯角度的轨迹运动,如图(a)所示。我们通过模拟生成训练和测试数据。在每个时间步长t上,微状态生成为4N维向量:
第539行: 第554行:     
其中<math>(x_i^t,y_i^t) </math>是位置,<math>(v_{x,i}^t,v_{y,i}^t) </math>是时刻t的速度,<math>i=1,2,\dots,16 </math>。
 
其中<math>(x_i^t,y_i^t) </math>是位置,<math>(v_{x,i}^t,v_{y,i}^t) </math>是时刻t的速度,<math>i=1,2,\dots,16 </math>。
 +
[[文件:Boids1.png|左|无框|800x800像素|1]]
   −
[[文件:NIS+ boid.png|NIS+ boid|800x800px|替代=|右|无框]]
     −
一、识别因果涌现。
+
 
 +
一、NIS+识别CE的能力。
    
实验结果表明(图(a)),预测的涌现集体飞行行为(50步)与两组的真实轨迹密切相关,特别是在初始阶段。这些预测轨迹是通过将预测的宏观状态解码为相应的微观状态来生成的,两条实线表示它们的平均值。
 
实验结果表明(图(a)),预测的涌现集体飞行行为(50步)与两组的真实轨迹密切相关,特别是在初始阶段。这些预测轨迹是通过将预测的宏观状态解码为相应的微观状态来生成的,两条实线表示它们的平均值。
 +
 +
对于宏观状态,一群鸟需要两个坐标相关的维度和两个速度相关的维度来描述它们的运动状态。所以两组鸟需要八个维度。我们可以推测有一只鸟作为这群鸟的代表,观察这只鸟的情况可以预测这群鸟的整体运动趋势。然后我们利用两个位置维度来进行预测。除了表示位置的两个维度外,速度还可以由两个连续时刻之间的位置差导出。然而,一次只能输入来自单个时刻的信息,这就需要额外的自由度来表示速度。因此,我们仍然需要八个自由度来描述两组鸟的宏观状态。
    
根据观察,CE在q = 8时达到最大值,如图(c)所示,这与本实验选择超参数q = 8(宏观变量的维度)相符。
 
根据观察,CE在q = 8时达到最大值,如图(c)所示,这与本实验选择超参数q = 8(宏观变量的维度)相符。
   −
二、尝试解释此模型得到的宏观与微观的显式对应关系。
+
二、提高NIS+训练粗粒化策略的可解释性。
   −
我们利用积分梯度(IG)方法<ref name=":6">Sundararajan M, Taly A and Yan Q. Axiomatic attribution for deep networks. Proceedings of the 34th International Conference on Machine Learning, Sydney, 6-11 August
+
作者利用积分梯度(IG)<ref name=":6">Sundararajan M, Taly A and Yan Q. Axiomatic attribution for deep networks. Proceedings of the 34th International Conference on Machine Learning, Sydney, 6-11 August
   −
2017.</ref>来识别每个学到的涌现宏观状态维度中最重要的微观状态。我们将计算的IG归一化,并在每个宏观状态中增强微观状态的最大梯度,并且忽略每只鸟的速度维度,因为它们与宏观状态的相关性较低。将归一化的IG绘制成矩阵图。
+
2017.</ref>来识别每个学到的涌现宏观状态维度中最重要的微观状态,将计算的IG归一化,并在每个宏观状态中提高微观状态的最大梯度,并且忽略每只鸟的速度维度(与宏观状态的相关性较低)。最后,作者将归一化的IG绘制成矩阵图。
   −
实验结果表明(图(d)),宏观状态的第1、2、5、6维分别对应第一组中的ID(ID<8),第3、4、7、8维对应第二组中的ID(ID>=8)。因此,学习到的粗粒度策略使用两个位置坐标来表示所有其他信息,形成一个维度的宏观状态。对于宏观状态,我们需要注意,对于一群鸟,需要两个坐标相关的维度和两个速度相关的维度来描述它们的运动状态。所以两组鸟需要八个维度。我们可以推测有一只鸟作为这群鸟的代表,观察这只鸟的情况可以预测这群鸟的整体运动趋势。然后我们利用两个位置维度来进行预测。除了表示位置的两个维度外,速度还可以由两个连续时刻之间的位置差导出。然而,一次只能输入来自单个时刻的信息,这就需要额外的自由度来表示速度。因此,我们仍然需要八个自由度来描述两组鸟的宏观状态。
+
实验结果表明(图(d)),宏观状态的第1、2、5、6维分别对应第一组中的ID(ID<8),第3、4、7、8维对应第二组中的ID(ID>=8)。因此,学习到的粗粒度策略使用两个位置坐标来表示所有其他信息,形成一个维度的宏观状态。
   −
三、泛化能力。
+
三、NIS+的泛化能力。
    
在生成训练数据的仿真过程中,所有鸟的位置被约束在一个半径为r的圆内,如图(a)所示。我们评估当初始位置位于较大的圆上时两种模型的预测能力。
 
在生成训练数据的仿真过程中,所有鸟的位置被约束在一个半径为r的圆内,如图(a)所示。我们评估当初始位置位于较大的圆上时两种模型的预测能力。
第562行: 第580行:  
实验结果表明(图(b)),NIS+和NIS的MAE值随半径r的增加而增加,而预测误差MAE越小,泛化能力越好。结果清楚地表明,与NIS相比,NIS+在所有测试半径r上具有优越的泛化能力。
 
实验结果表明(图(b)),NIS+和NIS的MAE值随半径r的增加而增加,而预测误差MAE越小,泛化能力越好。结果清楚地表明,与NIS相比,NIS+在所有测试半径r上具有优越的泛化能力。
   −
四、内在噪音和外部噪音对CE的影响。
+
四、内在噪音和外部噪音对NIS+识别CE的影响。
    
通过在每个时间步长为每只鸟增加随机转角,引入内在噪声。这些角度均匀分布在区间<math>\alpha\cdot [-\pi,\pi] </math>内,其中<math>\alpha\in[0,1] </math>是控制内在噪声大小的参数。另一方面,假定外部噪声会影响观测的微观状态。在这种情况下,我们假设不能直接观察到每个物体的微观状态,而是获得有噪声的数据。将外部或观测噪声<math>\delta\sim \mathcal{N}(0,\delta_{max}) </math>添加到微观状态中,<math>\delta_{max} </math>是决定该噪声水平的参数。
 
通过在每个时间步长为每只鸟增加随机转角,引入内在噪声。这些角度均匀分布在区间<math>\alpha\cdot [-\pi,\pi] </math>内,其中<math>\alpha\in[0,1] </math>是控制内在噪声大小的参数。另一方面,假定外部噪声会影响观测的微观状态。在这种情况下,我们假设不能直接观察到每个物体的微观状态,而是获得有噪声的数据。将外部或观测噪声<math>\delta\sim \mathcal{N}(0,\delta_{max}) </math>添加到微观状态中,<math>\delta_{max} </math>是决定该噪声水平的参数。
第574行: 第592行:  
== 生命游戏模型实验 ==
 
== 生命游戏模型实验 ==
   −
康威的生命游戏是一个著名的二维元胞自动机模型,在这个模型上出现了滑翔机、正方形、花朵、信号灯、蜂窝、交通灯等各种有趣的动态模式。与SIR模型和Boids模型不同的是,在规则网格上,生命游戏模型在每个时间步长的微观状态是离散的(0或1)。此外,微观动力学不能用微分方程或差分方程来表示,而是用规则表来表示。[[文件:Gamelife.png|右|无框|800x800px|1|替代=]]一、捕获模式的能力。
+
康威的生命游戏是一个著名的二维元胞自动机模型,在这个模型上出现了滑翔机、正方形、花朵、信号灯、蜂窝、交通灯等各种有趣的动态模式。与SIR模型和Boids模型不同的是,在规则网格上,生命游戏模型在每个时间步长的微观状态是离散的(0或1)。此外,微观动力学不能用微分方程或差分方程来表示,而是用规则表来表示。[[文件:Gamelife.png|无框|800x800px|1|替代=|左]]一、NIS+捕获模式的能力。
   −
我们使用随机初始条件下模拟生成的数据来训练NIS+,并提取从第100步到第120步的状态时间序列。图(a)、(b)和(c)显示了由ground truth模拟(第一行)和NIS+预测(第三行)生成的动态模式,以及可以进行这些预测的涌现宏观状态(第二行)。我们将两个连续时间步长的图像输入到NIS+中,再用两个连续时间步长得到另一个图像对。把上面的图片和下面的图片比较一下,图案是相似的。然而,由于在随机初始条件下具有某些模式的训练样本出现有限,第三列的学习和预测模式有些(特别是“滑翔机”模式)显得模糊。为了提高预测的质量,我们可以生成一组包含两个“滑翔机”初始条件的新训练样本。结果如图(d)所示,尽管这个测试环境中的滑翔机数量是3个,预测也更加清晰。这意味着,NIS+可以捕获包括移动、静态和振荡结构在内的模式。
+
我们使用随机初始条件下模拟生成的数据来训练NIS+,并提取从第100步到第120步的状态时间序列。图(a)、(b)和(c)显示了由真实宏观机制模拟(第一行)和NIS+预测(第三行)生成的动态模式,以及可以进行这些预测的涌现宏观状态(第二行)。我们将两个连续时间步长的图像输入到NIS+中,再用两个连续时间步长得到另一个图像对。把上面的图片和下面的图片比较一下,图案是相似的。然而,由于在随机初始条件下具有某些模式的训练样本出现有限,第三列的学习和预测模式有些(特别是“滑翔机”模式)显得模糊。为了提高预测的质量,我们可以生成一组包含两个“滑翔机”初始条件的新训练样本。结果如图(d)所示,尽管这个测试环境中的滑翔机数量是3个,预测也更加清晰。这意味着,NIS+可以捕获包括移动、静态和振荡结构在内的模式。
   −
二、泛化能力。
+
二、NIS+的泛化能力。
    
我们比较了在不同于初始随机模式下,NIS和NIS+对8种不同模式类型的多步预测性能。
 
我们比较了在不同于初始随机模式下,NIS和NIS+对8种不同模式类型的多步预测性能。
第584行: 第602行:  
实验结果表明(图(f)),对于所有模式类型,NIS+始终比NIS具有更高的AUC(曲线下面积)。其中,在x坐标的刻度标签中,我们采用“模式名称(数量)”的格式来表示各种初始条件。例如,“滑翔机(2)”表示包含两个滑翔机的初始配置。实验表明,NIS+在捕获这些模式方面具有优越的泛化能力。
 
实验结果表明(图(f)),对于所有模式类型,NIS+始终比NIS具有更高的AUC(曲线下面积)。其中,在x坐标的刻度标签中,我们采用“模式名称(数量)”的格式来表示各种初始条件。例如,“滑翔机(2)”表示包含两个滑翔机的初始配置。实验表明,NIS+在捕获这些模式方面具有优越的泛化能力。
   −
三、识别量化因果涌现。
+
三、NIS+识别CE的能力。
   −
在比较过程中,学者使用相同的模式作为初始条件。
+
在比较过程中,作者使用相同的模式作为初始条件。
    
实验结果表明(图(g)),除“随机”情况外,其余8例均发生CE。“滑翔机”型由于预测不良,CE程度最低(见图(c))。其余7种模式的<math>\Delta{J} </math>值相似。这些结果表明,<math>\Delta{J} </math>提供了CE发生的更合理的指示。但是,对于Ψ,所有情况产生的值都小于或等于0,这可能是因为Ψ的近似忽略了许多冗余信息,使得Ψ无法确定CE是否发生。因此,本文提出的<math>\Delta{J} </math>是一种较好的鉴别CE的方法。
 
实验结果表明(图(g)),除“随机”情况外,其余8例均发生CE。“滑翔机”型由于预测不良,CE程度最低(见图(c))。其余7种模式的<math>\Delta{J} </math>值相似。这些结果表明,<math>\Delta{J} </math>提供了CE发生的更合理的指示。但是,对于Ψ,所有情况产生的值都小于或等于0,这可能是因为Ψ的近似忽略了许多冗余信息,使得Ψ无法确定CE是否发生。因此,本文提出的<math>\Delta{J} </math>是一种较好的鉴别CE的方法。
   −
四、多功能性。
+
四、NIS+的多功能性。
   −
为了进行此实验,我们需要在空间和时间维度上对元胞自动机的微观状态进行粗粒化处理。为此,学者引入了时空卷积的概念。
+
为了进行此实验,我们需要在空间和时间维度上对元胞自动机的微观状态进行粗粒化处理。为此,作者引入了时空卷积的概念。
    
本实验中使用的体系结构如图10(e)所示。整个粗粒度过程可分为两个步骤:①在固定大小的窗口(本文为3x3窗口)内聚合信息,获得空间粗粒化结果;②将这些结果在多个连续的时间步长上聚合,形成一个时空粗粒化的宏观状态。所有这些过程都是通过NIS+中的并行编码器实现的。
 
本实验中使用的体系结构如图10(e)所示。整个粗粒度过程可分为两个步骤:①在固定大小的窗口(本文为3x3窗口)内聚合信息,获得空间粗粒化结果;②将这些结果在多个连续的时间步长上聚合,形成一个时空粗粒化的宏观状态。所有这些过程都是通过NIS+中的并行编码器实现的。
第598行: 第616行:  
== 大脑fMRI 实验 ==
 
== 大脑fMRI 实验 ==
   −
学者在830名受试者(AOMIC ID1000)的大脑fMRI真实时间序列数据上测试了NIS+<ref name=":7">Snoek L, Miesen M and Beemsterboer T et al. The amsterdam open mri collection, a set of multimodal mri datasets for individual difference analyses. Sci Data 2021; 8: 03.</ref>。fMRI扫描数据是在受试者观看同一段电影时收集的,这对应于具有不同初始条件的相同动力学的时间序列。采样率(重复时间)为:ID1000为2.2s,PIOP2为2s。我们通过Schaefer atlas方法对原始数据进行预处理<ref>Schaefer A, Kong R and Gordon E-M et al. Local-Global Parcellation of the Human Cerebral Cortex from Intrinsic Functional Connectivity MRI. Cereb Cortex 2017; 28:3095–3114.</ref>,将每个受试者的时间序列维数从大约140,000(不同受试者的维数不同)降至100,使NIS+能够运行并获得更清晰的结果。然后,选取前800个时间序列数据进行训练,剩下的30个时间序列进行测试。学者还将结果与另一个fMRI数据集AOMIC PIOP2<ref name=":7" />进行了比较,其中50名受试者处于静息状态。
+
作者在830名受试者(AOMIC ID1000)的大脑fMRI真实时间序列数据上测试了NIS+<ref name=":7">Snoek L, Miesen M and Beemsterboer T et al. The amsterdam open mri collection, a set of multimodal mri datasets for individual difference analyses. Sci Data 2021; 8: 03.</ref>。fMRI扫描数据是在受试者观看同一段电影时收集的,这对应于具有不同初始条件的相同动力学的时间序列。采样率(重复时间)为:ID1000为2.2s,PIOP2为2s。我们通过Schaefer atlas方法对原始数据进行预处理<ref>Schaefer A, Kong R and Gordon E-M et al. Local-Global Parcellation of the Human Cerebral Cortex from Intrinsic Functional Connectivity MRI. Cereb Cortex 2017; 28:3095–3114.</ref>,将每个受试者的时间序列维数从大约140,000(不同受试者的维数不同)降至100,使NIS+能够运行并获得更清晰的结果。然后,选取前800个时间序列数据进行训练,剩下的30个时间序列进行测试。作者还将结果与另一个fMRI数据集AOMIC PIOP2<ref name=":7" />进行了比较,其中50名受试者处于静息状态。
   −
[[文件:NIS+ brain.jpg|替代=|650x650px||无框]]
+
[[文件:NIS+ brain.jpg|替代=|650x650px|无框|]]
    
一、对微观状态的预测能力。
 
一、对微观状态的预测能力。
第606行: 第624行:  
实验结果表明(图(a)),当q = 27和q = 1时,NIS+的预测效果更好。具体来说,随着预测步骤的增加,与q = 1的曲线相比,q = 27的曲线显示出较慢的增长率。这表明选择超参数q为27可能比1更合适。
 
实验结果表明(图(a)),当q = 27和q = 1时,NIS+的预测效果更好。具体来说,随着预测步骤的增加,与q = 1的曲线相比,q = 27的曲线显示出较慢的增长率。这表明选择超参数q为27可能比1更合适。
   −
然而,图(b)显示了不同的结果。当比较不同超参数q(绿色条)的CE(<math>\Delta{J} </math>)程度时,当q = 1时观察到最高的<math>\Delta{J} </math>。反之,当q = 27时,<math>\Delta{J} </math>值为负。这表明,当q = 27时,预测结果的改善可能是由于过拟合。因此,就<math>\Delta{J} </math>而言,q = 1优于q的其他值。尽管观察到q = 1时<math>\Delta{J} </math>的标准差较大,但NIS框架(红色条形图)支持了这一发现。此外,学者还将CE的结果与静息数据进行了比较,观察到NIS(深蓝色条)和NIS+(黄色条)在q = 7处达到峰值,这正好是Schaefer atalas中子系统的数量。因此,我们可以得出这样的结论:当被试观看电影时,大脑不同区域的活动可以在每个时间步上用一个实数来表示。
+
然而,图(b)显示了不同的结果。当比较不同超参数q(绿色条)的CE(<math>\Delta{J} </math>)程度时,当q = 1时观察到最高的<math>\Delta{J} </math>。反之,当q = 27时,<math>\Delta{J} </math>值为负。这表明,当q = 27时,预测结果的改善可能是由于过拟合。因此,就<math>\Delta{J} </math>而言,q = 1优于q的其他值。尽管观察到q = 1时<math>\Delta{J} </math>的标准差较大,但NIS框架(红色条形图)支持了这一发现。此外,作者还将CE的结果与静息数据进行了比较,观察到NIS(深蓝色条)和NIS+(黄色条)在q = 7处达到峰值,这正好是Schaefer atalas中子系统的数量。因此,我们可以得出这样的结论:当被试观看电影时,大脑不同区域的活动可以在每个时间步上用一个实数来表示。
    
二、尝试研究粗粒化如何将输入数据转化为一维宏观状态。
 
二、尝试研究粗粒化如何将输入数据转化为一维宏观状态。
   −
学者使用IG方法来识别微观状态的最重要维度<ref name=":6" />。
+
作者使用IG方法来识别微观状态的最重要维度<ref name=":6" />。
    
实验结果表明(图(c)和图(d)),视觉(VIS)子网络(受试者在观看电影片段时使用的功能系统)表现出最高的归因(图(c))。此外,我们可以在大脑地图上更详细地看到活动区域(图(d)),其中较深的颜色表示更大程度上归因于单一宏观状态。因此,NIS+识别出的颜色相似的最深的区域,对应于大脑的深度视觉处理区域,可能代表了大脑在积极观看电影时的“协同核心”<ref>Luppi A, Mediano P and Rosas F et al. A synergistic core for human brain evolution and cognition. Nat Neurosci 2022; 25: 1–12.</ref>。这些区域的数字神经元可能协同作用。然而,通过将微观状态和宏观状态之间的[[互信息]]分解为协同信息、冗余信息和独特信息,还可以进一步证实和量化这一结论<ref name=":0" />。
 
实验结果表明(图(c)和图(d)),视觉(VIS)子网络(受试者在观看电影片段时使用的功能系统)表现出最高的归因(图(c))。此外,我们可以在大脑地图上更详细地看到活动区域(图(d)),其中较深的颜色表示更大程度上归因于单一宏观状态。因此,NIS+识别出的颜色相似的最深的区域,对应于大脑的深度视觉处理区域,可能代表了大脑在积极观看电影时的“协同核心”<ref>Luppi A, Mediano P and Rosas F et al. A synergistic core for human brain evolution and cognition. Nat Neurosci 2022; 25: 1–12.</ref>。这些区域的数字神经元可能协同作用。然而,通过将微观状态和宏观状态之间的[[互信息]]分解为协同信息、冗余信息和独特信息,还可以进一步证实和量化这一结论<ref name=":0" />。
第619行: 第637行:     
== 总结 ==
 
== 总结 ==
受[[因果涌现]]理论的启发,学者构建了一种新的[[机器学习 Machine Learning|机器学习]]框架Neural Information Squeezer Plus (NIS+)来学习涌现宏观动力学,并直接从数据中找到合适的粗粒化方法、量化各种条件下CE的程度。
+
受[[因果涌现]]理论的启发,作者构建了一种新的[[机器学习 Machine Learning|机器学习]]框架Neural Information Squeezer Plus (NIS+)来学习涌现宏观动力学,并直接从数据中找到合适的粗粒化方法、量化各种条件下CE的程度。
    
与其他机器学习框架相比,NIS+专注于在保持有效性约束的同时最大化宏观动力学的有效信息(EI)。这使得学习到的涌现宏观动力学能够捕获尽可能独立于输入数据分布的不变因果机制。这个特性不仅使NIS+能够识别不同环境中的数据CE,而且还增强了它对不同于训练数据的环境进行泛化的能力。通过将误差约束纳入式{{EquationNote|1}},我们增强了EI最大化框架的鲁棒性,解决了<ref>Eberhardt F and Lee L-L. Causal emergence: When distortions in a map obscure the territory. Philosophies 2022; 7: 30.</ref>中提出的重整化和时间演化算子的交换性问题。我们的框架确保微观动力学演化与编码的宏观动力学相匹配。由于解码器是编码器的逆,这种不断发展的微观状态和宏观编码之间的一致性证实了学习动力学和粗粒化方法是可交换的。因此,NIS+扩展了Hoel<ref name=":8" />的CE理论,使其既适用于离散和连续动力系统,也适用于实际数据。
 
与其他机器学习框架相比,NIS+专注于在保持有效性约束的同时最大化宏观动力学的有效信息(EI)。这使得学习到的涌现宏观动力学能够捕获尽可能独立于输入数据分布的不变因果机制。这个特性不仅使NIS+能够识别不同环境中的数据CE,而且还增强了它对不同于训练数据的环境进行泛化的能力。通过将误差约束纳入式{{EquationNote|1}},我们增强了EI最大化框架的鲁棒性,解决了<ref>Eberhardt F and Lee L-L. Causal emergence: When distortions in a map obscure the territory. Philosophies 2022; 7: 30.</ref>中提出的重整化和时间演化算子的交换性问题。我们的框架确保微观动力学演化与编码的宏观动力学相匹配。由于解码器是编码器的逆,这种不断发展的微观状态和宏观编码之间的一致性证实了学习动力学和粗粒化方法是可交换的。因此,NIS+扩展了Hoel<ref name=":8" />的CE理论,使其既适用于离散和连续动力系统,也适用于实际数据。
第635行: 第653行:  
②神经网络的可解释性。增强学习模型的可解释性可以提供对潜在机制的有价值的见解,并提高结果的可信度。
 
②神经网络的可解释性。增强学习模型的可解释性可以提供对潜在机制的有价值的见解,并提高结果的可信度。
   −
③我们的工作是对<ref name=":8" /><ref name=":9" />中提出的研究的延伸,这些研究假设动力学是马尔可夫的。然而,当动态表现出强烈的非马尔可夫特征时,量化涌现的替代框架,如<ref name=":0" /><ref name=":10" />中提出的框架,可能具有更大的优势。
+
③作者的工作是对<ref name=":8" /><ref name=":9" />中提出的研究的延伸,这些研究假设动力学是马尔可夫的。然而,当动态表现出强烈的非马尔可夫特征时,量化涌现的替代框架,如<ref name=":0" /><ref name=":10" />中提出的框架,可能具有更大的优势。
 
  −
= 其他 =
  −
Rosas等学者通过将过量熵(excess entropy)分解成不重叠的部分来识别量化因果涌现,且提出了判定因果涌现发生的充分条件。
  −
 
  −
为了简化问题且不失通用性,以有两个输入变量(X<sub>1</sub>、X<sub>2</sub>)和一个输出变量(Y)的系统为例,目标变量和联合源变量的互信息<math>I(X_1,X_2; Y) </math>可以通过部分信息分解(Partial Information Decomposition,简称PID)分解成三种信息,分别是冗余信息(Redundant information,简称Red)、独特信息(Unique information,简称Un)、协同信息(Synergistic information,简称Syn),具体公式如下:
  −
 
  −
<math>I(X_1,X_2; Y) = Red(X_1,X_2; Y) + Un(X_1; Y |X_2) + Un(X_2; Y |X_1) + Syn(X_1,X_2; Y) </math>
  −
 
  −
不过,PID只适用于单个目标变量的情景,无法有效的应用于跨时间步长的系统。故,Rosas等学者提出了整合信息分解(Integrated Information Decomposition,简称ΦID)。当且仅当协同信息大于0的时候,系统有能力发生因果涌现。
  −
 
  −
<math>Syn(X_{t};X_{t+1})  > 0 </math>
  −
 
  −
在给定宏观状态<math>V </math>的情况下,<math>Syn(X_{t};X_{t+1}) ≥ Un(V_t;X_{t+1}|X_t) </math>。所以,如果宏观变量(V<sub>t</sub>)所持有的关于微观变量独特信息大于0,则出现因果涌现。
  −
 
  −
<math>Syn(X_{t};X_{t+1}) ≥ Un(V_t;X_{t+1}|X_t) > 0 </math>
  −
 
  −
通过互信息的相关计算公式,可以得知:
  −
 
  −
<math>Un(V_t;X_{t+1}|X_t)  ≥ I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) + Red(V_t, V_{t+1};X_t) </math>
  −
 
  −
式中,<math>X_t^j </math>表示第 j 维t时刻的微观变量,<math>V_t ; V_{t+1} </math>代表两个连续时间的宏观状态变量。
  −
 
  −
由于<math>Red(V_t, V_{t+1};X_t) </math>为非负数,所以可以提出一个充分非必要条件<math>\Psi_{t, t+1}(V) </math>,用于测量两个时间步宏观变量的互信息减去每个t时刻微观变量和t+1时刻宏观变量的互信息。
  −
 
  −
当<math>\Psi_{t, t+1}(V) > 0 </math>,系统发生因果涌现。但当<math>\mathrm{\Psi}<0 </math>,我们不能确定系统是否发生因果涌现。
  −
<math>\Psi_{t, t+1}(V):=I\left(V_t ; V_{t+1}\right)-\sum_j I\left(X_t^j ; V_{t+1}\right) </math>
  −
 
  −
该方法避开讨论粗粒化策略,但是也存在很多缺点:
  −
 
  −
1)该方法只是基于互信息计算没有考虑因果,且得到的仅仅是发生因果涌现的近似的充分条件;
  −
 
  −
2)该方法需要预设宏观变量,且对宏观变量的不同选择会对结果造成显著影响;
  −
 
  −
3)当系统具有大量冗余信息或具有许多变量时,该方法的计算复杂度仍然很高。
  −
 
  −
Kaplanis等人基于机器学习的方法学习宏观态<math>V</math>以及最大化<math>\mathrm{\Psi} </math>:使用<math>f_{\theta}</math>神经网络来学习将微观输入<math>X_t</math>粗粒化成宏观输出<math>V_t</math>,同时使用神经网络<math>g_{\phi}</math>和<math>h_{\xi}</math>来分别学习<math>I(V_t;V_{t+1})</math>和<math>\sum_i(I(V_{t+1};X_{t}^i))</math>两者互信息的计算,最后通过最大化两者之间的差(即<math>\mathrm{\Psi} </math>)来优化学习。  ''<u>(暂定)</u>''
  −
 
  −
 
  −
机器学习经过训练学习得到的很大程度上是变量之间的相关关系,相关关系的来源可以分成三种:
  −
 
  −
1)因果关系(Causation):当且仅当T发生改变时,Y发生改变。比如在夏天的时候,冰淇淋的销量会上升。
  −
 
  −
2)混杂因素(Confounding):X导致T和Y都上升,但是模型没有学到背后的X,只学出了T的上升导致Y上升,是一种虚假的相关关系。比如当人的年龄增加,很多人会吸烟和发福,而模型可能学出了是因为人吸烟,所以人发福。当给模型输入一组年龄一样,但是吸烟情况不一样的数据时,模型的有效性变会下降。
  −
 
  −
3)样本选择偏差(Sample Selection Bias):当考虑了其他变量后,原本看似有相关性的变量可能实际上并无关联,是一种虚假的相关关系。在上面的狗识别的例子中,机器学习学到的可能是根据草地和狗鼻子这两个因素来判断是不是狗,但是有因果关系的是狗鼻子,草地只是由于样本的分布不均匀,这就导致了模型不能有效识别出在水里、沙漠里的狗。简单来说,草地和标签之间是强相关、弱因果,狗鼻子和标签之间是强相关、强因果。
  −
 
  −
 
  −
根据以上公式,对于给定的维度q,在[[NIS]]中的不等式约束下的最大化问题方程{{EquationNote|1}}即可转化为无约束的损失函数最小化问题,这也是所定义的有约束目标函数的下界,即:
  −
 
  −
<math>
  −
\min_{f,g,\phi,\phi\dagger}\sum_{t=1}^{T-1}w(\boldsymbol{x}_t)||\boldsymbol{y}_t-g(\boldsymbol{y}_{t+1})||+\lambda||\hat{x}_{t+1}-\boldsymbol{x}_{t+1}||
  −
</math>
  −
 
  −
<math>y_{t}=\phi(x_{t})</math>
  −
 
  −
<math>y_{t+1}=\phi(x_{t+1})</math>
  −
 
  −
<math>\hat{x}_{t+1}=\phi^{\dagger}\left(f_{q}(\phi(x_{t})\bigr)\right)</math>
  −
 
  −
<math>\hat{y}_{t+1}=f(y_t)</math>
  −
 
  −
式中,<math>x_{t}</math>、<math>x_{t+1}</math>表示可观测的微观数据,<math>y_{t}</math>、<math>y_{t+1}</math>表示经过粗粒化函数<math>\phi</math>得到的宏观数据,<math>
  −
\hat{y}_{t+1}
  −
</math>表示<math>
  −
y_{t}
  −
</math>经过宏观动力学<math> f: R_q → R_q  </math>得到的预测<math>
  −
t+1
  −
</math>时刻宏观变量值,<math>
  −
\hat{x}_{t+1}
  −
</math>表示<math>\hat{y}_{t+1}</math>经过反粗粒化函数<math>
  −
\phi^{\dagger}
  −
</math>得到的预测的<math>
  −
t+1
  −
</math>时刻微观变量值,<math> g: R_q → R_q  </math>表示反宏观动力学函数,可以根据<math>
  −
t+1
  −
</math>时刻宏观变量值<math>y_{t+1}</math>推出预测的<math>
  −
t
  −
</math>时刻的宏观变量值<math>
  −
\hat{y}_{t}
  −
</math>,<math>λ</math>作为拉格朗日乘子,在实验框架内被认为是一个可调的超参数。<math>
  −
ω(y_t)
  −
</math>表示的逆概率权重具有以下定义:
  −
 
  −
<math>
  −
w(\boldsymbol{x}_t)=\frac{\tilde{p}(\boldsymbol{y}_t)}{p(\boldsymbol{y}_t)}=\frac{\tilde{p}(\phi(\boldsymbol{x}_t))}{p(\phi(\boldsymbol{x}_t))}
  −
</math>
  −
 
  −
其中,<math>
  −
\tilde{p}
  −
</math>为<math>
  −
do(y_t \sim U_q)
  −
</math>干预后宏观状态<math>
  −
y_t
  −
</math>的新分布,<math>
  −
  −
</math>为数据的自然分布。在实际运用中,使用核密度估计(Kernel Density Estimation,简称KDE)来近似<math>
  −
p(y_t) 
  −
</math>。假设干预后的分布<math>
  −
\tilde{p}(y_t)
  −
</math>是均匀分布的。因此,权重<math>
  −
ω
  −
</math>由原始分布与修改后的分布之比决定
  −
 
  −
 
  −
<math>
  −
\min_{f,g,\phi,\phi\dagger}\sum_{t=1}^{T-1}w(\boldsymbol{x}_t)||\boldsymbol{y}_t-g(\boldsymbol{y}_{t+1})||+\lambda||\hat{x}_{t+1}-\boldsymbol{x}_{t+1}||
  −
</math>
  −
 
  −
(a) SIR模型的相空间,以及具有相同感染率和恢复率或死亡率的四个示例轨迹。同时显示用于训练的完整数据集(蓝色区域)和部分数据集(虚线区域),分别由63,000和42,000个均匀分布的数据点组成。(b)曲线描述了不同模型的维平均有效信息(J)随训练时间的变化。线表示平均值,而带宽表示五次重复实验的标准差。(c)比较了SIR动力学的矢量场、NIS+的习得宏观动力学和习得编码器的雅可比矩阵变换后的宏观动力学。每个箭头代表一个方向,以及在该坐标点的动力学导数的大小。(d)将整体与局部进行比较,以评估在部分数据集(缺失42,000个数据点)或完整数据集上训练的不同模型的多步预测误差。这些模型包括NIS+、NIS、前馈神经网络(NN)、具有逆概率加权和反向动力学学习技术的前馈神经网络(NN+)、变分自编码器(VAE)及其重加权和反向动力学版本(VAE+)。(e).微观动力学(J (fm))和宏观动力学(J (fm))的CE(∆J)和EI的变化绘制为观测噪声变化的标准差σ。所有这些指标都是跨维度平均的。按照Rosas对CE的定义和计算方法,黄线表示Rosas ' Ψ的变化。垂直线表示归一化MAE的阈值为0.3。当σ大于阈值时,则不符合式1的误差约束,结果不可靠。(f)将SIR动力学的矢量场、NIS的习得宏观动力学和NIS的编码器雅可比矩阵变换后的宏观动力学与(c)进行比较。
  −
 
  −
 
  −
上图为NIS+学习Boids模型的集体群集行为的实验结果。(a)和(e)给出了各种条件下星体轨迹的实际和预测数据。具体来说,他们给出了在两个分离组和随机偏转角度条件下的多步(50步)预测的比较结果。它们的本征噪声水平α分别为0.001和0.4。(b)展示了多步预测的平均绝对误差(MAE)的上升,因为半径r(表示(a)中物体的初始位置范围)超出了训练数据的限制。(c)用不同的q超参数(代表不同宏观状态的尺度)描述了NIS+的训练时代中维度平均因果出现(∆J)的变化趋势。(d)为显著性图,直观地描述了每个宏观维度与每个体的空间坐标之间的关联。我们用橙色点突出了每个宏观状态维度中最重要的对应微观状态,这些微观状态是使用应用于模型的积分梯度(IG)方法确定的。横轴表示16个物体在微观状态下的x和y坐标,纵轴表示8个宏观维度。淡蓝色的虚线区分了不同个体体的坐标,而钢蓝色的实线分隔了实体组。
  −
 
  −
(f)和(g)表示不同噪声水平下∆J和归一化MAE的变化,(f)表示外部噪声(观测,加入微观状态)(δmax), (g)表示本征噪声(α,通过修改Boids模型的动力学规则加入)。在(f)和(g)中,水平线表示违反式1中误差约束的阈值。当归一化MAE大于阈值0.3时,违反约束,结果不可靠。
  −
 
  −
 
  −
数据生成[[文件:Gamelife append.png|右|无框|1]]
  −
 
  −
本文以Conway’s Game of Life作为实验对象,其中每个细胞有两种状态作为二维状态输入:alive(1)或dead(0),每个细胞受到八个相邻细胞的影响。生命游戏的进化只受输入状态及其更新规则的影响,其中生命游戏有四条进化规则,分别对应细胞繁殖和死亡等。Game of Life的更新规则如下表所示:Game of Life的训练样本生成过程如下:首先初始化状态<math>\Delta{J}>0 </math>xt。当考虑两个步骤的时间粗粒度时,根据更新规则生成状态<math>\Delta{J}>0 </math>xt+1、<math>\Delta{J}>0 </math>xt+2和<math>\Delta{J}>0 </math>xt+3的后续三个步骤,并将其输入到机器学习模型中。两个输入状态分别为<math>\Delta{J}>0 </math>xt和<math>\Delta{J}>0 </math>xt+1,微动力学输出分别为<math>\Delta{J}>0 </math>xt+1和<math>\Delta{J}>0 </math>xt+2。由于使用了时空粗粒度,宏观动力学将输出一个宏观状态,并将其解码为微观状态<math>\Delta{J}>0 </math>xt+2和<math>\Delta{J}>0 </math>xt+3。此过程重复多次(50,000个样本),并生成图10d中用于训练的数据。而在其他实验中,我们生成了50万个样本。
  −
 
  −
 
  −
模型对滑翔机模式的预测能力
  −
 
  −
然后,我们测试了在滑翔机模式上捕获动态模式的能力,其中模型是基于两个滑翔机模式进行训练的。该模型具有良好的预测效果,结果如图11所示。
  −
 
  −
此外,关于其他模型参数的更详细信息请参见表2。
   
= 参考文献 =
 
= 参考文献 =
196

个编辑

导航菜单