更改

跳到导航 跳到搜索
添加163字节 、 2024年9月3日 (星期二)
优化定理、图片、公式的链接与指代
第113行: 第113行:  
===有效宏观动力学===
 
===有效宏观动力学===
   −
同时,由上面导出的宏观动力学<math>\hat{f}_{\phi_q}</math>也是[math]\epsilon[/math]有效的(其中<math>\mathbf{y}(t)</math> 是式2的解)。即对于所有<math>t = 1,2,···, T</math>:
+
同时,由上面导出的宏观动力学<math>\hat{f}_{\phi_q}</math>也是[math]\epsilon[/math]有效的(其中<math>\mathbf{y}(t)</math> 是式{{EquationNote|2}}的解)。即对于所有<math>t = 1,2,···, T</math>:
 
{{NumBlk|:|<blockquote>
 
{{NumBlk|:|<blockquote>
 
<math>
 
<math>
第134行: 第134行:  
=NIS机器学习框架=
 
=NIS机器学习框架=
   −
NIS是一种新的机器学习框架,基于可逆神经网络来解决式6中提出的问题。该框架由三个组件组成:编码器、动力学学习器和解码器。它们分别用神经网络 <math>\psi_\alpha , f_\beta ,</math> 和<math>\psi_\alpha^{-1}</math> 来实现,其中这些神经网络的参数分别为<math>\alpha, \beta</math> 和<math>\alpha</math> 。整个框架如图1所示。接下来将分别描述每个模块。
+
NIS是一种新的机器学习框架,基于可逆神经网络来解决式{{EquationNote|6}}中提出的问题。该框架由三个组件组成:编码器、动力学学习器和解码器。它们分别用神经网络 <math>\psi_\alpha , f_\beta ,</math> 和<math>\psi_\alpha^{-1}</math> 来实现,其中这些神经网络的参数分别为<math>\alpha, \beta</math> 和<math>\alpha</math> 。整个框架如下图所示。接下来将分别描述每个模块。
    
[[文件:NIS Graph 1.png|600px|神经信息压缩器的工作流程和框架。]]
 
[[文件:NIS Graph 1.png|600px|神经信息压缩器的工作流程和框架。]]
第181行: 第181行:  
[[文件:Pasted image 20240519112728.png|600px|双射器基本模块的 RealNVP 神经网络实现]]
 
[[文件:Pasted image 20240519112728.png|600px|双射器基本模块的 RealNVP 神经网络实现]]
   −
有多种方法可以实现可逆神经网络<ref>Teshima, T.; Ishikawa, I.; Tojo, K.; Oono, K.; Ikeda, M.; Sugiyama, M. Coupling-based invertible neural networks are universal diffeomorphism approximators. Adv. Neural Inf. Process. Syst. 2020, 33, 3362–3373.</ref><ref>Teshima, T.; Tojo, K.; Ikeda, M.; Ishikawa, I.; Oono, K. Universal approximation property of neural ordinary differential equations. arXiv 2017, arXiv:2012.02414.</ref>。这里选择如图2所示的RealNVP模块<ref name=":0">Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.</ref>来具体实现可逆计算。
+
有多种方法可以实现可逆神经网络<ref>Teshima, T.; Ishikawa, I.; Tojo, K.; Oono, K.; Ikeda, M.; Sugiyama, M. Coupling-based invertible neural networks are universal diffeomorphism approximators. Adv. Neural Inf. Process. Syst. 2020, 33, 3362–3373.</ref><ref>Teshima, T.; Tojo, K.; Ikeda, M.; Ishikawa, I.; Oono, K. Universal approximation property of neural ordinary differential equations. arXiv 2017, arXiv:2012.02414.</ref>。这里选择如上图所示的RealNVP模块<ref name=":0">Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.</ref>来具体实现可逆计算。
    
在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用来缩放的共享参数的神经网络,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用来平移的共享参数的神经网络。这样,我们就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。
 
在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用来缩放的共享参数的神经网络,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用来平移的共享参数的神经网络。这样,我们就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。
第187行: 第187行:  
==两步优化==
 
==两步优化==
   −
尽管函数已被神经网络参数化,但由于必须综合考虑目标函数和约束条件,并且超参数 <math>q</math> 会影响神经网络的结构,因此直接优化式 6 仍然具有挑战性。因此,论文<ref name="1s" />提出了一种两阶段优化方法。在第一阶段,论文固定超参数 <math>q</math>,并优化预测的微观状态和观测数据的差异 <math>|\phi_q^† (\mathbf{y}(t))-\mathbf{x}_t|</math>(即式 4),以确保粗粒化策略 <math>\phi_q</math> 和宏观动力学 <math>\hat{f}_q</math> 的有效性。此外,NIS通过搜索所有可能的 <math>q</math> 值,以找到有效信息的最大值,也就是最大化 <math>\mathcal{I}</math>。
+
尽管函数已被神经网络参数化,但由于必须综合考虑目标函数和约束条件,并且超参数 <math>q</math> 会影响神经网络的结构,因此直接优化式{{EquationNote|6}}仍然具有挑战性。因此,论文<ref name="1s" />提出了一种两阶段优化方法。在第一阶段,论文固定超参数 <math>q</math>,并优化预测的微观状态和观测数据的差异 <math>|\phi_q^† (\mathbf{y}(t))-\mathbf{x}_t|</math>(即式{{EquationNote|4}}),以确保粗粒化策略 <math>\phi_q</math> 和宏观动力学 <math>\hat{f}_q</math> 的有效性。此外,NIS通过搜索所有可能的 <math>q</math> 值,以找到有效信息的最大值,也就是最大化 <math>\mathcal{I}</math>。
    
===训练一个预测器===
 
===训练一个预测器===
第214行: 第214行:  
[[文件:NIS Fig 3.png|600px|经信息� 神经信息压缩器压缩信道的图形模型。]]
 
[[文件:NIS Fig 3.png|600px|经信息� 神经信息压缩器压缩信道的图形模型。]]
   −
NIS框架(图 1)可以看作图 3 所示的信道,由于投影操作的存在,通道在中间被压缩。此为压缩信息通道。
+
NIS框架可以看作上图所示的信道,由于投影操作的存在,通道在中间被压缩。此为压缩信息通道。
    
'''信息压缩的信息瓶颈'''
 
'''信息压缩的信息瓶颈'''
   −
对于图 3 所示的压缩信道以及任意可逆函数<math>\psi</math>、投影函数 <math>\chi_q</math>、宏观动力学 <math>f</math> 和随机噪声 <math>\mathbf{z}_{p-q} \sim \mathcal{N}(0,\mathcal{I}_{p-q})</math>,有:{{NumBlk|:|<blockquote><math>I(\mathbf{y}_t; \mathbf{y}(t+1) )= I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1}),</math></blockquote>|{{EquationRef|21}}}}
+
对于上图所示的压缩信道以及任意可逆函数<math>\psi</math>、投影函数 <math>\chi_q</math>、宏观动力学 <math>f</math> 和随机噪声 <math>\mathbf{z}_{p-q} \sim \mathcal{N}(0,\mathcal{I}_{p-q})</math>,有:{{NumBlk|:|<blockquote><math>I(\mathbf{y}_t; \mathbf{y}(t+1) )= I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1}),</math></blockquote>|{{EquationRef|21}}}}
 
其中<math>\hat{\mathbf{x}}_{t+1}</math> 是NIS的预测值,<math>\mathbf{y}(t+1)</math>符合式{{EquationNote|2}}。
 
其中<math>\hat{\mathbf{x}}_{t+1}</math> 是NIS的预测值,<math>\mathbf{y}(t+1)</math>符合式{{EquationNote|2}}。
   −
对于任何实现图 3 中一般框架的神经网络,宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同,即对于任意时间从 <math>(\mathbf{x}_t)</math> 到 <math>(\hat{\mathbf{x}}_{t+1})</math> 的映射。此定理是 NIS 中最重要的定理。从这个定理可以看出,实际上,宏观动力学 <math>f</math> 是整个通道的信息瓶颈<ref>Shwartz-Ziv, R.; Tishby, N. Opening the black box of deep neural networks via information. arXiv 2017, arXiv:1703.00810.</ref>。
+
对于任何实现压缩信道示意图中一般框架的神经网络,宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同,即对于任意时间从 <math>(\mathbf{x}_t)</math> 到 <math>(\hat{\mathbf{x}}_{t+1})</math> 的映射。此定理是 NIS 中最重要的定理。从这个定理可以看出,实际上,宏观动力学 <math>f</math> 是整个通道的信息瓶颈<ref>Shwartz-Ziv, R.; Tishby, N. Opening the black box of deep neural networks via information. arXiv 2017, arXiv:1703.00810.</ref>。
    
==训练过程的变化==
 
==训练过程的变化==
第245行: 第245行:  
其中H为香农熵测度,<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>为双射<math>\psi_\alpha</math>输入<math>\mathbf{x}_t</math> 时的雅可比矩阵,<math>J_{\psi_\alpha , \mathbf{y}_t}(\mathbf{x}_t)</math> 为<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>在<math>\mathbf{x}'_t</math> 投影<math>\mathbf{y}_t</math>上的子矩阵。
 
其中H为香农熵测度,<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>为双射<math>\psi_\alpha</math>输入<math>\mathbf{x}_t</math> 时的雅可比矩阵,<math>J_{\psi_\alpha , \mathbf{y}_t}(\mathbf{x}_t)</math> 为<math>J_{\psi_\alpha}(\mathbf{x}_t)</math>在<math>\mathbf{x}'_t</math> 投影<math>\mathbf{y}_t</math>上的子矩阵。
   −
由于给出了<math>\mathbf{\mathrm{x}}_t</math>的熵,定理4指出 <math>|\det(J_{\psi_\alpha}(\mathbf{x}_t))|</math>的对数的期望以及<math>\mathbf{y}_t</math>必然大于整个信道的信息。
+
由于给出了<math>\mathbf{\mathrm{x}}_t</math>的熵,NIS的互信息性质定理指出 <math>|\det(J_{\psi_\alpha}(\mathbf{x}_t))|</math>的对数的期望以及<math>\mathbf{y}_t</math>必然大于整个信道的信息。
    
因此,若<math>\mathbb{E} | \det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>的初始值和<math>\mathbf{y}_t</math>很小,随着模型的训练,整个信道的互信息会增加,此时雅可比矩阵的行列式必然增大,宏观态<math>\mathbf{y}_t</math>也必然更分散。但若信息<math>I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1})</math>已对<math>I(\mathbf{x}_t; \mathbf{x}_{t+1})</math>或<math>\mathbb{E} |\det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>和<math>H(\mathbf{y}_t)</math>已足够大,则这些现象可能不会发生。
 
因此,若<math>\mathbb{E} | \det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>的初始值和<math>\mathbf{y}_t</math>很小,随着模型的训练,整个信道的互信息会增加,此时雅可比矩阵的行列式必然增大,宏观态<math>\mathbf{y}_t</math>也必然更分散。但若信息<math>I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1})</math>已对<math>I(\mathbf{x}_t; \mathbf{x}_{t+1})</math>或<math>\mathbb{E} |\det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>和<math>H(\mathbf{y}_t)</math>已足够大,则这些现象可能不会发生。
第297行: 第297行:  
其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值,<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态,测量微观状态<math>\tilde{\mathbf{x}}_1</math>,<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观X。
 
其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值,<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态,测量微观状态<math>\tilde{\mathbf{x}}_1</math>,<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观X。
   −
根据式27,影响状态测量的噪音可以通过叠加两通道的数据消除。因此,如果在NIS中输入两个测量值的宏观状态,则可简单地获得正确的动力学。使用Euler方法(<math>dt = 1</math>)采样<math>10,000</math>批批次的数据,并在每个批次中生成100个随机初始状态并执行一个步骤动力学,求得下一个时间步长中的状态。使用这些数据来训练神经网络,同时使用相同的数据集来训练具有相同数量参数的普通前馈神经网络以作比较。 结果如下图所示。
+
根据式{{EquationNote|27}},影响状态测量的噪音可以通过叠加两通道的数据消除。因此,如果在NIS中输入两个测量值的宏观状态,则可简单地获得正确的动力学。使用Euler方法(<math>dt = 1</math>)采样<math>10,000</math>批批次的数据,并在每个批次中生成100个随机初始状态并执行一个步骤动力学,求得下一个时间步长中的状态。使用这些数据来训练神经网络,同时使用相同的数据集来训练具有相同数量参数的普通前馈神经网络以作比较。 结果如下图所示。
       
[[文件:NIS Fig 4.png|600px|有测量� 具有测量噪声的简单弹簧振荡器的实验结果。]]
 
[[文件:NIS Fig 4.png|600px|有测量� 具有测量噪声的简单弹簧振荡器的实验结果。]]
   −
下一组实验结果验证4.1节中提到的定理和信息瓶颈理论。当 q 取不同值时,<math>I(\mathbf{x}_t,\mathbf{x}_{t+1})</math>、<math>I(\mathbf{y}_t,\mathbf{y}_{t+1})</math>和<math>I(\hat{\mathbf{x}}_t,\hat{\mathbf{x}}_{t+1})</math>的互信息随迭代次数的变化情况,如上图(c)(d)所示,其中所有的互信息的收敛均符合定理2、3。同时绘制不同 <math>q</math> 下的 <math>\mathbf{x}_t</math> 和 <math>\mathbf{y}_t</math> 之间的互信息来检验信道与互信息的关系。如上图a部分所示,当 <math>q</math> 增加时,互信息增加。
+
下一组实验结果验证NIS基本性质的定理和信息瓶颈理论。当 q 取不同值时,<math>I(\mathbf{x}_t,\mathbf{x}_{t+1})</math>、<math>I(\mathbf{y}_t,\mathbf{y}_{t+1})</math>和<math>I(\hat{\mathbf{x}}_t,\hat{\mathbf{x}}_{t+1})</math>的互信息随迭代次数的变化情况,如上图(c)(d)所示,其中所有的互信息的收敛均符合NIS训练过程中有效信息的变化定理。同时绘制不同 <math>q</math> 下的 <math>\mathbf{x}_t</math> 和 <math>\mathbf{y}_t</math> 之间的互信息来检验信道与互信息的关系。如上图a部分所示,当 <math>q</math> 增加时,互信息增加。
    
[[文件:NIS Fig 5.png|600px|量间的� 变量间的各类互信息随着训练迭代次数而发生变化。]]
 
[[文件:NIS Fig 5.png|600px|量间的� 变量间的各类互信息随着训练迭代次数而发生变化。]]
第326行: 第326行:  
该系统有 8 个状态,其中 7之间 个可以相互转移,最后一个状态是独立的。使用一个 one-hot 向量编码状态(例如状态2将表示为 (0,1,0,0,0,0,0,0))。对初始状态进行50,000个批次的采样以生成数据,然后将 one-hot 向量输入 NIS 框架,经过50,000个迭代轮次的训练后可以得到一个有效的模型。结果如上图所示。
 
该系统有 8 个状态,其中 7之间 个可以相互转移,最后一个状态是独立的。使用一个 one-hot 向量编码状态(例如状态2将表示为 (0,1,0,0,0,0,0,0))。对初始状态进行50,000个批次的采样以生成数据,然后将 one-hot 向量输入 NIS 框架,经过50,000个迭代轮次的训练后可以得到一个有效的模型。结果如上图所示。
   −
通过系统地搜索不同的 <math>q</math> 可以发现维度平均因果涌现(dCE)在 <math>q=1</math> 处达到峰值(图 6a)。可以通过图 6b 可视化在最佳尺度上的粗粒化策略,其中 <math>x</math> 坐标是不同状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。粗粒化映射成功地将前七个状态分类为一个宏观状态,同时保持最后一个状态不变。这种学习到的粗粒化策略与文献<ref name=":0" />中的示例相同。
+
通过系统地搜索不同的 <math>q</math> 可以发现维度平均因果涌现(dCE)在 <math>q=1</math> 处达到峰值(上图a部分)。可以通过上图b部分可视化在最佳尺度上的粗粒化策略,其中 <math>x</math> 坐标是不同状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。粗粒化映射成功地将前七个状态分类为一个宏观状态,同时保持最后一个状态不变。这种学习到的粗粒化策略与文献<ref name=":0" />中的示例相同。
   −
将学习到的宏观动力学可视化(图 6c)。 <math>y_t < 0</math> 时宏观动力学是一个线性映射,<math>y_t > 0</math> 时它可被视为一个常数。因此,该动力学可以保证所有前七个微观状态都可以与最后一个状态分离。图6d验证了信息压缩的信息瓶颈定理,即宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同。
+
将学习到的宏观动力学可视化(上图c部分)。 <math>y_t < 0</math> 时宏观动力学是一个线性映射,<math>y_t > 0</math> 时它可被视为一个常数。因此,该动力学可以保证所有前七个微观状态都可以与最后一个状态分离。上图d部分验证了信息压缩的信息瓶颈定理,即宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同。
    
==简单布尔网络==
 
==简单布尔网络==
第339行: 第339行:     
=有效信息的度量=
 
=有效信息的度量=
本部分在[[有效信息]]词条的5.2节中有详细描述,为NIS框架解决的问题之一。
+
本部分在[[有效信息]]词条中有详细描述,为NIS框架解决的问题之一。
    
对于前馈神经网络, 其EI的计算有一些不合理之处:首先EI的计算结果将会受到L的严重影响;其次,如果计算归一化的EI,即Eff,那么会遇到一个问题:对于连续变量来说,其状态空间的元素个数为无穷多个,如果直接使用,势必会引入无穷大量。
 
对于前馈神经网络, 其EI的计算有一些不合理之处:首先EI的计算结果将会受到L的严重影响;其次,如果计算归一化的EI,即Eff,那么会遇到一个问题:对于连续变量来说,其状态空间的元素个数为无穷多个,如果直接使用,势必会引入无穷大量。
68

个编辑

导航菜单