更改

添加1,082字节 、 2024年7月7日 (星期日)
添加摘要、更改部分公式格式、增强术语前后一致性
第1行: 第1行:  +
NIS(神经信息压缩器)是一个以最大化粗粒化过程中有效信息的神经网络框架。它由可逆神经网络组成,分为编码器、解码器、动力学学习器三部分,可以通过微观状态时间序列的输入、训练后输出粗粒化策略、宏观动力学、最优建模尺度,并判断是否存在因果涌现。NIS框架可以被视为一个压缩信道,通过投影操作在中间进行信道压缩。这种压缩信息通道通过约束粗粒化策略,将复杂的微观状态映射到简单的宏观状态,从而定义了有效的粗粒化策略和宏观动态。基于信息瓶颈理论,NIS框架通过神经网络模型的训练过程中,逐渐使得其输出与真实数据的互信息接近于 <math> I(\mathbf{x}{t+1}; \mathbf{x}_t) </math>,从而增强了整个系统的因果涌现特性。
 +
验证其性质的实验包括带测量噪声的弹簧振荡器、简单布尔网络等,由其部分不足之处也衍生出了NIS+框架。NIS在信息瓶颈理论的指导下,展示了在时间序列数据中发现因果涌现的理论性质和应用潜力。
 +
 
=历史=
 
=历史=
   −
==Normalizing Flow(标准化流)技术==
+
==标准化流技术==
 
标准化流(Normalizing Flows,NF)是一类通用的方法,它通过构造一种可逆的变换,将任意的数据分布<math>p_x (\mathbf{x}) </math>变换到一个简单的基础分布<math>p_z (\mathbf{z})</math>,因为变换是可逆的,所以<math>\mathbf{x}</math>和<math>\mathbf{z}</math>是可以任意等价变换的。之所以叫Normalizing Flows,是因为它包含两个概念:
 
标准化流(Normalizing Flows,NF)是一类通用的方法,它通过构造一种可逆的变换,将任意的数据分布<math>p_x (\mathbf{x}) </math>变换到一个简单的基础分布<math>p_z (\mathbf{z})</math>,因为变换是可逆的,所以<math>\mathbf{x}</math>和<math>\mathbf{z}</math>是可以任意等价变换的。之所以叫Normalizing Flows,是因为它包含两个概念:
   第9行: 第12行:  
需要说明的是,因为分布间是可以相互变换的,因此对基础分布没有特定的限制,不失一般性的,可以使用标准分布(单高斯)分布作为基础分布。另外,在本文中,我们回避使用先验分布(prior distribution)来称呼这个基础分布,是因为这里的变量<math>\mathbf{z}</math>和其他场合下的隐变量不同,在标准化流模型中,一旦<math>\mathbf{x}</math>确定了,<math>\mathbf{z}</math>也随之确定下来,不存在随机性,也没有后验概率这一说法,所以不能称其为隐变量。
 
需要说明的是,因为分布间是可以相互变换的,因此对基础分布没有特定的限制,不失一般性的,可以使用标准分布(单高斯)分布作为基础分布。另外,在本文中,我们回避使用先验分布(prior distribution)来称呼这个基础分布,是因为这里的变量<math>\mathbf{z}</math>和其他场合下的隐变量不同,在标准化流模型中,一旦<math>\mathbf{x}</math>确定了,<math>\mathbf{z}</math>也随之确定下来,不存在随机性,也没有后验概率这一说法,所以不能称其为隐变量。
   −
正则化流模型(Normalizing Flow)和NIS在某些方面具有相似性。它们都致力于使用可逆神经网络(INN)将复杂的微观状态<math>s</math>映射到更简单的宏观状态<math>S</math>,即粗粒化过程。在这种粗粒化之后,二者都试图最大化由此产生的有效信息量<math>L(s,S)</math>,从而提取出系统中重要的宏观动态特征。这种方法可以帮助理解复杂系统中的涌现现象和因果关系,在数据建模和分析中有较大应用潜力。
+
标准化流模型和NIS在某些方面具有相似性。它们都致力于使用可逆神经网络(INN)将复杂的微观状态<math>s</math>映射到更简单的宏观状态<math>S</math>,即粗粒化过程。在这种粗粒化之后,二者都试图最大化由此产生的有效信息量<math>L(s,S)</math>,从而提取出系统中重要的宏观动态特征。这种方法可以帮助理解复杂系统中的涌现现象和因果关系,在数据建模和分析中有较大应用潜力。
    
==数学框架:最大化EI==
 
==数学框架:最大化EI==
第29行: 第32行:     
==神经网络框架==
 
==神经网络框架==
作为神经网络框架,NIS本质上是一种粗粒化函数。其分为编码器、动力学学习器与解码器,可以由微观状态的时间序列输入、经训练后输出如下四个部分:
+
作为神经网络框架,NIS本质上是一个隐空间动力学学习框架。其分为编码器、动力学学习器与解码器,可以由微观状态的时间序列输入、经训练后输出如下四个部分:
    
*尺度M下的粗粒化策略(由可逆神经网络INN表示);
 
*尺度M下的粗粒化策略(由可逆神经网络INN表示);
第130行: 第133行:  
在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用于缩放的相同神经网络共享参数,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用于平移的神经网络共享参数。这样,​​就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。
 
在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用于缩放的相同神经网络共享参数,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用于平移的神经网络共享参数。这样,​​就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。
   −
== 两步优化==
+
==两步优化==
    
尽管函数已被神经网络参数化,但由于必须综合考虑目标函数和约束条件,并且超参数 <math>q</math> 会影响神经网络的结构,因此直接优化式 6 仍然具有挑战性。因此,我们提出了一种两阶段优化方法。在第一阶段,我们固定超参数 <math>q</math>,并优化预测的微观状态和观测数据的差异 <math>|\phi_q^† (\mathbf{y}(t))-\mathbf{x}_t|</math>(即式 4),以确保粗粒化策略 <math>\phi_q</math> 和宏观动力学 <math>\hat{f}_q</math> 的有效性。此外,我们搜索所有可能的 <math>q</math> 值,以找到最佳值,最大化 <math>\mathcal{I}</math>。
 
尽管函数已被神经网络参数化,但由于必须综合考虑目标函数和约束条件,并且超参数 <math>q</math> 会影响神经网络的结构,因此直接优化式 6 仍然具有挑战性。因此,我们提出了一种两阶段优化方法。在第一阶段,我们固定超参数 <math>q</math>,并优化预测的微观状态和观测数据的差异 <math>|\phi_q^† (\mathbf{y}(t))-\mathbf{x}_t|</math>(即式 4),以确保粗粒化策略 <math>\phi_q</math> 和宏观动力学 <math>\hat{f}_q</math> 的有效性。此外,我们搜索所有可能的 <math>q</math> 值,以找到最佳值,最大化 <math>\mathcal{I}</math>。
第214行: 第217行:       −
'''理论6:信道越窄互信息越小'''
+
'''信道越窄互信息越小'''
    
若<math>\mathbf{x}_t</math>是<math>p</math>维的,那么对于 <math>0 < q_1 < q_2 < p</math> 有
 
若<math>\mathbf{x}_t</math>是<math>p</math>维的,那么对于 <math>0 < q_1 < q_2 < p</math> 有
第274行: 第277行:  
通过对整个网络进行 50,000 次状态转换的采样(每次采样包含 100 个从可能状态空间均匀随机采样的不同初始条件),将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(图 8a)。可视化结果显示出粗粒化策略(图 8b),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。与参考文献5中的示例相似,16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。这个示例验证了信息瓶颈理论与信道互信息之间的关系(图 8c, d)。
 
通过对整个网络进行 50,000 次状态转换的采样(每次采样包含 100 个从可能状态空间均匀随机采样的不同初始条件),将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(图 8a)。可视化结果显示出粗粒化策略(图 8b),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。与参考文献5中的示例相似,16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。这个示例验证了信息瓶颈理论与信道互信息之间的关系(图 8c, d)。
   −
=有效信息的度量 =
+
=有效信息的度量=
 
本部分在[[有效信息]]词条的5.2节中有详细描述,为NIS框架解决的问题之一。
 
本部分在[[有效信息]]词条的5.2节中有详细描述,为NIS框架解决的问题之一。
  
68

个编辑