第1行: |
第1行: |
| + | NIS(神经信息压缩器)是一个以最大化粗粒化过程中有效信息的神经网络框架。它由可逆神经网络组成,分为编码器、解码器、动力学学习器三部分,可以通过微观状态时间序列的输入、训练后输出粗粒化策略、宏观动力学、最优建模尺度,并判断是否存在因果涌现。NIS框架可以被视为一个压缩信道,通过投影操作在中间进行信道压缩。这种压缩信息通道通过约束粗粒化策略,将复杂的微观状态映射到简单的宏观状态,从而定义了有效的粗粒化策略和宏观动态。基于信息瓶颈理论,NIS框架通过神经网络模型的训练过程中,逐渐使得其输出与真实数据的互信息接近于 <math> I(\mathbf{x}{t+1}; \mathbf{x}_t) </math>,从而增强了整个系统的因果涌现特性。 |
| + | 验证其性质的实验包括带测量噪声的弹簧振荡器、简单布尔网络等,由其部分不足之处也衍生出了NIS+框架。NIS在信息瓶颈理论的指导下,展示了在时间序列数据中发现因果涌现的理论性质和应用潜力。 |
| + | |
| =历史= | | =历史= |
| | | |
− | ==Normalizing Flow(标准化流)技术== | + | ==标准化流技术== |
| 标准化流(Normalizing Flows,NF)是一类通用的方法,它通过构造一种可逆的变换,将任意的数据分布<math>p_x (\mathbf{x}) </math>变换到一个简单的基础分布<math>p_z (\mathbf{z})</math>,因为变换是可逆的,所以<math>\mathbf{x}</math>和<math>\mathbf{z}</math>是可以任意等价变换的。之所以叫Normalizing Flows,是因为它包含两个概念: | | 标准化流(Normalizing Flows,NF)是一类通用的方法,它通过构造一种可逆的变换,将任意的数据分布<math>p_x (\mathbf{x}) </math>变换到一个简单的基础分布<math>p_z (\mathbf{z})</math>,因为变换是可逆的,所以<math>\mathbf{x}</math>和<math>\mathbf{z}</math>是可以任意等价变换的。之所以叫Normalizing Flows,是因为它包含两个概念: |
| | | |
第9行: |
第12行: |
| 需要说明的是,因为分布间是可以相互变换的,因此对基础分布没有特定的限制,不失一般性的,可以使用标准分布(单高斯)分布作为基础分布。另外,在本文中,我们回避使用先验分布(prior distribution)来称呼这个基础分布,是因为这里的变量<math>\mathbf{z}</math>和其他场合下的隐变量不同,在标准化流模型中,一旦<math>\mathbf{x}</math>确定了,<math>\mathbf{z}</math>也随之确定下来,不存在随机性,也没有后验概率这一说法,所以不能称其为隐变量。 | | 需要说明的是,因为分布间是可以相互变换的,因此对基础分布没有特定的限制,不失一般性的,可以使用标准分布(单高斯)分布作为基础分布。另外,在本文中,我们回避使用先验分布(prior distribution)来称呼这个基础分布,是因为这里的变量<math>\mathbf{z}</math>和其他场合下的隐变量不同,在标准化流模型中,一旦<math>\mathbf{x}</math>确定了,<math>\mathbf{z}</math>也随之确定下来,不存在随机性,也没有后验概率这一说法,所以不能称其为隐变量。 |
| | | |
− | 正则化流模型(Normalizing Flow)和NIS在某些方面具有相似性。它们都致力于使用可逆神经网络(INN)将复杂的微观状态<math>s</math>映射到更简单的宏观状态<math>S</math>,即粗粒化过程。在这种粗粒化之后,二者都试图最大化由此产生的有效信息量<math>L(s,S)</math>,从而提取出系统中重要的宏观动态特征。这种方法可以帮助理解复杂系统中的涌现现象和因果关系,在数据建模和分析中有较大应用潜力。
| + | 标准化流模型和NIS在某些方面具有相似性。它们都致力于使用可逆神经网络(INN)将复杂的微观状态<math>s</math>映射到更简单的宏观状态<math>S</math>,即粗粒化过程。在这种粗粒化之后,二者都试图最大化由此产生的有效信息量<math>L(s,S)</math>,从而提取出系统中重要的宏观动态特征。这种方法可以帮助理解复杂系统中的涌现现象和因果关系,在数据建模和分析中有较大应用潜力。 |
| | | |
| ==数学框架:最大化EI== | | ==数学框架:最大化EI== |
第29行: |
第32行: |
| | | |
| ==神经网络框架== | | ==神经网络框架== |
− | 作为神经网络框架,NIS本质上是一种粗粒化函数。其分为编码器、动力学学习器与解码器,可以由微观状态的时间序列输入、经训练后输出如下四个部分:
| + | 作为神经网络框架,NIS本质上是一个隐空间动力学学习框架。其分为编码器、动力学学习器与解码器,可以由微观状态的时间序列输入、经训练后输出如下四个部分: |
| | | |
| *尺度M下的粗粒化策略(由可逆神经网络INN表示); | | *尺度M下的粗粒化策略(由可逆神经网络INN表示); |
第130行: |
第133行: |
| 在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用于缩放的相同神经网络共享参数,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用于平移的神经网络共享参数。这样,就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。 | | 在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用于缩放的相同神经网络共享参数,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用于平移的神经网络共享参数。这样,就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。 |
| | | |
− | == 两步优化== | + | ==两步优化== |
| | | |
| 尽管函数已被神经网络参数化,但由于必须综合考虑目标函数和约束条件,并且超参数 <math>q</math> 会影响神经网络的结构,因此直接优化式 6 仍然具有挑战性。因此,我们提出了一种两阶段优化方法。在第一阶段,我们固定超参数 <math>q</math>,并优化预测的微观状态和观测数据的差异 <math>|\phi_q^† (\mathbf{y}(t))-\mathbf{x}_t|</math>(即式 4),以确保粗粒化策略 <math>\phi_q</math> 和宏观动力学 <math>\hat{f}_q</math> 的有效性。此外,我们搜索所有可能的 <math>q</math> 值,以找到最佳值,最大化 <math>\mathcal{I}</math>。 | | 尽管函数已被神经网络参数化,但由于必须综合考虑目标函数和约束条件,并且超参数 <math>q</math> 会影响神经网络的结构,因此直接优化式 6 仍然具有挑战性。因此,我们提出了一种两阶段优化方法。在第一阶段,我们固定超参数 <math>q</math>,并优化预测的微观状态和观测数据的差异 <math>|\phi_q^† (\mathbf{y}(t))-\mathbf{x}_t|</math>(即式 4),以确保粗粒化策略 <math>\phi_q</math> 和宏观动力学 <math>\hat{f}_q</math> 的有效性。此外,我们搜索所有可能的 <math>q</math> 值,以找到最佳值,最大化 <math>\mathcal{I}</math>。 |
第214行: |
第217行: |
| | | |
| | | |
− | '''理论6:信道越窄互信息越小''' | + | '''信道越窄互信息越小''' |
| | | |
| 若<math>\mathbf{x}_t</math>是<math>p</math>维的,那么对于 <math>0 < q_1 < q_2 < p</math> 有 | | 若<math>\mathbf{x}_t</math>是<math>p</math>维的,那么对于 <math>0 < q_1 < q_2 < p</math> 有 |
第274行: |
第277行: |
| 通过对整个网络进行 50,000 次状态转换的采样(每次采样包含 100 个从可能状态空间均匀随机采样的不同初始条件),将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(图 8a)。可视化结果显示出粗粒化策略(图 8b),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。与参考文献5中的示例相似,16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。这个示例验证了信息瓶颈理论与信道互信息之间的关系(图 8c, d)。 | | 通过对整个网络进行 50,000 次状态转换的采样(每次采样包含 100 个从可能状态空间均匀随机采样的不同初始条件),将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(图 8a)。可视化结果显示出粗粒化策略(图 8b),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。与参考文献5中的示例相似,16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。这个示例验证了信息瓶颈理论与信道互信息之间的关系(图 8c, d)。 |
| | | |
− | =有效信息的度量 = | + | =有效信息的度量= |
| 本部分在[[有效信息]]词条的5.2节中有详细描述,为NIS框架解决的问题之一。 | | 本部分在[[有效信息]]词条的5.2节中有详细描述,为NIS框架解决的问题之一。 |
| | | |