更改

添加125字节 、 2024年7月7日 (星期日)
无编辑摘要
第9行: 第9行:  
需要说明的是,因为分布间是可以相互变换的,因此对基础分布没有特定的限制,不失一般性的,可以使用标准分布(单高斯)分布作为基础分布。另外,在本文中,我们回避使用先验分布(prior distribution)来称呼这个基础分布,是因为这里的变量<math>\mathbf{z}</math>和其他场合下的隐变量不同,在标准化流模型中,一旦<math>\mathbf{x}</math>确定了,<math>\mathbf{z}</math>也随之确定下来,不存在随机性,也没有后验概率这一说法,所以不能称其为隐变量。
 
需要说明的是,因为分布间是可以相互变换的,因此对基础分布没有特定的限制,不失一般性的,可以使用标准分布(单高斯)分布作为基础分布。另外,在本文中,我们回避使用先验分布(prior distribution)来称呼这个基础分布,是因为这里的变量<math>\mathbf{z}</math>和其他场合下的隐变量不同,在标准化流模型中,一旦<math>\mathbf{x}</math>确定了,<math>\mathbf{z}</math>也随之确定下来,不存在随机性,也没有后验概率这一说法,所以不能称其为隐变量。
   −
正则化流模型(Normalizing Flow)和NIS在某些方面具有相似性。它们都致力于使用可逆神经网络(INN)通过将复杂的微观状态<math>s</math>映射到更简单的宏观状态<math>S</math>,即粗粒化过程。在这种粗粒化之后,二者都试图最大化由此产生的有效信息量<math>L(s,S)</math>,从而提取出系统中重要的宏观动态特征。这种方法可以帮助理解复杂系统中的涌现现象和因果关系,在数据建模和分析中有较大应用潜力。
+
正则化流模型(Normalizing Flow)和NIS在某些方面具有相似性。它们都致力于使用可逆神经网络(INN)将复杂的微观状态<math>s</math>映射到更简单的宏观状态<math>S</math>,即粗粒化过程。在这种粗粒化之后,二者都试图最大化由此产生的有效信息量<math>L(s,S)</math>,从而提取出系统中重要的宏观动态特征。这种方法可以帮助理解复杂系统中的涌现现象和因果关系,在数据建模和分析中有较大应用潜力。
    
==数学框架:最大化EI==
 
==数学框架:最大化EI==
第20行: 第20行:  
<math>CC = max _{I_D}(I_D;E_D).</math>
 
<math>CC = max _{I_D}(I_D;E_D).</math>
   −
正如改变通道的输入概率分布p(X)可以增加I(X;Y),改变干预分布l可以增加I_D。宏观干预的使用转换或扭曲了I_D,导致因果涌现。相应地,具有EI最大化的宏观因果模型(及其相关的I_D和E_D)最充分地利用了系统的因果容量。还需注意的是,尽管从某个特定宏观尺度的视角来看,I_D仍处于H的最大化状态,即每个do(s_m)具有相同的概率(而E_D是宏观效应的集合)。
+
正如改变通道的输入概率分布<math>p(X)</math>可以增加<math>I(X;Y)</math>,改变干预分布l可以增加<math>I_D</math>。宏观干预的使用转换或扭曲了<math>I_D</math>,导致因果涌现。相应地,具有EI最大化的宏观因果模型(及其相关的<math>I_D</math>和<math>E_D</math>)最充分地利用了系统的因果容量。还需注意的是,尽管从某个特定宏观尺度的视角来看,<math>I_D</math>仍处于<math>H</math>的最大化状态,即每个<math>do(s_m)</math>具有相同的概率(而<math>E_D</math>是宏观效应的集合)。
    
NIS框架解决的数学问题正是如何最大化这一过程中的有效信息。
 
NIS框架解决的数学问题正是如何最大化这一过程中的有效信息。
第38行: 第38行:  
这一架构的另一优点是,其解码器可由编码器逆转得到,且可以自上而下地从编码器配合随机采样的数据生成微观态细节,属于生成模型的一种。
 
这一架构的另一优点是,其解码器可由编码器逆转得到,且可以自上而下地从编码器配合随机采样的数据生成微观态细节,属于生成模型的一种。
   −
=问题描述 =
+
=问题描述=
    
==背景知识==
 
==背景知识==
第130行: 第130行:  
在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用于缩放的相同神经网络共享参数,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用于平移的神经网络共享参数。这样,​​就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。
 
在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用于缩放的相同神经网络共享参数,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用于平移的神经网络共享参数。这样,​​就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。
   −
==两步优化==
+
== 两步优化==
    
尽管函数已被神经网络参数化,但由于必须综合考虑目标函数和约束条件,并且超参数 <math>q</math> 会影响神经网络的结构,因此直接优化式 6 仍然具有挑战性。因此,我们提出了一种两阶段优化方法。在第一阶段,我们固定超参数 <math>q</math>,并优化预测的微观状态和观测数据的差异 <math>|\phi_q^† (\mathbf{y}(t))-\mathbf{x}_t|</math>(即式 4),以确保粗粒化策略 <math>\phi_q</math> 和宏观动力学 <math>\hat{f}_q</math> 的有效性。此外,我们搜索所有可能的 <math>q</math> 值,以找到最佳值,最大化 <math>\mathcal{I}</math>。
 
尽管函数已被神经网络参数化,但由于必须综合考虑目标函数和约束条件,并且超参数 <math>q</math> 会影响神经网络的结构,因此直接优化式 6 仍然具有挑战性。因此,我们提出了一种两阶段优化方法。在第一阶段,我们固定超参数 <math>q</math>,并优化预测的微观状态和观测数据的差异 <math>|\phi_q^† (\mathbf{y}(t))-\mathbf{x}_t|</math>(即式 4),以确保粗粒化策略 <math>\phi_q</math> 和宏观动力学 <math>\hat{f}_q</math> 的有效性。此外,我们搜索所有可能的 <math>q</math> 值,以找到最佳值,最大化 <math>\mathcal{I}</math>。
第274行: 第274行:  
通过对整个网络进行 50,000 次状态转换的采样(每次采样包含 100 个从可能状态空间均匀随机采样的不同初始条件),将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(图 8a)。可视化结果显示出粗粒化策略(图 8b),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。与参考文献5中的示例相似,16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。这个示例验证了信息瓶颈理论与信道互信息之间的关系(图 8c, d)。
 
通过对整个网络进行 50,000 次状态转换的采样(每次采样包含 100 个从可能状态空间均匀随机采样的不同初始条件),将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(图 8a)。可视化结果显示出粗粒化策略(图 8b),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。与参考文献5中的示例相似,16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。这个示例验证了信息瓶颈理论与信道互信息之间的关系(图 8c, d)。
   −
=有效信息的度量=
+
=有效信息的度量 =
 
本部分在[[有效信息]]词条的5.2节中有详细描述,为NIS框架解决的问题之一。
 
本部分在[[有效信息]]词条的5.2节中有详细描述,为NIS框架解决的问题之一。
  
68

个编辑