第4行: |
第4行: |
| | | |
| ==因果涌现的识别== | | ==因果涌现的识别== |
− | 尽管已经存在许多跨时间和空间尺度的[[因果涌现]]的具体例子(加文献,Erik Hoel 2013,2017等),但是传统方法需要预先指定的粗粒化方案和微观动力学的马尔科夫转移矩阵。因此,我们仍然需要一种仅从数据中识别因果涌现的方法,同时找到最优的粗粒化策略和宏观动力学模型。解决这一问题的困难主要在于,需要一种方法来系统地、自动地搜索所有可能的粗粒化策略(函数、映射),从而得到宏观动力学,以及判断因果涌现。但搜索空间是微观和宏观之间所有可能的映射函数,体量非常巨大。为了解决这个问题,Klein 等人重点研究了具有网络结构的复杂系统,将粗粒化问题转化为节点聚类,即找到一种方法将节点分组,使得簇级别的连接比原始网络具有更大的[[有效信息]]。虽然该方法假设底层节点动态是扩散(随机游走)的,它还是被广泛应用于各个领域。同时,现实世界中的的复杂系统具有更丰富的节点动态。对于一般的动态系统,即使给定节点分组,粗粒化策略仍然需要考虑如何将簇中所有节点的微观状态映射到簇的宏观状态,也需要在巨大的粗粒化策略函数空间上进行繁琐的搜索。详细方法请参看:[[复杂网络中的因果涌现]] | + | 尽管已经存在许多跨时间和空间尺度的[[因果涌现]]的具体例子<ref>Hoel, E.P.; Albantakis, L.; Tononi, G. Quantifying causal emergence shows that macro can beat micro. Proc. Natl. Acad. Sci. USA 2013, 110, 19790–19795.</ref>,但是传统方法需要预先指定的粗粒化方案和微观动力学的马尔科夫转移矩阵。因此,我们仍然需要一种仅从数据中识别因果涌现的方法,同时找到最优的粗粒化策略和宏观动力学模型。解决这一问题的困难主要在于,需要一种方法来系统地、自动地搜索所有可能的粗粒化策略(函数、映射),从而得到宏观动力学,以及判断因果涌现。但搜索空间是微观和宏观之间所有可能的映射函数,体量非常巨大。为了解决这个问题,Klein 等人重点研究了具有网络结构的复杂系统,将粗粒化问题转化为节点聚类,即找到一种方法将节点分组,使得簇级别的连接比原始网络具有更大的[[有效信息]]。虽然该方法假设底层节点动态是扩散(随机游走)的,它还是被广泛应用于各个领域。同时,现实世界中的的复杂系统具有更丰富的节点动态。对于一般的动态系统,即使给定节点分组,粗粒化策略仍然需要考虑如何将簇中所有节点的微观状态映射到簇的宏观状态,也需要在巨大的粗粒化策略函数空间上进行繁琐的搜索。详细方法请参看:[[复杂网络中的因果涌现]] |
| | | |
| 当我们考虑所有可能的粗粒化策略时,另一个难点是如何避免平凡策略的出现,即粗粒化策略过于压缩,导致无效的宏观动力学,例如一种可能的粗粒化是将所有微观状态的值映射到与宏观状态相同的值。这样,系统的宏观动力学就只是一个相同的映射,它将具有较大的有效信息 (EI) 度量。但这种方法不能称为因果涌现,因为所有信息都被粗粒化方法本身抹去了。因此,我们必须找到一种方法来排除这种平凡解。这些困难阻碍了[[基于有效信息的因果涌现理论]]的发展和应用。 | | 当我们考虑所有可能的粗粒化策略时,另一个难点是如何避免平凡策略的出现,即粗粒化策略过于压缩,导致无效的宏观动力学,例如一种可能的粗粒化是将所有微观状态的值映射到与宏观状态相同的值。这样,系统的宏观动力学就只是一个相同的映射,它将具有较大的有效信息 (EI) 度量。但这种方法不能称为因果涌现,因为所有信息都被粗粒化方法本身抹去了。因此,我们必须找到一种方法来排除这种平凡解。这些困难阻碍了[[基于有效信息的因果涌现理论]]的发展和应用。 |
| | | |
− | 另一种[[因果涌现]]是[[基于信息分解的因果涌现]]理论,该理论也提供了一种从数据中识别因果涌现的方法(加文献,Rosas的Reconcile)。虽然这种方法可以避免对粗粒化策略的讨论,但是如果我们想获得精确的结果,也需要在系统状态空间的各种可能的所有子集上进行长时间的搜索,这将会在大规模的系统上遭遇指数爆炸。此外,Rosas提出的数值近似方法只能提供因果涌现的充分条件,而不是必要条件。同时,该方法依赖于研究者给出明确的粗粒化策略和相应的宏观动力学,这在实际中往往是非常困难的。上述两种方法的另一个共同缺点是需要一个明确的宏观和微观动力学的马尔可夫转移矩阵才可以从数据中估计转移概率。因此,上述方法对罕见事件概率的预测将产生几乎无法避免的、较大的偏差,尤其对于连续数据。 | + | 另一种[[因果涌现]]是[[基于信息分解的因果涌现]]理论,该理论也提供了一种从数据中识别因果涌现的方法<ref>Rosas, F.E.; Mediano, P.A.M.; Jensen, H.J.; Seth, A.K.; Barrett, A.B.; Carhart-Harris, R.L.; Bor, D. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data. PLoS Comput. Biol. 2020, 16, e1008289.</ref>(加文献,Rosas的Reconcile)。虽然这种方法可以避免对粗粒化策略的讨论,但是如果我们想获得精确的结果,也需要在系统状态空间的各种可能的所有子集上进行长时间的搜索,这将会在大规模的系统上遭遇指数爆炸。此外,Rosas提出的数值近似方法只能提供因果涌现的充分条件,而不是必要条件。同时,该方法依赖于研究者给出明确的粗粒化策略和相应的宏观动力学,这在实际中往往是非常困难的。上述两种方法的另一个共同缺点是需要一个明确的宏观和微观动力学的马尔可夫转移矩阵才可以从数据中估计转移概率。因此,上述方法对罕见事件概率的预测将产生几乎无法避免的、较大的偏差,尤其对于连续数据。 |
| | | |
| 近年来,基于神经网络的机器学习方法取得了进展,并催生了许多跨学科应用<ref>Silver, D.; Schrittwieser, J.; Simonyan, K.; Antonoglou, I.; Huang, A.; Guez, A.; Hubert, T.; Baker, L.; Lai, M.; Bolton, A.; et al. Mastering the game of Go without human knowledge. Nature 2017, 550, 354–359.</ref><ref>LeCun,Y.; Bengio, Y.; Hinton, G. Deep learning. Nature 2015, 521, 436–444.</ref><ref>Reichstein, M.; Camps-Valls, G.; Stevens, B.; Jung, M.; Denzler, J.; Carvalhais, N. Deep learning and process understanding for data-driven Earth system science. Nature 2019, 566, 195–204.</ref><ref>Senior, A.W.; Evans, R.; Jumper, J.; Kirkpatrick, J.; Sifre, L.; Green, T.; Qin, C.; Žídek, A.; Nelson, A.W.R.; Bridgland, A.; et al. Improved protein structure prediction using potentials from deep learning. Nature 2020, 577, 706–710.</ref>。借助此方法,以数据驱动的方式自主发现复杂系统的因果关系甚至动力学成为可能。机器学习和神经网络还可以帮助我们找到更好的粗粒化策略。如果将粗粒化映射视为从微观状态到宏观状态的函数,那么显然可以用参数化的神经网络来近似这个函数。这些技术也能帮助我们从数据中发现宏观层面的因果关系。 | | 近年来,基于神经网络的机器学习方法取得了进展,并催生了许多跨学科应用<ref>Silver, D.; Schrittwieser, J.; Simonyan, K.; Antonoglou, I.; Huang, A.; Guez, A.; Hubert, T.; Baker, L.; Lai, M.; Bolton, A.; et al. Mastering the game of Go without human knowledge. Nature 2017, 550, 354–359.</ref><ref>LeCun,Y.; Bengio, Y.; Hinton, G. Deep learning. Nature 2015, 521, 436–444.</ref><ref>Reichstein, M.; Camps-Valls, G.; Stevens, B.; Jung, M.; Denzler, J.; Carvalhais, N. Deep learning and process understanding for data-driven Earth system science. Nature 2019, 566, 195–204.</ref><ref>Senior, A.W.; Evans, R.; Jumper, J.; Kirkpatrick, J.; Sifre, L.; Green, T.; Qin, C.; Žídek, A.; Nelson, A.W.R.; Bridgland, A.; et al. Improved protein structure prediction using potentials from deep learning. Nature 2020, 577, 706–710.</ref>。借助此方法,以数据驱动的方式自主发现复杂系统的因果关系甚至动力学成为可能。机器学习和神经网络还可以帮助我们找到更好的粗粒化策略。如果将粗粒化映射视为从微观状态到宏观状态的函数,那么显然可以用参数化的神经网络来近似这个函数。这些技术也能帮助我们从数据中发现宏观层面的因果关系。 |
第53行: |
第53行: |
| 为了解决上述优化问题,NIS提出了一种神经网络架构,从而可以进行数值求解,如下图: | | 为了解决上述优化问题,NIS提出了一种神经网络架构,从而可以进行数值求解,如下图: |
| | | |
− | [[文件:NIS Graph new2.png|居中|600px|NIS框架简介]] | + | [[文件:NIS Graph new2.png|600px|NIS框架简介|NIS框架结构图。]] |
| + | |
| | | |
| | | |
第69行: |
第70行: |
| 接下来,我们将通过数学定义,详细描述NIS框架的基本概念和优化问题。 | | 接下来,我们将通过数学定义,详细描述NIS框架的基本概念和优化问题。 |
| | | |
− | ==基本概念== | + | == 基本概念== |
| | | |
| ===微观动力学=== | | ===微观动力学=== |
第149行: |
第150行: |
| NIS是一种新的机器学习框架,基于可逆神经网络来解决式6中提出的问题。其由三个组件组成:编码器、动力学学习器和解码器。它们分别用神经网络 <math>\psi_\alpha , f_\beta ,</math> 和<math>\psi_\alpha^{-1}</math> 表示,其中这些神经网络的参数分别为<math>\alpha, \beta</math> 和<math>\alpha</math> 。整个框架如图1所示。接下来将分别描述每个模块。 | | NIS是一种新的机器学习框架,基于可逆神经网络来解决式6中提出的问题。其由三个组件组成:编码器、动力学学习器和解码器。它们分别用神经网络 <math>\psi_\alpha , f_\beta ,</math> 和<math>\psi_\alpha^{-1}</math> 表示,其中这些神经网络的参数分别为<math>\alpha, \beta</math> 和<math>\alpha</math> 。整个框架如图1所示。接下来将分别描述每个模块。 |
| | | |
− | [[文件:NIS Graph 1.png|居中|600px|'''图1.''' 神经信息压缩器的工作流程和框架。]] | + | [[文件:NIS Graph 1.png|靠左|600px|'''图1.''' 神经信息压缩器的工作流程和框架。]] |
| | | |
| ==编码器== | | ==编码器== |
第182行: |
第183行: |
| | | |
| ==使用可逆神经网络的原因== | | ==使用可逆神经网络的原因== |
− | [[文件:Pasted image 20240519112728.png|居中|600px|'''图2.''' 双射器基本模块的 RealNVP 神经网络 <math> (\psi) </math> 实现。]] | + | [[文件:Pasted image 20240519112728.png|靠左|600px|'''图2.''' 双射器基本模块的 RealNVP 神经网络 <math> (\psi) </math> 实现。]] |
| 有多种方法可以实现可逆神经网络<ref>Teshima, T.; Ishikawa, I.; Tojo, K.; Oono, K.; Ikeda, M.; Sugiyama, M. Coupling-based invertible neural networks are universal diffeomorphism approximators. Adv. Neural Inf. Process. Syst. 2020, 33, 3362–3373.</ref><ref>Teshima, T.; Tojo, K.; Ikeda, M.; Ishikawa, I.; Oono, K. Universal approximation property of neural ordinary differential equations. arXiv 2017, arXiv:2012.02414.</ref>。这里选择如图2所示的RealNVP模块<ref name=":0">Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.</ref>来具体实现可逆计算。 | | 有多种方法可以实现可逆神经网络<ref>Teshima, T.; Ishikawa, I.; Tojo, K.; Oono, K.; Ikeda, M.; Sugiyama, M. Coupling-based invertible neural networks are universal diffeomorphism approximators. Adv. Neural Inf. Process. Syst. 2020, 33, 3362–3373.</ref><ref>Teshima, T.; Tojo, K.; Ikeda, M.; Ishikawa, I.; Oono, K. Universal approximation property of neural ordinary differential equations. arXiv 2017, arXiv:2012.02414.</ref>。这里选择如图2所示的RealNVP模块<ref name=":0">Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.</ref>来具体实现可逆计算。 |
| | | |
第210行: |
第211行: |
| | | |
| =NIS的理论性质= | | =NIS的理论性质= |
− | ==压缩信道理论 == | + | ==压缩信道理论== |
− | [[文件:NIS Fig 3.png|居中|600px|'''图3.''' 神经信息压缩器压缩信道的图形模型。]] | + | [[文件:NIS Fig 3.png|靠左|600px|'''图3.''' 神经信息压缩器压缩信道的图形模型。]] |
| NIS框架(图 1)可以看作图 3 所示的信道,由于投影操作的存在,通道在中间被压缩。此为压缩信息通道。 | | NIS框架(图 1)可以看作图 3 所示的信道,由于投影操作的存在,通道在中间被压缩。此为压缩信息通道。 |
| | | |
第295行: |
第296行: |
| \end{cases}</math></blockquote>|{{EquationRef|27}}}} | | \end{cases}</math></blockquote>|{{EquationRef|27}}}} |
| 其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值,<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态,测量微观状态<math>\tilde{\mathbf{x}}_1</math>,<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观X。 | | 其中<math>\xi \sim \mathcal{N}(0,\sigma)</math> 是符合二维高斯分布的随机数值,<math>\sigma</math> 是位置与速度标准差的向量。将状态<math>\mathbf{x}</math>理解为潜在宏观状态,测量微观状态<math>\tilde{\mathbf{x}}_1</math>,<math>\tilde{\mathbf{x}_2}</math>。 NIS从测量值中恢复潜在的宏观X。 |
− | [[文件:NIS Fig 4.png|居中|600px|'''图4.''' 具有测量噪声的简单弹簧振荡器的实验结果。]] | + | [[文件:NIS Fig 4.png|靠左|600px|'''图4.''' 具有测量噪声的简单弹簧振荡器的实验结果。]] |
| 根据式27,影响状态测量的噪音可以通过叠加两通道的数据消除。因此,如果在NIS中输入两个测量值的宏观状态,则可简单地获得正确的动力学。使用Euler方法(<math>dt = 1</math>)采样<math>10,000</math>批批次的数据,并在每个批次中生成100个随机初始状态并执行一个步骤动力学,求得下一个时间步长中的状态。使用这些数据来训练神经网络,同时使用相同的数据集来训练具有相同数量参数的普通前馈神经网络以作比较。 结果如图4所示。 | | 根据式27,影响状态测量的噪音可以通过叠加两通道的数据消除。因此,如果在NIS中输入两个测量值的宏观状态,则可简单地获得正确的动力学。使用Euler方法(<math>dt = 1</math>)采样<math>10,000</math>批批次的数据,并在每个批次中生成100个随机初始状态并执行一个步骤动力学,求得下一个时间步长中的状态。使用这些数据来训练神经网络,同时使用相同的数据集来训练具有相同数量参数的普通前馈神经网络以作比较。 结果如图4所示。 |
− | [[文件:NIS Fig 5.png|居中|600px|'''图5.''' 变量间的各类互信息随着训练迭代次数而发生变化。]] | + | [[文件:NIS Fig 5.png|靠左|600px|'''图5.''' 变量间的各类互信息随着训练迭代次数而发生变化。]] |
| | | |
| | | |
第305行: |
第306行: |
| | | |
| | | |
− | ==简单马尔可夫链== | + | == 简单马尔可夫链 == |
| 本案例展示NIS作用于离散马尔可夫链、粗粒化策略可以作用于状态空间的过程。生成数据的马尔可夫链是以下概率转移矩阵: | | 本案例展示NIS作用于离散马尔可夫链、粗粒化策略可以作用于状态空间的过程。生成数据的马尔可夫链是以下概率转移矩阵: |
| {{NumBlk|:|<blockquote><math>\begin{pmatrix} | | {{NumBlk|:|<blockquote><math>\begin{pmatrix} |
第317行: |
第318行: |
| 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 \\ | | 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 \\ |
| \end{pmatrix}</math></blockquote>|{{EquationNote|28}}}} | | \end{pmatrix}</math></blockquote>|{{EquationNote|28}}}} |
− | [[文件:NIS Fig 6.png|居中|600px|'''图6.''' 简单马尔可夫链的实验结果。|替代=图6. 简单马尔可夫链的实验结果。]] | + | [[文件:NIS Fig 6.png|靠左|600px|'''图6.''' 简单马尔可夫链的实验结果。|替代=图6. 简单马尔可夫链的实验结果。]] |
| + | |
| 该系统有 8 个状态,其中 7之间 个可以相互转移,最后一个状态是独立的。使用一个 one-hot 向量编码状态(例如状态2将表示为 (0,1,0,0,0,0,0,0))。对初始状态进行50,000个批次的采样以生成数据,然后将 one-hot 向量输入 NIS 框架,经过50,000个迭代轮次的训练后可以得到一个有效的模型。结果如图 6 所示。 | | 该系统有 8 个状态,其中 7之间 个可以相互转移,最后一个状态是独立的。使用一个 one-hot 向量编码状态(例如状态2将表示为 (0,1,0,0,0,0,0,0))。对初始状态进行50,000个批次的采样以生成数据,然后将 one-hot 向量输入 NIS 框架,经过50,000个迭代轮次的训练后可以得到一个有效的模型。结果如图 6 所示。 |
| | | |
第324行: |
第326行: |
| 将学习到的宏观动力学可视化(图 6c)。 <math>y_t < 0</math> 时宏观动力学是一个线性映射,<math>y_t > 0</math> 时它可被视为一个常数。因此,该动力学可以保证所有前七个微观状态都可以与最后一个状态分离。图6d验证了信息压缩的信息瓶颈定理,即宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同。 | | 将学习到的宏观动力学可视化(图 6c)。 <math>y_t < 0</math> 时宏观动力学是一个线性映射,<math>y_t > 0</math> 时它可被视为一个常数。因此,该动力学可以保证所有前七个微观状态都可以与最后一个状态分离。图6d验证了信息压缩的信息瓶颈定理,即宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同。 |
| | | |
− | ==简单布尔网络 == | + | ==简单布尔网络== |
− | [[文件:NIS Fig 7.png|居中|600px|'''图7.''' 布尔网络样例(左)及其原理(右)。|替代=图7. 布尔网络样例(左)及其原理(右)。]] | + | [[文件:NIS Fig 7.png|靠左|600px|'''图7.''' 布尔网络样例(左)及其原理(右)。|替代=图7. 布尔网络样例(左)及其原理(右)。]] |
| + | |
| 布尔网络是离散动力系统的典型例子,其中每个节点有两种可能的状态(0 或 1),且节点状态受其相邻节点状态的影响。该网络的微观机制如下:上图是一个包含四个节点的布尔网络的示例,每个节点的状态受到其相邻节点状态组合的概率影响,具体概率见上图中的表格。将所有节点的机制结合后,可以得到一个具有 <math>2^4 = 16</math> 个状态的大型马尔可夫转移矩阵。 | | 布尔网络是离散动力系统的典型例子,其中每个节点有两种可能的状态(0 或 1),且节点状态受其相邻节点状态的影响。该网络的微观机制如下:上图是一个包含四个节点的布尔网络的示例,每个节点的状态受到其相邻节点状态组合的概率影响,具体概率见上图中的表格。将所有节点的机制结合后,可以得到一个具有 <math>2^4 = 16</math> 个状态的大型马尔可夫转移矩阵。 |
− | [[文件:NIS Fig 8.png|居中|600px|'''图8.''' 布尔网络的实验结果。|替代=图8. 布尔网络的实验结果。]] | + | [[文件:NIS Fig 8.png|靠左|600px|'''图8.''' 布尔网络的实验结果。|替代=图8. 布尔网络的实验结果。]] |
| + | |
| 通过对整个网络进行 50,000 次状态转换的采样,将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(上图a部分)。可视化结果显示出粗粒化策略(上图b部分),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。这个示例验证了信息瓶颈理论(NIS中宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同)与信道互信息之间的关系(上图c, d部分)。 | | 通过对整个网络进行 50,000 次状态转换的采样,将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(上图a部分)。可视化结果显示出粗粒化策略(上图b部分),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。这个示例验证了信息瓶颈理论(NIS中宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同)与信道互信息之间的关系(上图c, d部分)。 |
| | | |
第344行: |
第348行: |
| NIS框架的弱点如下。 | | NIS框架的弱点如下。 |
| | | |
− | * 由于可逆神经网络很难在大数据集上训练,它只能在小数据集上工作,目前的数值实验也集中在弹簧振子和简单布尔网络等环境下; | + | *由于可逆神经网络很难在大数据集上训练,它只能在小数据集上工作,目前的数值实验也集中在弹簧振子和简单布尔网络等环境下; |
− | * 该框架仍然缺乏可解释性<ref>Williams, P.L.; Beer., R.D. Nonnegative decomposition of multivariate information. arXiv 2017, arXiv:1004.2515.</ref>; | + | *该框架仍然缺乏可解释性<ref>Williams, P.L.; Beer., R.D. Nonnegative decomposition of multivariate information. arXiv 2017, arXiv:1004.2515.</ref>; |
− | * NIS并未真正地最大化有效信息; | + | *NIS并未真正地最大化有效信息; |
− | * 该模型可预测的条件分布仅限于高斯或拉普拉斯分布。 | + | *该模型可预测的条件分布仅限于高斯或拉普拉斯分布。 |
| | | |
| ===未来展望:NIS+框架=== | | ===未来展望:NIS+框架=== |