更改

删除8,942字节 、 2024年6月23日 (星期日)
更改词条结构(历史、简介部分不完整)
第1行: 第1行: −
=介绍=
+
=历史=
   −
==因果涌现的定义==
+
=== 数学框架:最大化EI ===
*'''[[涌现]](emergence)''' 是复杂系统中最重要的概念之一,描述了一种现象:一个整体展现了组成它的部分所不具有的特性。<ref>Holland, J.H. Emergence: From Chaos To Order; Illustrated edition; Basic Books: New York, NY, USA, 1999.</ref><ref>Bedau, M.A. Weak Emergence. Philos. Perspect. 1997, 11, 375–399. [CrossRef]</ref>
     −
*'''因果(causality)''' 是另一个重要概念,描述了动力学系统中原因事件与结果事件随时间<ref>Pearl, J. Causality: Models of Reasoning and Inference, 2nd ed.; Cambridge University Press: Cambridge, UK, 2009.</ref><ref>Granger, C.W.J. Investigating Causal Relations by Econometric Models and Cross-spectral Methods. Econometrica 1969, 37, 424–438. [CrossRef]</ref>的联系。
+
=== Normalizing Flow技术 ===
   −
*'''[[因果涌现 Causal Emergence|因果涌现]](causal emergence)''' 是一类特殊的涌现现象<ref name=":0">Hoel, E.P.; Albantakis, L.; Tononi, G. Quantifying causal emergence shows that macro can beat micro. Proc. Natl. Acad. Sci. USA 2013, 110, 19790–19795. [CrossRef] [PubMed]</ref><ref>Hoel, E.P. When the Map Is Better Than the Territory. Entropy 2017, 19, 188. [CrossRef]</ref>,指系统中宏观层面的事件可能比微观层面有更强的因果联系。其中,因果关系的强度可以用[[有效信息]] (EI) <ref name=":0" /><ref>Tononi, G.; Sporns, O. Measuring information integration. BMC Neurosci. 2003, 4, 31. [CrossRef] [PubMed]</ref>来衡量 。因果涌现可可被用于研究蚁群<ref>Swain, A.; Williams, S.D.; Di Felice, L.J.; Hobson, E.A. Interactions and information: Exploring task allocation in ant colonies using network analysis. Anim. Behav. 2022, 189, 69–81. [CrossRef]</ref>、蛋白质互相作用<ref>Klein, B.; Hoel, E.; Swain, A.; Griebenow, R.; Levin, M. Evolution and emergence: Higher order information structure in protein interactomes across the tree of life. Integr. Biol. 2021, 13, 283–294.</ref>、大脑<ref>Ravi, D.; Hamilton, J.L.; Winfield, E.C.; Lalta, N.; Chen, R.H.; Cole, M.W. Causal emergence of task information from dynamic network interactions in the human brain. Rev. Neurosci. 2022, 31, 25–46.</ref>,以及生物网络<ref name=":2">Klein, B.; Swain, A.; Byrum, T.; Scarpino, S.V.; Fagan, W.F. Exploring noise, degeneracy and determinism in biological networks with the einet package. Methods Ecol. Evol. 2022, 13, 799–804.</ref>。
+
=简介=
   −
==因果涌现的识别==
+
==数学定义==
=== 具体解决方案以及传统方案的不足===
     −
*'''Klein提出的[[复杂网络]]中的因果涌现'''
+
==神经网络框架==
[[复杂网络中的因果涌现]]的识别困难在于系统性、自动搜索所有潜在的粗粒化策略<ref>Varley, T.; Hoel, E. Emergence as the conversion of information: A unifying theory. arXiv 2021, arXiv:2104.13368.</ref><ref>Chvykov, P.; Hoel, E. Causal Geometry. Entropy 2021, 23, 24. [CrossRef]</ref><ref name=":1">Rosas, F.E.; Mediano, P.A.M.; Jensen, H.J.; Seth, A.K.; Barrett, A.B.; Carhart-Harris, R.L.; Bor, D. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data. PLoS Comput. Biol. 2020, 16, e1008289. [CrossRef]</ref><ref>Varley, T.F. Flickering emergences: The question of locality in information-theoretic approaches to emergence. arXiv 2022, arXiv:2208.14502.</ref>。Klein的方法通过节点聚类<ref name=":2" /><ref>Klein, B.; Hoel, E. The Emergence of Informative Higher Scales in Complex Networks. Complexity 2020, 2020, 8932526. [CrossRef]</ref>提升EI,但假设底层节点动力学是扩散的,未考虑真实系统中更复杂的动力学。即使节点分组已知,粗粒化策略仍需考虑簇中所有节点的微观与宏观状态映射。
     −
*'''部分信息分解方法'''
+
== 问题与展望 ==
量化系统因果涌现的、基于粗粒化的方法须要系统的状态转移矩阵和粗粒化策略。信息分解方法<ref name=":1" /><ref>Varley, T.; Hoel, E. Emergence as the conversion of information: A unifying theory. Philos. Trans. R. Soc. A 2022, 380, 20210150.</ref>避免了对粗粒化策略的讨论,但需在系统状态空间子集上长时间搜索以获得精确结果。现有数值近似方法仅能提供充分条件,缺乏现实意义的粗粒化策略和相应宏观动力学。
     −
*'''传统方法的不足'''
+
=问题描述=
这两种方法需明确的宏观与微观动力学马尔可夫转移矩阵,导致对罕见事件概率及连续数据的预测存在偏差。
     −
===基于机器学习的神经信息压缩方法===
+
==背景知识==
 
  −
*'''神经信息压缩器的定义'''
  −
近年来,机器学习得到长足发展,其跨学科应用也逐渐出现<ref>Silver, D.; Schrittwieser, J.; Simonyan, K.; Antonoglou, I.; Huang, A.; Guez, A.; Hubert, T.; Baker, L.; Lai, M.; Bolton, A.; et al. Mastering the game of Go without human knowledge. Nature 2017, 550, 354–359.</ref><ref>LeCun,Y.; Bengio, Y.; Hinton, G. Deep learning. Nature 2015, 521, 436–444.</ref><ref>Reichstein, M.; Camps-Valls, G.; Stevens, B.; Jung, M.; Denzler, J.; Carvalhais, N. Deep learning and process understanding for data-driven Earth system science. Nature 2019, 566, 195–204.</ref><ref>Senior, A.W.; Evans, R.; Jumper, J.; Kirkpatrick, J.; Sifre, L.; Green, T.; Qin, C.; Žídek, A.; Nelson, A.W.R.; Bridgland, A.; et al. Improved protein structure prediction using potentials from deep learning. Nature 2020, 577, 706–710.</ref>。由此方法,以数据为驱动的、自动发现因果涌现<ref>Tank, A.; Covert, I.; Foti, N.; Shojaie, A.; Fox, E. Neural Granger Causality. arXiv 2018, arXiv:1802.05842.</ref><ref>Löwe,S.; Madras, D.; Zemel, R.; Welling, M. Amortized causal discovery: Learning to infer causal graphs from time-series data. arXiv 2020, arXiv:2006.10833.</ref><ref>Glymour, C.; Zhang, K.; Spirtes, P. Review of Causal Discovery Methods Based on Graphical Models. Front. Genet. 2019, 10, 524.</ref><ref>Casadiego, J.; Nitzan, M.; Hallerberg, S.; Timme, M. Model-free inference of direct network interactions from nonlinear collective dynamics. Nat. Commun. 2017, 8, 1–10.</ref>,甚至复杂系统的动力学已成为可能<ref>Sanchez-Gonzalez, A.; Heess, N.; Springenberg, J.T.; Merel, J.; Riedmiller, M.; Hadsell, R.; Battaglia, P. Graph networks as learnable physics engines for inference and control. In Proceedings of the International Conference on Machine Learning, Stockholm, Sweden, 10–15 July 2018 ; pp. 4470–4479.</ref><ref>Zhang, Z.; Zhao, Y.; Liu, J.; Wang, S.; Tao, R.; Xin, R.; Zhang, J. A general deep learning framework for network reconstruction and dynamics learning. Appl. Netw. Sci. 2019, 4, 1–17.</ref><ref>Kipf, T.; Fetaya, E.; Wang, K.C.; Welling, M.; Zemel, R. Neural relational inference for interacting systems. In Proceedings of the International Conference on Machine Learning, Stockholm, Sweden, 10–15 July 2018; pp. 2688–2697.</ref><ref>Chen,B.; Huang, K.; Raghupathi, S.; Chandratreya, I.; Du, Q.; Lipson, H. Discovering State Variables Hidden in Experimental Data. arXiv 2021, arXiv:2112.10755.</ref>。因果涌现识别问题可表述为“在微观动力学精确预测的约束下,最大化宏观动力学的有效信息(EI)”。神经信息压缩器(NIS)是解决此问题的通用机器学习框架。NIS通过可逆神经网络建模粗粒化策略<ref>Koch-Janusz, M.; Ringel, Z. Mutual information, neural networks and the renormalization group. Nat. Phys. 2018, 14, 578–582.</ref><ref name=":3">Li, S.H.; Wang, L. Neural Network Renormalization Group. Phys. Rev. Lett. 2018, 121, 260601.</ref><ref>Hu,H.Y.; Li, S.H.; Wang, L.; You, Y.Z. Machine learning holographic mapping by neural network renormalization group. Phys. Rev. Res. 2020, 2, 023369.</ref><ref name=":4">Hu,H.; Wu,D.; You, Y.Z.; Olshausen, B.; Chen, Y. RG-Flow: A hierarchical and explainable flow model based on renormalization group and sparse prior. Mach. Learn. Sci. Technol. 2022, 3, 035009.</ref><ref>Gökmen,D.E.; Ringel, Z.; Huber, S.D.; Koch-Janusz, M. Statistical physics through the lens of real-space mutual information. Phys. Rev. Lett. 2021, 127, 240603.</ref>,将任意<math>\mathcal{R}^p</math>到<math>\mathcal{R}^q(q \leq p)</math> 的映射分解为一系列信息转换和弃用过程,可对整个框架进行数学分析。
  −
 
  −
*'''NIS与因果表征学习以及因果模型抽象的关系'''
  −
因果表征学习旨在提取观测数据背后的因果隐变量<ref>Chalupka, K.; Eberhardt, F.; Perona, P. Causal feature learning: An overview. Behaviormetrika 2017, 44, 137–164.</ref><ref>Schölkopf, B.; Locatello, F.; Bauer, S.; Ke, N.R.; Kalchbrenner, N.; Goyal, A.; Bengio, Y. Toward causal representation learning. Proc. IEEE 2021, 109, 612–634.</ref>,编码过程可理解为粗粒化。因果涌现识别与因果表征学习相似,但目标不同:前者寻找更优粗粒化策略,后者提取数据中的因果关系。多尺度建模和粗粒化操作引入了新的理论问题<ref>Iwasaki, Y.; Simon, H.A. Causality and model abstraction. Artif. Intell. 1994, 67, 143–194.</ref><ref>Rubenstein, P.K.; Weichwald, S.; Bongers, S.; Mooij, J.; Janzing, D.; Grosse-Wentrup, M.; Schölkopf, B. Causal consistency of structural equation models. arXiv 2017, arXiv:1707.00819.</ref><ref>Beckers, S.; Eberhardt, F.; Halpern, J.Y. Approximate causal abstractions. In Proceedings of the Uncertainty in Artificial Intelligence, Virtual, 3–6 August 2020; pp. 606–615.</ref>。
  −
 
  −
=问题定义=
  −
 
  −
==背景==
      
===动力学的定义===
 
===动力学的定义===
第56行: 第41行:  
此公式不能排除一些琐碎的策略。例如,假设对于 <math>∀ \mathbf{y}_t ∈ \mathcal{R}^p</math>  , <math>q = 1</math> 维的 <math>\phi_q</math> 定义为 <math>\phi_q(\mathbf{x}_t) = 1</math> 。因此,相应的宏观动力学只是 <math>d\mathbf{y}/dt = 0</math> 和 <math>\mathbf{y}(0) = 1</math>。由于宏观状态动力学是琐碎的,粗粒化映射过于随意,此方程无意义。因此,必须对粗粒化策略和宏观动力学设置限制以避免琐碎的策略和动力学。
 
此公式不能排除一些琐碎的策略。例如,假设对于 <math>∀ \mathbf{y}_t ∈ \mathcal{R}^p</math>  , <math>q = 1</math> 维的 <math>\phi_q</math> 定义为 <math>\phi_q(\mathbf{x}_t) = 1</math> 。因此,相应的宏观动力学只是 <math>d\mathbf{y}/dt = 0</math> 和 <math>\mathbf{y}(0) = 1</math>。由于宏观状态动力学是琐碎的,粗粒化映射过于随意,此方程无意义。因此,必须对粗粒化策略和宏观动力学设置限制以避免琐碎的策略和动力学。
   −
==有效粗粒化策略和宏观动力学==
+
===有效粗粒化策略和宏观动力学===
 
有效粗粒化策略应是一个宏观态中可以'''尽量多地保存微观态信息'''的压缩映射。
 
有效粗粒化策略应是一个宏观态中可以'''尽量多地保存微观态信息'''的压缩映射。
   第68行: 第53行:  
此定义符合近似因果模型抽象。
 
此定义符合近似因果模型抽象。
   −
==问题定义==
+
==数学框架==
 
*'''最大化系统动力学的有效信息'''
 
*'''最大化系统动力学的有效信息'''
 
若要寻找一个最具信息量的宏观动力学,则需在所有可能的有效策略和动力学中优化粗粒化策略和宏观动力学。
 
若要寻找一个最具信息量的宏观动力学,则需在所有可能的有效策略和动力学中优化粗粒化策略和宏观动力学。
第78行: 第63行:       −
=神经信息压缩器模型=
+
=NIS框架=
    
NIS是一种新的机器学习框架,基于可逆神经网络来解决式6中提出的问题。其由三个组件组成:编码器、动力学学习器和解码器。它们分别用神经网络 <math>\psi_\alpha , f_\beta ,</math> 和<math>\psi_\alpha^{-1}</math> 表示,参数分别为<math>\alpha, \beta</math> 和<math>\alpha</math> 。整个框架如图1所示。接下来将分别描述每个模块。
 
NIS是一种新的机器学习框架,基于可逆神经网络来解决式6中提出的问题。其由三个组件组成:编码器、动力学学习器和解码器。它们分别用神经网络 <math>\psi_\alpha , f_\beta ,</math> 和<math>\psi_\alpha^{-1}</math> 表示,参数分别为<math>\alpha, \beta</math> 和<math>\alpha</math> 。整个框架如图1所示。接下来将分别描述每个模块。
第94行: 第79行:  
第一步是从<math>\mathbf{x}_t \in \mathcal{R}^p</math> 到 <math>\mathbf{x}'_t \in \mathcal{R}^p</math>的双射(可逆)映射<math>\psi_\alpha : \mathcal{R}^p \rightarrow \mathcal{R}^p</math>,无信息丢失,由可逆神经网络实现;第二步是通过将<math>\mathbf{x}_t \in \mathcal{R}^p</math>映射到<math>\mathbf{y}_t \in \mathcal{R}^q</math>,丢弃<math>p-q</math>维上的信息,将得到的向量投影到<math>q</math>维。
 
第一步是从<math>\mathbf{x}_t \in \mathcal{R}^p</math> 到 <math>\mathbf{x}'_t \in \mathcal{R}^p</math>的双射(可逆)映射<math>\psi_\alpha : \mathcal{R}^p \rightarrow \mathcal{R}^p</math>,无信息丢失,由可逆神经网络实现;第二步是通过将<math>\mathbf{x}_t \in \mathcal{R}^p</math>映射到<math>\mathbf{y}_t \in \mathcal{R}^q</math>,丢弃<math>p-q</math>维上的信息,将得到的向量投影到<math>q</math>维。
   −
*'''可逆神经网络'''
+
==动力学学习器 ==
[[文件:Pasted image 20240519112728.png|居中|600px|'''图2.''' 双射器基本模块的 RealNVP 神经网络 <math> (\psi) </math> 实现。]]
  −
有多种方法可以实现可逆神经网络<ref>Teshima, T.; Ishikawa, I.; Tojo, K.; Oono, K.; Ikeda, M.; Sugiyama, M. Coupling-based invertible neural networks are universal diffeomorphism approximators. Adv. Neural Inf. Process. Syst. 2020, 33, 3362–3373.</ref><ref>Teshima, T.; Tojo, K.; Ikeda, M.; Ishikawa, I.; Oono, K. Universal approximation property of neural ordinary differential equations. arXiv 2017, arXiv:2012.02414.</ref>。同时选择如图2所示的RealNVP模块<ref>Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.</ref>来具体实现可逆计算。
  −
 
  −
在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用于缩放的相同神经网络共享参数,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用于平移的神经网络共享参数。这样,​​就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。
  −
 
  −
== 动力学学习器 ==
   
动力学学习器 <math>f_\beta</math> 是一个带有参数的常见前馈神经网络,它在宏观层面上学习有效的马尔可夫动力学。用 <math>f_\beta</math> 替换方程{{EquationNote|2}}中的 <math>\hat{f}_{\phi_q}</math>,并使用 <math>dt = 1</math> 的欧拉方法求解方程 (2)。假设噪声是加性高斯分布(或拉普拉斯分布),则可以将方程{{EquationNote|5}}简化为:
 
动力学学习器 <math>f_\beta</math> 是一个带有参数的常见前馈神经网络,它在宏观层面上学习有效的马尔可夫动力学。用 <math>f_\beta</math> 替换方程{{EquationNote|2}}中的 <math>\hat{f}_{\phi_q}</math>,并使用 <math>dt = 1</math> 的欧拉方法求解方程 (2)。假设噪声是加性高斯分布(或拉普拉斯分布),则可以将方程{{EquationNote|5}}简化为:
 
{{NumBlk|:|<blockquote><math>\mathbf{y}(t+1) = \mathbf{y}_t + \int_t^{t+1} f_\beta (\mathbf{y}(\tau), \xi') d\tau \approx \mathbf{y}_t + f_\beta (\mathbf{y}_t)+\xi'</math></blockquote>|{{EquationRef|11}}}}
 
{{NumBlk|:|<blockquote><math>\mathbf{y}(t+1) = \mathbf{y}_t + \int_t^{t+1} f_\beta (\mathbf{y}(\tau), \xi') d\tau \approx \mathbf{y}_t + f_\beta (\mathbf{y}_t)+\xi'</math></blockquote>|{{EquationRef|11}}}}
第118行: 第97行:  
其中,<math>\mathbf{z}_{p-q} \sim \mathcal{N}(0, \mathcal{I}_{p-q})</math> 是 <math>p-q</math> 维的高斯随机噪声,<math>\mathcal{I}_{p-q}</math> 是同维度的单位矩阵。这样可以结合 <math>\mathbf{x}_q</math> 和一个来自 <math>p-q</math> 维标准正态分布的随机样本 <math>\mathbf{z}_{p-q}</math> 生成微状态。
 
其中,<math>\mathbf{z}_{p-q} \sim \mathcal{N}(0, \mathcal{I}_{p-q})</math> 是 <math>p-q</math> 维的高斯随机噪声,<math>\mathcal{I}_{p-q}</math> 是同维度的单位矩阵。这样可以结合 <math>\mathbf{x}_q</math> 和一个来自 <math>p-q</math> 维标准正态分布的随机样本 <math>\mathbf{z}_{p-q}</math> 生成微状态。
   −
解码器可以被视为条件概率 <math>Pr(\hat{\mathbf{x}}_{t+1} | \mathbf{y}(t+1))</math> 的生成模型<ref name=":3" /><ref name=":4" />,而编码器执行正态化过程。
+
解码器可以被视为条件概率 <math>Pr(\hat{\mathbf{x}}_{t+1} | \mathbf{y}(t+1))</math> 的生成模型<ref name=":3">Li, S.H.; Wang, L. Neural Network Renormalization Group. Phys. Rev. Lett. 2018, 121, 260601.</ref><ref name=":4">Hu,H.; Wu,D.; You, Y.Z.; Olshausen, B.; Chen, Y. RG-Flow: A hierarchical and explainable flow model based on renormalization group and sparse prior. Mach. Learn. Sci. Technol. 2022, 3, 035009.</ref>,而编码器执行正态化过程。
 +
 
 +
==为什么使用可逆神经网络?==
 +
[[文件:Pasted image 20240519112728.png|居中|600px|'''图2.''' 双射器基本模块的 RealNVP 神经网络 <math> (\psi) </math> 实现。]]
 +
有多种方法可以实现可逆神经网络<ref>Teshima, T.; Ishikawa, I.; Tojo, K.; Oono, K.; Ikeda, M.; Sugiyama, M. Coupling-based invertible neural networks are universal diffeomorphism approximators. Adv. Neural Inf. Process. Syst. 2020, 33, 3362–3373.</ref><ref>Teshima, T.; Tojo, K.; Ikeda, M.; Ishikawa, I.; Oono, K. Universal approximation property of neural ordinary differential equations. arXiv 2017, arXiv:2012.02414.</ref>。同时选择如图2所示的RealNVP模块<ref>Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.</ref>来具体实现可逆计算。
 +
 
 +
在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用于缩放的相同神经网络共享参数,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用于平移的神经网络共享参数。这样,​​就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。
    
==两步优化==
 
==两步优化==
第136行: 第121行:  
其中 <math>l = 1</math> 或 <math>2</math>。接下来使用随机梯度下降技术来优化方程{{EquationNote|14}}。
 
其中 <math>l = 1</math> 或 <math>2</math>。接下来使用随机梯度下降技术来优化方程{{EquationNote|14}}。
   −
===选择一个最优的尺度===
+
===选择一个最优的尺度 ===
    
在上一步中,经过大量的训练周期可以得到有效的 <math>q</math> 粗粒化策略和宏观状态动力学,但训练结果依赖于 <math>q</math>。
 
在上一步中,经过大量的训练周期可以得到有效的 <math>q</math> 粗粒化策略和宏观状态动力学,但训练结果依赖于 <math>q</math>。
第143行: 第128行:       −
 
+
=NIS的理论性质=
=结果=
+
==压缩信道理论==
本节讨论NIS的理论性质和数值应用实例。
  −
==NIS的理论性质==
  −
 
  −
===[[有效信息]]的度量===
  −
 
  −
'''前馈神经网络的有效信息定义'''
  −
 
  −
一般而言,如果神经网络的输入为 <math>X =(x_1,x_2,··· ,x_n) \in [-L,L]^n</math>,即 <math>X</math> 定义在大小为 <math>L</math> 的超立方体上(<math>L</math> 是大整数),则输出为 <math>Y = (y_1,y_2,··· ,y_m)</math> ,且 <math>Y = \mu(X)</math>。神经网络实现的确定性映射为 <math>\mu: \mathcal{R}^n \rightarrow \mathcal{R}^m</math> ,其在 <math>X</math> 处的雅可比矩阵为 <math>\partial_{X' \mu} \equiv \Bigl\{ \frac{\partial \mu_i (X')}{\partial X'_j}|_{X'=X}\Bigr\}_{nm}</math> . 若可以将神经网络视为给定 <math>X</math> 下的高斯分布,则:
  −
{{NumBlk|:|<blockquote><math>p(\mathcal{Y}|X) = \frac{1}{\sqrt{(2 \pi)^m |\Sigma|}} \exp\left( - \frac{1}{2}(\mathcal{Y}-\mu(X))^T \Sigma^{-1}(\mathcal{Y}-\mu(X)) \right)</math></blockquote>|{{EquationRef|15}}}}
  −
其中,<math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵,<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差(可由 <math>y_i</math> 的平均方差估计)。由此可计算有效信息 <math>EI</math>:
  −
 
  −
(i) 若存在 <math>X</math> 使 <math>\det(\partial_{X' } \mu(X)) \neq 0</math> ,则 <math>EI</math> 由如下式子导出:
  −
{{NumBlk|:|<blockquote><math>EI_L(\mu) = I(do(X \sim \mathcal{U}([-L,L]^n;\mathcal{Y}) \approx - \frac{m+m \ln(2\pi)+\Sigma_{i=1}^m \sigma_i^2}{2}+n \ln (2L)+ \mathbb{E}_{X \sim \mathcal{U}[-L,L]^n}(\ln | \det(\partial_{X' }\mu(X))|) </math></blockquote>|{{EquationRef|16}}}}
  −
其中 <math>\mathcal{U}([-L,L]^n)</math> 表示 <math>[-L,L]^n</math> 上的均匀分布,<math>|\cdot|</math> 表示绝对值,<math>\det</math> 表示行列式。
  −
 
  −
(ii) 若对于所有 <math>X</math> 都有 <math>\det (\partial_{X'}\mu(X)) \equiv 0</math>,则 <math>EI \approx 0</math>。
  −
 
  −
这个定义有如下新问题:(1)<math>EI</math> 容易受到输出维数 <math>m</math> 的影响,比较不同维动力学的 <math>EI</math> 将较为繁琐,但可通过计算维度平均有效信息解决;(2)<math>EI</math> 依赖于 <math>L</math>,当 <math>L</math> 很大时会发散,可通过计算维度平均因果涌现解决。
  −
 
  −
 
  −
'''维度平均有效信息 (<math>dEI</math>)'''
  −
 
  −
对于具有 <math>n</math> 维状态空间的动力学 <math>f</math>,则维度平均有效信息定义为:
  −
{{NumBlk|:|<blockquote><math>dEI(f)=\frac{EI(f)}{n}</math></blockquote>|{{EquationRef|17}}}}
  −
此时如果动力学 <math>f</math> 连续且可被看作条件高斯分布,则根据 <math>EI</math> 的定义(式{{EquationRef|16}}),维度平均 <math>EI</math> 可以计算为(<math>m = n</math>):
  −
{{NumBlk|:|<blockquote><math>dEI_L(f)= -\frac{1+\ln(2\pi)+\Sigma_{i=1}^n \sigma_i^2/n}{2}+\ln(2L) + \frac{1}{n}\mathbb{E}_{X \sim \mathcal{U}([-L,L]^n)}(\ln | \det(\partial_{X'}f(X))|)  \qquad (18)</math></blockquote>|{{EquationNote|18}}}}
  −
式{{EquationRef|18}}中与维度 <math>n</math> 相关的所有项都已被消除。但是,等式中仍然存在 <math>L</math>,当 <math>L</math> 很大时可能导致 <math>EI</math> 发散。
  −
 
  −
可以计算维度平均因果涌现(<math>dCE</math>)以消除 <math>L</math> 的影响。
  −
 
  −
 
  −
'''维度平均因果涌现 (<math>dCE</math>)'''
  −
 
  −
对于维度为 <math>n_M</math> 的宏观动力学 <math>f_M</math> 和维度为 <math>n_m</math> 的微观动力学 <math>f_m</math>,将维度平均因果涌现定义为:
  −
{{NumBlk|:|<blockquote><math>dCE(f_M,f_m)=dEI(f_M)-dEI(f_m)=\frac{EI(f_M)}{n_M}-\frac{EI(f_m)}{n_m}.</math></blockquote>|{{EquationRef|19}}}}
  −
因此,如果动力学 <math>f_M</math> 和 <math>f_m</math> 连续且可以被视为条件高斯分布,则根据定义 7 和公式 (18),维度平均因果涌现符合如下公式:
  −
{{NumBlk|:|<blockquote><math> dCE(f_M,f_m)=\left(\frac{1}{n_M} \mathbb{E}_{X_M} \ln |\det\partial_{X_M}f_M| \right) - \left(\frac{1}{n_M}\sum_{i=1}^{n_M} \ln \sigma_{i,M}^2 - \frac{1}{n_m} \sum_{i=1}^{n_m} \ln \sigma_{i,m}^2 \right)</math></blockquote>|{{EquationRef|20}}}}
  −
在式{{EquationNote|20}}中,<math>n</math> 维和 <math>L</math> 维的影响已被完全消除,结果只受方差的相对值和雅可比矩阵行列式的对数值的影响。数值计算中将主要使用式 20。Eff 因受 <math>L</math> 影响而弃用。
  −
理论中讨论神经信息压缩器框架找出最具信息量的宏观动力学的原因,以及有效策略动力学随<math>q</math>的变化。由于理论结果与输入数据的分布无关,该理论同时适用互信息与有效信息。
  −
===压缩信道===
   
[[文件:NIS Fig 3.png|居中|600px|'''图3.''' 神经信息压缩器压缩信道的图形模型。]]
 
[[文件:NIS Fig 3.png|居中|600px|'''图3.''' 神经信息压缩器压缩信道的图形模型。]]
 
NIS框架(图 1)可以看作图 3 所示的信道,由于投影操作的存在,通道在中间被压缩。此为压缩信息通道。
 
NIS框架(图 1)可以看作图 3 所示的信道,由于投影操作的存在,通道在中间被压缩。此为压缩信息通道。
第196行: 第141行:  
对于任何实现图 3 中一般框架的神经网络,宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同,即对于任意时间从 <math>\mathbf{x}_t</math> 到 <math>\hat{\mathbf{x}}_{t+1}</math> 的映射。此定理是 NIS 的基础。实际上,宏观动力学 <math>f</math> 是整个通道的信息瓶颈 [45]。
 
对于任何实现图 3 中一般框架的神经网络,宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同,即对于任意时间从 <math>\mathbf{x}_t</math> 到 <math>\hat{\mathbf{x}}_{t+1}</math> 的映射。此定理是 NIS 的基础。实际上,宏观动力学 <math>f</math> 是整个通道的信息瓶颈 [45]。
   −
===训练过程的变化===
+
==训练过程的变化==
 
通过信息瓶颈理论,可以直观地理解当神经压缩器框架通过数据进行训练时会发生什么。
 
通过信息瓶颈理论,可以直观地理解当神经压缩器框架通过数据进行训练时会发生什么。
 
首先,在神经网络训练过程中,整个框架的输出<math>\hat{\mathbf{x}}_{t+1}</math>对任意给定<math>\mathbf{x}_t</math>都接近于真实数据<math>\mathbf{x}_{t+1}</math>,对互信息同理。即如下定理:
 
首先,在神经网络训练过程中,整个框架的输出<math>\hat{\mathbf{x}}_{t+1}</math>对任意给定<math>\mathbf{x}_t</math>都接近于真实数据<math>\mathbf{x}_{t+1}</math>,对互信息同理。即如下定理:
第222行: 第167行:  
因此,若<math>\mathbb{E} | \det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>的初始值和<math>\mathbf{y}_t</math>很小,随着模型的训练,整个信道的相互信息会增加,此时雅可比矩阵的行列式必然增大,宏观态<math>\mathbf{y}_t</math>也必然更分散。但若信息<math>I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1})</math>已对<math>I(\mathbf{x}_t; \mathbf{x}_{t+1})</math>或<math>\mathbb{E} |\det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>和<math>H(\mathbf{y}_t)</math>已足够大,则这些现象可能不会发生。
 
因此,若<math>\mathbb{E} | \det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>的初始值和<math>\mathbf{y}_t</math>很小,随着模型的训练,整个信道的相互信息会增加,此时雅可比矩阵的行列式必然增大,宏观态<math>\mathbf{y}_t</math>也必然更分散。但若信息<math>I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1})</math>已对<math>I(\mathbf{x}_t; \mathbf{x}_{t+1})</math>或<math>\mathbb{E} |\det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>和<math>H(\mathbf{y}_t)</math>已足够大,则这些现象可能不会发生。
   −
===有效信息主要由粗粒化函数决定===
+
==有效信息主要由粗粒化函数决定==
 
此前分析的是互信息而非宏观动力学的有效信息(因果涌现的关键要素)。实际上可以借助压缩信道的良好属性写出EI的宏观动力学表达式,但这一表达式没有明确的形式。由此得出确定因果出现的主要成分是双射器<math>\psi_\alpha</math>。
 
此前分析的是互信息而非宏观动力学的有效信息(因果涌现的关键要素)。实际上可以借助压缩信道的良好属性写出EI的宏观动力学表达式,但这一表达式没有明确的形式。由此得出确定因果出现的主要成分是双射器<math>\psi_\alpha</math>。
   第232行: 第177行:  
其中 <math>\sigma \equiv [-L,L]^p</math> 是<math>\mathbf{x}</math>与<math>\mathbf{x}'</math>的积分区间。
 
其中 <math>\sigma \equiv [-L,L]^p</math> 是<math>\mathbf{x}</math>与<math>\mathbf{x}'</math>的积分区间。
   −
===互信息随尺度的变化===
+
==互信息随尺度的变化==
 
由信息瓶颈理论与互信息理论,推出如下推论:
 
由信息瓶颈理论与互信息理论,推出如下推论:
   第252行: 第197行:  
互信息描述了编码器(即在不同维度<math>q</math>中的微型状态<math>\mathbf{x}_t</math>和宏观状态<math>\mathbf{y}_t</math>)。该定理指出,随着<math>q</math>减小,编码器部分的互信息必然减小,且对信息限制<math>I( \mathbf{x}_t ; \hat{\mathbf{x}}_{t+1}) \simeq I(\mathbf{x}_t ; \mathbf{x}_{t+1})</math>更封闭。因此,整个信道将更加狭窄,编码器必须携带更有用和有效的信息才能转移到宏观动力学,预测变得更加困难。
 
互信息描述了编码器(即在不同维度<math>q</math>中的微型状态<math>\mathbf{x}_t</math>和宏观状态<math>\mathbf{y}_t</math>)。该定理指出,随着<math>q</math>减小,编码器部分的互信息必然减小,且对信息限制<math>I( \mathbf{x}_t ; \hat{\mathbf{x}}_{t+1}) \simeq I(\mathbf{x}_t ; \mathbf{x}_{t+1})</math>更封闭。因此,整个信道将更加狭窄,编码器必须携带更有用和有效的信息才能转移到宏观动力学,预测变得更加困难。
   −
==数值实验==
+
=数值实验=
 
在几个数据集上测试NIS(所有数据均由模拟动力学模型生成)。此测试还包括连续动力学和离散马尔可夫动力学。
 
在几个数据集上测试NIS(所有数据均由模拟动力学模型生成)。此测试还包括连续动力学和离散马尔可夫动力学。
   −
===带测量噪声的弹簧振荡器===
+
==带测量噪声的弹簧振荡器==
 
振荡器符合如下动力学方程组:
 
振荡器符合如下动力学方程组:
 
{{NumBlk|:|<blockquote><math>\begin{cases}
 
{{NumBlk|:|<blockquote><math>\begin{cases}
第279行: 第224行:       −
===简单马尔可夫链===
+
==简单马尔可夫链==
 
本案例展示NIS作用于离散马尔可夫链、粗粒化策略可以作用于状态空间的过程。生成数据的马尔可夫链是以下概率转移矩阵:
 
本案例展示NIS作用于离散马尔可夫链、粗粒化策略可以作用于状态空间的过程。生成数据的马尔可夫链是以下概率转移矩阵:
 
{{NumBlk|:|<blockquote><math>\begin{pmatrix}
 
{{NumBlk|:|<blockquote><math>\begin{pmatrix}
第298行: 第243行:  
将学习到的宏观动力学可视化(图 6c)。 <math>y_t < 0</math> 时宏观动力学是一个线性映射,<math>y_t > 0</math> 时它可被视为一个常数。因此,该动力学可以保证所有前七个微状态都可以与最后一个状态分离。图6d验证了定理2。
 
将学习到的宏观动力学可视化(图 6c)。 <math>y_t < 0</math> 时宏观动力学是一个线性映射,<math>y_t > 0</math> 时它可被视为一个常数。因此,该动力学可以保证所有前七个微状态都可以与最后一个状态分离。图6d验证了定理2。
   −
===简单布尔网络===
+
==简单布尔网络==
 
[[文件:NIS Fig 7.png|居中|600px|'''图7.''' 布尔网络样例(左)及其原理(右)。]]
 
[[文件:NIS Fig 7.png|居中|600px|'''图7.''' 布尔网络样例(左)及其原理(右)。]]
 
布尔网络是离散动力系统的典型例子,其中每个节点有两种可能的状态(0 或 1),且节点状态受其相邻节点状态的影响。该网络的微观机制如下:图 7 展示了一个包含四个节点的布尔网络示例,每个节点的状态受到其相邻节点状态组合的概率影响,具体概率见图 7 中的表格。将所有节点的机制结合后,可以得到一个具有 <math>2^4 = 16</math> 个状态的大型马尔可夫转移矩阵。
 
布尔网络是离散动力系统的典型例子,其中每个节点有两种可能的状态(0 或 1),且节点状态受其相邻节点状态的影响。该网络的微观机制如下:图 7 展示了一个包含四个节点的布尔网络示例,每个节点的状态受到其相邻节点状态组合的概率影响,具体概率见图 7 中的表格。将所有节点的机制结合后,可以得到一个具有 <math>2^4 = 16</math> 个状态的大型马尔可夫转移矩阵。
第304行: 第249行:  
通过对整个网络进行 50,000 次状态转换的采样(每次采样包含 100 个从可能状态空间均匀随机采样的不同初始条件),将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(图 8a)。可视化结果显示出粗粒化策略(图 8b),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。与参考文献5中的示例相似,16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。这个示例验证了信息瓶颈理论与信道互信息之间的关系(图 8c, d)。
 
通过对整个网络进行 50,000 次状态转换的采样(每次采样包含 100 个从可能状态空间均匀随机采样的不同初始条件),将这些数据输入 NIS 模型。通过系统搜索不同的 <math>q</math> 值,发现维度平均因果涌现峰值出现在 q = 1 处(图 8a)。可视化结果显示出粗粒化策略(图 8b),其中 <math>x</math> 坐标是微观状态的十进制编码,<math>y</math> 坐标表示宏观状态的编码。数据点根据其 <math>y</math> 值可以清晰地分为四个簇,这表明 NIS 网络发现了四个离散的宏观状态。与参考文献5中的示例相似,16 个微观状态与四个宏观状态之间存在一一对应关系。然而,NIS 算法在处理此问题时并不知道任何先验信息,包括节点分组方法、粗粒化策略和动力学信息。这个示例验证了信息瓶颈理论与信道互信息之间的关系(图 8c, d)。
    +
=[[有效信息]]的度量=
 +
 +
== '''前馈神经网络的有效信息定义''' ==
 +
一般而言,如果神经网络的输入为 <math>X =(x_1,x_2,··· ,x_n) \in [-L,L]^n</math>,即 <math>X</math> 定义在大小为 <math>L</math> 的超立方体上(<math>L</math> 是大整数),则输出为 <math>Y = (y_1,y_2,··· ,y_m)</math> ,且 <math>Y = \mu(X)</math>。神经网络实现的确定性映射为 <math>\mu: \mathcal{R}^n \rightarrow \mathcal{R}^m</math> ,其在 <math>X</math> 处的雅可比矩阵为 <math>\partial_{X' \mu} \equiv \Bigl\{ \frac{\partial \mu_i (X')}{\partial X'_j}|_{X'=X}\Bigr\}_{nm}</math> . 若可以将神经网络视为给定 <math>X</math> 下的高斯分布,则:
 +
{{NumBlk|:|<blockquote><math>p(\mathcal{Y}|X) = \frac{1}{\sqrt{(2 \pi)^m |\Sigma|}} \exp\left( - \frac{1}{2}(\mathcal{Y}-\mu(X))^T \Sigma^{-1}(\mathcal{Y}-\mu(X)) \right)</math></blockquote>|{{EquationRef|15}}}}
 +
其中,<math>\Sigma = diag (\sigma_1^2, \sigma_2^2, ···, \sigma_q^2)</math> 是协方差矩阵,<math>\sigma_i</math> 是第 <math>i</math> 维度的标准差(可由 <math>y_i</math> 的平均方差估计)。由此可计算有效信息 <math>EI</math>:
 +
 +
(i) 若存在 <math>X</math> 使 <math>\det(\partial_{X' } \mu(X)) \neq 0</math> ,则 <math>EI</math> 由如下式子导出:
 +
{{NumBlk|:|<blockquote><math>EI_L(\mu) = I(do(X \sim \mathcal{U}([-L,L]^n;\mathcal{Y}) \approx - \frac{m+m \ln(2\pi)+\Sigma_{i=1}^m \sigma_i^2}{2}+n \ln (2L)+ \mathbb{E}_{X \sim \mathcal{U}[-L,L]^n}(\ln | \det(\partial_{X' }\mu(X))|) </math></blockquote>|{{EquationRef|16}}}}
 +
其中 <math>\mathcal{U}([-L,L]^n)</math> 表示 <math>[-L,L]^n</math> 上的均匀分布,<math>|\cdot|</math> 表示绝对值,<math>\det</math> 表示行列式。
 +
 +
(ii) 若对于所有 <math>X</math> 都有 <math>\det (\partial_{X'}\mu(X)) \equiv 0</math>,则 <math>EI \approx 0</math>。
 +
 +
这个定义有如下新问题:(1)<math>EI</math> 容易受到输出维数 <math>m</math> 的影响,比较不同维动力学的 <math>EI</math> 将较为繁琐,但可通过计算维度平均有效信息解决;(2)<math>EI</math> 依赖于 <math>L</math>,当 <math>L</math> 很大时会发散,可通过计算维度平均因果涌现解决。
 +
 +
== '''维度平均有效信息 (<math>dEI</math>)''' ==
 +
对于具有 <math>n</math> 维状态空间的动力学 <math>f</math>,则维度平均有效信息定义为:
 +
{{NumBlk|:|<blockquote><math>dEI(f)=\frac{EI(f)}{n}</math></blockquote>|{{EquationRef|17}}}}
 +
此时如果动力学 <math>f</math> 连续且可被看作条件高斯分布,则根据 <math>EI</math> 的定义(式{{EquationRef|16}}),维度平均 <math>EI</math> 可以计算为(<math>m = n</math>):
 +
{{NumBlk|:|<blockquote><math>dEI_L(f)= -\frac{1+\ln(2\pi)+\Sigma_{i=1}^n \sigma_i^2/n}{2}+\ln(2L) + \frac{1}{n}\mathbb{E}_{X \sim \mathcal{U}([-L,L]^n)}(\ln | \det(\partial_{X'}f(X))|)  \qquad (18)</math></blockquote>|{{EquationNote|18}}}}
 +
式{{EquationRef|18}}中与维度 <math>n</math> 相关的所有项都已被消除。但是,等式中仍然存在 <math>L</math>,当 <math>L</math> 很大时可能导致 <math>EI</math> 发散。
   −
=总结=
+
可以计算维度平均因果涌现(<math>dCE</math>)以消除 <math>L</math> 的影响。
    +
== '''维度平均因果涌现 (<math>dCE</math>)''' ==
 +
对于维度为 <math>n_M</math> 的宏观动力学 <math>f_M</math> 和维度为 <math>n_m</math> 的微观动力学 <math>f_m</math>,将维度平均因果涌现定义为:
 +
{{NumBlk|:|<blockquote><math>dCE(f_M,f_m)=dEI(f_M)-dEI(f_m)=\frac{EI(f_M)}{n_M}-\frac{EI(f_m)}{n_m}.</math></blockquote>|{{EquationRef|19}}}}
 +
因此,如果动力学 <math>f_M</math> 和 <math>f_m</math> 连续且可以被视为条件高斯分布,则根据定义 7 和公式 (18),维度平均因果涌现符合如下公式:
 +
{{NumBlk|:|<blockquote><math> dCE(f_M,f_m)=\left(\frac{1}{n_M} \mathbb{E}_{X_M} \ln |\det\partial_{X_M}f_M| \right) - \left(\frac{1}{n_M}\sum_{i=1}^{n_M} \ln \sigma_{i,M}^2 - \frac{1}{n_m} \sum_{i=1}^{n_m} \ln \sigma_{i,m}^2 \right)</math></blockquote>|{{EquationRef|20}}}}
 +
在式{{EquationNote|20}}中,<math>n</math> 维和 <math>L</math> 维的影响已被完全消除,结果只受方差的相对值和雅可比矩阵行列式的对数值的影响。数值计算中将主要使用式 20。Eff 因受 <math>L</math> 影响而弃用。
 +
理论中讨论神经信息压缩器框架找出最具信息量的宏观动力学的原因,以及有效策略动力学随<math>q</math>的变化。由于理论结果与输入数据的分布无关,该理论同时适用互信息与有效信息。
 +
 +
=总结与展望=
 +
 +
===NIS的优点===
 
NIS(神经信息压缩器)是一种新的神经网络框架,可被用于发现时间序列数据中的粗粒化策略、宏观动力学和涌现的因果关系。NIS中可逆神经网络的使用通过在编码器和解码器之间共享参数来减少参数数量,且使得分析 NIS 架构的数学特性更加方便。通过约束粗粒化策略来预测具有精度阈值的未来微观状态,从而定义有效的粗粒化策略和宏观动力学,并推出因果涌现识别问题可以理解为在约束条件下最大化有效信息的问题。
 
NIS(神经信息压缩器)是一种新的神经网络框架,可被用于发现时间序列数据中的粗粒化策略、宏观动力学和涌现的因果关系。NIS中可逆神经网络的使用通过在编码器和解码器之间共享参数来减少参数数量,且使得分析 NIS 架构的数学特性更加方便。通过约束粗粒化策略来预测具有精度阈值的未来微观状态,从而定义有效的粗粒化策略和宏观动力学,并推出因果涌现识别问题可以理解为在约束条件下最大化有效信息的问题。
    +
===NIS的缺点===
 
NIS框架的弱点如下。首先,由于可逆神经网络很难在大数据集上训练,它只能在小数据集上工作;其次,该框架仍然缺乏可解释性<ref>Williams, P.L.; Beer., R.D. Nonnegative decomposition of multivariate information. arXiv 2017, arXiv:1004.2515.</ref>;第三,该模型可预测的条件分布仅限于高斯或拉普拉斯分布。
 
NIS框架的弱点如下。首先,由于可逆神经网络很难在大数据集上训练,它只能在小数据集上工作;其次,该框架仍然缺乏可解释性<ref>Williams, P.L.; Beer., R.D. Nonnegative decomposition of multivariate information. arXiv 2017, arXiv:1004.2515.</ref>;第三,该模型可预测的条件分布仅限于高斯或拉普拉斯分布。
 +
 +
===未来展望:NIS+框架===
     
28

个编辑