更改

跳到导航 跳到搜索
添加7,147字节 、 2024年6月23日 (星期日)
撤销LJR.json讨论)的版本35482
第1行: 第1行: −
=历史=
+
=介绍=
 +
 
 +
==因果涌现的定义==
 +
*'''[[涌现]](emergence)''' 是复杂系统中最重要的概念之一,描述了一种现象:一个整体展现了组成它的部分所不具有的特性。<ref>Holland, J.H. Emergence: From Chaos To Order; Illustrated edition; Basic Books: New York, NY, USA, 1999.</ref><ref>Bedau, M.A. Weak Emergence. Philos. Perspect. 1997, 11, 375–399. [CrossRef]</ref>
 +
 
 +
*'''因果(causality)''' 是另一个重要概念,描述了动力学系统中原因事件与结果事件随时间<ref>Pearl, J. Causality: Models of Reasoning and Inference, 2nd ed.; Cambridge University Press: Cambridge, UK, 2009.</ref><ref>Granger, C.W.J. Investigating Causal Relations by Econometric Models and Cross-spectral Methods. Econometrica 1969, 37, 424–438. [CrossRef]</ref>的联系。
 +
 
 +
*'''[[因果涌现 Causal Emergence|因果涌现]](causal emergence)''' 是一类特殊的涌现现象<ref name=":0">Hoel, E.P.; Albantakis, L.; Tononi, G. Quantifying causal emergence shows that macro can beat micro. Proc. Natl. Acad. Sci. USA 2013, 110, 19790–19795. [CrossRef] [PubMed]</ref><ref>Hoel, E.P. When the Map Is Better Than the Territory. Entropy 2017, 19, 188. [CrossRef]</ref>,指系统中宏观层面的事件可能比微观层面有更强的因果联系。其中,因果关系的强度可以用[[有效信息]] (EI) <ref name=":0" /><ref>Tononi, G.; Sporns, O. Measuring information integration. BMC Neurosci. 2003, 4, 31. [CrossRef] [PubMed]</ref>来衡量 。因果涌现可可被用于研究蚁群<ref>Swain, A.; Williams, S.D.; Di Felice, L.J.; Hobson, E.A. Interactions and information: Exploring task allocation in ant colonies using network analysis. Anim. Behav. 2022, 189, 69–81. [CrossRef]</ref>、蛋白质互相作用<ref>Klein, B.; Hoel, E.; Swain, A.; Griebenow, R.; Levin, M. Evolution and emergence: Higher order information structure in protein interactomes across the tree of life. Integr. Biol. 2021, 13, 283–294.</ref>、大脑<ref>Ravi, D.; Hamilton, J.L.; Winfield, E.C.; Lalta, N.; Chen, R.H.; Cole, M.W. Causal emergence of task information from dynamic network interactions in the human brain. Rev. Neurosci. 2022, 31, 25–46.</ref>,以及生物网络<ref name=":2">Klein, B.; Swain, A.; Byrum, T.; Scarpino, S.V.; Fagan, W.F. Exploring noise, degeneracy and determinism in biological networks with the einet package. Methods Ecol. Evol. 2022, 13, 799–804.</ref>。
    
==因果涌现的识别==
 
==因果涌现的识别==
第5行: 第12行:     
*'''Klein提出的[[复杂网络]]中的因果涌现'''
 
*'''Klein提出的[[复杂网络]]中的因果涌现'''
[[复杂网络中的因果涌现]]的识别困难在于系统性、自动搜索所有潜在的粗粒化策略<ref>Varley, T.; Hoel, E. Emergence as the conversion of information: A unifying theory. arXiv 2021, arXiv:2104.13368.</ref><ref>Chvykov, P.; Hoel, E. Causal Geometry. Entropy 2021, 23, 24. [CrossRef]</ref><ref name=":1">Rosas, F.E.; Mediano, P.A.M.; Jensen, H.J.; Seth, A.K.; Barrett, A.B.; Carhart-Harris, R.L.; Bor, D. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data. PLoS Comput. Biol. 2020, 16, e1008289. [CrossRef]</ref><ref>Varley, T.F. Flickering emergences: The question of locality in information-theoretic approaches to emergence. arXiv 2022, arXiv:2208.14502.</ref>。Klein的方法通过节点聚类<ref name=":2">Klein, B.; Swain, A.; Byrum, T.; Scarpino, S.V.; Fagan, W.F. Exploring noise, degeneracy and determinism in biological networks with the einet package. Methods Ecol. Evol. 2022, 13, 799–804.</ref><ref>Klein, B.; Hoel, E. The Emergence of Informative Higher Scales in Complex Networks. Complexity 2020, 2020, 8932526. [CrossRef]</ref>提升EI,但假设底层节点动力学是扩散的,未考虑真实系统中更复杂的动力学。即使节点分组已知,粗粒化策略仍需考虑簇中所有节点的微观与宏观状态映射。
+
[[复杂网络中的因果涌现]]的识别困难在于系统性、自动搜索所有潜在的粗粒化策略<ref>Varley, T.; Hoel, E. Emergence as the conversion of information: A unifying theory. arXiv 2021, arXiv:2104.13368.</ref><ref>Chvykov, P.; Hoel, E. Causal Geometry. Entropy 2021, 23, 24. [CrossRef]</ref><ref name=":1">Rosas, F.E.; Mediano, P.A.M.; Jensen, H.J.; Seth, A.K.; Barrett, A.B.; Carhart-Harris, R.L.; Bor, D. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data. PLoS Comput. Biol. 2020, 16, e1008289. [CrossRef]</ref><ref>Varley, T.F. Flickering emergences: The question of locality in information-theoretic approaches to emergence. arXiv 2022, arXiv:2208.14502.</ref>。Klein的方法通过节点聚类<ref name=":2" /><ref>Klein, B.; Hoel, E. The Emergence of Informative Higher Scales in Complex Networks. Complexity 2020, 2020, 8932526. [CrossRef]</ref>提升EI,但假设底层节点动力学是扩散的,未考虑真实系统中更复杂的动力学。即使节点分组已知,粗粒化策略仍需考虑簇中所有节点的微观与宏观状态映射。
    
*'''部分信息分解方法'''
 
*'''部分信息分解方法'''
第13行: 第20行:  
这两种方法需明确的宏观与微观动力学马尔可夫转移矩阵,导致对罕见事件概率及连续数据的预测存在偏差。
 
这两种方法需明确的宏观与微观动力学马尔可夫转移矩阵,导致对罕见事件概率及连续数据的预测存在偏差。
   −
=简介=
+
===基于机器学习的神经信息压缩方法===
   −
==神经信息压缩器的定义==
+
*'''神经信息压缩器的定义'''
 
近年来,机器学习得到长足发展,其跨学科应用也逐渐出现<ref>Silver, D.; Schrittwieser, J.; Simonyan, K.; Antonoglou, I.; Huang, A.; Guez, A.; Hubert, T.; Baker, L.; Lai, M.; Bolton, A.; et al. Mastering the game of Go without human knowledge. Nature 2017, 550, 354–359.</ref><ref>LeCun,Y.; Bengio, Y.; Hinton, G. Deep learning. Nature 2015, 521, 436–444.</ref><ref>Reichstein, M.; Camps-Valls, G.; Stevens, B.; Jung, M.; Denzler, J.; Carvalhais, N. Deep learning and process understanding for data-driven Earth system science. Nature 2019, 566, 195–204.</ref><ref>Senior, A.W.; Evans, R.; Jumper, J.; Kirkpatrick, J.; Sifre, L.; Green, T.; Qin, C.; Žídek, A.; Nelson, A.W.R.; Bridgland, A.; et al. Improved protein structure prediction using potentials from deep learning. Nature 2020, 577, 706–710.</ref>。由此方法,以数据为驱动的、自动发现因果涌现<ref>Tank, A.; Covert, I.; Foti, N.; Shojaie, A.; Fox, E. Neural Granger Causality. arXiv 2018, arXiv:1802.05842.</ref><ref>Löwe,S.; Madras, D.; Zemel, R.; Welling, M. Amortized causal discovery: Learning to infer causal graphs from time-series data. arXiv 2020, arXiv:2006.10833.</ref><ref>Glymour, C.; Zhang, K.; Spirtes, P. Review of Causal Discovery Methods Based on Graphical Models. Front. Genet. 2019, 10, 524.</ref><ref>Casadiego, J.; Nitzan, M.; Hallerberg, S.; Timme, M. Model-free inference of direct network interactions from nonlinear collective dynamics. Nat. Commun. 2017, 8, 1–10.</ref>,甚至复杂系统的动力学已成为可能<ref>Sanchez-Gonzalez, A.; Heess, N.; Springenberg, J.T.; Merel, J.; Riedmiller, M.; Hadsell, R.; Battaglia, P. Graph networks as learnable physics engines for inference and control. In Proceedings of the International Conference on Machine Learning, Stockholm, Sweden, 10–15 July 2018 ; pp. 4470–4479.</ref><ref>Zhang, Z.; Zhao, Y.; Liu, J.; Wang, S.; Tao, R.; Xin, R.; Zhang, J. A general deep learning framework for network reconstruction and dynamics learning. Appl. Netw. Sci. 2019, 4, 1–17.</ref><ref>Kipf, T.; Fetaya, E.; Wang, K.C.; Welling, M.; Zemel, R. Neural relational inference for interacting systems. In Proceedings of the International Conference on Machine Learning, Stockholm, Sweden, 10–15 July 2018; pp. 2688–2697.</ref><ref>Chen,B.; Huang, K.; Raghupathi, S.; Chandratreya, I.; Du, Q.; Lipson, H. Discovering State Variables Hidden in Experimental Data. arXiv 2021, arXiv:2112.10755.</ref>。因果涌现识别问题可表述为“在微观动力学精确预测的约束下,最大化宏观动力学的有效信息(EI)”。神经信息压缩器(NIS)是解决此问题的通用机器学习框架。NIS通过可逆神经网络建模粗粒化策略<ref>Koch-Janusz, M.; Ringel, Z. Mutual information, neural networks and the renormalization group. Nat. Phys. 2018, 14, 578–582.</ref><ref name=":3">Li, S.H.; Wang, L. Neural Network Renormalization Group. Phys. Rev. Lett. 2018, 121, 260601.</ref><ref>Hu,H.Y.; Li, S.H.; Wang, L.; You, Y.Z. Machine learning holographic mapping by neural network renormalization group. Phys. Rev. Res. 2020, 2, 023369.</ref><ref name=":4">Hu,H.; Wu,D.; You, Y.Z.; Olshausen, B.; Chen, Y. RG-Flow: A hierarchical and explainable flow model based on renormalization group and sparse prior. Mach. Learn. Sci. Technol. 2022, 3, 035009.</ref><ref>Gökmen,D.E.; Ringel, Z.; Huber, S.D.; Koch-Janusz, M. Statistical physics through the lens of real-space mutual information. Phys. Rev. Lett. 2021, 127, 240603.</ref>,将任意<math>\mathcal{R}^p</math>到<math>\mathcal{R}^q(q \leq p)</math> 的映射分解为一系列信息转换和弃用过程,可对整个框架进行数学分析。
 
近年来,机器学习得到长足发展,其跨学科应用也逐渐出现<ref>Silver, D.; Schrittwieser, J.; Simonyan, K.; Antonoglou, I.; Huang, A.; Guez, A.; Hubert, T.; Baker, L.; Lai, M.; Bolton, A.; et al. Mastering the game of Go without human knowledge. Nature 2017, 550, 354–359.</ref><ref>LeCun,Y.; Bengio, Y.; Hinton, G. Deep learning. Nature 2015, 521, 436–444.</ref><ref>Reichstein, M.; Camps-Valls, G.; Stevens, B.; Jung, M.; Denzler, J.; Carvalhais, N. Deep learning and process understanding for data-driven Earth system science. Nature 2019, 566, 195–204.</ref><ref>Senior, A.W.; Evans, R.; Jumper, J.; Kirkpatrick, J.; Sifre, L.; Green, T.; Qin, C.; Žídek, A.; Nelson, A.W.R.; Bridgland, A.; et al. Improved protein structure prediction using potentials from deep learning. Nature 2020, 577, 706–710.</ref>。由此方法,以数据为驱动的、自动发现因果涌现<ref>Tank, A.; Covert, I.; Foti, N.; Shojaie, A.; Fox, E. Neural Granger Causality. arXiv 2018, arXiv:1802.05842.</ref><ref>Löwe,S.; Madras, D.; Zemel, R.; Welling, M. Amortized causal discovery: Learning to infer causal graphs from time-series data. arXiv 2020, arXiv:2006.10833.</ref><ref>Glymour, C.; Zhang, K.; Spirtes, P. Review of Causal Discovery Methods Based on Graphical Models. Front. Genet. 2019, 10, 524.</ref><ref>Casadiego, J.; Nitzan, M.; Hallerberg, S.; Timme, M. Model-free inference of direct network interactions from nonlinear collective dynamics. Nat. Commun. 2017, 8, 1–10.</ref>,甚至复杂系统的动力学已成为可能<ref>Sanchez-Gonzalez, A.; Heess, N.; Springenberg, J.T.; Merel, J.; Riedmiller, M.; Hadsell, R.; Battaglia, P. Graph networks as learnable physics engines for inference and control. In Proceedings of the International Conference on Machine Learning, Stockholm, Sweden, 10–15 July 2018 ; pp. 4470–4479.</ref><ref>Zhang, Z.; Zhao, Y.; Liu, J.; Wang, S.; Tao, R.; Xin, R.; Zhang, J. A general deep learning framework for network reconstruction and dynamics learning. Appl. Netw. Sci. 2019, 4, 1–17.</ref><ref>Kipf, T.; Fetaya, E.; Wang, K.C.; Welling, M.; Zemel, R. Neural relational inference for interacting systems. In Proceedings of the International Conference on Machine Learning, Stockholm, Sweden, 10–15 July 2018; pp. 2688–2697.</ref><ref>Chen,B.; Huang, K.; Raghupathi, S.; Chandratreya, I.; Du, Q.; Lipson, H. Discovering State Variables Hidden in Experimental Data. arXiv 2021, arXiv:2112.10755.</ref>。因果涌现识别问题可表述为“在微观动力学精确预测的约束下,最大化宏观动力学的有效信息(EI)”。神经信息压缩器(NIS)是解决此问题的通用机器学习框架。NIS通过可逆神经网络建模粗粒化策略<ref>Koch-Janusz, M.; Ringel, Z. Mutual information, neural networks and the renormalization group. Nat. Phys. 2018, 14, 578–582.</ref><ref name=":3">Li, S.H.; Wang, L. Neural Network Renormalization Group. Phys. Rev. Lett. 2018, 121, 260601.</ref><ref>Hu,H.Y.; Li, S.H.; Wang, L.; You, Y.Z. Machine learning holographic mapping by neural network renormalization group. Phys. Rev. Res. 2020, 2, 023369.</ref><ref name=":4">Hu,H.; Wu,D.; You, Y.Z.; Olshausen, B.; Chen, Y. RG-Flow: A hierarchical and explainable flow model based on renormalization group and sparse prior. Mach. Learn. Sci. Technol. 2022, 3, 035009.</ref><ref>Gökmen,D.E.; Ringel, Z.; Huber, S.D.; Koch-Janusz, M. Statistical physics through the lens of real-space mutual information. Phys. Rev. Lett. 2021, 127, 240603.</ref>,将任意<math>\mathcal{R}^p</math>到<math>\mathcal{R}^q(q \leq p)</math> 的映射分解为一系列信息转换和弃用过程,可对整个框架进行数学分析。
   第21行: 第28行:  
因果表征学习旨在提取观测数据背后的因果隐变量<ref>Chalupka, K.; Eberhardt, F.; Perona, P. Causal feature learning: An overview. Behaviormetrika 2017, 44, 137–164.</ref><ref>Schölkopf, B.; Locatello, F.; Bauer, S.; Ke, N.R.; Kalchbrenner, N.; Goyal, A.; Bengio, Y. Toward causal representation learning. Proc. IEEE 2021, 109, 612–634.</ref>,编码过程可理解为粗粒化。因果涌现识别与因果表征学习相似,但目标不同:前者寻找更优粗粒化策略,后者提取数据中的因果关系。多尺度建模和粗粒化操作引入了新的理论问题<ref>Iwasaki, Y.; Simon, H.A. Causality and model abstraction. Artif. Intell. 1994, 67, 143–194.</ref><ref>Rubenstein, P.K.; Weichwald, S.; Bongers, S.; Mooij, J.; Janzing, D.; Grosse-Wentrup, M.; Schölkopf, B. Causal consistency of structural equation models. arXiv 2017, arXiv:1707.00819.</ref><ref>Beckers, S.; Eberhardt, F.; Halpern, J.Y. Approximate causal abstractions. In Proceedings of the Uncertainty in Artificial Intelligence, Virtual, 3–6 August 2020; pp. 606–615.</ref>。
 
因果表征学习旨在提取观测数据背后的因果隐变量<ref>Chalupka, K.; Eberhardt, F.; Perona, P. Causal feature learning: An overview. Behaviormetrika 2017, 44, 137–164.</ref><ref>Schölkopf, B.; Locatello, F.; Bauer, S.; Ke, N.R.; Kalchbrenner, N.; Goyal, A.; Bengio, Y. Toward causal representation learning. Proc. IEEE 2021, 109, 612–634.</ref>,编码过程可理解为粗粒化。因果涌现识别与因果表征学习相似,但目标不同:前者寻找更优粗粒化策略,后者提取数据中的因果关系。多尺度建模和粗粒化操作引入了新的理论问题<ref>Iwasaki, Y.; Simon, H.A. Causality and model abstraction. Artif. Intell. 1994, 67, 143–194.</ref><ref>Rubenstein, P.K.; Weichwald, S.; Bongers, S.; Mooij, J.; Janzing, D.; Grosse-Wentrup, M.; Schölkopf, B. Causal consistency of structural equation models. arXiv 2017, arXiv:1707.00819.</ref><ref>Beckers, S.; Eberhardt, F.; Halpern, J.Y. Approximate causal abstractions. In Proceedings of the Uncertainty in Artificial Intelligence, Virtual, 3–6 August 2020; pp. 606–615.</ref>。
    +
=问题定义=
 +
 +
==背景==
 +
 +
===动力学的定义===
 +
假设讨论的复杂系统动力学可由如下微分方程组描述:
 +
{{NumBlk|:|<blockquote><math>\frac{d{\mathbf{x}}}{dt} = g(\mathbf{x}(t),ξ) </math></blockquote>|{{EquationRef|1}}}}
 +
其中<math>\mathbf{x}(t) ∈ \mathcal{R}^p</math> 是系统的状态,<math>p ∈ \mathcal{Z}</math> 是一正整数,<math>ξ</math> 是高斯随机噪声。
 +
通常,微观动力学 <math>g</math> 总是马尔可夫的,可以等效地建模为条件概率 <math>Pr(\mathbf{x}(t + dt)|\mathbf{x}(t))</math> 。根据该概率可求得系统状态的离散样本,这些状态即为微观状态。
 +
 +
===其它定义===
 +
*'''微观态'''
 +
动力系统状态(式{{EquationNote|1}})<math>\mathbf{x}_t</math> 的每一个样本称为时间步长 <math>t</math> 的一个微观状态。以相等间隔和有限时间步长 T 采样的多变量时间序列 <math>\mathbf{x}_1,\mathbf{x}_2,···,\mathbf{x}_T</math> 可形成微观状态时间序列。
 +
 +
重建 <math>g</math> 时应有可观测的微观状态,但在噪声较强时,很难从微观状态中重建具有强因果关系的信息丰富的动力学机制。因果涌现的基本思想是,若忽略微观状态数据中的部分信息并将其转换为宏观状态时间序列,则可以重建一个具有更强因果关系的宏观动力描述系统的演化。信息丢弃过程即为粗粒化策略(或映射方法)。
   −
==NIS所解决的问题定义==
+
*'''<math>q</math> 维粗粒化策略'''
 +
在宏观状态的维数为 <math>0 < q < p ∈ \mathcal{Z}^+</math> 的情况下,<math>q</math> 维粗粒化策略是一个连续微分函数,用于将微观状态 <math>\mathbf{x}_t ∈ \mathcal{R}^p</math>  映射到宏观状态 <math>\mathbf{y}_t ∈ \mathcal{R}^q</math>。粗粒化表示为 <math>q</math>。
 +
 
 +
复杂系统经过粗粒化得到一个新的宏观状态时间序列数据,表示为 <math>\mathbf{y}_1 = \phi_q(\mathbf{x}_1), \mathbf{y}_2 = \phi_q(\mathbf{x}_2),···,\mathbf{y}_T = \phi_q(\mathbf{x}_T)</math> 。接着寻找另一个动力学模型(或马尔可夫链)<math>\hat{f}_{\phi_q}</math> 来描述 <math>\mathbf{y}_t</math>  的演变,即宏观动力学。
 +
 
 +
*'''宏观动力学'''
 +
对于给定的宏观状态时间序列 <math>\mathbf{y}_1,\mathbf{y}_2,···,\mathbf{y}_T</math> ,宏观状态动力学是一组微分方程
 +
{{NumBlk|:|<blockquote><math>\frac{d\mathbf{y}}{dt} = \hat{f}_{\phi_q}(\mathbf{y}, ξ')</math></blockquote>|{{EquationRef|2}}}}
 +
其中<math>\mathbf{y} ∈ \mathcal{R}^q</math> , <math>ξ' ∈ \mathcal{R}^q</math> 是宏观状态动力学中的高斯噪声,<math>\hat{f}_{\phi_q}</math>  是连续微分函数,可最小化方程{{EquationNote|2}}在任何给定的时间步长 <math>t ∈ [1,T]</math> 和给定的向量形式<math>\Vert \cdot \Vert</math> 下的解
 +
{{NumBlk|:|<math>\mathbf{y}(t)</math> :<blockquote><math>\langle \Vert \mathbf{y}_t-\mathbf{y}(t)\Vert \rangle_{ξ'}</math></blockquote>|{{EquationRef|3}}}}
 +
此公式不能排除一些琐碎的策略。例如,假设对于 <math>∀ \mathbf{y}_t ∈ \mathcal{R}^p</math>  , <math>q = 1</math> 维的 <math>\phi_q</math> 定义为 <math>\phi_q(\mathbf{x}_t) = 1</math> 。因此,相应的宏观动力学只是 <math>d\mathbf{y}/dt = 0</math> 和 <math>\mathbf{y}(0) = 1</math>。由于宏观状态动力学是琐碎的,粗粒化映射过于随意,此方程无意义。因此,必须对粗粒化策略和宏观动力学设置限制以避免琐碎的策略和动力学。
 +
 
 +
==有效粗粒化策略和宏观动力学==
 +
有效粗粒化策略应是一个宏观态中可以'''尽量多地保存微观态信息'''的压缩映射。
 +
 
 +
*'''<math>\epsilon</math>-effective q粗粒化策略与宏观动力学'''
 +
如果存在一个函数<math>\phi_q^† :\mathcal{R}^q \rightarrow \mathcal{R}^p</math>,使得对于给定的小实数<math>\varepsilon</math>和给定的向量范数<math>\Vert \cdot \Vert</math>,以下不等式成立,则 <math>q</math> 粗粒化策略<math>\phi_q :\mathcal{R}^p \rightarrow \mathcal{R}^q</math>是<math>\epsilon</math>-effective的(或缩写为有效):
 +
{{NumBlk|:|<blockquote><math>\Vert \phi_q^† ( \mathbf{y}(t) - \mathbf{x}_t \Vert < \epsilon ,</math></blockquote>|{{EquationRef|4}}}}
 +
同时,导出的宏观动力学<math>\hat{f}_{\phi_q}</math>也有效(其中<math>\mathbf{y}(t)</math> 是式2的解)。即对于所有<math>t = 1,2,···, T</math>:
 +
{{NumBlk|:|<blockquote><math>\mathbf{y}(t)=\phi_q (\mathbf{x}_{t-1}) + \int_{t-1}^t \hat{f}_{\phi_q}(\mathbf{y}(\tau), \xi') d\tau</math></blockquote>|{{EquationRef|5}}}}
 +
可以通过<math>\phi_q^†</math>重构微观状态时间序列,使得宏观状态变量尽可能多地包含微观状态的信息。
 +
 
 +
此定义符合近似因果模型抽象。
 +
 
 +
==问题定义==
 
*'''最大化系统动力学的有效信息'''
 
*'''最大化系统动力学的有效信息'''
 
若要寻找一个最具信息量的宏观动力学,则需在所有可能的有效策略和动力学中优化粗粒化策略和宏观动力学。
 
若要寻找一个最具信息量的宏观动力学,则需在所有可能的有效策略和动力学中优化粗粒化策略和宏观动力学。
第32行: 第78行:       −
=结构=
+
=神经信息压缩器模型=
    
NIS是一种新的机器学习框架,基于可逆神经网络来解决式6中提出的问题。其由三个组件组成:编码器、动力学学习器和解码器。它们分别用神经网络 <math>\psi_\alpha , f_\beta ,</math> 和<math>\psi_\alpha^{-1}</math> 表示,参数分别为<math>\alpha, \beta</math> 和<math>\alpha</math> 。整个框架如图1所示。接下来将分别描述每个模块。
 
NIS是一种新的机器学习框架,基于可逆神经网络来解决式6中提出的问题。其由三个组件组成:编码器、动力学学习器和解码器。它们分别用神经网络 <math>\psi_\alpha , f_\beta ,</math> 和<math>\psi_\alpha^{-1}</math> 表示,参数分别为<math>\alpha, \beta</math> 和<math>\alpha</math> 。整个框架如图1所示。接下来将分别描述每个模块。
第54行: 第100行:  
在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用于缩放的相同神经网络共享参数,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用于平移的神经网络共享参数。这样,​​就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。
 
在该模块中,输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并,缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用于缩放的相同神经网络共享参数,<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用于平移的神经网络共享参数。这样,​​就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。
   −
==动力学学习器==
+
== 动力学学习器 ==
 
动力学学习器 <math>f_\beta</math> 是一个带有参数的常见前馈神经网络,它在宏观层面上学习有效的马尔可夫动力学。用 <math>f_\beta</math> 替换方程{{EquationNote|2}}中的 <math>\hat{f}_{\phi_q}</math>,并使用 <math>dt = 1</math> 的欧拉方法求解方程 (2)。假设噪声是加性高斯分布(或拉普拉斯分布),则可以将方程{{EquationNote|5}}简化为:
 
动力学学习器 <math>f_\beta</math> 是一个带有参数的常见前馈神经网络,它在宏观层面上学习有效的马尔可夫动力学。用 <math>f_\beta</math> 替换方程{{EquationNote|2}}中的 <math>\hat{f}_{\phi_q}</math>,并使用 <math>dt = 1</math> 的欧拉方法求解方程 (2)。假设噪声是加性高斯分布(或拉普拉斯分布),则可以将方程{{EquationNote|5}}简化为:
 
{{NumBlk|:|<blockquote><math>\mathbf{y}(t+1) = \mathbf{y}_t + \int_t^{t+1} f_\beta (\mathbf{y}(\tau), \xi') d\tau \approx \mathbf{y}_t + f_\beta (\mathbf{y}_t)+\xi'</math></blockquote>|{{EquationRef|11}}}}
 
{{NumBlk|:|<blockquote><math>\mathbf{y}(t+1) = \mathbf{y}_t + \int_t^{t+1} f_\beta (\mathbf{y}(\tau), \xi') d\tau \approx \mathbf{y}_t + f_\beta (\mathbf{y}_t)+\xi'</math></blockquote>|{{EquationRef|11}}}}
第90行: 第136行:  
其中 <math>l = 1</math> 或 <math>2</math>。接下来使用随机梯度下降技术来优化方程{{EquationNote|14}}。
 
其中 <math>l = 1</math> 或 <math>2</math>。接下来使用随机梯度下降技术来优化方程{{EquationNote|14}}。
   −
=== 选择一个最优的尺度===
+
===选择一个最优的尺度===
    
在上一步中,经过大量的训练周期可以得到有效的 <math>q</math> 粗粒化策略和宏观状态动力学,但训练结果依赖于 <math>q</math>。
 
在上一步中,经过大量的训练周期可以得到有效的 <math>q</math> 粗粒化策略和宏观状态动力学,但训练结果依赖于 <math>q</math>。
第97行: 第143行:       −
=理论性质=
     −
==[[有效信息]]的度量==
+
=结果=
 +
本节讨论NIS的理论性质和数值应用实例。
 +
==NIS的理论性质==
 +
 
 +
===[[有效信息]]的度量===
    
'''前馈神经网络的有效信息定义'''
 
'''前馈神经网络的有效信息定义'''
第135行: 第184行:  
在式{{EquationNote|20}}中,<math>n</math> 维和 <math>L</math> 维的影响已被完全消除,结果只受方差的相对值和雅可比矩阵行列式的对数值的影响。数值计算中将主要使用式 20。Eff 因受 <math>L</math> 影响而弃用。
 
在式{{EquationNote|20}}中,<math>n</math> 维和 <math>L</math> 维的影响已被完全消除,结果只受方差的相对值和雅可比矩阵行列式的对数值的影响。数值计算中将主要使用式 20。Eff 因受 <math>L</math> 影响而弃用。
 
理论中讨论神经信息压缩器框架找出最具信息量的宏观动力学的原因,以及有效策略动力学随<math>q</math>的变化。由于理论结果与输入数据的分布无关,该理论同时适用互信息与有效信息。
 
理论中讨论神经信息压缩器框架找出最具信息量的宏观动力学的原因,以及有效策略动力学随<math>q</math>的变化。由于理论结果与输入数据的分布无关,该理论同时适用互信息与有效信息。
 
+
===压缩信道===
==压缩信道理论==
   
[[文件:NIS Fig 3.png|居中|600px|'''图3.''' 神经信息压缩器压缩信道的图形模型。]]
 
[[文件:NIS Fig 3.png|居中|600px|'''图3.''' 神经信息压缩器压缩信道的图形模型。]]
 
NIS框架(图 1)可以看作图 3 所示的信道,由于投影操作的存在,通道在中间被压缩。此为压缩信息通道。
 
NIS框架(图 1)可以看作图 3 所示的信道,由于投影操作的存在,通道在中间被压缩。此为压缩信息通道。
第148行: 第196行:  
对于任何实现图 3 中一般框架的神经网络,宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同,即对于任意时间从 <math>\mathbf{x}_t</math> 到 <math>\hat{\mathbf{x}}_{t+1}</math> 的映射。此定理是 NIS 的基础。实际上,宏观动力学 <math>f</math> 是整个通道的信息瓶颈 [45]。
 
对于任何实现图 3 中一般框架的神经网络,宏观动力学 <math>f_{\phi_q}</math> 的互信息与整个动力学模型相同,即对于任意时间从 <math>\mathbf{x}_t</math> 到 <math>\hat{\mathbf{x}}_{t+1}</math> 的映射。此定理是 NIS 的基础。实际上,宏观动力学 <math>f</math> 是整个通道的信息瓶颈 [45]。
   −
==训练过程的变化==
+
===训练过程的变化===
 
通过信息瓶颈理论,可以直观地理解当神经压缩器框架通过数据进行训练时会发生什么。
 
通过信息瓶颈理论,可以直观地理解当神经压缩器框架通过数据进行训练时会发生什么。
 
首先,在神经网络训练过程中,整个框架的输出<math>\hat{\mathbf{x}}_{t+1}</math>对任意给定<math>\mathbf{x}_t</math>都接近于真实数据<math>\mathbf{x}_{t+1}</math>,对互信息同理。即如下定理:
 
首先,在神经网络训练过程中,整个框架的输出<math>\hat{\mathbf{x}}_{t+1}</math>对任意给定<math>\mathbf{x}_t</math>都接近于真实数据<math>\mathbf{x}_{t+1}</math>,对互信息同理。即如下定理:
第174行: 第222行:  
因此,若<math>\mathbb{E} | \det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>的初始值和<math>\mathbf{y}_t</math>很小,随着模型的训练,整个信道的相互信息会增加,此时雅可比矩阵的行列式必然增大,宏观态<math>\mathbf{y}_t</math>也必然更分散。但若信息<math>I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1})</math>已对<math>I(\mathbf{x}_t; \mathbf{x}_{t+1})</math>或<math>\mathbb{E} |\det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>和<math>H(\mathbf{y}_t)</math>已足够大,则这些现象可能不会发生。
 
因此,若<math>\mathbb{E} | \det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>的初始值和<math>\mathbf{y}_t</math>很小,随着模型的训练,整个信道的相互信息会增加,此时雅可比矩阵的行列式必然增大,宏观态<math>\mathbf{y}_t</math>也必然更分散。但若信息<math>I(\mathbf{x}_t, \hat{\mathbf{x}}_{t+1})</math>已对<math>I(\mathbf{x}_t; \mathbf{x}_{t+1})</math>或<math>\mathbb{E} |\det (J_{\psi_\alpha}(\mathbf{x}_t))|</math>和<math>H(\mathbf{y}_t)</math>已足够大,则这些现象可能不会发生。
   −
==有效信息主要由粗粒化函数决定==
+
===有效信息主要由粗粒化函数决定===
 
此前分析的是互信息而非宏观动力学的有效信息(因果涌现的关键要素)。实际上可以借助压缩信道的良好属性写出EI的宏观动力学表达式,但这一表达式没有明确的形式。由此得出确定因果出现的主要成分是双射器<math>\psi_\alpha</math>。
 
此前分析的是互信息而非宏观动力学的有效信息(因果涌现的关键要素)。实际上可以借助压缩信道的良好属性写出EI的宏观动力学表达式,但这一表达式没有明确的形式。由此得出确定因果出现的主要成分是双射器<math>\psi_\alpha</math>。
   第184行: 第232行:  
其中 <math>\sigma \equiv [-L,L]^p</math> 是<math>\mathbf{x}</math>与<math>\mathbf{x}'</math>的积分区间。
 
其中 <math>\sigma \equiv [-L,L]^p</math> 是<math>\mathbf{x}</math>与<math>\mathbf{x}'</math>的积分区间。
   −
==互信息随尺度的变化==
+
===互信息随尺度的变化===
 
由信息瓶颈理论与互信息理论,推出如下推论:
 
由信息瓶颈理论与互信息理论,推出如下推论:
   第204行: 第252行:  
互信息描述了编码器(即在不同维度<math>q</math>中的微型状态<math>\mathbf{x}_t</math>和宏观状态<math>\mathbf{y}_t</math>)。该定理指出,随着<math>q</math>减小,编码器部分的互信息必然减小,且对信息限制<math>I( \mathbf{x}_t ; \hat{\mathbf{x}}_{t+1}) \simeq I(\mathbf{x}_t ; \mathbf{x}_{t+1})</math>更封闭。因此,整个信道将更加狭窄,编码器必须携带更有用和有效的信息才能转移到宏观动力学,预测变得更加困难。
 
互信息描述了编码器(即在不同维度<math>q</math>中的微型状态<math>\mathbf{x}_t</math>和宏观状态<math>\mathbf{y}_t</math>)。该定理指出,随着<math>q</math>减小,编码器部分的互信息必然减小,且对信息限制<math>I( \mathbf{x}_t ; \hat{\mathbf{x}}_{t+1}) \simeq I(\mathbf{x}_t ; \mathbf{x}_{t+1})</math>更封闭。因此,整个信道将更加狭窄,编码器必须携带更有用和有效的信息才能转移到宏观动力学,预测变得更加困难。
   −
=数值实验=
+
==数值实验==
 
在几个数据集上测试NIS(所有数据均由模拟动力学模型生成)。此测试还包括连续动力学和离散马尔可夫动力学。
 
在几个数据集上测试NIS(所有数据均由模拟动力学模型生成)。此测试还包括连续动力学和离散马尔可夫动力学。
   −
==带测量噪声的弹簧振荡器==
+
===带测量噪声的弹簧振荡器===
 
振荡器符合如下动力学方程组:
 
振荡器符合如下动力学方程组:
 
{{NumBlk|:|<blockquote><math>\begin{cases}
 
{{NumBlk|:|<blockquote><math>\begin{cases}
第231行: 第279行:       −
==简单马尔可夫链==
+
===简单马尔可夫链===
 
本案例展示NIS作用于离散马尔可夫链、粗粒化策略可以作用于状态空间的过程。生成数据的马尔可夫链是以下概率转移矩阵:
 
本案例展示NIS作用于离散马尔可夫链、粗粒化策略可以作用于状态空间的过程。生成数据的马尔可夫链是以下概率转移矩阵:
 
{{NumBlk|:|<blockquote><math>\begin{pmatrix}
 
{{NumBlk|:|<blockquote><math>\begin{pmatrix}
第250行: 第298行:  
将学习到的宏观动力学可视化(图 6c)。 <math>y_t < 0</math> 时宏观动力学是一个线性映射,<math>y_t > 0</math> 时它可被视为一个常数。因此,该动力学可以保证所有前七个微状态都可以与最后一个状态分离。图6d验证了定理2。
 
将学习到的宏观动力学可视化(图 6c)。 <math>y_t < 0</math> 时宏观动力学是一个线性映射,<math>y_t > 0</math> 时它可被视为一个常数。因此,该动力学可以保证所有前七个微状态都可以与最后一个状态分离。图6d验证了定理2。
   −
==简单布尔网络==
+
===简单布尔网络===
 
[[文件:NIS Fig 7.png|居中|600px|'''图7.''' 布尔网络样例(左)及其原理(右)。]]
 
[[文件:NIS Fig 7.png|居中|600px|'''图7.''' 布尔网络样例(左)及其原理(右)。]]
 
布尔网络是离散动力系统的典型例子,其中每个节点有两种可能的状态(0 或 1),且节点状态受其相邻节点状态的影响。该网络的微观机制如下:图 7 展示了一个包含四个节点的布尔网络示例,每个节点的状态受到其相邻节点状态组合的概率影响,具体概率见图 7 中的表格。将所有节点的机制结合后,可以得到一个具有 <math>2^4 = 16</math> 个状态的大型马尔可夫转移矩阵。
 
布尔网络是离散动力系统的典型例子,其中每个节点有两种可能的状态(0 或 1),且节点状态受其相邻节点状态的影响。该网络的微观机制如下:图 7 展示了一个包含四个节点的布尔网络示例,每个节点的状态受到其相邻节点状态组合的概率影响,具体概率见图 7 中的表格。将所有节点的机制结合后,可以得到一个具有 <math>2^4 = 16</math> 个状态的大型马尔可夫转移矩阵。
第266行: 第314行:  
=参考文献=
 
=参考文献=
   −
<references />
+
<references />此词条由因果涌现第五季读书会词条梳理志愿者LJR.json编撰,未经专家审核,带来阅读不便,请见谅。
此词条由因果涌现第五季读书会词条梳理志愿者LJR.json编撰,未经专家审核,带来阅读不便,请见谅。
 
68

个编辑

导航菜单