更改

NIS (查看源代码)

2024年5月28日 (二) 22:28的版本

添加7,896字节、 2024年5月28日 (星期二)

添加参考文献、修改部分排版

第2行：第2行：

==因果涌现的定义==

−

*'''涌现(emergence)''' 是复杂系统中最重要的概念之一，描述了一种现象：一个整体展现了组成它的部分所不具有的特性。

+

*'''涌现(emergence)''' 是复杂系统中最重要的概念之一，描述了一种现象：一个整体展现了组成它的部分所不具有的特性。<ref>Holland, J.H. Emergence: From Chaos To Order; Illustrated edition; Basic Books: New York, NY, USA, 1999.</ref><ref>Bedau, M.A. Weak Emergence. Philos. Perspect. 1997, 11, 375–399. [CrossRef]</ref>

−

*'''因果(causality)''' ~~是另一个重要概念，描述了动力学系统中原因事件与结果事件随时间的联系。~~

+

*'''因果(causality)''' 是另一个重要概念，描述了动力学系统中原因事件与结果事件随时间<ref>Pearl, J. Causality: Models of Reasoning and Inference, 2nd ed.; Cambridge University Press: Cambridge, UK, 2009.</ref><ref>Granger, C.W.J. Investigating Causal Relations by Econometric Models and Cross-spectral Methods. Econometrica 1969, 37, 424–438. [CrossRef]</ref>的联系。

−

*'''因果涌现(causal emergence)''' ~~是一类特殊的涌现现象，指系统中宏观层面的事件可能比微观层面有更强的因果联系。其中，因果关系的强度可以用有效信息~~ (EI) 来衡量。

+

*'''因果涌现(causal emergence)''' 是一类特殊的涌现现象<ref name=":0">Hoel, E.P.; Albantakis, L.; Tononi, G. Quantifying causal emergence shows that macro can beat micro. Proc. Natl. Acad. Sci. USA 2013, 110, 19790–19795. [CrossRef] [PubMed]</ref><ref>Hoel, E.P. When the Map Is Better Than the Territory. Entropy 2017, 19, 188. [CrossRef]</ref>，指系统中宏观层面的事件可能比微观层面有更强的因果联系。其中，因果关系的强度可以用有效信息 (EI) <ref name=":0" /><ref>Tononi, G.; Sporns, O. Measuring information integration. BMC Neurosci. 2003, 4, 31. [CrossRef] [PubMed]</ref>来衡量。

==因果涌现的识别==

第12行：第12行：

*'''Klein提出的复杂网络中的因果涌现'''

−

复杂网络数据中因果涌现的识别困难在于系统性、自动搜索所有潜在的粗粒化策略。Klein的方法通过节点聚类提升EI，但假设底层节点动态是扩散的，未考虑真实系统中更复杂的动态。即使节点分组已知，粗粒化策略仍需考虑簇中所有节点的微观与宏观状态映射。

+

复杂网络数据中因果涌现的识别困难在于系统性、自动搜索所有潜在的粗粒化策略<ref>Varley, T.; Hoel, E. Emergence as the conversion of information: A unifying theory. arXiv 2021, arXiv:2104.13368.</ref><ref>Chvykov, P.; Hoel, E. Causal Geometry. Entropy 2021, 23, 24. [CrossRef]</ref><ref name=":1">Rosas, F.E.; Mediano, P.A.M.; Jensen, H.J.; Seth, A.K.; Barrett, A.B.; Carhart-Harris, R.L.; Bor, D. Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data. PLoS Comput. Biol. 2020, 16, e1008289. [CrossRef]</ref><ref>Varley, T.F. Flickering emergences: The question of locality in information-theoretic approaches to emergence. arXiv 2022, arXiv:2208.14502.</ref>。该方法可被用于研究蚁群<ref>Swain, A.; Williams, S.D.; Di Felice, L.J.; Hobson, E.A. Interactions and information: Exploring task allocation in ant colonies using network analysis. Anim. Behav. 2022, 189, 69–81. [CrossRef]</ref>、蛋白质互相作用<ref>Klein, B.; Hoel, E.; Swain, A.; Griebenow, R.; Levin, M. Evolution and emergence: Higher order information structure in protein interactomes across the tree of life. Integr. Biol. 2021, 13, 283–294.</ref>、大脑<ref>Ravi, D.; Hamilton, J.L.; Winfield, E.C.; Lalta, N.; Chen, R.H.; Cole, M.W. Causal emergence of task information from dynamic network interactions in the human brain. Rev. Neurosci. 2022, 31, 25–46.</ref>，以及生物网络<ref name=":2">Klein, B.; Swain, A.; Byrum, T.; Scarpino, S.V.; Fagan, W.F. Exploring noise, degeneracy and determinism in biological networks with the einet package. Methods Ecol. Evol. 2022, 13, 799–804.</ref>。Klein的方法通过节点聚类<ref name=":2" /><ref>Klein, B.; Hoel, E. The Emergence of Informative Higher Scales in Complex Networks. Complexity 2020, 2020, 8932526. [CrossRef]</ref>提升EI，但假设底层节点动态是扩散的，未考虑真实系统中更复杂的动态。即使节点分组已知，粗粒化策略仍需考虑簇中所有节点的微观与宏观状态映射。

*'''部分信息分解方法'''

−

量化系统因果涌现的基于粗粒化的方法需系统的状态转移矩阵和粗粒化策略。信息分解方法避免了对粗粒化策略的讨论，但需在系统状态空间子集上长时间搜索以获得精确结果。现有数值近似方法仅能提供充分条件，缺乏现实意义的粗粒化策略和相应宏观动力学。

+

量化系统因果涌现的、基于粗粒化的方法须要系统的状态转移矩阵和粗粒化策略。信息分解方法<ref name=":1" /><ref>Varley, T.; Hoel, E. Emergence as the conversion of information: A unifying theory. Philos. Trans. R. Soc. A 2022, 380, 20210150.</ref>避免了对粗粒化策略的讨论，但需在系统状态空间子集上长时间搜索以获得精确结果。现有数值近似方法仅能提供充分条件，缺乏现实意义的粗粒化策略和相应宏观动力学。

*'''传统方法的不足'''

第23行：第23行：

*'''神经信息压缩器的定义'''

−

因果涌现识别问题可表述为“在微观动态精确预测的约束下，最大化宏观动态的有效信息（EI）”。神经信息压缩器（NIS）是解决此问题的通用机器学习框架。NIS通过可逆神经网络建模粗粒化策略，将任意<math>\mathcal{R}^p</math>到<math>\mathcal{R}^q(q \leq p)</math> 的映射分解为一系列信息转换和弃用过程，可对整个框架进行数学分析。

+

近年来，机器学习得到长足发展，其跨学科应用也逐渐出现<ref>Silver, D.; Schrittwieser, J.; Simonyan, K.; Antonoglou, I.; Huang, A.; Guez, A.; Hubert, T.; Baker, L.; Lai, M.; Bolton, A.; et al. Mastering the game of Go without human knowledge. Nature 2017, 550, 354–359.</ref><ref>LeCun,Y.; Bengio, Y.; Hinton, G. Deep learning. Nature 2015, 521, 436–444.</ref><ref>Reichstein, M.; Camps-Valls, G.; Stevens, B.; Jung, M.; Denzler, J.; Carvalhais, N. Deep learning and process understanding for data-driven Earth system science. Nature 2019, 566, 195–204.</ref><ref>Senior, A.W.; Evans, R.; Jumper, J.; Kirkpatrick, J.; Sifre, L.; Green, T.; Qin, C.; Žídek, A.; Nelson, A.W.R.; Bridgland, A.; et al. Improved protein structure prediction using potentials from deep learning. Nature 2020, 577, 706–710.</ref>。由此方法，以数据为驱动的、自动发现因果涌现<ref>Tank, A.; Covert, I.; Foti, N.; Shojaie, A.; Fox, E. Neural Granger Causality. arXiv 2018, arXiv:1802.05842.</ref><ref>Löwe,S.; Madras, D.; Zemel, R.; Welling, M. Amortized causal discovery: Learning to infer causal graphs from time-series data. arXiv 2020, arXiv:2006.10833.</ref><ref>Glymour, C.; Zhang, K.; Spirtes, P. Review of Causal Discovery Methods Based on Graphical Models. Front. Genet. 2019, 10, 524.</ref><ref>Casadiego, J.; Nitzan, M.; Hallerberg, S.; Timme, M. Model-free inference of direct network interactions from nonlinear collective dynamics. Nat. Commun. 2017, 8, 1–10.</ref>，甚至复杂系统的动力学已成为可能<ref>Sanchez-Gonzalez, A.; Heess, N.; Springenberg, J.T.; Merel, J.; Riedmiller, M.; Hadsell, R.; Battaglia, P. Graph networks as learnable physics engines for inference and control. In Proceedings of the International Conference on Machine Learning, Stockholm, Sweden, 10–15 July 2018 ; pp. 4470–4479.</ref><ref>Zhang, Z.; Zhao, Y.; Liu, J.; Wang, S.; Tao, R.; Xin, R.; Zhang, J. A general deep learning framework for network reconstruction and dynamics learning. Appl. Netw. Sci. 2019, 4, 1–17.</ref><ref>Kipf, T.; Fetaya, E.; Wang, K.C.; Welling, M.; Zemel, R. Neural relational inference for interacting systems. In Proceedings of the International Conference on Machine Learning, Stockholm, Sweden, 10–15 July 2018; pp. 2688–2697.</ref><ref>Chen,B.; Huang, K.; Raghupathi, S.; Chandratreya, I.; Du, Q.; Lipson, H. Discovering State Variables Hidden in Experimental Data. arXiv 2021, arXiv:2112.10755.</ref>。因果涌现识别问题可表述为“在微观动态精确预测的约束下，最大化宏观动态的有效信息（EI）”。神经信息压缩器（NIS）是解决此问题的通用机器学习框架。NIS通过可逆神经网络建模粗粒化策略<ref>Koch-Janusz, M.; Ringel, Z. Mutual information, neural networks and the renormalization group. Nat. Phys. 2018, 14, 578–582.</ref><ref name=":3">Li, S.H.; Wang, L. Neural Network Renormalization Group. Phys. Rev. Lett. 2018, 121, 260601.</ref><ref>Hu,H.Y.; Li, S.H.; Wang, L.; You, Y.Z. Machine learning holographic mapping by neural network renormalization group. Phys. Rev. Res. 2020, 2, 023369.</ref><ref name=":4">Hu,H.; Wu,D.; You, Y.Z.; Olshausen, B.; Chen, Y. RG-Flow: A hierarchical and explainable flow model based on renormalization group and sparse prior. Mach. Learn. Sci. Technol. 2022, 3, 035009.</ref><ref>Gökmen,D.E.; Ringel, Z.; Huber, S.D.; Koch-Janusz, M. Statistical physics through the lens of real-space mutual information. Phys. Rev. Lett. 2021, 127, 240603.</ref>，将任意<math>\mathcal{R}^p</math>到<math>\mathcal{R}^q(q \leq p)</math> 的映射分解为一系列信息转换和弃用过程，可对整个框架进行数学分析。

*'''NIS与因果表征学习以及因果模型抽象的关系'''

−

因果表征学习旨在提取观测数据背后的因果隐变量，编码过程可理解为粗粒化。因果涌现识别与因果表征学习相似，但目标不同：前者寻找更优粗粒化策略，后者提取数据中的因果关系。多尺度建模和粗粒化操作引入了新的理论问题。

+

因果表征学习旨在提取观测数据背后的因果隐变量<ref>Chalupka, K.; Eberhardt, F.; Perona, P. Causal feature learning: An overview. Behaviormetrika 2017, 44, 137–164.</ref><ref>Schölkopf, B.; Locatello, F.; Bauer, S.; Ke, N.R.; Kalchbrenner, N.; Goyal, A.; Bengio, Y. Toward causal representation learning. Proc. IEEE 2021, 109, 612–634.</ref>，编码过程可理解为粗粒化。因果涌现识别与因果表征学习相似，但目标不同：前者寻找更优粗粒化策略，后者提取数据中的因果关系。多尺度建模和粗粒化操作引入了新的理论问题<ref>Iwasaki, Y.; Simon, H.A. Causality and model abstraction. Artif. Intell. 1994, 67, 143–194.</ref><ref>Rubenstein, P.K.; Weichwald, S.; Bongers, S.; Mooij, J.; Janzing, D.; Grosse-Wentrup, M.; Schölkopf, B. Causal consistency of structural equation models. arXiv 2017, arXiv:1707.00819.</ref><ref>Beckers, S.; Eberhardt, F.; Halpern, J.Y. Approximate causal abstractions. In Proceedings of the Uncertainty in Artificial Intelligence, Virtual, 3–6 August 2020; pp. 606–615.</ref>。

=问题定义=

第84行：第84行：

其中<math>\mathcal{I}</math>是有效信息的度量（可以是EI、Eff 或NIS主要使用的维度平均 EI。维度平均EI表示为 dEI，将于第 3.3.3 节中解析）。<math>\phi_q</math> 是一种有效的粗粒化策略，<math>\hat{f}_{\phi_q}</math>是一种有效的宏观动态。

+

该定义与近似因果模型摘要一致<ref>Beckers, S.; Eberhardt, F.; Halpern, J.Y. Approximate Causal Abstraction. arXiv 2019, arXiv:1906.11583v2.</ref>。

+

第98行：第101行：

<math>\chi_{p,q}(\mathbf{x}_q \bigoplus \mathbf{x}_{p-q}) = \mathbf{x}_q, \tag{7}</math>

−

其中<math>\bigoplus</math> 是向量串联算符，<math>\chi_q \in \mathcal{R}^q , \chi_{p-q} \in \mathcal{R}^{p-q}</math>。若无歧义则<math>\chi_p,q</math>可简写为<math>\chi_q</math>.

+

其中<math>\bigoplus</math> 是向量串联算符，<math>\chi_q \in \mathcal{R}^q , \chi_{p-q} \in \mathcal{R}^{p-q}</math>。若无歧义则<math>\chi_p,q</math>可简写为<math>\chi_q</math>. 这样，编码器<math>(\phi)</math>将微观状态<math>\mathbf{x}_t</math>映射到宏观状态<math>\mathbf{y}_t</math>，分为两个步骤：

−

这样，编码器<math>(\phi)</math>将微观状态<math>\mathbf{x}_t</math>映射到宏观状态<math>\mathbf{y}_t</math>，分为两个步骤：

<math>\phi_q=\chi_q \circ \psi_\alpha \tag{8}</math>

第110行：第111行：

*'''可逆神经网络'''

[[文件:Pasted image 20240519112728.png|居中|缩略图|'''图2.''' 双射器基本模块的 RealNVP 神经网络 <math> (\psi) </math> 实现。]]

−

有多种方法可以实现可逆神经网络~~[41~~,~~42]~~。同时选择如图2所示的RealNVP模块~~[43]~~来具体实现可逆计算。

+

有多种方法可以实现可逆神经网络<ref>Teshima, T.; Ishikawa, I.; Tojo, K.; Oono, K.; Ikeda, M.; Sugiyama, M. Coupling-based invertible neural networks are universal diffeomorphism approximators. Adv. Neural Inf. Process. Syst. 2020, 33, 3362–3373.</ref><ref>Teshima, T.; Tojo, K.; Ikeda, M.; Ishikawa, I.; Oono, K. Universal approximation property of neural ordinary differential equations. arXiv 2017, arXiv:2012.02414.</ref>。同时选择如图2所示的RealNVP模块<ref>Dinh, L.; Sohl-Dickstein, J.; Bengio, S. Density estimation using real nvp. arXiv 2016, arXiv:1605.08803.</ref>来具体实现可逆计算。

在该模块中，输入向量<math>\mathbf{x}</math>被拆分成两部分并缩放、平移、再次合并，缩放和平移操作的幅度由相应的前馈神经网络调整。<math>s_1,s_2</math>是用于缩放的相同神经网络共享参数，<math>\bigotimes</math> 表示元素乘积。<math>t_1,t_2</math>是用于平移的神经网络共享参数。这样，就可以实现从x到y的可逆计算。同一模块可以重复多次以实现复杂的可逆计算。

第121行：第122行：

<math>\phi_q^† = \psi_\alpha^{-1} \circ \chi_q^† \tag{9}</math>

−

其中，<math>\psi_\alpha^{-1}</math> 是 <math>\psi_\alpha</math> 的反函数，<math>\circ \chi_q^† : \mathbb{R}^q \rightarrow \mathbb{R}^p</math> ~~定义为：~~

+

其中，<math>\psi_\alpha^{-1}</math> 是 <math>\psi_\alpha</math> 的反函数，<math>\circ \chi_q^† : \mathbb{R}^q \rightarrow \mathbb{R}^p</math> 定义为：对于任意 <math>\mathbf{x} \in \mathbb{R}^p</math>，有

−

~~对于任意~~ <math>\mathbf{x} \in \mathbb{R}^p</math>，有

<math>\chi_q^†(\mathbf{x}_q \bigoplus \mathbf{z}_{p-q}),\tag{10}</math>

第129行：第128行：

其中，<math>\mathbf{z}_{p-q} \sim \mathcal{N}(0, \mathcal{I}_{p-q})</math> 是 <math>p-q</math> 维的高斯随机噪声，<math>\mathcal{I}_{p-q}</math> 是同维度的单位矩阵。这样可以结合 <math>\mathbf{x}_q</math> 和一个来自 <math>p-q</math> 维标准正态分布的随机样本 <math>\mathbf{z}_{p-q}</math> 生成微状态。

−

解码器可以被视为条件概率 <math>Pr(\hat{\mathbf{x}}_{t+1} | \mathbf{y}(t+1))</math> ~~的生成模型，而编码器执行正态化过程。~~

+

解码器可以被视为条件概率 <math>Pr(\hat{\mathbf{x}}_{t+1} | \mathbf{y}(t+1))</math> 的生成模型<ref name=":3" /><ref name=":4" />，而编码器执行正态化过程。

===动力学学习器===

第153行：第152行：

在第一阶段，可以使用概率最大化和随机梯度下降技术来获得有效的 <math>q</math> 粗粒化策略和宏观状态动态的有效预测器。目标函数由微观状态预测的概率定义。

−

~~前馈神经网络可以理解为一种用高斯或拉普拉斯分布建模条件概率的机器 [44]。因此，整个~~ NIS 框架可以理解为一个 <math>P(\hat{\mathbf{x}}_{t+dt} | \mathbf{x}_t)</math> 的模型，其输出 <math>\hat{\mathbf{x}}_{t+1}</math> 只是平均值。此外，目标函数方程 14 只是给定分布形式下观测数据的对数概率或交叉熵。

+

前馈神经网络可以理解为一种用高斯或拉普拉斯分布建模条件概率<ref>Kingma, D.P.; Welling, M. Auto-encoding variational bayes. arXiv 2013, arXiv:1312.6114.</ref>的机器。因此，整个 NIS 框架可以理解为一个 <math>P(\hat{\mathbf{x}}_{t+dt} | \mathbf{x}_t)</math> 的模型，其输出 <math>\hat{\mathbf{x}}_{t+1}</math> 只是平均值。此外，目标函数方程 14 只是给定分布形式下观测数据的对数概率或交叉熵。

<math>\mathcal{L} = \sum_t \ln P(\hat{\mathbf{x}}_{t+1} = \mathbf{x}_{t+1} | \mathbf{x}_t) \tag{13}</math>

第171行：第170行：

为了选择最优的 <math>q</math>，可以比较不同 <math>q</math> 粗粒化宏观动态的有效信息度量 <math>\mathcal{I}</math>。由于参数 <math>q</math> 是一维的，其值范围也有限 <math>(0 < q < p)</math>，可以简单地迭代所有 <math>q</math> 以找出最优的 <math>q</math> 和最优的有效策略。

−

== 有效信息==

+

==有效信息==

'''前馈神经网络的有效信息定义'''

第360行：第359行：

下一组实验结果验证4.1节中提到的定理和信息瓶颈理论。当 q 取不同值时，<math>I(\mathbf{x}_t,\mathbf{x}_{t+1})</math>、<math>I(\mathbf{y}_t,\mathbf{y}_{t+1})</math>和<math>I(\hat{\mathbf{x}}_t,\hat{\mathbf{x}}_{t+1})</math>的互信息随迭代次数的变化情况，如图 5(c)(d)所示，其中所有的互信息的收敛均符合定理2、3。同时绘制不同 <math>q</math> 下的 <math>\mathbf{x}_t</math> 和 <math>\mathbf{y}_t</math> 之间的互信息来检验信道与互信息的关系。如图 5a所示，当 <math>q</math> 增加时，互信息增加。

−

~~根据信息瓶颈理论，在训练初期潜变量和输出之间的互信息可能会增加，且输入和潜变量之间的信息必然在增加后随着训练过程的进行而减少。NIS~~ 模型证实了这一结论（图5b），其中宏观状态 yt 和预测 y(t +1) 都是潜变量。由于 <math>\mathbf{y}_t</math> 和 <math>\mathbf{y}(t+1)</math> 是瓶颈，而所有其他无关信息都被变量 <math>\mathbf{x}''_t</math> 弃用，在得到相同结论的情况下，NIS 模型的架构可以比一般的神经网络更清楚地反映信息瓶颈（图3）。

+

根据信息瓶颈理论<ref>Shwartz-Ziv, R.; Tishby, N. Opening the black box of deep neural networks via information. arXiv 2017, arXiv:1703.00810.</ref>，在训练初期潜变量和输出之间的互信息可能会增加，且输入和潜变量之间的信息必然在增加后随着训练过程的进行而减少。NIS 模型证实了这一结论（图5b），其中宏观状态 yt 和预测 y(t +1) 都是潜变量。由于 <math>\mathbf{y}_t</math> 和 <math>\mathbf{y}(t+1)</math> 是瓶颈，而所有其他无关信息都被变量 <math>\mathbf{x}''_t</math> 弃用，在得到相同结论的情况下，NIS 模型的架构可以比一般的神经网络更清楚地反映信息瓶颈（图3）。

第394行：第393行：

NIS（神经信息压缩器）是一种新的神经网络框架，可被用于发现时间序列数据中的粗粒化策略、宏观动态和涌现的因果关系。NIS中可逆神经网络的使用通过在编码器和解码器之间共享参数来减少参数数量，且使得分析 NIS 架构的数学特性更加方便。通过约束粗粒化策略来预测具有精度阈值的未来微观状态，从而定义有效的粗粒化策略和宏观动态，并推出因果涌现识别问题可以理解为在约束条件下最大化有效信息的问题。

−

NIS框架的弱点如下。首先，由于可逆神经网络很难在大数据集上训练，它只能在小数据集上工作；其次，该框架仍然缺乏可解释性；第三，该模型可预测的条件分布仅限于高斯或拉普拉斯分布。

+

NIS框架的弱点如下。首先，由于可逆神经网络很难在大数据集上训练，它只能在小数据集上工作；其次，该框架仍然缺乏可解释性<ref>Williams, P.L.; Beer., R.D. Nonnegative decomposition of multivariate information. arXiv 2017, arXiv:1004.2515.</ref>；第三，该模型可预测的条件分布仅限于高斯或拉普拉斯分布。

+

此词条由因果涌现第五季读书会词条梳理志愿者LJR.json编撰，未经专家审核，带来阅读不便，请见谅。

LJR.json

28

个编辑

更改

NIS (查看源代码)

2024年5月28日 (二) 22:28的版本

导航菜单

搜索